( PDF ) Integrate: infra-estrutura para integração de fontes de dados heterogêneas

Download PDF

ads:

UNIVERSIDADE FEDERAL DE GOIÁS

INSTITUTO DE INFORMÁTICA

ROGÉRIO ARANTES GAIOSO

Integrate: Infra-Estrutura para

Integração de Fontes de Dados

Heterogêneas

Goiânia

2007

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

ROGÉRIO ARANTES GAIOSO

Integrate: Infra-Estrutura para

Integração de Fontes de Dados

Heterogêneas

Dissertação apresentada ao Programa de Pós–Graduação do

Instituto de Informática da Universidade Federal de Goiás,

como requisito parcial para obtenção do título de Mestre em

Computação.

Área de concentração: Ciência da Computação.

Orientador: Prof. Fábio Nogueira de Lucena

Co–Orientador: Prof. João Carlos da Silva

Goiânia

2007

ads:

ROGÉRIO ARANTES GAIOSO

Integrate: Infra-Estrutura para

Integração de Fontes de Dados

Heterogêneas

Dissertação defendida no Programa de Pós–Graduação do Instituto de

Informática da Universidade Federal de Goiás como requisito parcial

para obtenção do título de Mestre em Computação, aprovada em 03 de

Dezembro de 2007, pela Banca Examinadora constituída pelos profes-

sores:

Prof. Fábio Nogueira de Lucena

Instituto de Informática – UFG

Presidente da Banca

Prof. João Carlos da Silva

Instituto de Informática – UFG

Prof. Hans Kurt Edmund Liesenberg

Instituto de Computação – UNICAMP

Prof. Cedric Luiz de Carvalho

Instituto de Informática – UFG

trabalho sem autorização da universidade, do autor e do orientador(a).

Rogério Arantes Gaioso

Graduou-se em Processamento de Dados nas Faculdades Objetivo. Obteve os

títulos de Especialista em Sistemas Distribuídos e Orientação a Objetos pela

Universidade Federal do Ceará e o de Especialista em Bancos de Dados pela

Universidade Federal de Goiás. Atualmente atua como analista em Ciência e

Tecnologia no IBGE, no suporte a usários e no desenvolvimento de sistemas.

À minha esposa Nezilda, pela compreensão e paciência, principalmente na

educação e trato dos nossos ﬁlhos com minha constante ausência.

Agradecimentos

Agradeço principalmente ao meu orientador, prof. Fábio, pela oportunidade, pela

conﬁança, pela sabedoria. Sua capacidade técnica sempre compartilhada, sua amizade,

respeito e simplicidade, as aulas e conversas, combinadas com exemplos divertidos mas

sempre pertinentes, são apenas alguns dos elementos que compõem uma pessoa a quem

aprendi a admirar.

Agradeço aos demais professores do instituto pela dedicação e pelo conheci-

mento a nós repassado, sobretudo ao prof. Humberto, pela atenção e colaboração.

Dedico um abraço aos colegas pela convivência ao longo destes meses, e pelas

novas amizades conquistadas. Um abraço especial à colega Luciana Nishi, como reco-

nhecimento à sua amizade e dedicação a todos os colegas, com quem sempre podíamos

contar.

Agradeço também aos colegas do IBGE, cujo o apoio e compreensão me permi-

tiram conquistar este objetivo.

Agradeço especialmente a meus pais, pela formação e estabilidade que sempre

me deram, sustentáculo essencial para uma conquista como esta.

Um agradecimento especial a Deus, pelo dom da vida, pela oportunidade de

conhecer pessoas tão especiais, pela disposição e energia para não esmorecer durante

a caminhada, e principalmente pela família que me permitiu construir. Meus ﬁlhos, tão

maravilhosos, que de tão pequenos, ainda não sabem a atenção exclusiva que não pude

dedicar a eles, e a falta que me ﬁzeram durante este tempo.

“E nossa estória não estará pelo avesso assim, sem ﬁnal feliz. Teremos

coisas bonitas para contar. E até lá, vamos viver. Temos muito ainda por fazer.

Não olhe para trás, apenas começamos. O mundo começa agora. Apenas

começamos.”

Renato Russo,

Metal Contra as Nuvens.

Resumo

Gaioso, Rogério Arantes. Integrate: Infra-Estrutura para Integração de Fon-

tes de Dados Heterogêneas. Goiânia, 2007. 104p. Dissertação de Mestrado.

Instituto de Informática, Universidade Federal de Goiás.

Uma aplicação geralmente é produzida para usar uma fonte de dados, estabelecendo

forte dependência entre ambas, na qual mudanças em uma repercutem na outra. Este

trabalho propõe uma infra-estrutura, na forma de framework

, para integrar informações

mantidas em fontes de dados heterogêneas, a partir de aplicações existentes, sem exigir

modiﬁcações, quer sejam nas aplicações ou nas fontes de dados. As fontes podem incluir

SGBDs, arquivos texto, planilhas e outros formatos. Estudos de caso e trabalhos futuros

ressaltam como esta infra-estrutura pode ser estendida para contemplar algumas das

restrições impostas.

Este termo é encontrado em trabalhos na área sem tradução. Uma tradução poderia ser “arcabouço”.

Palavras–chave

Integração, dados heterogêneos, JDBC, mediador, tradutor

Abstract

Gaioso, Rogério Arantes. Integrate: Infrastructure to Integration of Hetero-

geneous Data Sources. Goiânia, 2007. 104p. MSc. Dissertation. Instituto de

Informática, Universidade Federal de Goiás.

An application generally is designed to use a data source, establishing strong dependence

between both, in which changes in one reﬂect in the other. This work deﬁnes an infras-

tructure, in the form of a framework, to integrate information registered in heterogeneous

data sources, from existing applications, without demanding modiﬁcations neither in the

applications or in the data sources. The data sources can include RDBMSs, text ﬁles, spre-

adsheets and other formats. Cases presented give some orientations to overcome current

limitations.

Keywords

Integration, heterogeneous data sources, JDBC, mediator, wrapper

Sumário

Lista de Figuras 11

Lista de Códigos de Programas 13

1 Introdução 13

1.1 Motivação 15

1.2 Este trabalho 16

1.3 Organização do texto 19

2 Fundamentos 21

2.1 Framework: deﬁnição e desenvolvimento 21

2.1.1 Organização e classiﬁcação 22

2.1.2 Metodologias de desenvolvimento de frameworks 22

2.1.3 Especiﬁcação 23

2.1.4 Processo 23

2.2 Sistemas de integração de dados 24

2.3 Arquitetura mediador/tradutor 25

2.3.1 Consultas a esquemas mediados 27

2.4 Integração de esquemas 28

2.5 Modelagem de fontes de dados 29

2.6 Ontologias 30

2.7 Propostas para integração 31

2.7.1 Integra 32

2.7.2 MOMIS 32

2.7.3 CoDIMS 33

2.7.4 Garlic 34

2.7.5 TSIMMIS 35

2.7.6 LORIS 36

2.7.7 XQuare 37

2.7.8 XMF 37

2.7.9 Unicorn Workbench 37

2.7.10 Outras ferramentas 38

3 Integrate - Solução conceitual 39

3.1 Objetivos 39

3.2 Principais decisões 40

3.2.1 Modelo de solução (D1) 40

3.2.2 Modelo de dados (D2) 45

3.2.3 Troca de mensagens (D3) 45

3.2.4 Protocolos (D4) 45

3.2.5 Deﬁnição do esquema global (D5) 47

3.2.6 Integração de esquemas, consultas e resultados obtidos (D6) 47

3.2.7 Tipos de sentenças (D7) 47

3.2.8 Deﬁnição de um framework (D9) 47

3.3 Escopo 48

3.3.1 Funcionalidades 49

3.4 Exemplos de uso 50

3.4.1 Obter esquemas das fontes de dados 50

3.4.2 Executar consulta (cenário genérico) 51

3.4.3 Executar consulta (cenário estendido) 52

3.5 Requisitos de software 56

3.5.1 Requisitos funcionais 56

3.5.2 Considerações sobre requisitos 57

3.6 Processo de uso 58

3.6.1 Papéis 58

3.6.2 Processo de instanciação 58

4 Integrate - Projeto e implementação 60

4.1 Arquitetura de software 60

4.2 Implementação dos módulos 63

4.2.1 Metadados 63

4.2.2 Controlador 68

4.2.3 Tradutor 71

4.2.4 Lookup 73

4.2.5 Interceptador 73

4.2.6 Mediador 74

4.3 Ferramentas de apoio 75

5 Estudo de caso 76

5.1 Deﬁnições 76

5.1.1 Fontes de dados 76

5.1.2 Arquivos de conﬁguração 77

5.2 Simulando mediadores 79

5.2.1 Lookup 79

5.2.2 Consultas integradas 81

5.2.3 Manipulação de erros 82

5.3 Integração sem a alteração da aplicação 83

5.3.1 Cenário 83

5.3.2 Simulação de integração 84

6 Conclusão 86

6.1 Contribuições 87

6.2 Trabalhos futuros 87

Referências Bibliográﬁcas 90

A Trechos de código 104

Lista de Figuras

1.1 Sistema de informação típico 17

1.2 Camada de transporte 18

1.3 Cenários real e desejado 18

2.1 Arquitetura mediador/tradutor 25

2.2 Arquitetura do Integra (obtido de [60], pág. 28) 32

2.3 Arquitetura do MOMIS (obtido de [105]) 33

2.4 Arquitetura do CoDIMS (obtido de [5], pág. 15) 34

2.5 Arquitetura do Garlic (obtido de [88], pág. 3) 35

2.6 Arquitetura do LORIS (obtido de [69], pág. 3) 36

3.1 Modelo de solução 41

3.2 Modelo de solução estendido 41

3.3 Conversão de formatos durante a consulta 43

3.4 Solução transparente para o cliente 44

3.5 Escopo da solução 48

3.6 Diagrama de seqüência - consulta integrada 54

4.1 Perspectiva lógica 61

4.2 Perspectiva de processos 61

4.3 Perspectiva física 62

4.4 Diagrama de componentes 62

4.5 Diagrama de implantação 63

4.6 Perspectiva de desenvolvimento 64

4.7 Dependências entre arquivos de conﬁguração 65

4.8 Implementação do Controller 68

4.9 Interface para conversão de tipos entre XML Schema e JDBC 70

4.10 Interface para tradutores 72

4.11 Driver JDBC para arquivos CSV 73

4.12 Interface para o serviço de lookup 74

4.13 Interface para o mediador 74

5.1 Consulta feita no HSQLDB, com os registros originais 77

Lista de Códigos de Programas

A.1 Lookup que imprime coleção de DatabaseMetaData. 104

A.2 Lookup impresso como XML Schema 104

A.3 Consulta uma fonte de dados especíﬁca 105

A.4 Exemplo de coleção de consultas 105

A.5 Aplicação cliente 106

CAPÍTULO 1

Introdução

O crescimento da internet não tem somente viabilizado o acesso às bases de in-

formação

existentes, mas também motivado a criação de novas fontes. Este crescimento

tornou mais evidente as limitações atuais para encontrar, extrair e integrar informações

distribuídas em fontes de dados heterogêneas. Integração de informações disponíveis na

Web é um assunto atual e uma questão em aberto na comunidade cientíﬁca. A Web Se-

mântica

recentemente renovou o interesse nesta área.

Uma classiﬁcação dos diferentes tipos de problemas decorrentes de tais limita-

ções identiﬁca os níveis de heterogeneidade [93]: em termos de sistema, sintaxe, estrutura

e semântica. O nível de sistema inclui incompatibilidades de hardware e de sistemas ope-

racionais; o nível sintático refere-se às diferenças de linguagens e representações de dados

(terminologias diferentes podem fazer com que conceitos semanticamente idênticos se-

jam nomeados diferentemente); o nível estrutural inclui diferenças de modelos de dados

(a informação pode estar estruturada de acordo com diferentes paradigmas, como tabelas

relacionais, ou árvores em XML); e o nível semântico refere-se ao signiﬁcado dos termos

(termos similares podem ter diferentes signiﬁcados, por exemplo, os homônimos). Outra

classiﬁcação destas diferenças é abordada em [15].

Segundo [93], o crescimento na adoção de padrões resultou em progresso na

solução de interoperabilidade nestes diferentes níveis. O uso da internet como padrão

para a interconexão entre sistemas e a evolução de infra-estrutura e de middleware que

oferecem suporte à computação distribuída (como RMI [100], CORBA [78] e DCOM

[66]) e à conectividade de bancos de dados (como ODBC e JDBC [101]) tiveram

impacto positivo e signiﬁcativo na solução nos níveis de heterogeneidade de sistema. As

interoperabilidades no nível sintático foram atendidas através da formatação e troca de

dados proporcionadas por padrões como o HTML [111]. A padronização na modelagem

Neste texto, dados são símbolos que ainda não foram interpretados, enquanto que informação são dados

com signiﬁcado [108].

Web Semântica é uma extensão da web atual, que possibilita que documentos possam ser compreendi-

dos por humanos (através de navegadores), mas que também possam ser processados por aplicações, através

de meta-informações inseridas nos documentos [2].

de dados (como ANSI SQL [51]) e na modelagem de objetos (como ODMG [75] e

UML [77]) são iniciativas no nível estrutural. Ainda no nível estrutural, uma forma de

interoperabilidade semântica tem sido resolvida pela adoção de padrões de metadados

de propósito geral, como o Dublin Core [32], OWL [113] e o RDF/XML [112].

As padronizações proporcionadas nos níveis de sistema, sintático e estrutural

contribuem com a solução de problemas decorrentes das limitações identiﬁcadas anteri-

ormente. O principal desaﬁo da integração de dados, contudo, está localizado no nível

semântico. A expectativa é que programas auxiliem não apenas na perspectiva de dados,

mas também na de informação, contribuindo com o aumento do conhecimento [93]. A so-

lução para os problemas de heterogeneidade semântica exige a habilidade de compartilhar

e trocar informações de uma maneira semanticamente consistente. Porém, dados sintáti-

cos e metadados não fornecem semântica suﬁciente para todas as propostas potenciais de

integração [71].

Conforme [2], “quando uma nova aplicação é introduzida em uma empresa, esta

tipicamente fará uso de dados já existentes em algum lugar na organização. Além de ser

difícil de localizar estes dados, também é difícil obter seu signiﬁcado (semântica) correto.

Isto ocorre porque bancos de dados são criados do ponto de vista de uma aplicação em

particular, e não do ponto de vista da empresa como um todo, sem se preocupar com as

diﬁculdades de reutilização entre diferentes aplicações”.

Ainda segundo [2], não há uma melhor prática adotada universalmente na

integração de dados, pois cada projeto de integração tem suas peculiaridades. É comum

o emprego de soluções ad-hoc, com a criação de mapeamentos e transformações entre os

formatos, ou até aplicações especíﬁcas conforme a necessidade do projeto [2, 116]. Além

de envolver consideráveis recursos, soluções ad-hoc não podem ser reutilizadas.

Uma possível solução, adotada em passado recente, seria mover os dados para

um novo sistema integrado, criado para prover uma visão uniﬁcada de dados de diferentes

tipos. A desvantagem desta solução é que estes dados já são adequadamente manipulados

pelos sistemas legados, e algumas aplicações necessitariam ser reescritas para trabalhar

com este novo sistema integrado, o que não é considerado prático [88]. Esta proposta,

ainda envolve riscos, custos e tempo que podem ser proibitivos [5].

Outra solução seria escrever código que traduza as terminologias entre cada

possível par de sistema. Tal alternativa é viável apenas para um número restrito de fontes

de informação, pois o número de mapeamentos um-para-um que precisam ser mantidos é

da ordem de O(n

) [2], isto é, não é escalável e diﬁculta a manutenção à medida que mais

fontes de dados são adicionadas e o grau de heterogeneidade semântica aumenta [24].

De acordo com a literatura, metadados representam dados sobre os dados. Mais detalhes e uma

classiﬁcação dos tipos de metadados pode ser encontrada em [93].

1.1 Motivação 15

Embora o uso de XML [110] não elimine os problemas de heterogeneidade

semântica (principalmente porque não garante o uso consistente dos dados contidos em

diferentes fontes que usam o mesmo conjunto de termos [24]), sua aplicação tem sido

aceita como uma forma de fornecer uma sintaxe comum para a troca de informações entre

fontes heterogêneas. Além de ser um formato inteligível por seres humanos, XML facilita

a troca de informação com outras aplicações [23]. Propostas apresentadas recentemente

são conhecidas como XML-based mediation

[7, 24, 41, 57, 60, 71, 92, 103, 118].

Diversas propostas de solução do problema de integração são normalmente es-

pecíﬁcas, atendendo a uma única aplicação, ou genéricas, para atender diversas situações

de integração [5]. Novos sistemas de integração são constantemente propostos e resultam

de trabalhos isolados, onde não se identiﬁca uma abordagem padronizada que, por exem-

plo, facilite a interação entre grupos distintos com trabalhos similares e, especialmente, a

reutilização. O presente trabalho identiﬁca similaridades entre abordagens geralmente em-

pregadas, propõe uma infra-estrutura que facilite a implementação delas e, dessa forma,

potencializa a reutilização.

1.1 Motivação

A integração de informações é um tópico de signiﬁcativo interesse. De acordo

com estudos [2], no futuro, mais de 30% gasto em tecnologia de informação será com

ferramentas do tipo EAI

Entre os grandes desaﬁos da pesquisa em computação no Brasil [90] encontra-se

o tratamento, a recuperação e a propagação de informação a partir de volumes de dados em

formatos heterogêneos exponecialmente crescentes, mais visíveis com a disseminação da

internet. O grande desaﬁo é a integração destas informações. Entre os problemas técnicos

e cientíﬁcos, [90] cita “estudos em modelos e mecanismos de conciliação e integração

de dados altamente heterogêneos” (incluindo dados multimídia) e “estudos de formas

alternativas de disponibilização da informação”.

Conforme [120], a adaptação de um sistema para torná-lo “consumidor” de mais

dados do que aqueles para os quais foi inicialmente desenvolvido pode ser inviável. Parece

ainda mais inverossímil uma iniciativa com o propósito de modiﬁcar estes dados, ou seja,

“normalizá-los” de tal forma a facilitar o uso por futuras aplicações.

A manutenção em sistemas e fontes de dados existentes é, em geral, uma

atividade onerosa [50]. Quando uma alteração é efetuada, alterações conseqüentemente

substanciais ocorrem, não somente no código em si, mas também na documentação,

Mediadores baseados em XML

Enterprise Application Integration - Integração de Aplicações de Empresas

1.2 Este trabalho 16

projeto e conjuntos de teste. Isto é chamado de efeito dominó [10]. Segundo [95],

os custos de manutenção são 2 a 100 vezes maiores do que os custos do próprio

desenvolvimento do sistema. A alteração em uma fonte de dados, por exemplo, pode

exigir mudanças em muitos sistemas que o utilizam. Em sistemas legados este cenário

ainda pode ser agravado pela ausência de documentação, o que diﬁculta a mudança em

código-fonte, se este estiver disponível.

Uma alternativa é criar uma camada intermediária que forneça uma visão inte-

grada de dados legados heterogêneos sem alterar como ou onde estes dados se encontram

[88]. Esta camada criaria um esquema uniﬁcado e uma interface comum para ser acessada

por novas aplicações sem perturbar o acesso das aplicações existentes.

Em recente estudo do Gartner [42] é avaliada a maturidade, o impacto e a veloci-

dade de adoção de uma variedade de tecnologias e tendências. Entre as tecnologias rela-

cionadas, o tema de arquitetura de aplicações cita o uso de linguagens semânticas, como

RDF/XML e linguagens relacionadas a ontologias para reduzir os custos e aprimorar a

qualidade do gerenciamento de conteúdo web, acesso a informação, interoperabilidade

de sistemas, integração de base de dados e qualidade de dados. Segundo o estudo, essas

tecnologias devem ganhar mercado dentro de cinco a dez anos.

Na comunidade de bancos de dados, o problema de integração de diferentes es-

quemas é antigo e possui soluções bem-sucedidas, como o uso de conversores, mediadores

e técnicas de mapeamento. Soluções especíﬁcas para ontologias já existem. Uma compa-

ração feita em [

2] diz que “esquemas relacionais são tipicamente desenvolvidos para um

conjunto limitado de aplicações, enquanto que uma ontologia deve ter a concordância

de muitos parceiros ”. Em [68], por exemplo, é proposta uma arquitetura geral para inte-

gração semântica de sistemas de informação baseados na linguagem de ontologia OWL,

onde as formas de obtenção e extração de ontologias são identiﬁcadas com ênfase em

sistemas de banco de dados.

Diversas propostas para a integração de dados são encontrados na literatura,

algumas comentadas em capítulo especíﬁco deste texto. Apesar de inúmeros esforços,

não existe uma solução que seja adequada ou que se ajuste aos diversos problemas de

integração, o que pode ser constatado pelo contínuo surgimento de novas propostas.

1.2 Este trabalho

No contexto da integração de fontes de dados heterogêneas, este trabalho

concentra-se em cenários nos quais se deseja manter intactas as aplicações e as fontes

de dados existentes. O restante desta seção esclarece este foco.

Um sistema de informação típico pode ser modelado como na ﬁgura 1.1. Em um

determinado domínio (Domínio), as informações pertinentes (Informação), manipuladas

1.2 Este trabalho 17

Figura 1.1: Sistema de informação típico. Em um determi-

nado domínio (Domínio), as informações pertinen-

tes (Informação), manipuladas por um sistema de

informação (Aplicação), são registradas em uma

base de dados (BD X, geralmente, um SGBD rela-

cional) em um determinado formato (Esquema X).

A Aplicação usa JDBC para manipular BD X. A

Aplicação depende de JDBC e do Esquema X,

enquanto que Esquema X e BD X são interdepen-

dentes.

por um sistema de informação (Aplicação), são registradas em uma fonte de dados (BD

X) em um determinado formato (Esquema X). Sem perda de generalidade, a Aplicação

faz uso de JDBC [101] por meio da qual a fonte de dados BD X é manipulada pela

execução de serviços oferecidos, geralmente, por um SGBD relacional.

JDBC é uma interface para a manipulação de fontes de dados relacionais. Isto é

possível através da disponibilidade de um driver (Driver JDBC) especíﬁco para o SGBD

empregado. JDBC não oculta da aplicação o formato em que os dados estão registrados,

mas apenas o servidor empregado para manipulá-los. Em conseqüência, a Aplicação

depende de JDBC e do Esquema X. O Esquema X e a BD X são interdependentes, ou seja,

qualquer alteração em um provoca alteração no outro e vice-versa.

Um usuário que deseje manipular as informações do domínio necessariamente

o fará através da Aplicação. Esta aplicação, conforme comentado, depende tanto de

JDBC quanto do Esquema X. JDBC pode ser interpretado como “meio universal” de

acesso a fontes de informações, um mecanismo de transporte das requisições e resultados

correspondentes. Dado que a Aplicação não irá implementar estes serviços, alguém

terá que fazê-lo e, para tal, será preciso um meio para que as requisições possam ser

construídas e transferidas a quem irá executá-las.

1.2 Este trabalho 18

BD1

Transporte

JDBC, ODBC,

API proprietária, ...

Figura 1.2: Camada de transporte dos dados entre a aplicação e a

fonte de dados.

Como não há maneira de eliminar a dependência por algum mecanismo de

transporte de requisições, conforme sugere a ﬁgura 1.2, a dependência da Aplicação

para JDBC é considerada “aceitável”, neste trabalho. A dependência da Aplicação para o

formato em que os dados estão registrados (Esquema X) é mais “nociva”, pois impede que

aplicações existentes, sem alterações, empreguem outras bases mesmo quando aplicações

e bases pertencem a um domínio particular, conforme esclarece o parágrafo abaixo.

BD1

Select * from ALUNOS

João Oliveira

BD2

Select NOME, SOBRENOME

from PESSOAS

where tipo = 4

Pedro Silva

Maria Pereira

BD2

Pedro Silva

Maria Pereira

(a)

(b)

Select * from ALUNOS

BD1

CREATE TABLE ALUNOS(

NOME VARCHAR (50)

)

BD2

CREATE TABLE PESSOAS(

NOME VARCHAR (25),

SOBRENOME VARCHAR (25),

TIPO INTEGER

)

Figura 1.3: (a) Cenário real: aplicações A e B interagem com as

fontes de dados BD1 e BD2, respectivamente, para as

quais foram exclusivamente desenvolvidas. (b) Cená-

rio desejado: aplicação A acessa BD2 diretamente,

sem alterações, o que na prática não ocorre.

Observe o cenário ilustrado na ﬁgura 1.3, onde as bases de dados BD1 e

BD2 possuem esquemas diferentes (também exibidos na ﬁgura). As aplicações A e B,

construídas de maneira dependente dos esquemas de BD1 e BD2, respectivamente, para

interagir com estas bases, necessitam executar as consultas

exibidas na ﬁgura 1.3 (a)

Neste trabalho, as expressões “requisição”, “sentença” e “consulta” são utilizadas com a mesma

acepção. Quando for necessário, o texto distingüe entre sentenças de consulta e/ou de alteração da fonte

de dados.

1.3 Organização do texto 19

para obter a relação de alunos em cada uma delas. Para contornar a dependência que a

aplicação A tem do esquema de BD1 para que possa acessar as informações de BD2, as

maneiras possíveis seriam (a) alterar a aplicação A ou (b) migrar os dados de BD2 com as

devidas transformações para um esquema correspondente a BD1. Ou seja, a aplicação A,

sem sofrer alterações, assim como o transporte por ela empregado (ﬁgura 1.2), não tem

como fazer uso de BD2 naturalmente, conforme ilustrado na ﬁgura

1.3 (b).

O inconveniente da dependência pelo esquema torna a reutilização de dados

entre sistemas de informação distintos, conforme registrados, praticamente inviável. Cada

aplicação, mesmo que organizada conforme “boas” práticas, possui uma camada de

persistência que terá que ser substituída por outra caso o formato dos dados seja alterado.

Isto procede tanto para fontes de dados de um mesmo domínio quanto para domínios

diferentes, mas que armazenam informações compatíveis

Observa-se que ambas as alternativas apontadas acima (a alteração da aplicação

ou a migração dos dados) se tornam ainda mais distantes quando considerado um cenário

mais complexo, onde várias aplicações clientes legadas dependem de um esquema de

dados. Necessidades de alteração neste esquema forçam também a necessidade de se

reescrever estas aplicações legadas.

Ambas as alternativas são, em geral, impraticáveis pelos custos decorrentes, e,

neste trabalho, consideradas insatisfatórias. Ao contrário destas alternativas, este trabalho

investiga o domínio de integração de dados, seleciona um modelo “freqüente” entre

soluções de integração, e propõe um framework (ver conceitos na seção 2.1).

A proposta aqui apresentada visa facilitar a implementação de uma solução de

um problema de integração de dados onde uma aplicação A possa fazer uso de uma base

de dados BD2, diferente em vários níveis da base BD1 para a qual foi construída, sem que

esta precise ser modiﬁcada, ou seja, não é necessário acesso ao código-fonte de A nem a

migração dos dados de BD2 para um formato semelhante ao de BD1.

1.3 Organização do texto

Este texto encontra-se organizado em capítulos. O Capítulo 2 apresenta noções

de frameworks e fundamentos pertinentes à integração de dados, além de apresentar algu-

mas propostas que forneceram insumos para o presente trabalho. O Capítulo 3 apresenta o

Integrate, proposta de apoio ao desenvolvimento de soluções de integração de dados deste

trabalho. Tal capítulo inclui o modelo de solução adotado, objetivos, principais decisões,

escopo, e exemplos de cenários de uso. Requisitos de software também são apresentados.

Por exemplo, uma fonte de dados de uma universidade e outro de uma construtora pertencem a

domínios diferentes, mas as informações referentes a pessoas podem ser integradas.

1.3 Organização do texto 20

O Capítulo 4 descreve as decisões de projeto de software do Integrate e documenta a im-

plementação produzida por este trabalho, dos requisitos estabelecidos no capítulo anterior.

O Capítulo 5 apresenta dois exemplos de uso do Integrate. Os exemplos permitem ilustrar

os benefícios, os recursos oferecidos e, sobretudo, orientar futuras experimentações da

ferramenta em outros cenários. Finalmente, o Capítulo 6 resume o que foi realizado, as

contribuições obtidas e ressalta oportunidades de trabalhos futuros.

A solução proposta, após devidamente conﬁgurada, permite que requisições de

uma aplicação, sem que esta seja alterada, consigam manipular outra fonte de dados, com

esquema diferente daquele originalmente manipulado. Estas requisições, que no cenário

original são enviadas diretamente à fonte de dados, são interceptadas e convertidas em

outras compatíveis com as fontes de dados heterogêneas desejadas. O resultado parcial

de cada fonte de dados é então integrado e convertido para o formato conhecido pela

aplicação requisitante. Este processo ocorre de forma transparente para a aplicação.

A utilização parcial dos módulos implementados permite que a solução proposta seja

utilizada em outros cenários mais genéricos, sem a necessidade de se interceptar as

requisições da aplicação cliente.

CAPÍTULO 2

Fundamentos

Integração de dados é um assunto vasto tanto em conceitos quanto em aborda-

gens utilizadas. Neste capítulo é apresentado um subconjunto deste conhecimento com o

propósito de esclarecer a origem e a motivação de decisões adotadas no Integrate (fra-

mework proposto nesta dissertação). Boa parte do capítulo apresenta ferramentas e as

correspondentes estratégias utilizadas para a integração de dados. Antes, porém, segue

uma breve discussão sobre frameworks.

2.1 Framework: deﬁnição e desenvolvimento

Este trabalho tem como principal produto o framework denominado Integrate.

Em conseqüência, a deﬁnição de framework e metodologias de desenvolvimento de tais

ferramentas, dentre outras, são questões relevantes. As informações fornecidas têm o

propósito de apresentar brevemente a abordagem empregada na realização do presente

trabalho.

Framework é uma arquitetura semi-completa que pode ser instanciada para

produzir aplicações personalizadas, permitindo a reutilização

de análise, de projeto e

de código [5], auxiliando a construção de aplicações inseridas em um domínio particular.

Segundo Carey e Carlson [18], “é um conjunto cooperativo de classes que fazem um

projeto reutilizável para um domínio de aplicação especíﬁco”. Outros conceitos são

apresentados em [20, 122].

Um framework pode ser visto como uma composição de classes concretas e

abstratas, cuja instanciação consiste da composição de novas classes e a extensão de

classes abstratas predeﬁnidas [

14]. Sua utilização minimiza o esforço no desenvolvimento

de aplicações ao permitir que o desenvolvedor se abstraia de preocupações na deﬁnição da

Reutilização de software é uma abordagem que visa a redução do esforço de desenvolvimento e, quando

aplicado eﬁcientemente, pode evitar que sejam recriadas e revalidadas soluções comuns para os requisitos

de aplicações recorrentes [5].

2.1 Framework: deﬁnição e desenvolvimento 22

arquitetura do sistema [102]. Sua documentação deve ser feita de forma que seus usuários

saibam utilizá-lo sem a necessidade de conhecer detalhes internos [16, 55].

2.1.1 Organização e classiﬁcação

Um framework pode ser formado por frozen spots e hot spots [83]. Frozen

spots determinam a arquitetura global de um sistema, seus componentes básicos e os

relacionamentos entre eles, ﬁcando imutáveis em qualquer instanciação do framework.

Já os hot spots são partes especíﬁcas para cada sistema e são projetados para serem

genéricos e adaptados de acordo com as necessidades da aplicação. Assim, um framework

reutiliza código pois permite a construção de uma aplicação a partir de uma biblioteca de

componentes, que podem ser facilmente integrados uns aos outros por utilizar interfaces

comuns [83].

Há dois tipos de frameworks da perspectiva de personalização [54]: caixa branca

e caixa preta. Personalizações do tipo caixa branca exigem herança das classes existentes

e requerem um conhecimento da estrutura interna do framework. Já personalizações

caixa preta são feitas utilizando composição de componentes existentes, através de

um protocolo predeﬁnido. Assim, aqueles frameworks do tipo caixa branca demandam

mais tempo para o aprendizado e requerem mais esforço para serem utilizados. O

desenvolvimento de um framework evolui de caixa branca para caixa preta à medida

que aumenta o conhecimento do domínio por parte do seu desenvolvedor. Dado que

criar um framework caixa preta nos estágios iniciais é extremamente difícil, a maioria

inicia seu ciclo de vida como caixa branca e posteriormente evolui para caixa preta, à

medida que seu desenvolvimento de torna mais reﬁnado [54]. Um framework “torna-se

mais reutilizável à medida que o relacionamento entre suas partes seja deﬁnido em termo

de um protocolo, em vez do uso de herança” [54].

As principais vantagens do emprego de frameworks são a reutilização e a ﬂexibi-

lidade, por permitir a construção de sistemas conﬁguráveis que possam ser adaptados com

maior rapidez e facilidade [5]. Uma das diﬁculdades da utilização de um framework está

na sua curva de aprendizado [55, 122], que depende de como o mesmo foi documentado.

2.1.2 Metodologias de desenvolvimento de frameworks

Algumas metodologias para o desenvolvimento de frameworks são apresentadas

em [

36]:

• Bottom-Up. Constróem-se aplicações no domínio do framework até ser desenvol-

vida a primeira versão caixa branca (do framework). O framework é produzido

através de um processo iterativo até ser capaz de manipular todas as aplicações

do domínio [122].

2.1 Framework: deﬁnição e desenvolvimento 23

• Top-Down. Através da análise do domínio do framework, suas características são

capturadas para a deﬁnição de sua arquitetura, enquanto que componentes podem

ser personalizados durante o desenvolvimento das aplicações [122].

• Generalização de hot spots. Faz-se o planejamento de todas as aplicações antes de

se iniciar a construção do framework, usando um modelo de objetos para capturar

conhecimentos especifícos do domínio. A diversidade entre modelos identiﬁca-se

como um hot spot, e são tratados como subsistemas. A estrutura de classes do

framework é “generalizada” da estrutura de classes das aplicações [122].

• Dirigido a casos de uso. Descreve-se a visão externa do comportamento de um

sistema, com a análise e organização em casos de uso [77].

Johnson [53] sugere uma maneira de se desenvolver um framework: (a) analisar o

domínio do problema com as aplicações existentes; (b) construir abstrações que podem ser

especializadas para cobrir estas aplicações; (c) testar o framework usando-o para construir

aplicações deste domínio, proposição esta que se relaciona com a visão Bottom-up citada

acima.

2.1.3 Especiﬁcação

Frameworks podem ser especiﬁcados através de modelos [122]:

• Modelo de características. Fornece uma visão geral dos requisitos, identiﬁcando

e organizando as características comuns e as variáveis de um framework, relacio-

nando as dependências entre elas. Exemplos de modelos são descitos em [122].

• Modelo de casos de uso. Captura os requisitos, deﬁnidos do ponto de vista dos

usuários, sem expor detalhes de projeto ou de implementação desnecessários.

• Modelo arquitetural. Especiﬁca o projeto em alto nível, em termos de camadas

e subsistemas. O modelo “4+1 View” [56] tem atraído interesse tanto da indústria

quanto da academia, e ilustra tal modelo.

• Modelo de projeto. Ilustra as interações de classes e objetos.

• Código-fonte. A implementação propriemante dita.

2.1.4 Processo

Modelos de processo de software são visões gerais de como organizar um projeto

de software em uma seqüência de atividades, para serem seguidos pelos desenvolvedores

durante a execução do trabalho [12], e o clássico modelo Waterfall [89] tornou-se base

para a maioria dos modelos propostos.

2.2 Sistemas de integração de dados 24

Segundo Xu [122], projetos de frameworks enfatizam a elicitação da ﬂexibili-

dade desejada. As propostas por ele veriﬁcadas incluem uma análise do domínio, mas

poucas delas têm prescritas claramente uma maneira de identiﬁcar e organizar o resultado

desta análise. Seu estudo identiﬁca três características importantes no desenvolvimento

de frameworks:

• Identiﬁcação da variabilidade esperada de um framework. A rastreabilidade dos

requisitos é essencial para garantir a realização desta identiﬁcação.

• Evolução

do framework. Desenvolver um framework caixa preta logo de início é

extremamente caro e difícil. Normalmente seu desenvolvimento inicia-se em caixa

branca, que evolui para caixa preta em processos iterativos.

• Documentação do framework. Um framework não deve ser complexo de ser com-

preendido pelo ponto de vista de quem vai reutilizá-lo. Portanto, uma documentação

apurada e compreensível é essencial. Esta documentação deve conter pelo menos

três partes [55]: (a) sua proposta (a quem o framework se destina); (b) como usá-lo;

como documentar um framework. Estudos aﬁrmam que este tópico é uma área de

pesquisa em aberto [36]. Uma proposta é apresentada em [122].

2.2 Sistemas de integração de dados

A principal função de um sistema de integração de dados é disponibilizar uma

interface capaz de atender requisições que normalmente requerem extração e combinação

de dados originários de múltiplas fontes distintas e heterogêneas [120]. Tais sistemas

normalmente seguem duas abordagens [15]: virtual ou materializada.

A abordagem virtual obtém informações diretamente das fontes (nenhum repo-

sitório “intermediário” é construído). Vários trabalhos [19, 57, 65, 67, 73, 84, 88, 97,

104, 105] inspiram-se nos conceitos de tradutores e mediadores (veja seção seguinte para

detalhes) para implementar esta abordagem.

A abordagem materializada recupera, integra e armazena informações das várias

fontes em um repositório central, que posteriormente é consultado (não há acessos diretos

às fontes de dados). Data warehouse faz uso desta técnica [15].

A abordagem virtual é mais vantajosa quanto mais numeroso for o conjunto

de fontes de dados e mais freqüentes as atualizações. Por outro lado, a abordagem

materializada oferece melhor desempenho, pois não gera esforço adicional de acesso às

fontes de dados originais, apesar de ter o ônus da replicação dos dados [5].

Evolução de um software é “o comportamento dinâmico de um sistema enquanto este é mantido e

avança durante seu tempo de vida” [8].

2.3 Arquitetura mediador/tradutor 25

2.3 Arquitetura mediador/tradutor

Neste texto é empregado o termo mediador com a acepção de mediator e tradutor

com a acepção de wrapper. Os termos em inglês são amplamente empregados na literatura

especializada. A arquitetura mediador/tradutor é ilustrada na ﬁgura 2.1. Conceitualmente

é dividida em três camadas [119, 120]: (a) aplicações clientes, (b) mediador e (c)

tradutores.

Aplicação 1 Aplicação 2 Aplicação n

...

Mediador

Tradutor 1 Tradutor 2 Tradutor n

...

Fonte de

dados 1

Fonte de

dados 2

Fonte de

dados n

...

c1 r1 c2

cn rn

Tradutor n + 1 Tradutor k

...

Fonte de

dados n + 1

Fonte de

dados k

...

cn + 1

rn + 1

ck rk

fontes de dados não relevantes para “c”

Figura 2.1: Arquitetura mediador/tradutor (adaptado de [60],

pág. 11). As aplicações requisitam o acesso aos dados

através do mediador, que gera as subconsultas e as re-

passa aos tradutores correspondentes. No exemplo, a

consulta “c” originalmente enviada pela Aplicação 1

é convertida pelo mediador nas subconsultas c

, ..., c

Observe que algumas fontes de dados não são relevan-

tes para a consulta “c”, e nem todas são acessadas.

Quem faz esta deﬁnição é o mediador, que conhece os

esquemas e as integrações necessárias.

O mediador fornece uma visão única e integrada de várias fontes de dados para

as aplicações cliente. Trata-se de “uma camada intermediária entre a camada das apli-

cações e a camada das fontes de dados, tendo como função a aplicação de conhecimento

especializado a um domínio especíﬁco para agregar valor” [120]. Mediadores são espe-

cializados para domínios especíﬁcos [59, 119].

A visão única e integrada oferecida às aplicações cliente exige do mediador a

execução de várias tarefas:

1. Exportar um esquema integrado que representa as fontes de dados.

2. Receber consultas de uma aplicação cliente sobre o esquema integrado.

2.3 Arquitetura mediador/tradutor 26

3. Converter cada consulta de uma aplicação cliente em subconsultas correspondentes

e compatíveis com as fontes de dados. Em geral, uma dada consulta c será conver-

tida nas subconsultas c

, c

, . . . , c

onde n ≤ k e k é o número de fontes de dados.

Ou seja, a consulta c é reformulada para cada fonte de dados relevante.

Observe que não necessariamente todas as fontes de dados contribuem com deter-

minada consulta e, portanto, n ≤ k. Ainda convém destacar que c

é uma sentença no

esquema integrado que contempla o conjunto de informações disponíveis na fonte

de dados i para 1 ≤ i ≤ n.

A reescrita de consultas pode possibilitar que sentenças operantes em uma fonte

de dados possam agir de maneira limitada em outra. Conforme [81], as consultas

reescritas podem ser reconhecidas pela fonte de dados de três maneiras: (a) direta-

mente reconhecida (sintaticamente semelhante à sentença original); (b) logicamente

reconhecida (que produz os mesmos resultados que uma sentença diretamente re-

conhecida); e (c) indiretamente reconhecida (após a aplicação de uma sentença di-

retamente reconhecida, usa-se um ﬁltro sobre o resultado). Esta classiﬁcação é em-

pregada no referido trabalho na identiﬁcação de possíveis limitações de sentenças

em uma fonte de dados, assunto também tratado em [49].

Para exempliﬁcar, se a consulta é “todos os alunos que possuem mais de 20 anos e

nasceram em Goiânia”, então pode-se ter subconsultas como “todos os alunos que

possuem mais de 20 anos” e “todos os alunos que nasceram em Goiânia”, o que

contemplaria fontes de dados que possuem apenas parcialmente as informações

requisitadas. Discussões sobre capacidade de consultas

são encontradas em [46,

58, 88]. Reconhecendo estas possíveis limitações, os trabalhos presentes em [46,

81] comentam como tratar a reescrita de uma consulta para obter o máximo de

registros.

4. Repassar cada uma das subconsultas geradas (c

, c

, . . . , c

) ao tradutor correspon-

dente, ou seja c

será enviada ao tradutor i para 1 ≤ i ≤ n.

5. Receber as respostas de cada tradutor (r

, r

, . . . , r

) e compilá-las na resposta r.

6. Entregar a resposta r à aplicação cliente.

Os tradutores lidam com a diversidade das fontes de dados [105]. Cada fonte de

dados possui o seu próprio esquema e sua capacidade de consulta [88]. Em conseqüência,

deve existir um tradutor para cada fonte de dados. O tradutor é encarregado de converter

dados e consultas entre o modelo de dados comum usado pelo mediador (componente

Tipo de consulta que a fonte de dados pode responder, podendo afetar no custo de retornar estas

respostas [58].

2.3 Arquitetura mediador/tradutor 27

que possui o conhecimento semântico) e aquele empregado pela fonte de dados corres-

pondente [82, 120].

Uma consulta de uma aplicação cliente dá origem a subconsultas enviadas aos

tradutores pelo mediador (veja ﬁgura 2.1). Cada tradutor faz a conversão do modelo

comum para o modelo especíﬁco da fonte de dados por ele manipulado. Ao receber o

retorno da fonte de dados, o tradutor é responsável por converter os dados para o modelo

comum, e entregar o resultado ao mediador.

A comunicação entre mediador e tradutor pode ocorrer em níveis distintos de

abstração. Dependendo do nível, o mediador pode ﬁcar impossibilitado de usufruir do

poder de consulta nativo de fontes de dados mais soﬁsticadas. Em outro extremo, a

complexidade de se produzir um tradutor para fontes de dados mais simples pode ser

impraticável [88]. A necessidade de criação de um tradutor especíﬁco para cada fonte

de dados, mesmo tendo funções em comum, é citado como uma desvantagem do uso de

tradutores [117].

Em sistemas integrados, as aplicações cliente não precisam localizar as fontes

de dados, interagir com cada uma delas e combinar os múltiplos resultados. Aplicações

cliente em tais sistemas não submetem consultas sobre o esquema real das fontes de

dados, mas no esquema integrado (fornecido pelo mediador). Este esquema integrado

é formado por um esquema (compartilhado entre as aplicações cliente) juntamente com

mapeamentos semânticos entre este esquema comum e os esquemas reais [46]. A seção

2.4 aborda tais mapeamentos.

Atualmente, mediadores têm sido empregados para o acesso integrado a infor-

mações em múltiplas bases de dados. É de grande interesse, contudo, que também sejam

utilizados para a atualização das fontes de informação. Conforme ressaltado em [49], este

uso está restrito a uma classe limitada de sentenças, dado que certas sentenças de alteração

requerem mais semântica do que o suﬁciente para sentenças de consultas. Atualizações

em sistemas mediados e uma comparação com atualizações feitas em visões de esquemas

são abordados em [59].

Extensa cobertura da arquitetura mediador/tradutor é encontrada em [120, 121].

2.3.1 Consultas a esquemas mediados

Reformular requisições sobre um esquema mediado (integrado) em outra(s) que

faz(em) uso de um esquema especíﬁco de uma fonte de dados pode ser visto como o

problema de responder consultas utilizando visões. Desta maneira, sistemas de integração

tornam-se casos extremos de ter que manter a independência lógica e física das fontes de

dados [46]. O referido trabalho fornece o estado da arte nesta área, classiﬁca os trabalhos

2.4 Integração de esquemas 28

relacionados, descreve os problemas que motivam o estudo de maneira formal e propõe

algoritmos.

Ainda de acordo com [46], no contexto de integração de dados, o foco é dado na

tradução de requisições e a saída produzida é uma requisição reformulada. Para responder

consultas, a solução deve conter um conjunto de descrições dos esquemas das fontes de

dados, que especiﬁcam o seu conteúdo. O trabalho também considera o problema de

otimização de consultas.

Deve-se considerar que o problema de responder sentenças utilizando visões é

computacionalmente difícil [35]. Limitações para consultas envolvendo projeção, seleção

e junção são abordadas em [46] e outras considerações são feitas em [22].

Em sistemas de integração tradicionais, os mediadores podem transmitir sub-

consultas aos tradutores que não podem ser respondidas. Garlic (ver seção 2.7.4) é uma

proposta que assume uma resposta do tradutor para todas as variáveis envolvidas em uma

requisição. Em tais cenários, o mediador deve manipular as diferenças e limitações das

capacidades de resposta dos tradutores, e garantir que estes receberão apenas sentenças

que possam ser atendidas por eles [82]. O trabalho apresentado em [104] sugere soluções

para este problema.

2.4 Integração de esquemas

Há duas propostas clássicas para a integração de esquemas: combinação de es-

quemas (schema matching) e mapeamento de esquemas (schema mapping). O mapea-

mento de esquemas, contudo, depende da combinação de esquemas.

A combinação de esquemas identiﬁca as inter-relações entre esquemas e cria

um esquema global, com uma representação uniﬁcada. Tais correspondências são depois

elaboradas para gerar o mapeamento [29]. A combinação pode ser de dois tipos. O

primeiro, combinações um-para-um, é uma técnica comumente aplicada na qual é feita

uma correspondência entre um par de atributos. O segundo, combinações complexas,

especiﬁca a correspondência de mais de um atributo de um esquema para um ou mais

em outro esquema [29]. Características e comparações de sistemas que executam este

tipo de integração podem ser encontrados em [30, 86, 94].

A técnica de mapeamento de esquemas mapeia o esquema de uma fonte de dados

de origem em um esquema de destino diferente, sem fazer transformações de um formato

para outro. O objetivo do mapeamento de esquemas é descobrir uma consulta (ou conjunto

de consultas) que mapeie a fonte de dados de origem para uma nova estrutura [47].

Aplicado a um par de esquemas (origem e destino), ambos permanecem inalterados e as

correspondências permitem o ﬂuxo de dados em ambas as direções, deixando transparente

as diferenças entre eles [103].

2.5 Modelagem de fontes de dados 29

Uma estratégia de computar mapeamentos entre esquemas sem se preocupar com

a semântica das fontes de dados pode ser vista em [118]. Em [31] é apresentada estratégia

de propósito similar que faz uso de ontologias (veja seção

2.6 para detalhes).

Os elementos dos esquemas são deﬁnidos através de metadados. Logo, mapea-

mentos de esquemas invariavelmente resultam de mapeamentos entre metadados [103].

Como executar estes mapeamentos e/ou combinações é uma tarefa tediosa e pro-

pensa a erros [29], ambas as técnicas têm sido automatizadas, mas não totalmente, já que

as representações sintáticas dos esquemas e dos dados não exprimem completamente a se-

mântica das suas diferenças. Em geral são desenvolvidas ferramentas semi-automáticas,

que exigem a intervenção de um especialista na ﬁnalização da tarefa. Um exemplo é [47].

Uma classiﬁcação dos diferentes tipos de integração de dados e as diﬁculdades

pertinentes são fornecidas em [2].

2.5 Modelagem de fontes de dados

Descrições de fontes de dados são necessárias porque relações de esquemas

mediados normalmente não combinam as relações de maneira um-para-um, por duas

razões. A primeira é que os esquemas envolvidos contêm diferentes níveis de detalhes

entre eles e o esquema mediado. Outra razão é que, se diferentes esquemas modelam as

mesmas informações, eles podem dividir os atributos de diferentes maneiras [38].

Os principais paradigmas utilizados para modelar os mapeamentos entre o es-

quema integrado e a fonte de dados são GAV e LAV.

Na abordagem GAV (global-as-view), regras deﬁnem as relações do esquema

mediado em função dos esquemas de origem [38], e assim as consultas vêem as fontes de

dados como um todo [15]. Ou seja, um esquema global deve ser expresso em termos

das fontes de dados, isto é, cada elemento do esquema global é associado com uma

visão (consulta) sobre as fontes de dados [60]. As consultas relacionam um elemento

do esquema global para uma consulta no esquema local [35].

Na abordagem inversa, conhecida como LAV (local-as-view), as relações das

fontes de dados são deﬁnidas como expressões sobre as relações do sistema mediado

[38], de maneira independente das fontes de dados [60], ou seja, as consultas vêem os

esquemas locais [15]. Segundo [35], as consultas relacionam um elemento do esquema

local com uma consulta sobre o esquema global. Isso facilita a inserção de novas fontes

de dados ou a alteração das existentes [15].

A abordagem LAV permite que cada fonte de dados seja modelada de maneira

independente. Novas fontes podem ser adicionadas ou modiﬁcadas sem ter que alterar

o modelo integrado [4]. Porém, o esquema integrado deve conter todos os atributos

compartilhados por múltiplas relações, a não ser que estes não sejam do interesse da

2.6 Ontologias 30

aplicação de integração [38]. Outra desvantagem é que a reformulação de consultas é

complexa [4, 22, 60].

A abordagem GAV permite que as fontes requisitadas para prover os dados para

uma especíﬁca classe de informação possam ser determinadas simplesmente buscando na

deﬁnição do domínio da classe [4]. A grande desvantagem é a diﬁculdade de construir

e manter o modelo integrado. As relações do esquema mediado devem conter todas as

relações presentes nas fontes de dados, ou então consultas conjuntivas sobre elas [38],

ou seja, consultas que correspondam a elementos de pelo menos uma das fontes. Como

o sistema é dependente dos esquemas, alterações nos esquemas reais tornam complexa

a manutenção dos mapeamentos entre o esquema global e os esquemas reais. O trabalho

apresentado em [60] propõe minimizar esta desvantagem.

O paradigma GLAV (global-and-local-as-view), proposto em [

38], combina o

poder de expressão dos paradigmas acima, permitindo deﬁnições de esquemas mais

ﬂexíveis e independentes de detalhes particulares das fontes de dados. Outra proposta

híbrida é exibida em [4]. Segundo a referência, “combina a ﬂexibilidade do paradigma

LAV com a eﬁciência em tempo de execução do processamento de consulta do GAV”.

Segundo [41], “LAV é mais apropriado para combinar uma dada ontologia a

um dado domínio, enquanto GAV é mais fácil onde os esquemas já existem”. Outra

comparação entre estes paradigmas pode ser encontrada em [22].

2.6 Ontologias

Em arquiteturas de mediação, quando novas fontes de dados são inseridas, a

quantidade de informação a ser modelada aumenta, freqüentemente gerando inconsistên-

cias, ambigüidades e conﬂitos. Uma maneira de eliminar este problema é deﬁnir o domí-

nio através de ontologias

[13, 45, 106, 107], especiﬁcando o signiﬁcado da terminologia

de cada sistema e deﬁnindo uma tradução entre cada uma delas e uma terminologia inter-

mediária.

Conforme [67], “a base para a ligação entre as brechas semânticas existen-

tes entre fontes heterogêneas são as ontologias para as fontes de conhecimento envolvi-

das”. Desta forma, as informações de um determinado domínio poderiam ser descritas

por meio de suas ontologias, que no contexto aqui proposto, seriam utilizadas pelo me-

diador. Quando o signiﬁcado dos dados e dos esquemas é explicitado em uma ontologia,

aplicações podem ser desenvolvidas explorando estas semânticas [24, 106].

A aplicação de ontologias propõe a deﬁnição de conceitos e relacionamentos que podem existir em

um determinado domínio, através de uma especiﬁcação formal [44]. Pode ser entendida como um formato

neutro para a troca de informações [6].

2.7 Propostas para integração 31

Segundo [2, 31], uma ontologia central é criada baseada nos esquemas de dados.

Estes esquemas são então mapeados para esta ontologia, deixando o signiﬁcado dos

conceitos nos esquemas explícitos relacionando uns aos outros, o que possibilita uma

visão uniﬁcada das fontes de dados.

Um comparativo que ressalta as diferenças e as similaridades entre ontologia

e modelos de dados é feito em [96]. Diferente de modelo de dados, a vantagem funda-

mental das ontologias é sua relativa independência de aplicações particulares, isto é, uma

ontologia consiste de “conhecimento relativamente genérico que pode ser reutilizado por

diferentes tipos de tarefas e aplicações”. Regras de domínio restringem a semântica de

conceitos e seus relacionamentos em um domínio especíﬁco e estas regras devem ser sa-

tisfeitas por todas as aplicações que querem utilizar uma ontologia. Um modelo de dados,

pelo contrário, representa a estrutura e a integridade dos dados de uma aplicação especí-

ﬁca, onde ele será usado. Ou seja, a conceituação e o vocabulário de um modelo de dados

não são deﬁnidos, pelo menos a priori, para ser compartilhado por outras aplicações.

Ainda segundo [96], a diﬁculdade está na deﬁnição das ontologias. Adicionar

mais regras à ontologia, para viabilizar a interoperabilidade entre as aplicações, pode

limitar sua generalidade. Porém, ontologias reduzidas, que manipulam poucas regras de

domínio, não são efetivas para a comunicação entre agentes de software autônomos.

Em [103], os autores consideram os metamodelos de domínio especíﬁco como

“ontologias especializadas”, e o seu framework como um sistema de ontologia híbrido,

com o metamodelo fornecendo uma ontologia global e os metadados dos esquemas agindo

como ontologias locais. Segundo os autores, enquanto ontologias e taxonomias podem

ser extensas e complexas, a proposta de metamodelos de domínio especíﬁco se parecem

mais com os modelos de dados da modelagem conceitual tradicional. Acrescentam ainda

que “deﬁnir um metamodelo de domínio especíﬁco não é uma tarefa fácil, mas construir

uma ontologia completa para um domínio inteiro é desanimador, e o metamodelo é mais

intuitivo de se deﬁnir em termos das estruturas de esquemas relacionais”.

Características e comparações entre sistemas de integração que utilizam ontolo-

gias como suporte no processo de integração podem ser encontradas em [116].

2.7 Propostas para integração

Esta seção apresenta um subconjunto relevante e suﬁciente de propostas de

sistemas de integração para que relações possam ser apresentadas entre estes e a proposta

do presente trabalho. Em [2, 30, 31, 60, 86, 94] são fornecidas comparações entre algumas

propostas.

2.7 Propostas para integração 32

Figura 2.2: Arquitetura do Integra (obtido de [60], pág. 28)

2.7.1 Integra

O Integra [60], cuja arquitetura é exibida na ﬁgura 2.2, é um sistema para in-

tegração de informações distribuídas em fontes de dados na web baseado em mediação.

Adota conceitos de ontologias e metadados na resolução da heterogeneidade da informa-

ção. Estes conceitos são utilizados para identiﬁcar correspondências e resolver conﬂitos

semânticos entre informações de diversas fontes de dados heterogêneas.

O sistema possui uma arquitetura baseada em mediação que adota a abordagem

GAV (ver seção 2.5). Utiliza a linguagem XML como modelo comum para intercâmbio

de dados e XML Schema [

114] como representação padrão para o esquema de mediação

e esquema das fontes de dados. Propõe o modelo chamado X-Entity [62], que é uma

extensão do Modelo Entidade-Relacionamento, adaptando-o para XML Schema.

2.7.2 MOMIS

O MOMIS [22, 23, 87, 105], acrônimo de Mediator envirOnment for Multiple

Information Sources, é um conjunto de ferramentas e técnicas associadas que auxiliam

na deﬁnição de integração semântica de maneira semi-automática, ou seja, dependente

2.7 Propostas para integração 33

Figura 2.3: Arquitetura do MOMIS (obtido de [105])

de um especialista do domínio sobre o qual a integração é realizada. O sistema executa

processamentos semânticos e o resultado passa pela avaliação de um especialista que

conhece as regras do domínio, que aceita as integrações feitas pelo sistema ou faz ajustes.

Suas ferramentas criam uma visão virtual global baseada em ontologias e dis-

ponibilizam uma interface para consultas que acessa esta visão. Sua arquitetura é exibida

na ﬁgura 2.3. Os tradutores do MOMIS traduzem os esquemas das fontes de dados em

uma linguagem proprietária chamada ODLi3 (linguagem orientada a objeto derivada do

padrão da ODMG [75]). Posteriormente, as consultas são convertidas para os formatos

reais das fontes de dados.

2.7.3 CoDIMS

O CoDIMS [5] (acrônimo de Conﬁgurable Data Integration Middleware Sys-

tem) permite a construção de sistemas de integração conﬁgurados através da integração

de componentes, previamente selecionados e personalizados, voltados para uma aplicação

especíﬁca, buscando garantir ﬂexibilidade através do uso de frameworks para o desenvol-

vimento dos componentes.

O sistema não implementa a arquitetura de mediadores, mas relaciona o trata-

mento semântico para a integração dos metatados como um trabalho futuro. Sua priori-

dade é a ﬂexibilidade de conﬁguração dos módulos existentes.

Os tradutores têm a função de transformar os esquemas das fontes de dados em

um modelo de dados comum, que posteriormente são integrados em um esquema único.

2.7 Propostas para integração 34

Figura 2.4: Arquitetura do CoDIMS (obtido de [5], pág. 15)

A arquitetura é exibida na ﬁgura 2.4. A essência do ambiente é o componente

“Controle”, que permite deﬁnir e validar a conﬁguração estática e gerenciar a invocação

dos serviços durante a execução do sistema conﬁgurado, de acordo com uma ordem pré-

estabelecida dos serviços que serão executados.

O componente “Gerência de Metadados” é responsável por armazenar, gerenciar

e viabilizar o acesso às meta-informações do sistema integrador. Cada fonte de dados

possui seu próprio esquema, e todos são integrados em um esquema global.

O componente “Processamento de Consulta” transforma uma consulta escrita em

uma linguagem disponibilizada pelo sistema integrador, considerando as características

das fontes de dados. A consulta é decomposta em subconsultas, que serão submetidas a

cada uma das fontes de dados, baseado em um plano de execução global otimizado. Este

módulo também executa a composição dos resultados. Outra tarefa deste componente é a

reescrita da consulta, de acordo com o formato nativo da fonte de dados.

O componente “Acesso aos Dados” faz a comunicação com as fontes de dados.

Para isso, tradutores especíﬁcos são deﬁnidos. O tradutor converte a subconsulta, que está

na linguagem utilizada pelo sistema, para a linguagem nativa da fonte de dados.

2.7.4 Garlic

O Garlic [19, 88], cuja arquitetura é exibida na ﬁgura 2.5, adota o esquema

global, com um tradutor para cada fonte de dados, além de um repositório de metadados.

Em vez de criar um modelo de dados próprio, emprega o padrão de objetos da ODMG

[75].

Cada objeto Garlic tem uma interface que descreve de maneira abstrata o

comportamento do objeto, além de uma implementação desta interface, cujas instâncias

são armazenadas em um repositório interno.

2.7 Propostas para integração 35

Figura 2.5: Arquitetura do Garlic (obtido de [88], pág. 3)

A linguagem de consulta é uma extensão de SQL (chamada GDL - Garlic Data

Language). O processador de consultas decompõe as consultas e as envia aos tradutores.

Uma máquina de execução controla a execução de cada consulta e faz a fusão dos

resultados antes de entregá-los ao solicitante.

A arquitetura dos tradutores [88] permite a adição de novos tradutores, ﬂexibili-

zando a adição de novas fontes de dados ao sistema.

2.7.5 TSIMMIS

O TSIMMIS [40, 81, 97] disponibiliza um sistema que facilita a integração

de fontes de dados heterogêneas (dados estruturados e semi-estruturados), traduzindo

consultas e combinando informações de diferentes fontes, por meio da abordagem de

combinação de padrões (pattern matching) para executar uma conjunto predeﬁnido de

consultas baseadas em modelos [23]. O conceito de combinação de padrões não se

confunde com as propostas para integração de esquemas apresentadas na seção 2.4.

O projeto TSIMMIS tem como objetivo fornecer ferramentas para auxiliar as

atividades de integração e processamento de informações. Utiliza um mediador para

combinar informações de várias fontes de dados, que são encapsuladas usando tradutores

que convertem os dados e as requisições para um modelo comum (OEM - Object

Exchange Model [80]). O mediador redireciona subconsultas para as fontes de dados

apropriadas e compila os resultados. Tanto tradutores quanto o mediador recebem como

entrada consultas em OEM-QL e retornam objetos OEM.

O sistema espera que aplicações sejam escritas para requisitar objetos OEM ou

então o uso de uma ferramenta por eles desenvolvida para navegar por estes objetos.

2.7 Propostas para integração 36

2.7.6 LORIS

LORIS (Learning Objects Repositories Integration System) [28, 69] é um sis-

tema para integração de fontes de dados de objetos de aprendizagem. Implementa uma

arquitetura de mediadores, tradutores e mapeadores, baseada na tecnologia de serviços

web e ontologias, exibida na ﬁgura 2.6.

Figura 2.6: Arquitetura do LORIS (obtido de [69], pág. 3)

A camada de aplicação provê uma interface de consulta comum (mas outras

podem ser criadas pelo usuário), permitindo que as aplicações clientes obtenham acesso

à camada de mediação, a qual é encarregada de oferecer os serviços de consulta.

Já a camada de mediação representa um papel intermediário entre a camada de

aplicação e o acesso aos dados das fontes, podendo ser vista como uma provedora de

serviços. Para o seu funcionamento foram deﬁnidos um modelo de dados, uma linguagem

de representação e um protocolo de comunicação. O uso do mediador possibilitou a

redeﬁnição da consulta principal em várias subconsultas, que são repassadas às fontes

de dados. Posteriormente, o resultado é integrado.

A camada de acesso aos dados é responsável pela interface entre as ferramentas

que acessam a informação e as bases de dados operacionais. Esta camada consiste de

tradutores que são responsáveis por se comunicarem com diversas fontes de dados, sejam

elas SGBDs ou sistemas de arquivos.

Para que seja possível a comunicação entre as fontes e o mediador é necessário

que haja uma linguagem comum de consulta. O LORIS deﬁne um esquema (em XML

2.7 Propostas para integração 37

Schema) para a representação da linguagem de consulta em um documento XML.

Os tradutores recebem consultas em XML (derivadas do mediador) e as conver-

tem para o formato nativo da fonte de dados. Após obter o resultado, estes são convertidos

para XML e devolvidos ao mediador. O mediador faz, então, a integração de todos os re-

sultados obtidos separadamente e repassa o resultado ﬁnal à aplicação cliente.

2.7.7 XQuare

O projeto XQuare [74] (originalmente chamado de XQuark [26]) emprega a ar-

quitetura mediador/tradutor e faz a integração de múltiplas fontes de dados heterogêneas e

distribuídas. Através de integração baseada em XML, o sistema fornece visões que podem

ser consultadas através de XQuery para produzir documentos XML como resultado.

Um dos seus módulos expande as funcionalidades de fontes de dados relacionais

através de uma extensão da álgebra relacional, disponibilizando a extração e a publicação

de dados relacionais em documentos XML. A comunicação dos seus módulos com as

aplicações e as fontes de dados é feita através de uma API proprietária (denominada

XML/DBC), que estende a API JDBC para manipular XQuery.

2.7.8 XMF

O XMF [57], acrônimo de XML-Based Mediation Framework, responde consul-

tas que extraem e combinam dados de fontes heterogêneas, empregando a arquitetura de

mediadores e tradutores e um esquema global.

Esta solução de integração fornece uma visão global integrada das fontes de

dados, resolvendo o problema da heterogeneidade entre os formatos das fontes de dados

usando os padrões abertos da internet. A solução descreve as fontes de dados e as regras

de mapeamento usando XML como modelo de dados. Os tradutores oferecem suporte a

protocolos como HTTP e JDBC para o transporte dos dados, e usa XPath como linguagem

de consulta. Uma API é disponibilizada para que o usuário possa criar suas aplicações de

acesso à solução de integração.

2.7.9 Unicorn Workbench

Este sistema [2] cria uma ontologia global e disponibiliza uma interface para

que o usuário crie os mapeamentos das fontes de dados para esta ontologia. O usuário

escolhe uma entre as consultas predeﬁnidas e a fonte de dados de destino, o sistema gera

a sentença de consulta nativa desta fonte e a repassa ao tradutor, para que este gere a

consulta no formato nativo.

2.7 Propostas para integração 38

2.7.10 Outras ferramentas

Esta seção comenta algumas ferramentas que apresentam certa proximidade com

o presente trabalho. Não comentadas nesta seção, mas que merecem referência, estão as

ferramentas Hydrate [25], DatabaseSpy [3], Clio [47], Enhydra Octopus [33], Ammentos

[

11], SINDEC [9] e RDF Gateway [41].

Jitterbit

Jitterbit [52] integra formatos de dados heterogêneos, entre eles bancos de dados

e documentos XML, fazendo transformações e automatizando processos entre aplicativos.

Funções do tipo assistente (wizard) são disponibilizadas ao usuário para a

deﬁnição das fontes de dados, dos mapeamentos entre estas e as ações a serem feitas

pela ferramenta, como, por exemplo, a transferência dos dados de uma fonte para outra

(com as devidas transformações).

OpenAccess SDK

OpenAccess SDK [79] é um middleware para a construção de drivers JDBC,

ODBC, OLE DB e .NET para acesso a bancos de dados relacionais e não-relacionais.

Oferece um conjunto de ferramentas que permitem acessar bases de dados. A aplicação

cliente se preocupa em requisitar os dados necessários e processar o resultado, através da

implementação de uma API.

Sequoia

O Sequoia [21] é um middleware que gerencia um cluster

de bancos de dados,

mesmo que heterogêneos, e permite que aplicações Java existentes acessem este cluster

via JDBC de maneira transparente.

Sua utilização permite o acesso ao cluster sem a alteração das aplicações ou das

fontes de dados. Possui um driver JDBC genérico, que funciona como um proxy [39, 43]

entre a aplicação e as fontes de dados.

Grupo de computadores que trabalham juntos mas que podem ser visualizados como se fossem um

único computador. São usualmente criados para melhorar o desempenho e a disponibilidade de um sistema.

Fonte: http://pt.wikipedia.org/wiki/Cluster

CAPÍTULO 3

Integrate - Solução conceitual

Integrate é uma proposta na forma de framework a ser empregada por desen-

volvedores de código de sistemas de integração de dados heterogêneos. O Integrate visa

oferecer serviços que facilitem a geração deste tipo de sistemas. A infra-estrutura for-

necida pode ser estendida para contemplar as especiﬁcidades do caso de integração em

questão, e se baseia na arquitetura de mediadores e tradutores. Este capítulo deﬁne os

objetivos e decisões que delimitam o escopo do Integrate, suas funções e requisitos de

software.

Na seqüência, são apresentados os objetivos deﬁnidos para o Integrate (seção

3.1) seguidos das principais decisões decorrentes (seção 3.2), que orientaram a deﬁnição

do modelo de solução adotado (seção 3.2.1). O escopo do Integrate é deﬁnido na

seção 3.3, com suas principais funcionalidades apresentadas na seção 3.3.1. A seção

3.4 apresenta os serviços oferecidos através de exemplos de uso. Tais serviços são

posteriormente reﬁnados em requisitos funcionais e não funcionais (seção 3.5).

Convém ressaltar que os objetivos e decisões apresentados neste capítulo foram

obtidos a partir da análise de trabalhos anteriores (veja capítulo anterior) e de perspectivas

futuras de emprego do Integrate.

3.1 Objetivos

Diante do contexto que se pretende atender (seção

1.2), e baseado nos trabalhos

pertinentes à area de estudo (seção 2.7), os objetivos da proposta de integração Integrate

incluem:

1. Contribuição na área (O1): auxiliar pesquisas na área de integração de fontes de

dados heterogêneas, facilitando a experimentação de propostas de integração.

2. Contemplar abordagem recorrente (O2): contemplar uma abordagem comu-

mente empregada para integração, o que assegura uma maior aplicabilidade. A aná-

lise feita no capítulo 2 foi útil para identiﬁcar a arquitetura mediador/tradutores (ver

seção 2.3) como uma das mais empregadas.

3.2 Principais decisões 40

3. Facilidade de uso (O3): a proposta deve ser “fácil” de ser utilizada.

4. Facilidade de gerência (O4): a solução deve facilitar o monitoramento dos servi-

ços executados.

5. Aplicações originais (O5): a solução deve favorecer a integração, sem necessaria-

mente exigir alterações nas aplicações e nas fontes de dados. Assim, não é preciso

acesso ao código-fonte das aplicações clientes para que estas possam ter acesso a

outras fontes de dados diferentes daquela para a qual foram criadas. Este objetivo

não está presente na maioria das propostas pesquisadas (ver seção 2.7), já que estas

fornecem seus serviços aos usuários através de interfaces próprias.

Estes objetivos são semelhantes aos apresentados por Barbosa em [

5]: disponibi-

lizar “um ambiente ﬂexível e conﬁgurável para a geração de sistemas conﬁgurados para

a integração de dados heterogêneos e distribuídos”. Barbosa acrescenta, de forma clara, a

necessidade de tal ambiente: “reduzir o tempo de implementação e de manutenção, com a

possibilidade de reutilização dos projetos e dos códigos já existentes, em vez de se recriar

os mesmos processos repetidamente”.

3.2 Principais decisões

Os objetivos acima podem ser perseguidos de várias formas. A deﬁnição do

Integrate baseou-se em decisões de alto nível fornecidas abaixo, decorrentes dos objetivos.

3.2.1 Modelo de solução (D1)

Diversas propostas de integração (ver seção

2.7), além de outros trabalhos

disponíveis em [7, 24, 41, 57, 71, 92, 103, 104, 118], ressaltam o signiﬁcativo uso

de arquiteturas baseadas em mediadores e tradutores (ver seção 2.3, pág. 25), que têm

em comum a necessidade de acessar as fontes de dados após os devidos tratamentos

semânticos.

A maioria dos sistemas de integração pesquisados (ver seção 2.7) faz uso de uma

interface própria para a interação com seus usuários. Esta interface utiliza internamente o

modelo de dados do mediador e o esquema global deﬁnido por ele. O modelo de solução

aqui adotado (veja ﬁgura 3.1) é uma proposta compatível com este cenário. Detalhes de

cada um dos modelos são fornecidos adiante, nesta mesma seção.

Para permitir a integração de dados onde as fontes de dados e as aplicações

não sejam alteradas, este cenário ﬁca inviabilizado. Para tentar solucionar este problema,

o modelo de solução acima foi estendido, incluindo um interceptador, que age entre a

aplicação cliente e o mediador, conforme a ﬁgura 3.2.

3.2 Principais decisões 41

Controlador

Aplicação

Cliente

Mediador

Tradutor

<<interface>>

Tradutor

SGBD

Tradutor

Excel

Tradutor

CSV

Tradutor

XML

<xs:element name="jmxEvent">

<xs:complexType>

<xs:sequence>

<xs:element ref="info"/>

<xs:element ref="source"/>

<xs:element minOccurs="0" maxOccurs>

</xs:sequence>

<xs:attribute name="version" type="xs:string">

</xs:complexType>

</xs:element>

Ontologias

Esquemas das

fontes de dados

Lookup

<<interface>>

Metadados

Tradutor

proprietário

<xs:element name="jmxEvent">

<xs:complexType>

<xs:sequence>

<xs:element ref="info"/>

<xs:element ref="source"/>

<xs:element minOccurs="0" maxOccurs>

</xs:sequence>

<xs:attribute name="version" type="xs:string">

</xs:complexType>

</xs:element>

Figura 3.1: Modelo de solução

Controlador

Aplicação

Cliente

Mediador

Tradutor

<<interface>>

<xs:element name="jmxEvent">

<xs:complexType>

<xs:sequence>

<xs:element ref="info"/>

<xs:element ref="source"/>

<xs:element minOccurs="0" maxOccurs>

</xs:sequence>

<xs:attribute name="version" type="xs:string">

</xs:complexType>

</xs:element>

Ontologias

Esquemas das

fontes de dados

Lookup

<<interface>>

Metadados

Interceptador

Tradutor

SGBD

Tradutor

Excel

Tradutor

CSV

Tradutor

XML

<xs:element name="jmxEvent">

<xs:complexType>

<xs:sequence>

<xs:element ref="info"/>

<xs:element ref="source"/>

<xs:element minOccurs="0" maxOccurs>

</xs:sequence>

<xs:attribute name="version" type="xs:string">

</xs:complexType>

</xs:element>

Tradutor

proprietário

<xs:element name="jmxEvent">

<xs:complexType>

<xs:sequence>

<xs:element ref="info"/>

<xs:element ref="source"/>

<xs:element minOccurs="0" maxOccurs>

</xs:sequence>

<xs:attribute name="version" type="xs:string">

</xs:complexType>

</xs:element>

Figura 3.2: Modelo de solução estendido

3.2 Principais decisões 42

No modelo proposto a sentença original é interceptada e reescrita pelo mediador,

uma para cada tradutor, e os resultados obtidos são integrados (também pelo mediador),

produzindo a resposta a ser retornada para a aplicação cliente.

Assim, com exceção do mediador, os demais módulos correspondem ao que foi

chamado anteriormente de transporte de requisições (ver seção 1.2, pág. 16).

Vários trabalhos [

1, 2, 5, 17, 21, 22, 23, 27, 33, 34, 43, 46, 57, 59, 60, 61, 69, 71,

76, 91, 105] contribuíram com a identiﬁcação do modelo de solução adotado. Nenhum

deles, contudo, foi utilizado em sua plenitude. Em geral, características avaliadas como

compatíveis com os objetivos identiﬁcados foram acomodadas no modelo adotado.

Segue uma breve descrição dos módulos do modelo adotado.

Controlador

É responsável pela interação entre o Mediador e os Tradutores, além de coorde-

nar o ﬂuxo de atividades (workﬂow) entre os módulos, semelhante ao componente “Con-

trole”, proposto no CoDIMS (ver seção 2.7.3).

Mediador

Módulo responsável pelo processamento semântico. No modelo tradicional (ﬁ-

gura 3.1), este módulo é responsável pela interface com a aplicação cliente, e requisita a

execução das subconsultas através dos serviços disponibilizados pelo Controlador, inte-

grando os resultados antes de retorná-los à aplicação. Neste cenário, o Mediador solicita

os serviços ao Controlador. No modelo estendido (ﬁgura 3.2), este módulo oferece servi-

ços de geração das subconsultas e de integração dos resultados parciais. Neste cenário, o

Controlador solicita os serviços ao Mediador.

Tradutor

Módulo que interage diretamente com as fontes de dados. Há um Tradutor para

cada fonte de dados. Arquivos de conﬁguração são empregados para estabelecer esta

relação, semelhante ao sistema apresentado em [118].

Tradutores para alguns formatos mais comuns são fornecidos. O modelo de

solução, contudo, permite que outros sejam implementados, possibilitando a integração

de fontes de dados que fazem uso de outros formatos.

Interceptador

Este módulo é responsável pelo desvio de ﬂuxo de controle entre a aplicação e a

fonte de dados original no modelo de solução estendido (ﬁgura 3.2). Após interceptar as

requisições da aplicação cliente, este módulo as redireciona ao Controlador, que as repassa

3.2 Principais decisões 43

ao Mediador, para que este gere as subconsultas para as fontes de dados de interesse.

Estas subconsultas são então direcionadas às respectivas fontes de dados por meio dos

Tradutores.

No sentido inverso, os resultados obtidos das fontes de dados são repassados ao

Mediador para que sejam integrados. O resultado é então entregue à aplicação cliente,

no modelo e formato esperados, conforme a fonte de dados original, ou seja, aqueles

empregados pela aplicação cliente.

BD1

(a) Cenário original

f_bd1

BD1

Interceptador

Mediador

Tradutor 1

Tradutor 2

BD2

(b) Consulta integrada

Controlador

Figura 3.3: A ﬁgura (a) exibe o cenário tradicional, com a apli-

cação acessando diretamente a fonte de dados no for-

mato deﬁnido por esta (f_bd1). Na ﬁgura (b), o Inte-

grate faz as conversões de formatos necessárias para

o acesso às duas fontes de dados, cada uma acessada

no seu respectivo formato.

A ﬁgura 3.3 e os passos abaixo ilustram este processo.

1. A aplicação A envia uma requisição no formato original para a qual foi construída

(no exemplo, f_bd1).

2. O Interceptador intercepta esta requisição e a repassa ao Controlador.

3. A requisição é redirecionada pelo Controlador ao Mediador.

3.2 Principais decisões 44

4. O Mediador retorna as subconsultas referentes às fontes de dados envolvidas nos

seus respectivos formatos (no exemplo, formatos f_bd1 e f_bd2).

5. As subconsultas são repassadas às fontes de dados correspondentes através dos

Tradutores.

6. O resultados parciais de cada fonte de dados retornam ao Controlador.

7. O Controlador repassa os resultados parciais ao Mediador, que executa a integração

dos resultados parciais no formato conhecido pela aplicação A (f_bd1) e retorna o

resultado integrado ao Controlador.

8. O resultado integrado é então entregue à aplicação pelo Interceptador.

Sistema de

Integração

BD1

BD2

BD1

(a)

(b)

Figura 3.4: No acesso tradicional (a), a aplicação cliente acessa

diretamente a fonte de dados. O acesso através de

um sistema de integração que utiliza o Integrate(b) é

transparente para a aplicação cliente, pois esta solu-

ção é responsável em acessar as várias fontes neces-

sárias e por devolver os dados integrados à aplicação.

Para a aplicação cliente, a consulta a fontes de dados diferentes daquela para a

qual foi produzida ocorre de forma transparente. A ﬁgura 3.4 ilustra (a) a percepção que

a aplicação cliente possui e (b) aquela que de fato corresponde a um possível cenário com

o emprego da proposta de integração Integrate.

Lookup

Interage com as fontes de dados para extrair os esquemas destas fontes. Dispo-

nibiliza uma API

extensível para permitir que novas fontes de dados possam ser adicio-

nadas, semelhante ao proposto em [

27].

Application Programming Interface

3.2 Principais decisões 45

Metadados

Módulo responsável por manipular os arquivos de conﬁguração. Estes arquivos

descrevem quais as fontes de dados serão consultadas por uma dada aplicação, entre

outras.

3.2.2 Modelo de dados (D2)

É necessário deﬁnir uma forma de representação comum capaz de prover o

diálogo entre o mediador e as fontes de dados [59, 104], conforme técnica comumente

encontrada em trabalhos na área.

Vários estudos feitos na década de 90 utilizavam objetos como modelo de

dados [19, 88, 97, 104, 105]. Devido ao custo adicional e às conversões entre modelos

[

5], propostas recentes têm adotado XML ou suas variantes como modelo de dados

[7, 24, 28, 41, 57, 60, 71, 92, 103, 118], também chamadas de mediação baseada em XML

(XML-based mediation). Um comparativo do estado da arte das propostas que empregam

este tipo de modelagem [72] mostra que os estudos disponíveis na área ainda não atendem

a algumas características especíﬁcas esperadas para a modelagem baseada em XML.

O modelo de dados adotado é o relacional. Além da solidez, normalmente dados

a serem integrados estão armazenados em fontes de dados relacionais.

3.2.3 Troca de mensagens (D3)

A interação entre os módulos é feita através do modelo relacional. Em decor-

rência dos objetivos O1, O2 e O3, deve ser possível utilizar XML como formato das

mensagens trocadas entre o Controlador e o Mediador, assim como algumas ferramentas

estudadas [7, 24, 41, 57, 60, 71, 92, 103, 118]. Este formato oferece a ﬂexibilidade para

representar dados estruturados e semi-estruturados, e facilidade de conversão de/para da-

dos relacionais [120].

Ainda convém ressaltar que linguagens baseadas em XML (como RDF/XML

[112] e OWL [113]) vêm se tornando padrão na comunidade envolvida com ontologias.

3.2.4 Protocolos (D4)

Os objetivos (seção 3.1) e o modelo do Integrate (decisão D1) ressaltam inte-

rações do Mediador com o Controlador, que podem variar de acordo com os cenários

exibidos nos modelos de dados. Cada uma destas interações dá origem a um protocolo.

3.2 Principais decisões 46

Protocolo Mediador/Controlador

Este protocolo é válido para o cenário da ﬁgura 3.1 (pág. 41).

Após receber as subconsultas enviadas pelo Mediador, o Controlador as repassa,

uma a uma, ao Tradutor correspondente. Cada Tradutor converte a sua respectiva subcon-

sulta recebida para o formato compatível com a fonte de dados por ele manipulada.

No sentido inverso, de acordo com a decisão D1, os registros retornados pela

consulta são devolvidos ao Mediador para que este providencie a integração e o retorno à

aplicação cliente.

Protocolo Interceptador/Controlador/Mediador

Este protocolo é especíﬁco do modelo estendido (ﬁgura 3.2, pág. 41).

Conforme o objetivo O5, as aplicações clientes não sofrem modiﬁcações para

contemplar outras fontes de dados, e continuam a enviar as sentenças no formato para o

qual foram concebidas.

As sentenças são interceptadas e repassadas ao Controlador. Diferente do proto-

colo descrito acima, neste cenário o Controlador é que requisita serviços ao Mediador. O

Mediador reescreve a sentença original em outras requisições, compatíveis com as fon-

tes de dados envolvidas, retornado-as ao Controlador, que se encarrega de solicitar os

resultados através dos Tradutores correspondentes.

No sentido oposto, após obter os resultados parciais de cada Tradutor, o Con-

trolador os repassa ao Mediador, que se encarrega de integrá-los. O resultado desta com-

binação é gerado no esquema compatível com a requisição feita pela aplicação cliente.

O Controlador devolve o resultado integrado à aplicação cliente através do Interceptador.

Este processo ocorre sem que a aplicação cliente tenha “consciência” de que várias fontes

de dados foram possivelmente consultadas.

Para a reescrita da consulta original, pode-se utilizar a técnica descrita na seção

2.3.1, com o propósito de atender à necessidade de intermediar uma requisição elaborada

sobre um esquema prévio que agora será feita sobre um esquema mediado, conforme

descrito em [46].

Este tipo de conversão de requisição (solicitada ao Mediador) é o trabalho típico

realizado pela ferramenta Clio [47], trabalho também realizado em outras propostas

[2, 60]. Outra ferramenta que executa conversões entre modelos relacionais e esquemas

XML em ambos os sentidos, identiﬁcando e alterando as diferenças entre eles pode ser

encontrada em [64].

Segundo [46], reescrever estas requisições não introduz diﬁculdades, pois é

possível criar visões sobre o esquema mediado que espelham precisamente o esquema

original. Porém, o trabalho apresentado em [60] cita esta reescrita de sentenças como

3.2 Principais decisões 47

um problema crítico para sistemas de integração, principalmente em cenários onde há

alterações dos esquemas após a integração dos mesmos.

3.2.5 Deﬁnição do esquema global (D5)

Devido à semântica exigida, a deﬁnição do esquema global integrado é de

responsabilidade do Mediador. Estudos recentes mostram que o uso de ontologias tem

auxiliado na eliminação das diferenças semânticas entre os esquemas.

3.2.6 Integração de esquemas, consultas e resultados obtidos (D6)

Também devidos às questões semânticas inerentes, as integrações dos esquemas,

das consultas e dos resultados parciais obtidos ﬁcam a cargo do Mediador.

O Mediador é responsável pela integração dos esquemas e dos resultados con-

sultados, gerando as subconsultas que são repassadas aos Tradutores e provendo as infor-

mações integradas no formato aguardado pelas aplicações clientes.

3.2.7 Tipos de sentenças (D7)

Como o Integrate atua como um proxy [

39, 43], intermediando o repasse de

sentenças e resultados entre o Mediador e os Tradutores, o mesmo não interfere nos

tipos de sentenças feitas pela aplicação cliente, podendo ser tanto de consulta quanto

de alteração das fontes de dados.

Qualquer limitação no tipo de sentença será causada por limitação do Mediador

desenvolvido ou do Tradutor utilizado.

Vale ressaltar que dos trabalhos levantados, alguns não citam limitações quanto

ao tipo de sentença, mas outros limitam-se à sentenças apenas de consulta. Veja seção

2.3

sobre sentenças de alteração e sobre alterações feitas nos esquemas das fontes de dados.

3.2.8 Deﬁnição de um framework (D9)

Os objetivos deﬁnidos na seção 3.1 e o modelo de solução proposto na seção

3.2.1 naturalmente conduzem à deﬁnição de um framework como instrumento de realiza-

ção dos objetivos e das decisões estabelecidos anteriormente. Deﬁnição e outros aspectos

pertinentes a framework foram fornecidos na seção 2.1.

3.3 Escopo 48

3.3 Escopo

O principal resultado esperado do Integrate é disponibilizar uma infra-estrutura

tecnológica, por meio de um framework que facilite o desenvolvimento de sistemas de

integração que acessem informações registradas em fontes de dados heterogêneas.

Na solução aqui proposta, há ênfase nas funções atribuídas aos Tradutores e na

interação entre estes e o Mediador. Em conseqüência, mediadores propriamente ditos,

ontologias e outras questões correlatas estão além do escopo do Integrate. Noutras

palavras, esta seção fornece detalhes dos recursos oferecidos pelo Integrate para apoiar

integrações que se baseiem no modelo de solução apoiado.

Os serviços disponibilizados pelo Integrate permitem a criação de mediadores

sem que estes conheçam necessariamente os detalhes de acesso às fontes de dados a serem

integradas. Cabe ao Mediador as questões semânticas e a interação com as aplicações

clientes, no cenário da ﬁgura 3.1. No caso do cenário estendido (ﬁgura 3.2), cabe ao

Integrate intermediar as conversões entre o Mediador e as fontes de dados, além da

interação com as aplicações clientes,.

Buscando propor uma solução para o problema apresentado na seção 1.2, o

escopo do Integrate contempla o cenário estendido (ﬁgura 3.2).

Controlador

Aplicação

Cliente

Mediador

Tradutor

<<interface>>

Tradutor

SGBD

Tradutor

Excel

Tradutor

XML

Tradutor

proprietário

<xs:element name="jmxEvent">

<xs:complexType>

<xs:sequence>

<xs:element ref="info"/>

<xs:element ref="source"/>

<xs:element minOccurs="0" maxOccurs>

</xs:sequence>

<xs:attribute name="version" type="xs:string">

</xs:complexType>

</xs:element>

Ontologias

Esquemas das

fontes de dados

Lookup

<<interface>>

Metadados

Interceptador

Tradutor

SGBD

Tradutor

Excel

Tradutor

CSV

Tradutor

XML

<xs:element name="jmxEvent">

<xs:complexType>

<xs:sequence>

<xs:element ref="info"/>

<xs:element ref="source"/>

<xs:element minOccurs="0" maxOccurs>

</xs:sequence>

<xs:attribute name="version" type="xs:string">

</xs:complexType>

</xs:element>

Tradutor

proprietário

<xs:element name="jmxEvent">

<xs:complexType>

<xs:sequence>

<xs:element ref="info"/>

<xs:element ref="source"/>

<xs:element minOccurs="0" maxOccurs>

</xs:sequence>

<xs:attribute name="version" type="xs:string">

</xs:complexType>

</xs:element>

Figura 3.5: Escopo da solução

Os módulos destacados na ﬁgura 3.5 estabelecem o escopo do framework Inte-

grate, que engloba a deﬁnição e a implementação do Interceptador, do Controlador, do

3.3 Escopo 49

Tradutor, do Lookup e do acesso aos metadados.

Assim, como está deﬁnido, um desenvolvedor que pretende utilizar o Integrate,

além de implementar o mediador conforme o cenário desejado, deverá também imple-

mentar o Tradutor, caso as fontes de dados desejadas não forem contempladas pelas im-

plementações fornecidas pelo framework. Neste caso, se este desenvolvedor pretender

utilizar as funções de lookup, também deverá implementar o respectivo Lookup.

A subseção seguinte descreve as principais funcionalidades oferecidas pelo

framework.

3.3.1 Funcionalidades

Esta seção reﬁna o escopo ressaltado na ﬁgura 3.5 por meio das principais

funções do Integrate, que se baseiam nos objetivos e decisões relacionados nas seções

3.1 e 3.2, respectivamente.

Obter esquemas das fontes de dados (F1)

É função dos tradutores implementar uma metodologia para extrair e representar,

de maneira explícita, os esquemas conceituais das fontes de dados que estão sendo

integradas [105]. O Integrate auxilia na obtenção dos esquemas das fontes de dados a

serem integradas, semelhante ao que é feito pelo serviço de lookup apresentado em [60] e

detalhado em [27]. Este serviço é similar ao disponibilizado pela arquitetura de tradutores

descrita em [88] e pelo serviço de extração de estrutura de dados discutido em [105].

O Integrate deve oferecer meio de extensão por meio do qual novos extratores de

metadados possam ser construídos.

Execução de consulta (F2)

Um tradutor é disponibilizado para cada fonte de dados. Como observado em

[81], construir um tradutor envolve esforço signiﬁcativo, onde boa parte do trabalho

envolve tarefas comuns, como armazenamentos temporários e comunicação com outras

camadas, dentre outras.

A camada de tradutores também deve ser extensível, permitindo que novos

tradutores sejam adicionados, similar à arquitetura proposta pelo MOMIS (seção 2.7.2) e

pelo Garlic (seção 2.7.4).

Arquivos de conﬁguração (F3)

Arquivos de conﬁgurações deﬁnem detalhes e informações sobre as fontes de

dados reais, como por exemplo, o URL real necessária para acessar uma fonte de dados via

3.4 Exemplos de uso 50

JDBC. O Integrate deve oferecer serviços para validar e gerir o conteúdo destes arquivos.

Sincronismo de acesso (F4)

Mediador pode fazer requisições ao controlador e ﬁcar aguardando o retorno ou,

de forma assíncrona, fazer requisições ao Controlador e prosseguir sem ser bloqueado.

3.4 Exemplos de uso

Esta seção descreve os principais exemplos de uso de um sistema de integração

que emprega o Integrate, e fornece uma descrição das responsabilidades que devem

ser cumpridas, de acordo com as decisões e funcionalidades relacionadas nas seções

anteriores.

3.4.1 Obter esquemas das fontes de dados

Contexto

O Lookup fornece os esquemas das fontes de dados ao Mediador. Estes esquemas

são empregados opcionalmente pelo Mediador, entre outras coisas, para deﬁnir o esquema

global do ambiente que se deseja integrar.

Suposições e restrições

Supondo que o Integrate esteja devidamente conﬁgurado, a seqüência de passos

abaixo fornece ao Mediador uma coleção de metadados, que descrevem as características

das fontes de dados que se deseja integrar.

Fluxo básico

1. O Mediador requisita ao Controlador os esquemas das fontes de dados.

2. O Controlador acessa e valida os arquivos de conﬁguração.

3. Para cada fonte de dados conﬁgurada, o Controlador cria uma instância de Lookup

(D1).

4. O Controlador requisita, por meio de cada instância de Lookup criada, as caracte-

rísticas da fonte de dados em questão.

5. Cada implementação acessa a fonte de dados que manipula e retorna os metadados.

6. O Controlador monta a coleção de metadados e os retorna ao Mediador (D4, D6).

3.4 Exemplos de uso 51

7. O Mediador solicita o encerramento das conexões com as fontes de dados, através

de serviço oferecido pelo Controlador.

Extensões

No passo 1, o Mediador pode apenas solicitar um arquivo XML que representa

a coleção de metadados (D3). Para esta tarefa, o Controlador executa os passos descritos

acima e monta o arquivo desejado.

Os passos de 3 a 5 podem ser realizados concorrentemente.

3.4.2 Executar consulta (cenário genérico)

Contexto

Seguindo o cenário genérico (ilustrado pela ﬁgura

3.1, pág. 41), a aplicação

cliente envia uma sentença ao Mediador, conforme protocolo Mediador/Controlador

deﬁnido na seção 3.2.4. O Mediador gera um conjunto de subconsultas após os devidos

tratamentos semânticos. Estas subconsultas são repassadas aos Tradutores, para que estes

as convertam nas sentenças especíﬁcas das fontes de dados, obtenham os dados e os

devolvam ao Mediador. Após a integração destes resultados, o Mediador providencia o

retorno à aplicação.

Suposições e restrições

Supõem-se que o Integrate esteja devidamente conﬁgurado. A seqüência de pas-

sos abaixo fornece ao Mediador uma coleção de resultados, cada um contendo registros

de uma fonte de dados, que são integrados e devolvidos à aplicação cliente.

Fluxo básico

1. Aplicação cliente requisita a execução de uma sentença ao Mediador, de acordo

com o protocolo deﬁnido entre eles.

2. O Mediador identiﬁca as fontes de dados e gera as subconsultas, que seria a

sentença original com as devidas transformações semânticas.

3. O Mediador requisita ao Controlador uma consulta integrada, repassando as sub-

consultas.

4. O Controlador identiﬁca e localiza as fontes de dados nos arquivos de conﬁguração,

a partir da requisição enviada pelo Mediador.

3.4 Exemplos de uso 52

5. O Controlador cria instâncias dos Tradutores referentes às fontes de dados desejadas

(D4, pág. 45).

6. O Controlador repassa as subconsultas aos respectivos Tradutores para que sejam

executadas.

7. Cada Tradutor executa a sentença recebida e obtém o resultado da fonte de dados

por ele manipulada.

Lembrando que o modelo de dados é relacional, Tradutores para fontes de dados

não-relacionais devem converter a sentença recebida para o formato reconhecido

pela fonte de dados manipulada por ele.

8. Os resultados obtidos são retornados ao Controlador. Tradutores não-relacionais

fazem antes a conversão dos resultados obtidos do seu formato original para o

formato relacional.

9. Após receber os resultados parciais de cada Tradutor, o Controlador monta uma

coleção e a devolve ao Mediador.

10. O Mediador faz a integração dos registros retornados pelo Controlador (D6), e

retorna o resultado integrado à aplicação cliente.

11. O Mediador solicita o encerramento das conexões com as fontes de dados, através

de serviço oferecido pelo Controlador.

Extensões

No passo 3, a requisição pode ser feita através de mensagem em formato XML,

contendo as informações presentes nas subconsultas.

Observe que é possível a execução concorrente dos Tradutores nos passos 5 a 8.

A coleção retornada no passo 9 pode ser feita em um arquivo XML (D3).

Se preferir, o Mediador requisita este arquivo no passo 3. Para executar esta tarefa, o

Controlador executa os passos descritos acima e monta o arquivo desejado.

3.4.3 Executar consulta (cenário estendido)

Contexto

Seguindo o cenário extendido (ﬁgura 3.2, pág. 41), a aplicação envia uma

requisição que é interceptada. Um conjunto de subconsultas é gerado pelo Mediador

após os devidos tratamentos semânticos. Estas subconsultas são então repassadas aos

Tradutores, para que estes obtenham os dados.

3.4 Exemplos de uso 53

Suposições e restrições

Supõem-se que o Integrate esteja devidamente conﬁgurado. Supõem-se também

que qualquer sentença conhecida nas aplicações clientes possam ser transformadas pelo

Mediador.

A seqüência de passos abaixo fornece uma coleção de resultados, cada um

contendo registros de uma fonte de dados, que são integrados e devolvidos à aplicação

cliente.

Fluxo básico

1. A aplicação cliente utiliza o URL padronizado para o Integrate, em vez de usar

o URL original e acessar diretamente a fonte de dados para a qual foi construída

(D1). O URL de conexão do Integrate identiﬁca a base de dados de origem e a(s)

de destino desejada(s) pela aplicação cliente.

2. Aplicação cliente requisita a execução da sentença S.

3. O Interceptador, que intercepta todas as requisições, recebe S e a repassa ao

Controlador.

4. O Controlador repassa S ao Mediador, informar também as fontes de dados de

destino desejadas.

5. O Mediador identiﬁca as fontes de dados e gera as subconsultas, que seria a sen-

tença S com as devidas transformações semânticas (D4), e as retorna ao Intercepta-

dor.

Convém ressaltar que as subconsultas desempenham um “papel semelhante” ao que

S desempenha na base original para a qual foi deﬁnida.

Formalmente, se S é a sentença original empregada pelo cliente para a base B, então

obtêm-se o conjunto de sentenças s1, s2, ..., sn, para i = 1...n, onde si é a sentença

correspondente a S para a base Bi. Ou seja, si desempenha para a base Bi o mesmo

efeito que S desempenha para a base B.

6. O Inteceptador requisita ao Controlador uma consulta integrada, repassando a este

as fontes de dados de destino e suas respectivas subconsultas.

7. O Controlador identiﬁca e localiza as fontes de dados nos arquivos de conﬁguração,

a partir da requisição.

8. O Controlador cria instâncias dos Tradutores referentes às fontes de dados desejadas

(D1, D4).

3.4 Exemplos de uso 54

Figura 3.6: Diagrama de seqüência - consulta integrada

3.4 Exemplos de uso 55

9. O Controlador repassa uma subconsulta si para o respectivo Tradutor para que seja

executada.

10. O Tradutor executa a sentença si recebida na fonte de dados por ele manipulada e

obtém o resultado.

Lembrando que o modelo de dados é relacional, Tradutores para fontes de dados

não-relacionais devem converter a sentença recebida para o formato reconhecido

pela fonte de dados manipulada por ele.

11. Os resultados obtidos são retornados ao Controlador. Tradutores não-relacionais

devem fazer antes a conversão dos registros obtidos da fonte de dados do seu

formato original para o formato relacional.

12. Após receber os registros de cada Tradutor, o Controlador monta uma coleção

destes retornos e a repassa ao Mediador, para que este faça a integração dos

registros.

13. O Mediador faz a integração dos resultados de acordo com o esquema da fonte de

dados da aplicação cliente que solicitou a sentença, e devolve o resultado integrado

ao Controlador.

14. O Controlador envia o resultado integrado ao Interceptador, que o devolve à

aplicação cliente que fez a requisição S original (D1, D4).

15. Quando a aplicação cliente solicitar o encerramento da conexão que ela conhece,

o Interceptador solicita o encerramento de todas as conexões criadas, através de

serviço oferecido pelo Controlador.

O diagrama de seqüência da ﬁgura 3.6 (pág. 54) exibe de forma resumida o

processo descrito acima.

Extensões

Observe que é possível a execução dos passos de 8 a 11 de forma concorrente.

A requisição feita pelo Controlador no passo 12 pode ser feita através de

mensagem XML, com o resultado também sendo retornado neste formato. Nesta caso,

antes do passo 14, o Controlador converte o resultado integrado antes de devolvê-lo ao

Interceptador.

3.5 Requisitos de software 56

3.5 Requisitos de software

O escopo do Integrate foi apresentado em alto nível na seção 3.3, e o uso típico

foi ilustrado por exemplos de uso na seção

3.4. Nesta seção, o escopo é reﬁnado em

requisitos de software úteis à implementação do Integrate.

Após cada requisito segue uma referência no formato [Fn, pág. x] para a funci-

onalidade atendida pelo requisito, onde n é o número da funcionalidade atendida e x o

número da página em que foi fornecida. O mesmo modelo de referência foi adotado para

[Dn, pág. x], onde Dn é o número da decisão que originou o requisito.

3.5.1 Requisitos funcionais

RF1. O Integrate deve abstrair do desenvolvedor do mediador a necessidade de conhecer

os formatos dos dados. Uma interface deve ser bem deﬁnida para interagir com o

tradutor [F2, pág. 49].

RF2. As trocas de mensagens devem ser feitas em formato relacional [D3, pág. 45],

implementado através de JDBC.

RF3. O Integrate deverá implementar um protocolo de comunicação com o Mediador

[D4, pág. 45].

RF3.1. A troca de mensagens entre o Controlador e o Mediador pode ser realizada

através de XML [D3, pág. 45].

RF3.2. Opcionalmente uma API deve disponibilizar ao Mediador as mesmas infor-

mações presentes no XML citado acima [F2, pág.

49] [D3, pág. 45].

RF4. O Integrate deve fornecer uma interface por meio da qual o Mediador tenha acesso

ao esquema dos dados [F1, pág.

49].

RF5. Para as aplicações clientes que não podem ser alteradas, o Integrate deve implemen-

tar um driver JDBC próprio, que desempenhará as funções do Interceptador [D4,

pág. 45].

RF6. O desenvolvedor do mediador deve implementar interface deﬁnida pelo Integrate,

para padronizar as requisições feitas pelo Controlador [D4, pág. 46].

RF7. As requisições do Mediador podem ser executadas de maneira síncrona ou assín-

crona [F4, pág. 50].

3.5 Requisitos de software 57

RF8. Tradutores para os formatos relacional e CSV

devem ser implementados pelo

Integrate, a partir de uma API que permita que outros componentes possam ser

adicionados. Ou seja, clientes que necessitem de acessar formatos proprietários ou

que não sejam cobertos pelo Integrate deverão criar seus próprios Tradutores [F2,

pág. 49].

RF9. O Tradutor deve disponibilizar informações sobre a execução das requisições

(tempo inicial, tempo ﬁnal, duração).

RF10. Um serviço de armazenamento (log) das requisições solicitadas deve ser disponibi-

lizada pelo Integrate.

3.5.2 Considerações sobre requisitos

A facilidade de uso das API’s do produto deverá ser buscada através de projeto

adequado, sem necessidade de conhecimento da estrutura interna do modelo e sem

que sua implementação interﬁra nos componentes existentes, assim como proposto em

[60, 87, 88].

A relação abaixo lista algumas características não consideradas no projeto:

• As aplicações clientes e as bases de dados existentes não precisam necessariamente

ser alteradas para usufruir de integração apoiada pelo Integrate [O5, pág. 40].

• Por se tratar de um sistema que irá intermediar as requisições feitas por aplicações

clientes [F2, pág. 49], com consumo de recursos, aplicações existentes tendem a

apresentar queda de desempenho. Inicialmente, não está prevista nenhuma restrição

neste sentido.

• Um problema central de sistemas mediados é a otimização de consultas de maneira

eﬁciente, onde um conjunto de sentenças é usado para responder uma sentença

original e um plano de acesso que especiﬁca a ordem do retorno e a manipulação

dos dados é gerado. Estas questões não serão tratadas neste trabalho.

• Como o Integrate funciona como um proxy [39, 43] entre a aplicação cliente e as

fontes de dados reais, o mesmo não se preocupa com questões como gerência de

transação (gerência e garantia das propriedades ACID

quando no caso de alteração

nas fontes de dados), controle de concorrência (mecanismo de controle quando da

ocorrência de pelo menos um pedido de atualização sobre um mesmo dado entre

Acrônimo de “comma-separated values”, ou seja, valores separados por vírgula. São arquivos texto

cujos valores são separados por vírgula. Outros caracteres podem ser usados como separador.

Atomicidade, consistência, isolamento e durabilidade.

3.6 Processo de uso 58

transações concorrentes) e gerência de regras (capacidade de reagir automatica-

mente à ocorrência de determinados eventos), pois espera-se que as fontes de dados

reais executem estas tarefas. Em sistemas de integração, devido à autonomia das

fontes de dados, implementar estes controles é tarefa complexa [5]. Logo, os mes-

mos não serão aqui especiﬁcados, devendo ser melhor estudados e detalhados em

outros trabalhos dirigidos para este ﬁm, considerando a complexidade e especiﬁci-

dade de tais linhas de pesquisa.

• Cálculos estatísticos sobre as requisições ou manutenção dos resultados obtidos das

fontes de dados (cache) não devem ser tratados.

• O presente trabalho não considera o tratamento de questões de controle de segu-

rança no acesso às fontes de dados.

3.6 Processo de uso

A deﬁnição do Integrate nas seções anteriores sugere um processo de uso, cujos

papéis pertinentes são listados abaixo. Em seguida é apresentado um cenário típico de

processo de instanciação do Integrate.

3.6.1 Papéis

• Desenvolvedor semântico - cria o Mediador que troca mensagens com o Integrate

através de um modelo de dados predeﬁnido, realizando todo o processamento

semântico necessário. Opcionalmente, ontologias podem ser utilizadas.

• Desenvolvedor JDBC - cria Tradutores para acessar formatos de dados não cober-

tos pelo Integrate, ou seja, formatos proprietários ou que não disponham de um

Tradutor disponibilizado.

• Administrador do sistema de integração - por conhecer as aplicações e as fontes de

dados existentes, deﬁne as conﬁgurações do Integrate.

3.6.2 Processo de instanciação

1. O desenvolvedor semântico cria um Mediador projetado para utilizar os serviços do

Integrate, exigindo, então, que este conheça os serviços disponibilizados. Está além

do escopo do Integrate orientar esta criação.

2. Para a execução de sentenças, o Mediador utilizará os Tradutores disponibilizados

pelo Integrate ou outros, implementados por um desenvolvedor JDBC.

3.6 Processo de uso 59

2.1. Se o Tradutor para a fonte de dados desejada não for implementado pelo Inte-

grate, o desenvolvedor JDBC criará seus próprios Tradutores, implementando

a API especíﬁca. À semelhança do caso anterior, deve-se conhecer os serviços

oferecidos pelo Integrate e como utilizá-los.

3. O Adminitrador do sistema de integração, que conhece as fontes de dados e

as possibilidades de integração entre elas, deﬁne o arquivo de conﬁguração do

Integrate que relaciona as integrações desejadas.

4. O Administrador do sistema altera a conﬁguração da aplicação cliente para que

esta utilize o URL especíﬁca do Integrate, e executa uma das sentenças originais da

aplicação.

Exemplos são fornecidos no capítulo 5, e permitem ilustrar o conhecimento

necessário sobre o Integrate com o propósito de adequadamente empregá-lo.

CAPÍTULO 4

Integrate - Projeto e implementação

A descrição conceitual da proposta de solução Integrate para a integração de

fontes de dados heterogêneas foi fornecida no capítulo anterior. Em particular, o Integrate

adota um modelo de solução inspirado na arquitetura mediador/tradutor e oferece serviços

por meio de um framework.

Este capítulo apresenta o projeto de software do Integrate. A seção 4.1 discorre

sobre a arquitetura de software. A seção 4.2 apresenta alguns detalhes da implementação,

e, ﬁnalmente, a seção 4.3 comenta as ferramentas empregadas que auxiliaram a imple-

mentação.

4.1 Arquitetura de software

A arquietura de software é descrita por várias perspectivas, similar ao sugerido

em [56], registrado essencialmente por meio de diagramas UML [77]:

• A perspectiva lógica compreende os principais conceitos oferecidos pelo Integrate

e a relação entre eles (ﬁgura 4.1).

• A perspectiva de processo apresenta como os elementos funcionais estão organi-

zados em processos (ver diagrama 4.2), com enfoque nos aspectos dinâmicos do

modelo, descrevendo o comportamento em tempo de execução. Convém ressaltar

que a presença de SGBDs, possivelmente disponíveis de maneira distribuída sobre

uma rede, de forma autônoma uns dos outros, e a possibilidade do emprego de thre-

ads

para a execução concorrente de alguns dos serviços oferecidos pelo Integrate,

tornam a perspectiva de processos imprescindível.

• A perspectiva de desenvolvimento ressalta a organização do Integrate em módulos,

componentes ou subsistemas e a relação entre estes elementos. Esta perspectiva

Processo é um módulo executável único, que corre concorrentemente com outros módulos executáveis.

Thread, ou linha de execução, é uma forma de um processo dividir a si mesmo em duas ou mais tarefas que

podem ser executadas simultaneamente. Múltiplas threads podem ocorrer dentro de um mesmo processo.

Fonte: http://en.wikipedia.org/wiki/Thread

4.1 Arquitetura de software 61

Figura 4.1: Perspectiva lógica

Figura 4.2: Perspectiva de processos

4.1 Arquitetura de software 62

Figura 4.3: Perspectiva física

Figura 4.4: Diagrama de componentes

4.2 Implementação dos módulos 63

Figura 4.5: Diagrama de implantação

é particularmente útil para a alocação de requisitos aos elementos identiﬁcados

(ﬁgura 4.6).

• A perspectiva física apresenta o cenário típico de emprego do Integrate, onde os

elementos com capacidade de processamento são apresentados juntamente com as

relações entre eles. Esta perspectiva ressalta onde processos e threads apresentados

na perspectiva de processos são executados (ﬁgura 4.3). Os diagramas de compo-

nentes 4.4 e o de implantação 4.5 exibem as dependências entre os componentes de

software e a ligação deste software aos dispositivos físicos, respectivamente.

4.2 Implementação dos módulos

A ﬁgura 4.6 exibe todos os pacotes deﬁnidos e suas inter-relações, com comen-

tários nas subseções seguintes sobre as principais classes e interfaces

4.2.1 Metadados

Uma das principais tarefas executadas antes do uso do Integrate é o devido

preenchimento dos seus arquivos de conﬁguração. Todos eles são devidamente validados

antes de serem processados. A validação de documentos pode ser feita por meio de

documentos DTD [115], ou XML Schema

[109, 114]. A validação no Integrate utiliza

arquivos XML Schema, assim como em [60, 118].

Todos os arquivos são convertidos em objetos em memória sob demanda, na

inicialização dos serviços que necessitem destas informações.

Os nomes de classes e de métodos aparecem em inglês, que foi a língua utilizada na confecção do

código-fonte implementado.

A principal diferença entre DTD e XML Schema é que DTDs não podem deﬁnir tipos e tipos derivados,

necessários em aplicações mais avançadas. Por outro lado, DTDs fornecem deﬁnições de entidades. Assim,

ambos podem ser usados para validar um documento XML [63].

4.2 Implementação dos módulos 64

Figura 4.6: Perspectiva de desenvolvimento

4.2 Implementação dos módulos 65

Os principais arquivos de conﬁguração do sistema são:

• integrate-datasources.xml - Principal arquivo de conﬁguração do sistema. Nele

são deﬁnidas informações como as classes que implementam as interfaces Wrapper

e Lookup e as informações de conexão dos drivers JDBC reais utilizados. Cada

fonte de dados contém um identiﬁcador único. Segue um exemplo do referido

arquivo para uma fonte de dados relacional cujo identiﬁcador é mysql:

<?xml version="1.0" encoding="UTF-8"?>

<wrapper>br.ufg.integrate.wrapper.WrapperJDBC</wrapper>

<lookup>br.ufg.integrate.lookup.LookupJDBC</lookup>

<typeConfFile>conf/MySQLTypeConf.xml</typeConfFile>

br.ufg.integrate.xml.type.TypeJDBCConf

</typeConfClass>

<schema>department</schema>

<jdbc-driver>com.mysql.jdbc.Driver</jdbc-driver>

<url>jdbc:mysql://localhost/department</url>

</datasource>

</datasources>

• integration.xml - Deﬁne as integrações desejadas. Cada integração possui um

identiﬁcador, que corresponde ao que é utilizado no URL de conexão do driver

JDBC implementado pelo Interceptador (ver seção 4.2.5). Neste arquivo deﬁnem-

se as fonte de dados de origem a de destino que se deseja integrar, sendo uma única

de origem (a fonte de dados original para o qual a aplicação cliente foi inicialmente

desenvolvida) e uma ou mais de destino. Para isso, utilizam-se os identiﬁcadores

deﬁnidos no arquivo integrate-datasources.xml. Logo, há uma dependência entre

estes dois arquivos de conﬁguração, conforme ﬁgura 4.7.

Figura 4.7: Dependências entre arquivos de conﬁguração

Um exemplo de preenchimento deste arquivo é exibido abaixo. No exemplo, a

integração identiﬁcada por teste1 indica que para um cenário que originalmente

4.2 Implementação dos módulos 66

acessa a fonte de dados identiﬁcada como mysql (fonte de dados que originalmente

recebe a sentença), deseja-se que sejam integrados os resultados das fontes de

dados mysql e hsqldb. No caso do identiﬁcador teste2, deseja-se que a aplicação

cliente que originalmente acessa a fonte de dados mysql passe a acessar a fonte de

dados hsqldb. Neste exemplo, estes identiﬁcadores mysql e hsqldb devem estar

conﬁgurados no arquivo integrate-datasources.xml.

<?xml version="1.0" encoding="UTF-8"?>

<source>mysql</source>

<target>mysql</target>

<target>hsqldb</target>

</integration>

<source>mysql</source>

<target>hsqldb</target>

</integration>

</integrations>

• integrate-conﬁg.xml - Deﬁne conﬁgurações de operação do Integrate, como a

classe que implementa a interface Mediator e como reagir em situações de erro,

dentre outras. Abaixo, um exemplo de conﬁguração:

<?xml version="1.0" encoding="UTF-8"?>

<mediatorImpl>example.MediatorImpl</mediatorImpl>

</config>

O parâmetro dateFormat deﬁne o formato de impressão da data/hora nos logs de

erro

. O parâmetro stopOnError deﬁne se o Integrate interrompe o processamento

em caso de erro ou se prossegue. O valor de printErrors deﬁne se o erro ocorrido

será impresso na saída padrão ou se somente no arquivo de log de erros do sistema.

O valor deﬁnido para printResultSet estipula se os registros obtidos são ou não

impressos na saída padrão, úteis para ambientes de teste. O mesmo serve para o

parâmetro printXMLSchema, que imprime ou não as requisições de metadados.

O valor de mediatorImpl indica a classe que implementa a interface Mediator,

para que o Controlador crie uma referência em tempo de execução.

São válidos os formatos deﬁnidos para a classe java.util.SimpleDateFormat.

4.2 Implementação dos módulos 67

• *TypeConf.xml - Um dos serviços disponibilizados pelo Integrate é o fornecimento

de um arquivo XML que contém os esquemas das fontes de dados que se deseja

integrar (ver seção 4.2.4). Para este serviço, é necessário fazer conversões entre os

tipos de dados de JDBC e de XML Schema [114]. A conversão dos tipos JDBC para

os tipos XML Schema é ﬁxa, pois os tipos são bem deﬁnidos nas especiﬁcações

destas linguagens. O problema está na variedade de tipos especíﬁcos de cada

fonte de dados. Como não há uma padronização entre as fontes de dados (nem

mesmo entre os fornecedores de SGBD’s), cada uma disponibiliza seus próprios

tipos de dados. Para contornar este problema, o Integrate necessita de arquivos de

conﬁguração que façam a correspondência um-para-um entre os tipos de dados

JDBC e os tipos deﬁnidos para a fonte de dados, arquivos estes que devem ser

conﬁgurados previamente, um para cada tipo de fonte de dados. Abaixo segue um

arquivo de exemplo.

<?xml version="1.0" encoding="UTF-8"?>

br.ufg.integrate.xml.type.jdbc.datasource.MySQLTypes

</DataSourceTypesClass>

<BIT>SMALLINT</BIT>

<BOOLEAN>INTEGER</BOOLEAN>

<DECIMAL>DECIMAL</DECIMAL>

<DOUBLE>DOUBLE PRECISION</DOUBLE>

<FLOAT>FLOAT</FLOAT>

<INTEGER>INTEGER</INTEGER>

<LONGVARCHAR>VARCHAR</LONGVARCHAR>

<NUMERIC>NUMERIC</NUMERIC>

<SMALLINT>SMALLINT</SMALLINT>

<TIMESTAMP>TIMESTAMP</TIMESTAMP>

<TINYINT>SMALLINT</TINYINT>

<VARCHAR>VARCHAR</VARCHAR>

</JDBC2SQLVendorType>

</TypeJDBCConf>

Como supracitado, este arquivo mapeia a relação dos tipos de dados JDBC para os

tipos do MySQL [70] (elemento <JDBC2SQLVendorType>). O elemento <Data-

SourceTypesClass> indica a classe que fornece o mapeamento inverso, dos tipos

do MySQL para os tipos JDBC. O nome deste arquivo não é ﬁxo, mas deve ser in-

4.2 Implementação dos módulos 68

formado no arquivo integrate-datasources.xml (ver os elementos <typeConfFile> e

<typeConfClass> no exemplo acima). Estes arquivos são lidos durante a inicializa-

ção do Integrate e armazenados em memória. A idéia e o formato deste arquivo foi

inspirado em [33, 74]. O MOMIS (ver seção 2.7.2) faz um tipo de conversão seme-

lhante [22], só que a conversão é feita para ODLi3 (modelo de dados deﬁnido por

este sistema). Os arquivos dos principais SGBD’s contendo os mapeamentos entre

os tipos já são fornecidos pelo Integrate. Novas versões destes SGBD’s ou novos

produtos ou de fontes de dados proprietárias necessitam da deﬁnição destes arqui-

vos. Implementadores de novos tradutores que executem o lookup também devem

implementar classes que os manipule (ver documentação).

4.2.2 Controlador

Inspirado no CoDIMS

(ver seção 2.7.3), este módulo intermedeia as trocas de

mensagens com o Mediador e também entre os demais módulos do Integrate. Este módulo

oferece serviços por meio da classe Controller.

Como supracitado, a interação com o Controlador é feita através do modelo

relacional. Para isso, as trocas de mensagens são executadas via JDBC.

Para garantir uma única instância na execução do framework, o Controlador

implementa o padrão de projeto

conhecido como Singleton [39]. A estrutura de classes

é exibida na ﬁgura 4.8.

Figura 4.8: Implementação do Controller

Conﬁgurações iniciais

Os principais serviços oferecidos pelo Integrate (lookup e consultas integradas)

são disponibilizados através de métodos da classe Controller. A execução destes métodos

Embora o referido sistema não implemente a arquitetura de mediadores.

Tradução para design pattern, expressão amplamente utilizada na comunidade.

4.2 Implementação dos módulos 69

internamente providencia a carga de objetos que representam os arquivos de conﬁguração

(ver seção 4.2.1) de acordo com a demanda, criando objetos em memória para facilitar

sua manipulação.

Consultas integradas

Há dois tipos de serviços desta natureza disponibilizados pelo Controlador. Um

que retorna um java.sql.ResultSet e outro que retorna a coleção de resultados como texto.

Este texto pode ser salvo em um arquivo XML, através de outro serviço disponibilizado,

de acordo com esquema deﬁnido pelo Integrate. A primeira opção permite a comunicação

em JDBC puro, e a segunda permite que o Mediador acesse os resultados em formato

XML, sem a necessidade de manipular JDBC diretamente.

Na primeira opção, o Controlador recebe como argumentos a sentença SQL

original vinda da aplicação cliente e um identiﬁcador da integração desejada (ver seção

4.2.1, sobre arquivo integration.xml). Os ResultSet’s são inseridos em uma coleção,

posteriormente repassada ao Mediador para que este faça a integração dos resultados em

um ResultSet único, no formato esperado pela aplicação cliente.

Na segunda opção, o Controlador recebe os identiﬁcadores das fontes de dados e

suas respectivas subconsultas. Após obter os ResultSet’s, o Controlador cria uma estrutura

que compõe o conteúdo de um arquivo XML, onde cada ResultSet aparece de forma

isolada. Este conteúdo pode ser manipulado posteriormente pelo Mediador. O esquema

deste arquivo XML foi inspirado no trabalho apresentado em [34]. Um exemplo de

resultado gerado pode ser visualizado na seção 5.2.2, página 81.

Neste exemplo, o elemento id é o identiﬁcador conﬁgurado no arquivo integrate-

datasources.xml.

Para a execução de sentenças, o Controlador instancia uma interface (ver seção

4.2.3) para cada fonte de dados envolvida na integração desejada, instanciação feita em

tempo de execução de acordo com deﬁnição feita no arquivo integrate-datasources.xml

(ver o elemento <wrapper> no exemplo do referido arquivo).

Coleção de ResultSet’s

Conforme supracitado, os ResultSet’s, após obtidos, são inseridos em uma

coleção para serem posteriormente integrados pelo Mediador. O Integrate, ao processar

os arquivos de conﬁguração na inicialização, ordena as referências das fontes de dados

pela ordem alfabética dos seus identiﬁcadores. Para inserir os ResultSet’s na coleção, o

Integrate usa os identiﬁcadores deﬁnidos na integração e os insere respeitando esta ordem.

4.2 Implementação dos módulos 70

Obtenção de esquemas

Para obter os esquemas das fontes de dados o Integrate usa um processo seme-

lhante ao descrito acima para consultas. Para cada fonte de dados uma classe que imple-

menta a interface Lookup (ver seção 4.2.4) é instanciada em tempo de execução. Esta

classe deve ser deﬁnida no arquivo integrate-datasources.xml (ver elemento <lookup> no

exemplo do referido arquivo).

O serviço retorna um java.sql.DatabaseMetaData. Para evitar a necessidade

deste conhecimento por parte do desenvolvedor do mediador, o Controlador disponibiliza

um serviço que gera estes esquemas em um arquivo XML. O formato do texto presente

neste arquivo contém os metadados dos esquemas convertidos em XML Schema. Esta

conversão e o modelo de arquivo gerado é semelhante ao proposto em [

27, 62, 103].

Este serviço varre a coleção de metadados obtidos, fazendo a conversão dos tipos de

dados de JDBC para os tipos deﬁnidos para XML Schema. Para executar esta conversão,

são necessários os arquivos *TypeConf.xml (ver seção 4.2.1) e uma implementação da

interface DataSourceTypes. O Integrate implementa esta interface para algumas fontes

de dados relacionais e para arquivos CSV, conforme ilustra a ﬁgura 4.9.

Figura 4.9: Interface para conversão de tipos entre XML Schema

e JDBC

Um exemplo do arquivo gerado pode ser visto no capítulo 5.

Coleção de esquemas

Uma coleção de objetos que representam os metadados é montada à medida que

estes são obtidos, seguindo a ordem alfabética dos identiﬁcadores das fontes de dados.

Serviços de gerenciamento

Entre os serviços prestados pelo Controlador há funções que buscam facilitar o

gerenciamento das operações executadas por ele. Entre elas está o cálculo do tempo de

4.2 Implementação dos módulos 71

duração de uma consulta integrada. Sempre que uma sentença é solicitada, internamente

o Integrate marca o tempo inicial e ﬁnal da execução de cada subconsulta, e calcula o

tempo de duração total da consulta integrada. A chamada de um método especíﬁco após

a execução de uma sentença retorna a sua duração.

Mensagens de erro

Em uma das opções de conﬁguração (arquivo integrate-conﬁg.xml), o sistema

interrompe todo o processo, caso haja algum erro, e retorna a exceção gerada. Outra con-

ﬁguração permite que o processo de obtenção dos resultados parciais continue, desconsi-

derando os resultados da fonte de dados que gerou o erro.

Para os serviços que geram o resultado em arquivos XML, além da opção de

abortar todo o processo ou desconsiderar alguma fonte de dados, o sistema permite que

o XML gerado desconsidere a fonte de dados ou então imprima no arquivo a exceção

gerada, no local onde deveriam aparecer os resultados.

Acesso direto à conexão

O Integrate permite a conexão direta com a fonte de dados. Neste caso, o

Integrate apenas intermedeia a obtenção da conexão.

Encerrando os serviços

Após a utilização do Integrate é necessária a execução de um método do Contro-

lador que encerra os recursos utilizados durante a execução de requisições das aplicações

clientes, como por exemplo as conexões criadas.

4.2.3 Tradutor

A ﬁgura 4.10 exibe a interface Wrapper, que implementa o módulo Tradutor

descrito no capítulo 3. Novos tradutores podem ser criados, bastando implementá-la.

Como o modelo de dados do Integrate é o relacional, os tradutores que manipu-

lam fontes de dados relacionais, como a classe WrapperJDBC, podem utilizar os drivers

JDBC especíﬁcos para as fontes de dados, funcionando apenas como um proxy [39, 43],

repassando a sentença SQL à fonte de dados manipulada e devolvendo ao Controlador o

resultado obtido. Tradutores de outros formatos devem fazer as conversões necessárias,

através de classes que implementem a interface descrita acima.

Como pode ser visto na documentação do Integrate, os retornos dos métodos

getConnection() e executeQuery() retornam respectivamente um java.sql.Connection e

um java.sql.ResultSet. Ou seja, há dependência de JDBC, assim como conhecimento

4.2 Implementação dos módulos 72

Figura 4.10: Interface para tradutores

especíﬁco da fonte de dados para a qual esteja desenvolvendo e fazer a conversão deste

formato para os objetos JDBC. Implementar esta interface para formatos especíﬁcos é

praticamente implementar um driver JDBC para este formato.

Para simpliﬁcar a tarefa de implementar um driver JDBC para o desen-

volvedor, o Integrate disponibiliza classes nos pacotes br.ufg.intergrate.wrapper.jdbc

e br.ufg.intergrate.wrapper.jdbc.impl. Estas classes implementam parcialmente a API

JDBC, com alguns métodos abstratos. Assim, o desenvolvedor pode criar suas classes

que implementam parcialmente um driver JDBC apenas implementando alguns métodos.

Isso auxilia a implementação de drivers mais simples, sem toda a funcionalidade deﬁnida

pela API JDBC. Este conjunto de classes foi utilizado para deﬁnir o driver JDBC imple-

mentado para arquivos CSV. Esta implementação permitiu a manipulação deste formato

de dados de maneira relacional. A ﬁgura 4.11 exibe as classes deste driver.

Para facilitar a implementação, optou-se pela adaptação de um driver para

arquivos CSV existente [1], com algumas alterações.

Em versões futuras, quando novos modelos de dados forem propostos, a imple-

mentação da interface Wrapper será responsável em converter deste novo modelo para o

relacional, e também no sentido inverso. Isso permitirá que o Controlador mantenha uma

troca de mensagens com o Mediador com um maior nível de abstração.

Como supracitado, estes novos modelos de dados são normalmente baseados

em XML. Logo, a implementação desta interface será responsável em converter dados

relacionais para XML, como proposto pelos trabalhos feitos em [37, 71, 91].

4.2 Implementação dos módulos 73

Figura 4.11: Driver JDBC para arquivos CSV. Este driver foi

adaptdado de [1], e implementa a API JDBC parcial

deﬁnida pelo Integrate.

4.2.4 Lookup

O Integrate auxilia o Mediador na deﬁnição do esquema global, ao disponibilizar

serviços que facilitam a obtenção dos esquemas das fontes a serem integradas.

A ﬁgura 4.12 exibe interface com algumas implementações. Novamente, novas

classes podem ser implementadas a partir desta interface.

Da maneira como foi citado na subseção acima, a classe LookupJDBC age apenas

como um proxy [39, 43], repassando as requisições para o driver real e obtendo os detalhes

do esquema como objetos java.sql.DatabaseMetaData.

4.2.5 Interceptador

O conjunto de classes do pacote br.ufg.integrate.jdbc implementa o driver JDBC

(seguindo a especiﬁcação de JDBC da Sun [99, 101]) que intercepta as requisições feitas

por aplicações clientes.

Para a utilização do Interceptador, a aplicação cliente deve fazer uso do URL de

conexão especíﬁco do Integrate, no formato jdbc:integrate:id, onde o id é o identiﬁcador

da integração desejada, conﬁgurada no arquivo integration.xml (ver seção 4.2.1). Neste

4.2 Implementação dos módulos 74

Figura 4.12: Interface para o serviço de lookup

exemplo de URL, o identiﬁcador determina univocamente o cenário desejado pelo cliente

(origem e destino, driver JDBC real a ser utilizado, login e senha de acesso, etc.).

A requisição interceptada é repassada ao Controlador, junto com o identiﬁcador

da integração desejada, para que seja feita a integração dos resultados. Quando o ResultSet

integrado é retornado ao Interceptador, este o devolve à aplicação cliente.

4.2.6 Mediador

Figura 4.13: Interface para o mediador

A decisão D5 sugere o uso de ontologias para auxiliar as questões semânticas

realizadas pelo Mediador, porém nenhum suporte ao emprego de ontologias é oferecida

na versão corrente do framework. O emprego de ontologias ﬁca a cargo do desenvolvedor

do mediador que utilizar o Integrate.

Para utilizar o Integrate no cenário 2 (ver seção 3.4.3), o desenvolvedor do me-

diador deve implementar a interface Mediator (ver ﬁgura 4.13). A classe que implementa

esta interface deve ser deﬁnida no arquivo integrate-conﬁg.xml do Integrate, para que o

Controlador possa armazenar internamente uma referência para esta implementação e uti-

lizar os serviços deﬁnidos.

Segue uma breve descrição dos métodos que devem ser implementados:

4.3 Ferramentas de apoio 75

• integrate() - solicita ao Mediador a integração da coleção de resultados obtidos das

fontes de dados.

• start() - dá ao Mediador a possibilidade de inicializar os recursos necessários para

o seu devido funcionamento.

• stop() - solicita ao Mediador o encerramento dos recursos inicializados.

• transformSQL() - a partir de um comando SQL informado como argumento, é

esperado deste método as subconsultas referentes a cada fonte de dados envolvida

no processo de integração.

Inicialmente o Integrate comunica-se com o Mediador através de JDBC puro (ver seção

3.2.4). Ou seja, o Integrate ainda exige do Mediador conhecimento de SQL e de JDBC.

Uma das propostas futuras do Integrate é deﬁnir um protocolo de mais alto nível, que

permita esta troca de informação através de mensagens que eximam do Mediador este

conhecimento.

4.3 Ferramentas de apoio

Para a confecção do código-fonte do Integrate, feito em Java, foram utilizadas

algumas ferramentas que auxiliaram os trabalhos.

A implementação do driver JDBC do Interceptador foi feita com adaptações

sobre o código do xlSQL [17], com sugestões do driver JDBC genérico apresentado em

[76] e com base na especiﬁcação da Sun [99, 101]. O driver para CSV citado na seção

4.2.2 foi adaptado do CvsJdbc [1]. O parser

empregado na manipulação dos arquivos

XML de conﬁguração foi o Commons-Digester [85], que, apesar de não ter o melhor

desempenho entre os disponíveis, é de fácil programação. Para a execução dos estudos de

caso (ver capítulo 5), foi utilizado o banco de dados HSQLDB [48].

Parsing é o processo de analisar uma seqüência de texto para determinar sua estru-

tura gramatical. O parser é o componente de um compilador que executa esta tarefa. Fonte:

http://en.wikipedia.org/wiki/Parser.

CAPÍTULO 5

Estudo de caso

Este capítulo apresenta dois estudos de caso que experimentam a proposta de

integração baseada no Integrate.

A primeira seção exibe as fontes de dados e os arquivos de conﬁguração deﬁni-

dos para os estudos de caso. A seção 5.2 apresenta o primeiro estudo de caso, que exibe

alguns exemplos de uso dos serviços disponibilizados pelo Integrate, executados por um

mediador ﬁctício. O segundo estudo de caso é exibido na seção 5.3, onde é demonstrada

uma solução para o problema apresentado na seção 1.2, que é a integração de duas fontes

de dados heterogêneas sem a alteração da aplicação cliente original.

Os códigos-fonte citados encontram-se no Apêndice A, página 104.

5.1 Deﬁnições

Nesta seção encontram-se as conﬁgurações básicas necessárias para a execução

dos estudos de caso, que são as fontes de dados e os arquivos que devem ser conﬁgurados

para a correta operação do Integrate.

5.1.1 Fontes de dados

Para os estudos de caso, foram utilizadas duas fontes de dados heterogêneas:

uma fonte de dados relacional (uma base de dados HSQLDB [48]) e um arquivo texto

(um arquivo CSV). Os esquemas das fontes são os seguintes:

HSQLDB

CREATE TABLE CLIENTES(

CODCLIENTE INTEGER NOT NULL PRIMARY KEY,

NOME VARCHAR(20) NOT NULL,

SOBRENOME VARCHAR(20) NOT NULL)

)

A ﬁgura 5.1 exibe os registros da fonte de dados HSQLDB, utilizando a ferra-

menta de consulta deste banco de dados.

5.1 Deﬁnições 77

Figura 5.1: Consulta feita no HSQLDB, com os registros originais

CSV

Esta fonte de dados contém registros separados por vírgula, na seguinte ordem:

CODDEPTO, NOMEDEPTO, CODCURSO, NOMECURSO, CODINSTRUTOR, NO-

MEINSTRUTOR, CELULARINSTRUTOR.

O conteúdo do arquivo CSV é exibido abaixo:

1,INF-UFG,1,Engenharia de software,1,Fabio Lucena,8410-1010

1,INF-UFG,2,Banco de Dados,2,Juliano Oliveira,x

1,INF-UFG,1,Engenharia de software,3,Juliano Oliveira,x

2,INF-Alfa,3,Banco de Dados,4,Rogerio Arantes Gaioso,9988-8989

1,INF-UFG,4,Introdução a Java,1,Fabio Lucena,8410-1010

5.1.2 Arquivos de conﬁguração

Esta subseção exibe alguns arquivos conﬁgurados para esta instância do Inte-

grate, feita para os estudos de caso exibidos nas seções seguintes.

integrate-datasources.xml

Neste arquivo foram conﬁguradas as duas fontes de dados, identiﬁcadas por

hsqldb e csv. Na conﬁguração da fonte de dados CSV, no elemento <url>, a referência

ao arquivo CsvDmdExample.xml deﬁne os detalhes necessários para as informações de

metadados desta fonte de dados (uma das adaptações feitas no driver para CSV, descrito

na seção 4.2.3). Segue o arquivo conﬁgurado para a execução dos estudos de caso:

5.1 Deﬁnições 78

<?xml version="1.0" encoding="UTF-8"?>

<wrapper>br.ufg.integrate.wrapper.WrapperJDBC</wrapper>

<lookup>br.ufg.integrate.lookup.LookupJDBC</lookup>

<typeConfFile>conf/HSQLDBTypeConf.xml</typeConfFile>

<typeConfClass>br.ufg.integrate.xml.type.TypeJDBCConf</typeConfClass>

<schema>PUBLIC</schema>

<jdbc-driver>org.hsqldb.jdbcDriver</jdbc-driver>

<url>jdbc:hsqldb:file:testFiles/db-hsqldb/dep</url>

</datasource>

<wrapper>br.ufg.integrate.wrapper.WrapperCSV</wrapper>

<lookup>br.ufg.integrate.lookup.LookupCSV</lookup>

<typeConfFile>conf/CsvJdbcTypeConf.xml</typeConfFile>

<typeConfClass>br.ufg.integrate.xml.type.TypeCSVConf</typeConfClass>

<schema>depto</schema>

<jdbc-driver>br.ufg.integrate.wrapper.csv.CsvDriver</jdbc-driver>

<url>jdbc:integrate:csv?testFiles/db-csv/CsvDmdExample.xml</url>

</datasource>

</datasources>

integration.xml

<?xml version="1.0" encoding="UTF-8"?>

<source>hsqldb</source>

<target>hsqldb</target>

</integration>

<target>hsqldb</target>

</integration>

<source>hsqldb</source>

</integration>

<target>hsqldb</target>

</integration>

</integrations>

Neste arquivo, foram deﬁnidas as integrações desejadas. Como pode ser visto

acima, os identiﬁcadores hsqldb e csv referem-se aos deﬁnidos no arquivo integrate-

5.2 Simulando mediadores 79

datasources.xml. Conforme citado na seção 4.2.1, a conﬁguração do arquivo integra-

tion.xml é dependente do arquivo integrate-datasources.xml.

Para a conﬁguração acima, o identiﬁcador all2hsqldb deﬁne que a aplicação

cliente que originalmente acessa a fonte de dados identiﬁcada como hsqldb receberá os

registros tanto desta fonte de dados quanto daquela deﬁnida como csv.

integrate-conﬁg.xml

Os parâmetros são exibidos na seção 4.2.1. Algumas alterações destes parâme-

tros são comentadas quando pertinente.

5.2 Simulando mediadores

Este estudo de caso exibe possíveis exemplos de uso do Integrate no desenvol-

vimento de um mediador ﬁctício, para demonstrar o comportamento do Integrate no uso

de suas principais funcionalidades, como o lookup, consultas integradas e também seu

comportamento na ocorrência de erros. Os trechos de código ilustram a ﬂexibilidade ofe-

recida com o uso de poucas linhas de código e os resultados obtidos, e fazem parte da

documentação do Integrate.

5.2.1 Lookup

Os exemplos abaixo ilustram alguns dos serviços disponibilizados pelo Integrate

para as requisições dos esquemas das fontes de dados registradas no sistema, que podem

ser utilizados pelo Mediador para auxiliar na geração do esquema global.

Imprimindo esquemas JDBC

Uma das opções disponíveis é o trecho de código A.1. Este código gera uma

coleção de objetos do tipo java.sql.DatabaseMetaData, que representam os esquemas

das fontes de dados registradas no arquivo integrate-datasources.xml. A maior parte do

código apenas exibe a iteração nesta coleção. Para as fontes de dados registradas como

exemplo, as tabelas listadas seriam DEPTO e CLIENTES. Nota-se a necessidade de se

conhecer e manipular JDBC diretamente.

Imprimindo os esquemas

Para eliminar a necessidade de se manipular objetos da API JDBC, como

supracitado, pode-se utilizar um outro serviço, conforme exibido no código A.2.

5.2 Simulando mediadores 80

Este trecho de código gera um texto contendo os esquemas para as fontes de

dados conﬁguradas, formatado em XML Schema, semelhante ao apresentado em [27].

Para este exemplo, a saída seria a seguinte:

<?xml version="1.0" encoding="UTF-8"?>

<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"

xmlns:xsh="http://www.integrate.ufg.br/schema/XMLSchema">

<xsh:integrate-schema id="csv" name="depto">

<xs:complexType name="depto.depto_Type">

<xs:sequence>

<xs:element name="CODDEPTO" type="xs:integer"

minOccurs="0" maxOccurs="unbounded">

<xs:key name="depto.depto_key">

<xs:selector xpath="depto.depto"/>

<xs:field xpath="CODDEPTO"/>

</xs:key>

</xs:element>

<xs:element name="NOMEDEPTO" type="xs:string"/>

<xs:element name="CODCURSO" type="xs:integer"

minOccurs="0" maxOccurs="unbounded">

<xs:key name="depto.depto_key">

<xs:selector xpath="depto.depto"/>

<xs:field xpath="CODCURSO"/>

</xs:key>

</xs:element>

<xs:element name="NOMECURSO" type="xs:string"/>

<xs:element name="CODINSTRUTOR" type="xs:integer"

minOccurs="0" maxOccurs="unbounded">

<xs:key name="depto.depto_key">

<xs:selector xpath="depto.depto"/>

<xs:field xpath="CODINSTRUTOR"/>

</xs:key>

</xs:element>

<xs:element name="NOMEINSTRUTOR" type="xs:string"/>

<xs:element name="CELULARINSTRUTOR" type="xs:string"/>

</xs:sequence>

</xs:complexType>

</xsh:integrate-schema>

<xsh:integrate-schema id="hsqldb" name="PUBLIC">

<xs:complexType name="PUBLIC.CLIENTES_Type">

<xs:sequence>

<xs:element name="CODCLIENTE" type="xs:integer"

minOccurs="0" maxOccurs="unbounded">

<xs:key name="PUBLIC.CLIENTES_key">

<xs:selector xpath="PUBLIC.CLIENTES"/>

<xs:field xpath="CODCLIENTE"/>

</xs:key>

</xs:element>

<xs:element name="NOME" type="xs:string"/>

<xs:element name="SOBRENOME" type="xs:string"/>

</xs:sequence>

</xs:complexType>

</xsh:integrate-schema>

</xs:schema>

5.2 Simulando mediadores 81

Esquemas individualizados

Assim como os exemplos citados, que geram os esquemas de todas as fontes

de dados registradas no arquivo integrate-datasources.xml, o Integrate pode fornecer o

esquema de apenas uma das fonte de dados registradas. Para tal, basta alterar os códigos

acima (A.1 e A.2) informando como argumento o identiﬁcador da fonte de dados.

Esquemas em arquivo

O Integrate disponibiliza opção de gravar o conteúdo obtido como texto nos

exemplos acima no sistema de arquivos, através do método saveSchemasToXMLFile().

5.2.2 Consultas integradas

Os próximos exemplos ilustram a execução de sentenças disponibilizadas pelo

Integrate.

Consultando uma fonte de dados especíﬁca

O trecho de código A.3 executa uma consulta em uma fonte de dados especíﬁca,

informando como argumentos o identiﬁcador da fonte de dados e o comando SQL

desejado. Vale lembrar que no estágio atual do Integrate, o Mediador necessita conhecer

SQL e enviar a consulta no formato conhecido pela fonte de dados. Projetos futuros

devem deﬁnir o envio desta requisição em um formato de mais alto nível, abstraindo

esta necessidade.

A execução do código citado gera o seguinte resultado:

<?xml version="1.0" encoding="UTF-8"?>

<tuple>

<attribute name=’NOME’>ROGERIO</attribute>

<attribute name=’SOBRENOME’>ARANTES</attribute>

</tuple>

<tuple>

<attribute name=’SOBRENOME’>SILVA</attribute>

</tuple>

<tuple>

<attribute name=’SOBRENOME’>BATISTA</attribute>

</tuple>

</result>

</results>

5.2 Simulando mediadores 82

Consultando mais de uma fonte de dados

De maneira semelhante à exibida no exemplo anterior, pode-se consultar mais de

uma fonte de dados, bastando informar como argumento uma coleção de identiﬁcadores

e a coleção de suas respectivas sentenças, algo como no trecho de código A.4. Como

retorno, o Integrate gera o texto em formato XML com os resultados separados por

identiﬁcador.

Vale lembrar que este dois últimos exemplos podem ter o texto resultante

registrados em um arquivo através do método saveResultSetsToXmlFile().

Consulta usando arquivo XML

Uma opção disponibilizada pelo Integrate é o fornecimento da requisição através

de um arquivo passado como argumento, validado pelo Integrate antes de ser processado.

Um exemplo do referido arquivo é exibido abaixo:

<?xml version="1.0" encoding="UTF-8"?>

<sql>

SELECT CODINSTRUTOR, NOMEINSTRUTOR FROM DEPTO

</sql>

</target>

<sql>

SELECT CODCLIENTE, NOME, SOBRENOME FROM CLIENTES

</sql>

</target>

</query>

Nota-se que o mesmo permite a execução de mais de uma sentença, separada

pelo identiﬁcador da fonte de dados.

Como supracitado, este formato de arquivo exige conhecimento de SQL. Uma

proposta futura é deﬁnir o formato de maneira a abstrair esta necessidade.

5.2.3 Manipulação de erros

O Integrate pode manipular a ocorrência de erros de acordo com conﬁgurações

feitas no arquivo integrate-conﬁg.xml.

Suponha que o parâmetro stopOnError esteja deﬁnido como true. Se, na execu-

ção do código A.4, a primeira consulta tiver o nome da tabela errada, a exceção é retornada

à aplicação cliente, e todo o processo é interrompido. Já se o parâmetro estiver deﬁnido

como false, o Integrate gera o resultado ﬁnal, imprimindo o erro no arquivo XML gerado,

como pode ser visto no exemplo abaixo:

5.3 Integração sem a alteração da aplicação 83

<?xml version="1.0" encoding="UTF-8"?>

WrapperCSV: SQLException:

Cannot open data file ’testFiles/db-csv/DEPT.csv’ !

</errorMessage>

</result>

<tuple>

<attribute name=’NOME’>ROGERIO</attribute>

<attribute name=’SOBRENOME’>ARANTES</attribute>

</tuple>

<tuple>

<attribute name=’SOBRENOME’>SILVA</attribute>

</tuple>

<tuple>

<attribute name=’SOBRENOME’>BATISTA</attribute>

</tuple>

</result>

</results>

5.3 Integração sem a alteração da aplicação

Este estudo de caso descreve a solução proposta para o problema exposto na

seção 1.2, em que se deseja integrar fontes de dados sem alteração nem das fontes de

dados nem da aplicação cliente, que motivou todo este trabalho.

5.3.1 Cenário

A conﬁguração dos arquivos do Integrate foi a mesma citada no início deste

capítulo, assim como as fontes de dados utilizadas.

Aplicação cliente

Para testar o ambiente e demonstrar a integração, foi preparada uma aplicação

cliente cujo código manipula especiﬁcamente a fonte de dados HSQLDB, como pode ser

visto no código A.5.

Neste código, após obter a conexão com a fonte de dados, a aplicação executa

uma consulta SQL especíﬁca do esquema (ver seção 5.1.1). Por ser uma aplicação

especíﬁca, a manipulação do ResultSet trata as duas colunas originalmente esperadas.

5.3 Integração sem a alteração da aplicação 84

Vale lembrar que a linha 4 do referido código exibe a obtenção dos parâmetros

de conexão necessários para se obter uma conexão JDBC, conforme boas práticas de

programação. Desta maneira, o URL deﬁnido neste arquivo de parâmetros é que será

alterado, ou seja, o código-fonte da aplicação não será alterado. Para este estudo de caso,

os parâmetros originais deﬁnidos neste arquivo são os seguintes:

driver=org.hsqldb.jdbcDriver

url=jdbc:hsqldb:file:testFiles/db-hsqldb/dep

user=sa

password=

Mediador ﬁctício

Para a execução deste estudo de caso, foi necessária a confecção de um mediador

que implementasse a interface Mediator (ver seção 4.2.6).

Para facilitar o desenvolvimento, foi implementada uma classe sem o emprego

das técnicas de integração, como combinação de esquemas ou ontologias. O Mediador

criado apenas mantém uma tabela relacional que faz o mapeamento um-para-um de

cada sentença SQL necessária para o funcionamento da aplicação cliente, relacionada

também com o identiﬁcador de cada fonte de dados deﬁnido no Integrate. Ou seja, para

ser funcional, esta tabela deve ser alimentada antes com cada sentença SQL original e

todas as subconsultas para as demais fontes de dados que se deseja integrar.

O código criado também não se preocupa com a geração de esquemas integrados,

funções estas que exigem um maior conhecimento semântico embutido, o que está fora

do escopo do Integrate. Desta maneira, o código criado não demonstra o uso das funções

de lookup.

Para executar a integração dos ResultSet’s obtidos, o mediador mantém uma

fonte de dados interna com o mesmo esquema da fonte de dados original da aplicação

cliente. Para cada ResultSet recebido, o Mediador faz as devidas conversões (sem nenhum

conhecimento semântico), inserindo os valores nas colunas desta fonte de dados interna.

Finalmente, o Mediador executa a sentença enviada originalmente nesta fonte de dados

temporária e o ResultSet gerado é retornado ao Controlador.

O código-fonte deste Mediador está disponível na documentação do Integrate.

5.3.2 Simulação de integração

Usando a conﬁguração original do arquivo de parâmetros, a aplicação cliente

escreve, na saída padrão, os registros presentes na tabela CLIENTES da fonte de dados

HSQLDB (ver ﬁgura 5.1).

Conforme deﬁnido no arquivo integration.xml, a integração identiﬁcada por

csv2hsqldb deﬁne que a aplicação que originalmente acessa a fonte de dados hsqldb

5.3 Integração sem a alteração da aplicação 85

passa a receber os registros da fonte de dados csv, mesmo com os nomes e sobrenomes

nesta fonte de dados estando armazenados em uma mesma coluna (ver esquema CSV).

Ou seja, com uma pequena alteração no arquivo de propriedades de conexão (alterando

o driver JDBC para br.ufg.integrate.jdbc.DriverImpl, que é a classe do driver JDBC

que intercepta as requisições, e o URL de conexão para jdbc:integrate:csv2hsqldb), o

Integrate retorna para a aplicação os registros do arquivo CSV:

Fabio Lucena

Juliano Oliveira

Rogerio Arantes Gaioso

Fabio Lucena

Da mesma maneira, mantendo o driver e alterando o URL para

jdbc:integrate:all2hsqldb, a execução da aplicação cliente passa a exibir os regis-

tros de ambas as fontes de dados, tanto os da tabela CLIENTES do HSQLDB quanto os

do arquivo CSV. Ou seja, serão impressos os seguintes registros:

ROGERIO ARANTES

JOSÉ MAURO

JOAO SILVA

Fabio Lucena

Juliano Oliveira

Rogerio Arantes Gaioso

Fabio Lucena

Isto demonstra a integração de fontes de dados heterogêneas sem a alteração da

aplicação cliente original.

CAPÍTULO 6

Conclusão

A literatura especializada disponibiliza diversas propostas de solução para o

problema de integração de fontes de dados heterogêneas. Em geral, a interação com o

usuário ocorre por meio de uma interface deﬁnida pela proposta de integração em questão.

Estes casos são incompatíveis com o cenário onde as fontes de dados e a aplicação cliente,

que faz uso destas fontes, não podem passar por modiﬁcações. Os motivos são vários, por

exemplo, custos e até mesmo a indisponibilidade de código fonte.

A proposta apresentada neste trabalho oferece serviços por meio de um fra-

mework, denominado Integrate, baseado na arquitetura mediador/tradutores, para auxiliar

desenvolvedores na construção de sistemas de integração de dados heterogêneos. Além

de oferecer serviços para a confecção de sistemas tradicionais que pretendam integrar da-

dos heterogêneos, ao contrário de várias outras abordagens, o Integrate é adequado onde

não se espera alteração no esquema das fontes de dados e/ou acesso ao código fonte das

aplicações que as empregam. Por exemplo, em um cenário em que várias aplicações de-

pendam do esquema de uma fonte de dados, alterações neste esquema para atender uma

certa aplicação podem comprometer o funcionamento das demais. Ou seja, dependendo

da alteração no esquema, seria necessário alterar todas as aplicações que dependem do

esquema original. O Integrate é particularmente útil neste caso, funcionando como uma

camada intermediária entre o novo esquema e estas aplicações, executando as devidas

transformações enquanto as aplicações não são alteradas.

O framework estabelece uma arquitetura de software para os sistemas que o

adotam. Isto inclui componentes como mediador e tradutores bem como as comunicações

entre estes componentes. Por exemplo, a interação do mediador com demais componentes

é realizada por meio de protocolo bem deﬁnido. O objetivo é facilitar a substituição

independente destes módulos por outros sem comprometer a comunicação entre eles.

Embora o emprego de um framework pareça natural para o contexto apresentado

acima, a motivação foi a deﬁnição de uma “infra-estrutura” que pudesse ser posterior-

mente estendida por meio de trabalhos futuros (veja seção correspondente neste capítulo).

Noutras palavras, o resultado obtido é visto como um passo sólido ou substrato sobre o

qual investigações posteriores naturalmente identiﬁcarão mudanças oportunas.

6.1 Contribuições 87

6.1 Contribuições

Uma das vantagens desta proposta está na deﬁnição dos serviços oferecidos, atra-

vés de uma abordagem recorrente entre as propostas conhecidas (baseada em mediado-

res), o que proporciona uma maior aplicabilidade e a reutilização de código e de projeto.

Estes serviços disponibilizam uma API que permite a evolução independente tanto de

quem a usa quanto de quem a implementa.

Por trabalhar internamente com o modelo relacional, o Integrate oferece seus

serviços através de JDBC. Para facilitar a sua utilização, o framework também fornece

seus serviços através de métodos que retornam mensagens no formato XML, formato

comumente utilizado pelas comunidades envolvidas com questões semânticas.

Outra contribuição da presente proposta está na disponibilização do código-

fonte produzido, o que a difere da maioria das propostas levantadas. O presente

trabalho, bem como o código-fonte e sua documentação, estão disponíveis em

http://integrate.sourceforge.net/.

6.2 Trabalhos futuros

O trabalho realizado foi analítico, ou seja, fruto da investigação sistemática de

um domínio e da síntese de serviços que visam facilitar a construção de aplicações para

este domínio. Não contou, portanto, com experiência prévia. Esta lacuna deverá ser pre-

enchida por experiências posteriores com o emprego do Integrate. Tais experimentações

permitirão identiﬁcar aspectos a serem melhorados, extensões a serem inseridas e elemen-

tos a serem removidos.

Ao longo do texto, várias destas extensões foram citadas. Segue abaixo uma

relação comentada destas extensões.

• O modelo de dados deﬁnido para o Integrate foi o relacional (ver seção 3.2.2),

principalmente devido à solidez deste modelo, além de que a maioria das fontes

de dados em produção estão armazenadas neste modelo. Isso exige conhecimento

deste modelo por parte do desenvolvedor do mediador que o utilizar. Como um

dos objetivos do Integrate é facilitar o desenvolvimento de mediadores, e como as

pesquisas nesta área tendem a adotar outros modelos de dados (ainda em fase de

deﬁnição), como OWL e RDF, uma das propostas futuras do Integrate é deﬁnir um

protocolo de nível mais alto, com mais abstração, que permita a troca de informação

entre o Integrate e o mediador eximindo deste o conhecimento de mais baixo nível,

como JDBC.

Um dos complicadores está na necessidade de se fazer a conversão de modelos,

do modelo relacional para o modelo baseado em XML. Desta maneira, devem ser

6.2 Trabalhos futuros 88

deﬁnidas mensagens em XML que abstraiam os conceitos relacionais por parte do

mediador, com o Integrate se responsabilizando pelas conversões entre os formatos,

sempre manipulando dados relacionais internamente e mensagens XML com o

mediador em um esquema previamente deﬁnido.

• Com a deﬁnição do modelo comentado no item anterior, seria possível deﬁnir uma

maneira do Mediador gerar as subconsultas para os Tradutores sem a necessidade

de conhecer SQL. Mensagens poderiam ser geradas reproduzindo as sentenças em

formato XML, por exemplo como o modelo empregado no LORIS [69].

• O Integrate atualmente aceita requisições de alteração de registros nas fontes de

dados manipuladas, porém de forma não-transacional. Uma alteração necessária é o

tratamento de forma atômica das subconsultas, ou seja, em caso de erro na execução

de alguma subconsulta, a ferramenta deve desfazer todas as alterações feitas pelas

demais subconsultas.

• O Integrate disponibiliza atualmente apenas Tradutores para o formato relacional.

Mesmo o Tradutor para arquivos CSV utiliza internamente um driver JDBC para

tal tarefa. Uma extensão necessária é a deﬁnição de novos Tradutores, para outros

formatos de dados.

• O comportamento do sistema de integração quanto ao acréscimo de novas fontes de

dados depende de como o mediador implementa o tipo de integração de esquema

(ver seção

2.5 sobre GAV e LAV). Alterações nos esquemas das fontes existentes

no sistema também são críticas para o mediador, conforme [60]. A adição de novas

fontes de dados ou a alteração das existentes não é tratada de maneira automática

pelo Integrate. Funcionalidades podem ser acrescidas para atender esta necessidade,

permitindo veriﬁcações dos esquemas dinamicamente, em tempo de execução.

• Atualmente o Integrate mantém conexões com as fontes de dados sob demanda.

A criação de uma coleção de conexões (pool de conexões) na inicialização do

Integrate permite ganhos de desempenho e um melhor aproveitamento dos recursos.

• Por enquanto o Integrate opera apenas localmente. Uma arquitetura que permita

acessos remotos deve ser deﬁnida, para possibilitar a utilização do framework em

ambiente distribuído.

• Questões de logging e de segurança não foram implementados. Em sistemas de

integração, devido à autonomia das fontes de dados, implementar tais serviços não

é trivial [5]. Trabalhos futuros podem ser dirigidos para este ﬁm, considerando

a complexidade e especiﬁcidade de tais linhas de pesquisa. Uma sugestão é o

emprego de programação orientada a aspetos

Tradução para Aspect-oriented programming (AOP), este tipo de programação permite que o código

6.2 Trabalhos futuros 89

• Como em sua concepção não foram deﬁnidas facilidades para a deﬁnição de testes

de unidade, estas devem ser ainda implementadas.

Além da oportunidade de um entendimento mais amplo da deﬁnição e da criação

de um framework e de um driver JDBC, o presente trabalho propiciou um maior conhe-

cimento da área de integração de dados. Os primeiros estudos sobre as heterogeneidades

encontradas na integração de dados, unidos à vontade inicial de solucionar o problema

através do uso de ontologias e das linguagens envolvidas a este conhecimento, aos pou-

cos exibiram a complexidade entre os diferentes modelos de dados, e o campo de estudo

que se encontra aberto para pesquisa. A expectativa ﬁca na utilização do framework pro-

duzido por desenvolvedores de sistemas de integração, para que suas reais necessidades,

unidas ao conhecimento adquirido, sirvam de insumo para um maior entendimento do

domínio estudado. Estudos de casos mais detalhados e a implementação dos trabalhos

futuros sugeridos possibilitam um maior envolvimento na deﬁnição de um mediador do-

tado de conhecimento semântico, o que permite a deﬁnição de novos serviços por parte

do framework.

seja dividido em componentes (aspectos), que podem ser injetados facilmente em locais abitrários do

programa. Chamadas de métodos podem ser interceptadas, alteradas ou redirecionadas, em alguns casos

sem alterar o código-fonte do programa [98]

Referências Bibliográﬁcas

[1] ACKERMAN, J; BRIENEN, S; WADDINGTON, A; GUPTA, C; EVORA, J. D; BE-

DELL, J; MARAYA, M; SKUTNIK, T. CsvJdbc - a JDBC Driver for CSV Files.

2001. Disponível em http://csvjdbc.sourceforge.net/, acessado em 30/05/2007.

[2] ALEXIEV, V; BREU, M; DE BRUIJN, J; FENSEL, D; LARA, R; LAUSEN, H. Infor-

mation Integration with Ontologies: Ontology based Information Integration

in an Industrial Setting. John Wiley & Sons, Abril 2005.

[3] ALTOVA INC.. DatabaseSpy. 2006. Disponível em

http://www.altova.com/products/databasespy/database_tool.html, acessado em

30/10/2007.

[4] AMBITE, J. L; KNOBLOCK, C. A; MUSLEA, I; PHILPOT, A. G. Com-

piling Source Descriptions for Efﬁcient and Flexible Information In-

tegration. J. Intell. Inf. Syst., 16(2):149–187, 2001. Disponível em

http://dx.doi.org/10.1023/A:1011289701371, acessado em 11/09/2007.

[5] BARBOSA, A. C. P. Middleware para Integração de Dados

Heterogêneos Baseado em Composição de Frameworks. PhD

thesis, PUC-Rio de Janeiro, Brasil, Maio 2001. Disponível em

http://codims.lprm.inf.ufes.br/arquivos/publicacoes/tese_alvaro.pdf, acessado

em 11/09/2007.

[6] BARRET, T; JONES, D; YUAN, J; SAWAYA, J; USCHOLD, M; ADAMS, T; FOLGER,

D. RDF Representation of Metadata for Semantic Integration of Corporate

Information Sources. In Proceedings of Real World RDF and Semantic Web

Applications Workshop held in conjunction with WWW-2002, 2002. Disponível em

http://www.cs.rutgers.edu/∼shklar/www11/ﬁnal_submissions/paper3.pdf, acessado

em 11/09/2007.

[7] BARU, C; GUPTA, A; LUDÄSCHER, B; MARCIANO, R; PAPAKONSTANTINOU, Y;

VELIKHOV, P; CHU, V. XML-Based Information Mediation with MIX. In: SIG-

MOD ’99: Proceedings Of The 1999 Acm Sigmod International Conference On Ma-

Referências Bibliográﬁcas 91

nagement Of Data, p. 597–599, New York, NY, USA, 1999. ACM Press. Disponível

em http://doi.acm.org/10.1145/304182.304590, acessado em 11/09/2007.

[8] BELADY, L. A; LEHMAN, M. M. A Model of Large Program Deve-

lopment. IBM Systems Journal, 15(3):225–252, 1976. Disponível em

http://www.research.ibm.com/journal/sj/153/ibmsj1503E.pdf, acessado em

11/09/2007.

[9] BENEVIDES, R; VIRAGINE, G. Projeto SINDEC. Java Magazine, Ed. 30, pags.

54-58, Dezembro, 2005.

[10] BENNETT, K. H. Software Maintenance: A Tutorial. IEEE Computer Society

Press, p. 289––303, 1996.

[11] BIOBYTES. Ammentos Lightweight Persistence Framework. 2005. Disponível

em http://ammentos.biobytes.it/, acessado em 30/10/2007.

[12] BOEHM, B. A Spiral Model of Software Development and Enhance-

ment. SIGSOFT Softw. Eng. Notes, 11(4):14–24, 1986. Disponível em

http://doi.acm.org/10.1145/12944.12948, acessado em 11/09/2007.

[13] BRAGA, R. M. M; MATTOSO, M; WERNER, C. M. L. The Use of Media-

tion and Ontology Technologies for Software Component Information Re-

trieval. In: SSR ’01: Proceedings of the 2001 Symposium on Software Reu-

sability, p. 19–28, New York, NY, USA, 2001. ACM Press. Disponível em

http://doi.acm.org/10.1145/375212.375229, acessado em 11/09/2007.

[14] BUSCHMANN, F; MEUNIER, R; ROHNERT, H; SOMMERLAD, P; STAL, M.

Pattern-oriented Software Architecture: a System of Patterns. John Wiley &

Sons, Inc., New York, NY, USA, 1996.

[15] BUSSE, S; KUTSCHE, R.-D; LESER, U; WEBER, H. Federated Information Sys-

tems: Concepts, Terminology and Architectures. Technical Report Forschungs-

berichte des Fachbereichs Informatik 99-9, Technische Universität Berlin, 1999. Dis-

ponível em http://cis.cs.tu-berlin.de/Dokumente/Papers/1999/BKLW99.ps.gz, aces-

sado em 11/09/2007.

[16] BUTLER, G; D’ENOMM’EE, P. Documenting Frameworks

Using Patterns. In: Object-Oriented Application Frameworks, New

York, NY, USA, 1998. John Wiley and Sons. Disponível em

http://www.umcs.maine.edu/∼ftp/wisr/wisr8/papers/butler/butler.html, acessado

em 11/09/2007.

Referências Bibliográﬁcas 92

[17] CAPRIOLI, J. xlSQL Excel JDBC Driver. 2006. Disponível em

https://xlsql.dev.java.net/ , acessado em 30/10/2007.

[18] CAREY, J; CARLSON, B. Framework Process Patterns: Lessons Learned

Developing Application Frameworks. Addison-Wesley Longman Publishing Co.,

Inc., Boston, MA, USA, 2002.

[19] CAREY, M. J; HAAS, L. M; SCHWARZ, P. M; ARYA, M; CODY, W. F; FAGIN,

R; FLICKNER, M; LUNIEWSKI, A. W; NIBLACK, W; PETKOVIC, D; THOMAS,

J; WILLIAMS, J. H; WIMMERS, E. L. Towards Heterogeneous Multimedia

Information Systems: the Garlic Approach. In: RIDE ’95: Proceedings of the 5th

International Workshop on Research Issues in Data Engineering-Distributed Object

Management (RIDE-DOM’95), p. 124, Washington, DC, USA, 1995. IEEE Computer

Society. Disponível em http://portal.acm.org/citation.cfm?id=827880, acessado em

11/09/2007.

[20] CHRISTENSEN, H. B. A Tutorial on Object-Oriented Frameworks. 2002.

Disponível em

http://www.daimi.au.dk/∼ups/Patterns/materials/sp-4.pdf , acessado

em 29/06/2007.

[21] CONTINUENT INC.. Sequoia. 2006. Disponível em

http://sequoia.continuent.org/HomePage, acessado em 30/10/2007.

[22] CORIANI, S. MOMIS: Servizi di Wrapping per Sorgenti Relazionali JDBC.

PhD thesis, Universitá Degli Studi Di Modena e Reggio Emilia, Modena, Itá-

lia, 2001. Disponível em http://www.dbgroup.unimo.it/tesi/coriani.pdf, acessado em

11/09/2007.

[23] CORNI, A. Intelligent Information Integration: The MOMIS Project. PhD

thesis, Universitá Degli Studi Di Bologna, Bologna, Itália, 2000. Disponível em

http://www.dbgroup.unimo.it/tesi/phdCorni.pdf, acessado em 11/09/2007.

[24] CUI, Z; JONES, D. M; O’BRIEN, P. Semantic B2B Integration: Issues in

Ontology-Based Applications. SIGMOD Record, 31(1):43–48, 2002. Dispo-

nível em http://www.acm.org/sigmod/record/issues/0203/SPECIAL/7.cui.pdf, aces-

sado em 11/09/2007.

[25] D2SYSTEMS. Hydrate. 2006. Disponível em http://hydrate.sourceforge.net/,

acessado em 30/10/2007.

[26] DANG-NGOC, T. T; GARDARIN, G. Federating Heterogeneous Data Sources

With Xml. 2003. Disponível em http://dntt.free.fr/publi/iasted_iks2003.pdf , aces-

sado em 30/10/2007.

Referências Bibliográﬁcas 93

[27] DE AMORIM, G. B. C. Ferramenta para Extração de Esquemas de Bases de

Dados Relacionais. Trabalho de Graduação, Universidade Federal de Pernambuco,

Brasil, 2003, disponível em http://www.cin.ufpe.br/∼tg/2003-1/gbca.doc, acessado

em 02/01/2007.

[28] DE MOURA, S. L. Uma Arquitetura para Integração de Repositó-

rios de Objetos de Aprendizagem baseada em Mediadores e Serviços

Web. 2005. Dissertação de Mestrado, PUC-Rio de Janeiro, disponível em

http://www2.dbd.puc-rio.br/pergamum/biblioteca/php/mostrateses.

php?open=1&arqtese=0310839_05_Indice.html, acessado em 11/09/2007.

[29] DHAMANKAR, R; LEE, Y; DOAN, A; HALEVY, A; DOMINGOS, P. iMap: Disco-

vering Complex Semantic Matches Between Database Schemas. In: Sigmod

’04: Proceedings Of The 2004 ACM SIGMOD International Conference On Mana-

gement Of Data, p. 383–394, New York, NY, USA, 2004. ACM Press. Disponível em

http://doi.acm.org/10.1145/1007568.1007612, acessado em 11/09/2007.

[30] DO, H. H; MELNIK, S; RAHM, E. Comparison of Schema Matching Evaluations.

In: Revised Papers from the NODe 2002 Web and Database-Related Workshops

on Web, Web-Services, and Database Systems, p. 221–237, London, UK, 2003.

Springer-Verlag. Disponível em http://portal.acm.org/citation.cfm?id=744063, aces-

sado em 11/09/2007.

[31] DRAGUT, E; LAWRENCE, R. Composing Mappings Between Schemas Using a

Reference Ontology. In: ODBASE ’2004: Proceedings of International Conference

on Ontologies, Databases and Application of SEmantics, 2004. Disponível em

http://www.springerlink.com/content/gdemec2fp7lfj96x/, acessado em 11/09/2007.

[32] DUBLIN CORE METADATA INITIATIVE. Dublin Core Metadata Ele-

ment Set, Version 1.1: Reference Description. 2004. Disponível em

http://dublincore.org/documents/dces/, acessado em 30/10/2007.

[33] ENHYDRA.ORG. Octopus. 2006. Disponível em

http://www.enhydra.org/tech/octopus/index.html, acessado em 30/10/2007.

[34] ESCOBAR, F. J. C; ESPINOSA, E. D. XML Information Retrieval Using

SQL2XQuery. In: Proceedings of Information and Knowledge Sharing (IKS),

2002. Disponível em http://www.actapress.com/PaperInfo.aspx?PaperID=25743,

acessado em 30/10/2007.

[35] FAGIN, R; KOLAITIS, P. G; MILLER, R. J; POPA, L. Data Exchange: Semantics

And Query Answering. Theor. Comput. Sci., 336(1):89–124, 2005. Disponível em

http://portal.acm.org/citation.cfm?id=1085304.1085309, acessado em 11/09/2007.

Referências Bibliográﬁcas 94

[36] FAYAD, M. E; SCHMIDT, D. C; JOHNSON, R. E. Building Application Fra-

meworks: Object-Oriented Foundations of Framework Design. John Wiley &

Sons, Inc., New York, NY, USA, 1999.

[37] FERNÁNDEZ, M; TAN, W.-C; SUCIU, D. SilkRoute: Trading Between Relations

and XML. In: Proceedings of the 9th International World Wide Web Conference

on Computer Networks : the International Journal of Computer and Telecommuni-

cations Netowrking, p. 723–745, Amsterdam, The Netherlands, The Netherlands,

2000. North-Holland Publishing Co. Disponível em http://dx.doi.org/10.1016/S1389-

1286(00)00061-X, acessado em 11/09/2007.

[38] FRIEDMAN, M; LEVY, A; MILLSTEIN, T. Navigational Plans For Data

Integration. In: Aaai ’99/Iaai ’99: Proceedings Of The Sixteenth Nati-

onal Conference on Artiﬁcial Intelligence and the Eleventh Innovative Ap-

plications of Artiﬁcial Intelligence Conference, p. 67–73, Menlo Park, CA,

USA, 1999. American Association for Artiﬁcial Intelligence. Disponível em

http://portal.acm.org/citation.cfm?id=315149.315229, acessado em 11/09/2007.

[39] GAMMA, E; HELM, R; JOHNSON, R; ; VLISSIDES, J. Design Patterns: Elements

of Reusable Object-Oriented Software. Addison-Wesley, Boston, USA, 1995.

[40] GARCIA-MOLINA, H; PAPAKONSTANTINOU, Y; QUASS, D; RAJARAMAN, A; SA-

GIV, Y; ULLMAN, J; VASSALOS, V; WIDOM, J. The TSIMMIS Approach to Me-

diation: Data Models and Languages. J. Intell. Inf. Syst., 8(2):117–132, 1997. Dis-

ponível em http://dx.doi.org/10.1023/A:1008683107812, acessado em 11/09/2007.

[41] GARDARIN, G; DANG-NGOC, T. T. Mediating the Semantic Web.

In: 4èmes journées d’Extraction et de Gestion des Connaissances

(EGC 2004), Clermont-Ferrand, France, Jan. 2004. Disponível em

http://ieeexplore.ieee.org/iel5/9145/29024/01307577.pdf, acessado em 11/09/2007.

[42] GARTNER. 2006 Emerging Technologies Hype Cycle. 2006. Disponível em

http://www.gartner.com/it/page.jsp?id=495475, acessado em 30/10/2007.

[43] GEARY, D. Take Control With the Proxy Design Pattern. 2002. Disponível em

http://www.javaworld.com/javaworld/jw-02-2002/jw-0222-designpatterns.html, aces-

sado em 04/09/2007.

[44] GRUBER, T. What is an Ontology? 2001. Disponível em

http://www.ksl.stanford.edu/kst/what-is-an-ontology.html, acessado em 30/10/2007.

Referências Bibliográﬁcas 95

[45] GUARINO, N; GIARETTA, P. Ontologies and Knowledge Bases: Towards a

Terminological Clariﬁcation. Towards Very Large Knowledge Bases, p. 25–

32, 1995. Disponível em http://www.loa-cnr.it/Papers/KBKS95.pdf, acessado em

11/09/2007.

[46] HALEVY, A. Y. Answering Queries Using Views: A Sur-

vey. The VLDB Jour nal, 10(4):270–294, 2001. Disponível em

http://www.springerlink.com/content/7e1nukftx5tevvvf/, acessado em 11/09/2007.

[47] HERNÁNDEZ, M. A; MILLER, R. J; HAAS, L. M. Clio: a Semi-Automatic Tool

for Schema Mapping. In: SIGMOD ’01: Proceedings of the 2001 ACM SIGMOD

International Conference on Management of Data, p. 607, New York, NY, USA, 2001.

ACM Press. Disponível em http://doi.acm.org/10.1145/375663.375767, acessado

em 11/09/2007.

[48] HSQLDB TEAM. HSQLDB. 2007. Disponível em http://hsqldb.org/, acessado em

09/11/2007.

[49] HULL, R. Managing Semantic Heterogeneity in Databases: a Theoretical

Prospective. In: Pods ’97: Proceedings of the Sixteenth ACM Sigact-Sigmod-

Sigart Symposium on Principles of Database Systems, p. 51–61, New York, NY,

USA, 1997. ACM Press. Disponível em http://doi.acm.org/10.1145/263661.263668,

acessado em 11/09/2007.

[50] IEEE COMPUTER SOCIETY. Software Maintenance. Software Engineering,

Volume I: The Development Process, p. 487–502, 1998.

[51] ISO - INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. Database

Language SQL. Document ISO/IEC 9075. 2003.

[52] JITTERBIT INC.. Jitterbit Open Source Integration. 2006. Disponível em

http://www.jitterbit.com/, acessado em 30/10/2007.

[53] JOHNSON, R. E. How to Design Frameworks. Tutorial Notes,

OOPSLA’93, Washington, D.C. October 1993. Disponível em http://st-

www.cs.uiuc.edu/users/johnson/cs497/notes98/day18.pdf, acessado em

12/09/2007.

[54] JOHNSON, R. E; FOOTE, B. Designing Reusable Classes. Journal of

Object-Oriented Programming, 1(2):22-35, Junho/Julho 1988. Dsiponível em

http://www.laputan.org/drc/drc.html, acessado em 12/09/2007.

Referências Bibliográﬁcas 96

[55] JOHNSON, R. E. Documenting Frameworks Using Patterns. In: OOPSLA ’92:

Conference Proceedings on Object-Oriented Programming Systems, Languages,

and Applications, p. 63–76, New York, NY, USA, 1992. ACM Press. Disponível em

http://doi.acm.org/10.1145/141936.141943, acessado em 11/09/2007.

[56] KRUCHTEN, P. The 4+1 View Model of Architecture. IEEE Software,

12(6):42–50, 1995. Disponível em http://dx.doi.org/10.1109/52.469759, acessado

em 12/09/2007.

[57] LEE, K; MIN, J; PARK, K. A Design and Implementation of XML-

Based Mediation Framework (XMF) for Integration of Internet Informa-

tion Resources. In: HICSS ’02: Proceedings of the 35th Annual Hawaii

International Conference on System Sciences (HICSS’02)-Volume 7, p. 202,

Washington, DC, USA, 2002. IEEE Computer Society. Disponível em

http://portal.acm.org/citation.cfm?id=820745.821144, acessado em 11/09/2007.

[58] LEE, M. L; BRESSAN, S; GOH, C. H; RAMAKRISHNAN, R. Integration of

Disparate Information Sources: A Short Survey. In Workshop on Logic Pro-

gramming and Distributed Knowledge Management, UK, April 1999. Disponível em

http://www.comp.nus.edu.sg/∼leeml/papers/lpkm99.ps, acessado em 11/09/2007.

[59] LÓSCIO, B. F. Atualização de Múltiplas Bases de Dados Através de Me-

diadores. Dissertação de Mestrado, Universidade Federal do Ceará, Brasil,

1998. Disponível em http://www.mcc.ufc.br/disser/BernadetteFarias.pdf, acessado

em 12/09/2007.

[60] LÓSCIO, B. F. Managing the Evolution of XML-based Mediation Queries. PhD

thesis, Universidade Federal de Pernambuco, Recife, Brasil, 2003. Disponível em

http://www.cin.ufpe.br/∼hjca/VersaoFinalTeseBerna.pdf, acessado em 11/09/2007.

[61] LÓSCIO, B. F; COSTA, T; SALGADO, A. C. Query Reformulation For an XML-

Based Data Integration System. In: SAC ’06: Proceedings of the 2006 ACM

Symposium on Applied Computing, p. 498–502, New York, NY, USA, 2006. ACM

Press. Disponível em http://doi.acm.org/10.1145/1141277.1141393, acessado em

11/09/2007.

[62] LÓSCIO, B. F; SALGADO, A. C; DO RÊGO GALVÃO, L. Conceptual Modeling of

XML Schemas. In: WIDM ’03: Proceedings of the 5th ACM International Workshop

on Web Information and Data Management, p. 102–105, New York, NY, USA, 2003.

ACM Press. Disponível em http://doi.acm.org/10.1145/956699.956722, acessador

em 11/09/2007.

Referências Bibliográﬁcas 97

[63] MARCO, D; JENNINGS, M. Universal Meta Data Models. Wiley Publishing, 2004.

[64] MELNIK, S; RAHM, E; BERNSTEIN, P. A. Rondo: A Programming Platform For

Generic Model Management. In: Sigmod ’03: Proceedings Of The 2003 Acm Sig-

mod International Conference On Management Of Data, p. 193–204, New York, NY,

USA, 2003. ACM Press. Disponível em http://doi.acm.org/10.1145/872757.872782,

acessado em 11/09/2007.

[65] MENA, E; ILLARRAMENDI, A; KASHYAP, V; SHETH, A. P. OBSERVER: An

Approach for Query Processing in Global Information Systems Based on

Interoperation Across Pre-Existing Ontologies. Distrib. Parallel Databases,

8(2):223–271, 2000. Disponível em http://dx.doi.org/10.1023/A:1008741824956,

acessado em 11/09/2007.

[66] MICROSOFT CORPORATION. COM: Component Object Model Technologies.

2006. Disponível em http://www.microsoft.com/com/tech/DCOM.asp, acessado em

30/10/2007.

[67] MITRA, P; WIEDERHOLD, G; KERSTEN, M. L. A Graph-Oriented Mo-

del for Articulation of Ontology Interdependencies. In: EDBT ’00: Pro-

ceedings of the 7th International Conference on Extending Database Te-

chnology, p. 86–100, London, UK, 2000. Springer-Verlag. Disponível em

http://portal.acm.org/citation.cfm?id=645339.650198, acessado em 11/09/2007.

[68] MOREIRA, M. M. Integração Semântica de Sistemas de Informação. Dissertação

de Mestrado, PUC-Rio de Janeiro, Brasil, 2003. Disponível em http://bib-di.inf.puc-

rio.br/Theses/2003.htm, acessado em 12/09/2007.

[69] MOURA, S. L; DA SILVA, F. J. C; SIQUEIRA, S. W. M; MELO, R. N.

LORIS: Integrating Distributed and Heterogeneous Metadata Reposi-

tories of Learning Objects. In: 3rd PGL International Conference -

Consolidating eLearning Experiences, São Paulo, 2005. Disponível em

http://www.fgvsp.br/pgl2005/sec_arquivo/2005/artigos/A2005T00023.pdf, acessado

em 11/09/2007.

[70] MYSQL TEAM. MySQL. 2007. Disponível em http://www.mysql.com/, acessado

em 09/11/2007.

[71] NAM, Y.-K; GOGUEN, J. A; WANG, G. A Metadata Integration As-

sistant Generator for Heterogeneous Distributed Databases. In: On

the Move to Meaningful Internet Systems, 2002 - DOA/CoopIS/ODBASE

2002 Confederated International Conferences DOA, CoopIS and ODBASE

Referências Bibliográﬁcas 98

2002, p. 1332–1344, London, UK, 2002. Springer-Verlag. Disponível em

http://portal.acm.org/citation.cfm?id=646748.704398, acessado em 11/09/2007.

[72] NE

CASKÝ, M. Conceptual Modeling for XML: A Survey. In: Proce-

edings of the DATESO 2006 Annual International Workshop on Databases,

Texts, Speciﬁcations, and Objects, 2006. Disponível em http://ftp.informatik.rwth-

aachen.de/Publications/CEUR-WS/Vol-176/paper7.pdf, acessado em 11/09/2007.

[73] NODINE, M. H; FOWLER, J; KSIEZYK, T; PERRY, B; TAYLOR, M; UN-

RUH, A. Active Information Gathering in InfoSleuth. International

Journal of Cooperative Information Systems, 9(1-2):3–28, 2000. Disponível

em http://www.research.telcordia.com/InfoSleuth/publications/codas99.pdf, aces-

sado em 30/10/2007.

[74] OBJECTWEB. XQuare. 2006. Disponível em http://xquare.objectweb.org/ , aces-

sado em 20/06/2007.

[75] ODMG. ODMG - Object Data Management Group. 2000. Disponível em

http://www.odmg.org/, acessado em 30/10/2007.

[76] O’DONAHUE, J. B. In the JDBC Driver Seat. 2001. Disponível em

http://www.ftponline.com/javapro/2001_12/magazine/features/jodonahue/default.aspx,

acessado em 30/10/2007.

[77] OMG. UML - Uniﬁed Modeling Language. 2004. Disponível em

http://www.uml.org/, acessado em 30/10/2007.

[78] OMG - THE OBJECT MANAGEMENT GROUP. The Common Object Request

Broker Architecture and Speciﬁcation, CORBA/IIOP v3.0 Speciﬁcation. 2004.

Disponível em http://www.omg.org/technology/documents/corba_spec_catalog.htm,

acessado em 11/09/2007.

[79] OPENACCESS SOFTWARE, INC.. OpenAccess SDK. 2007. Disponí-

vel em

http://www.odbcsdk.com/products/openaccess/overview.asp, acessado em

09/11/2007.

[80] PAPAKONSTANTINOU, Y; GARCIA-MOLINA, H; WIDOM, J. Object exchange

across heterogeneous information sources. In: ICDE ’95: PROCEEDINGS OF

THE ELEVENTH INTERNATIONAL CONFERENCE ON DATA ENGINEERING, p.

251–260, Washington, DC, USA, 1995. IEEE Computer Society. Disponível em

http://portal.acm.org/citation.cfm?id=645480.655297, acessado em 11/09/2007.

Referências Bibliográﬁcas 99

[81] PAPAKONSTANTINOU, Y; GUPTA, A; GARCIA-MOLINA, H; ULLMAN, J. D. A

Query Translation Scheme for Rapid Implementation of Wrappers. In: DOOD

’95: Proceedings of the Fourth International Conference on Deductive and Object-

Oriented Databases, p. 161–186, London, UK, 1995. Springer-Verlag. Disponível

em http://portal.acm.org/citation.cfm?id=645346.650617, acessado em 11/09/2007.

[82] PAPAKONSTANTINOU, Y; GUPTA, A; HAAS, L. Capabilities-Based Query Rewri-

ting in Mediator Systems. Distributed Parallel Databases, 6(1):73–110, 1998. Dis-

ponível em http://dx.doi.org/10.1023/A:1008646830769, acessado em 11/09/2007.

[83] PREE, W. Design Patterns for Object-Oriented Software Development. ACM

Press/Addison-Wesley Publishing Co., New York, NY, USA, 1995.

[84] PREECE, A. D; YING HUI, K; GRAY, W. A; MARTI, P; BENCH-CAPON, T. J. M;

JONES, D. M; CUI, Z. The KRAFT Architecture for Knowledge Fusion and

Transformation. Knowledge Based Systems, 13(2-3):113–120, 2000. Disponível

http://www.csc.liv.ac.uk/∼kraft/publications.html, acessado em 11/09/2007.

[85] PROJETO JAKARTA. Commons-Digester. 2007. Disponível em

http://commons.apache.org/digester/, acessado em 28/08/2007.

[86] RAHM, E; BERNSTEIN, P. A. A Survey of Approaches to Automatic

Schema Matching. The VLDB Journal, 10(4):334–350, 2001. Disponível em

http://dx.doi.org/10.1007/s007780100057, acessado em 11/09/2007.

[87] RASI, R. Progetto e Realizzazione di un Wrapper XML Schema per il Sistema

MOMIS. PhD thesis, Universitá Degli Studi Di Modena e Reggio Emilia, Modena,

Itália, 2005. Disponível em http://www.dbgroup.unimo.it/tesi/rasisp.pdf, acessado

em 11/09/2007.

[88] ROTH, M. T; SCHWARZ, P. A Wrapper Architecture for Le-

gacy Data Sources. Proc. VLDB Conference, 1997. Disponível em

http://www.almaden.ibm.com/cs/garlic/vldb97wraprj.ps, acessado em 30/10/2007.

[89] ROYCE, W. W. Managing the Development of Large Software Sys-

tems: Concepts and Techniques. In: ICSE ’87: Proceedings of the 9th

International Conference on Software Engineering, p. 328–338, Los Ala-

mitos, CA, USA, 1987. IEEE Computer Society Press. Disponível em

http://portal.acm.org/citation.cfm?id=41801, acessado em 11/09/2007.

[90] SBC - SOCIEDADE BRASILEIRA DE COMPUTAÇÃO. Grandes Desaﬁos

da Pesquisa em Computação no Brasil - 2006/2016. 2006. Disponí-

Referências Bibliográﬁcas 100

vel em http://143.54.83.4/ArquivosComunicacao/Desaﬁos_portugues.pdf, acessado

em 30/10/2007.

[91] SHANMUGASUNDARAM, J; SHEKITA, E; BARR, R; CAREY, M; LINDSAY, B;

PIRAHESH, H; REINWALD, B. Efﬁciently Publishing Relational Data as

Xml Documents. The VLDB Journal, 10(2-3):133–154, 2001. Disponível em

http://www.vldb.org/conf/2000/P065.pdf, acessado em 11/09/2007.

[92] SHANMUGASUNDARAM, J; TUFTE, K; ZHANG, C; HE, G; DEWITT, D. J;

NAUGHTON, J. F. Relational Databases for Querying XML Documents:

Limitations and Opportunities. In: VLDB ’99: Proceedings of the 25th In-

ternational Conference on Very Large Data Bases, p. 302–314, San Fran-

cisco, CA, USA, 1999. Morgan Kaufmann Publishers Inc. Disponível em

http://portal.acm.org/citation.cfm?id=671499&dl=ACM&coll=portal, acessado em

11/09/2007.

[93] SHETH, A. P. Changing Focus on Interoperability in Information

Systems: From System, Syntax, Structure to Semantics. In: Intero-

perating Geographic Information Systems. Kluwer. 5–30, 1998. Disponí-

vel em http://lsdis.cs.uga.edu/library/download/S98-changing.pdf, acessado em

11/09/2007.

[94] SHVAIKO, P; EUZENAT, J. A Survey of Schema-Based Matching Ap-

proaches. In: J. Data Semantics IV, p. 146–171, 2005. Disponível em

http://dx.doi.org/10.1007/11603412_5, acessado em 11/09/2007.

[95] SOMMERVILLE, I. Software Engineering. 6th Edition, Addison-Wesley, 2000.

[96] SPYNS, P; MEERSMAN, R; JARRAR, M. Data Modelling Versus On-

tology Engineering. SIGMOD Rec., 31(4):12–17, 2002. Disponível em

http://doi.acm.org/10.1145/637411.637413, acessado em 11/09/2007.

[97] STANFORD UNIVERSITY. TSIMMIS. 1998. Disponível em http://www-

db.stanford.edu/tsimmis/

, acessado em 30/10/2007.

[98] STEVENS, T. A Primer for Aspect-Oriented Programming in Java. 2004. Dis-

ponível em

http://www.informit.com/articles/article.aspx?p=174533&rl=1, acessado

em 07/11/2007.

[99] SUN MICROSYSTEMS. For Driver Writers. 2007. Disponível em

http://java.sun.com/products/jdbc/driverdevs.html, acessado em 12/11/2007.

Referências Bibliográﬁcas 101

[100] SUN MICROSYSTEMS. Java RMI Speciﬁcation. 2004. Disponível em

http://java.sun.com/products/jdk/rmi/, acessado em 30/10/2007.

[101] SUN MICROSYSTEMS. JDBC speciﬁcation. 2004. Disponível em

http://java.sun.com/products/jdbc/download.html, acessado em 30/10/2007.

[102] TALIGENT INC.. Leveraging Object-Oriented Frameworks.

White Paper. 1993. Disponível em http://lhcb-comp.web.cern.ch/lhcb-

comp/Components/postscript/leveragingoo.pdf, acessado em 11/09/2007.

[103] TAN, J; ZASLAVSKY, A; EWALD, C. A; BOND, A. Domain-Speciﬁc Metamodels

for Heterogeneous Information Systems. In: HICSS ’03: Proceedings of the 36th

Annual Hawaii International Conference on System Sciences (HICSS’03) - Track

9, p. 321.1, Washington, DC, USA, 2003. IEEE Computer Society. Disponível em

http://portal.acm.org/citation.cfm?id=820756.821765, acessado em 11/09/2007.

[104] TOMASIC, A; RASCHID, L; VALDURIEZ, P. Scaling Access to He-

terogeneous Data Sources with DISCO. IEEE Transactions on Kno-

wledge and Data Engineering, 10(5):808–823, 1998. Disponível em

http://ieeexplore.ieee.org/search/wrapper.jsp?arnumber=729736, acessado em

11/09/2007.

[105] UNIVERSITÀ DI MODENA. The MOMIS Project. 2004. Disponível em

http://www.dbgroup.unimo.it/Momis/ , acessado em 30/10/2007.

[106] USCHOLD, M; GRÜNINGER, M. Ontologies and Semantics for Seam-

less Connectivity. SIGMOD Rec., 33(4):58–64, 2004. Disponível em

http://doi.acm.org/10.1145/1041410.1041420, acessado em 11/09/2007.

[107] USCHOLD, M; GRÜNINGER, M. Ontologies: Principles, Methods, And Ap-

plications. Knowledge Engineering Review, 11(2):93–155, Fevereiro 1996.

Disponível em http://www.aiai.ed.ac.uk/project/pub/documents/1996/96-ker-intro-

ontologies.ps, acessado em 30/10/2007.

[108] VAN DER SPEK, R; SPIJKERVET, A. Knowledge Management: Dealing Intelli-

gently with Knowledge. Technical Report, CIBIT/CSC. ISBN 90-75709-02-1. Ul-

trecht, 1997.

[109] VAN DER VLIST, E. XML Schema. O’Reilly, Junho 2002.

[110] W3C. Extensible Markup Language (XML). 2006. Disponível em

http://www.w3c.org/XML/ , acessado em 30/10/2007.

Referências Bibliográﬁcas 102

[111] W3C. HyperText Markup Language (HTML). 2006. Disponível em

http://www.w3c.org/html/, acessado em 11/09/2007.

[112] W3C. Resource Description Framework (RDF). 2006. Disponível em

http://www.w3c.org/RDF/, acessado em 30/10/2007.

[113] W3C. Web Ontology Language (OWL). 2006. Disponível em

http://www.w3c.org/2004/owl/, acessado em 30/10/2007.

[114] W3C. XML Schema. 2006. Disponível em http://www.w3c.org/XML/Schema,

acessado em 30/10/2007.

[115] W3C. XML Speciﬁcation DTD. 2006. Disponível em

http://www.w3c.org/XML/1998/06/xmlspec-report-19980910.htm , acessado em

30/10/2007.

[116] WACHE, H; VÖGELE, T; VISSER, U; STUCKENSCHMIDT, H; SCHUSTER, G;

NEUMANN, H; HÜBNER, S. Ontology-Based Integration of Information - a Sur-

vey of Existing Approaches. In: Stuckenschmidt, H, editor, IJCAI-01 WORKSHOP:

ONTOLOGIES AND INFORMATION SHARING, p. 108–117, 2001. Disponível em

http://www.cs.vu.nl/∼heiner/public/ois-2001.pdf, acessado em 30/10/2007.

[117] WANG, J. External Heterogeneous Information Source Management

Agents. PhD thesis, University of Georgia, Athens, USA, 2002. Dispo-

nível em http://www.cs.uga.edu/∼potter/dendrite/jin_wang_ms.pdf, acessado em

11/09/2007.

[118] WÖEHRER, A; BREZANY, P; JANCIAK, I. Virtualization of Heteroge-

neous Data Sources for Grid Information Systems. 2006. Disponí-

vel em http://www.gridminer.org/publications/woehrer_mipro04.pdf, acessado em

30/10/2007.

[119] WIEDERHOLD, G. Value-added Middleware: Mediators. Stanford Univer-

sity, March 1998. Disponível em

http://infolab.stanford.edu/pub/gio/1998/dbpd.html,

acessado em 11/09/2007.

[120] WIEDERHOLD, G. Mediators in the Architecture of Future In-

formation Systems. Computer, 25(3):38–49, 1992. Disponível em

http://dx.doi.org/10.1109/2.121508, acessado em 11/09/2007.

[121] WIEDERHOLD, G. Intelligent Integration of Information. In: SIGMOD ’93:

Proceedings of the 1993 ACM SIGMOD International Conference on Management

Referências Bibliográﬁcas 103

of Data, p. 434–437, New York, NY, USA, 1993. ACM Press. Disponível em

http://doi.acm.org/10.1145/170035.170118, acessado em 11/09/2007.

[122] XU, L; BUTLER, G. Cascaded Refactoring for Framework Development and

Evolution. In: ASWEC ’06: Proceedings of the Australian Software Engineering

Conference (ASWEC’06), p. 319–330, Washington, DC, USA, 2006. IEEE Computer

Society. Disponível em http://dx.doi.org/10.1109/ASWEC.2006.19, acessado em

11/09/2007.

APÊNDICE A

Trechos de código

Código A.1 Lookup que imprime coleção de DatabaseMetaData.

1 Controller c = Controller.getInstance();

2 try {

3 List<DatabaseMetaData> coll = c.lookupMetaData();

4 DatabaseMetaData dbmd = null;

5 ResultSet rs = null;

6 String[] type = {"TABLE"};

7 //imprime o nome das tabelas de cada banco de dados

8 for(Iterator<DatabaseMetaData> it = coll.iterator();it.hasNext();){

9 dbmd = it.next();

10 rs = dbmd.getTables(null, null, "%", type);

11 while(rs.next()){

12 System.out.println(rs.getString(3));

13 }

14 }

15 c.stop();

16 } catch (Exception e){

18 }

Código A.2 Lookup impresso como XML Schema

1 Controller c = Controller.getInstance();

2 try {

3 System.out.println(c.lookup());

4 c.stop();

5 } catch (Exception e){

7 }

Referências Bibliográﬁcas 105

Código A.3 Consulta uma fonte de dados especíﬁca

1 Controller c = Controller.getInstance();

2 try {

3 StringBuilder s = c.executeQueryInXmlFormat("hsqldb",

4 "SELECT CODCLIENTE, NOME, SOBRENOME " +

5 "FROM CLIENTES");

6 c.stop("hsqldb");

7 System.out.println(s.toString());

8 } catch (Exception e){

10 }

Código A.4 Exemplo de coleção de consultas

1 Controller c = Controller.getInstance();

2 try {

3 String[] idDataSources = {"csv", "hsqldb"};

4 String[] sql = {"SELECT CODINSTRUTOR, NOMEINSTRUTOR " +

5 "FROM DEPTO",

6 "SELECT CODCLIENTE, NOME, SOBRENOME " +

7 "FROM CLIENTES"};

8 StringBuilder s = c.executeQueryInXmlFormat(idDataSources,

9 sql);

10 c.stop();

11 System.out.println(s.toString());

12 } catch (Exception e){

14 }

Referências Bibliográﬁcas 106

Código A.5 Aplicação cliente

1 try {

2 ClientHSQLDB app = new ClientHSQLDB();

3 //obtém parâmetro de conexão

4 Properties props = app.getProperties("demo.properties");

5 //obtém uma conexão com a fonte de dados

6 Connection con = app.getConnection(props);

7 Statement stm = con.createStatement();

8 String sql = "select codcliente, nome, sobrenome from clientes";

9 ResultSet rs = stm.executeQuery(sql);

10 System.out.println("\nNomes e sobrenomes:\n" +

11 while(rs.next()){

12 System.out.println(rs.getString(2) + " " + rs.getString(3));

13 }

14 //libera recursos

15 rs.close();

16 stm.close();

17 con.close();

18 }catch(...);

19 }

Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo