( PDF ) Busca por palavras em imagens de documentos: uma abordagem independente de OCR

Download PDF

ads:

ISRAEL RIOS

Busca por Palavras em Imagens de

Documentos: Uma Abordagem

Independente de OCR

Dissertação apresentada ao Programa de

Pós-Graduação em Informática da Pontifícia

Universidade Católica do Paraná como requi-

sito parcial para obtenção do título de Mes-

tre em Informática.

Curitiba – PR

Julho/2007

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

ISRAEL RIOS

Busca por Palavras em Imagens

de Documentos: Uma Abordagem

Independente de OCR

Dissertação apresentada ao Programa de

Pós-Graduação em Informática da Pontifícia

Universidade Católica do Paraná como requi-

sito parcial para obtenção do título de Mes-

tre em Informática.

Área de Concentração: Ciência da Compu-

tação.

Orientador: Alceu de Souza Britto Jr., Dr.

Co-orientador: Alessandro Lameiras Koe-

rich, Dr.

Curitiba – PR

Julho/2007

ads:

Rios, Israel

Busca por Palavras em Imagens de Documentos: Uma Abordagem Inde-

pendente de OCR. Curitiba – PR, Julho/2007.

Dissertação - Pontifícia Universidade Católica do Paraná. Programa de

Pós-Graduação em Informática.

1. Recuperação de Texto em Imagens de Documentos 2. Comparação

Inexata de Características 3. Segmentação de Imagens de Eocumentos

I.Pontifícia Universidade Católica do Paraná. Centro de Ciências Exatas

e Tecnologia. Programa de Pós-Graduação em Informática II - t

Ao meu Pai e minha Mãe por todo amor,

apoio espiritual e ﬁnanceiro. A minha es-

posa, Sílvia, pela inspiração e carinho.

Sumário

Sumário ii

Lista de Figuras v

Lista de Tabelas vii

Lista de Símbolos viii

Lista de Abreviações ix

Resumo x

Abstract xi

Capítulo 1

Introdução 1

1.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4 Organização do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Capítulo 2

Revisão Bibliográﬁca 8

2.1 Segmentação de Documentos . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Recuperação de Texto em Imagens de Documentos . . . . . . . . . . . . . 12

2.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Capítulo 3

Metodologia 22

3.1 Obtenção das Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2 Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3 Segmentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.4 Extração de Características . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.4.1 Conjunto de Características LRPS . . . . . . . . . . . . . . . . . . 30

3.4.2 Conjunto de Características LRPS Modiﬁcado . . . . . . . . . . . . 31

3.4.3 Conjunto de Características AYV . . . . . . . . . . . . . . . . . . . 31

3.4.4 Conjunto de Características ULTC . . . . . . . . . . . . . . . . . . 33

3.4.5 Conjunto de Características ULTC Modiﬁcado . . . . . . . . . . . . 35

3.5 Conversão ASCII/Descritor . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.6 Comparação de Descritores . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.7 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Capítulo 4

Resultados Experimentais 41

4.1 Banco de Imagens de Documentos . . . . . . . . . . . . . . . . . . . . . . . 41

4.2 Protocolo Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.3 Segmentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.4 Experimentos Realizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.4.1 LRPS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.4.2 AYV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.4.3 ULTC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.4.4 ULTC Modiﬁcado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5 Análise de Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Capítulo 5

iii

Conclusão 57

Referências Bibliográﬁcas 59

ANEXO A

Palavras Desconsideradas Durante a Seleção das Palavras Utilizadas nos Testes 61

Lista de Figuras

Figura 1.1 Estrutura básica de um sistema para a recuperação de imagens de

documentos utilizando uma palavra no formato textual. . . . . . . . . . . . 3

Figura 2.1 Método proposto por Breuel (2002) para detecção de espaços em

branco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Figura 2.2 Regiões em comum (1, 2, 3 e 4) geradas pela estratégia de divisão

utilizada por Breuel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Figura 3.1 Visão geral do método desenvolvido; exemplo de busca da palavra

“speech”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Figura 3.2 Mascaras utilizadas para realizar a suavização de contornos. Em

(a), (b) e (c) o pixel central é mudado para 1, em (d) e (e) para 0. . . . . . 25

Figura 3.3 Resultado da suavização de contornos em um caractere colhido de

um dos documentos analisados. . . . . . . . . . . . . . . . . . . . . . . . . 25

Figura 3.4 Divisão da página em listas verticais e horizontais. Blocos repre-

sentam os componentes conexos detectados (imagens, tabelas, caracteres,

etc.). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Figura 3.5 Alteração do método de detecção de espaços para evitar recálculo.

(a) Imagem com os componentes conexos delimitados; (b) Seleção do pivô;

retângulos superior e inferior. . . . . . . . . . . . . . . . . . . . . . . . . . 27

Figura 3.6 Posição das linhas de apoio em uma imagem de palavra. . . . . . . 28

Figura 3.7 Projeção horizontal da imagem da palavra “system”. . . . . . . . . . 28

Figura 3.8 Divisão das colunas em regiões e o cálculo da característica das

colunas 5 e 9 do caractere “a”. . . . . . . . . . . . . . . . . . . . . . . . . . 32

Figura 3.9 Imagem da palavra “problem” extraída de um dos documentos ana-

lisados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Figura 3.10 Característica de contorno superior(invertida) ao longo da palavra

“problem”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Figura 3.11 Característica de contorno inferior ao longo da palavra “problem”. . 34

Figura 3.12 Número de transições(normalizado) ao longo da palavra “problem”. 34

Figura 4.1 Quatro páginas de um documento pertencente ao banco de imagens

de documentos utilizado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Figura 4.2 Parte de dois documentos pertencentes ao banco de imagens de

documentos utilizado: (b) apresenta traços mais grossos que (a). . . . . . . 43

Figura 4.3 Processo de criação do banco de dados de testes. . . . . . . . . . . . 44

Figura 4.4 Deformações nos caracteres “a”(a), “h”(b) e “n”(c) causadas por

ruídos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Figura 4.5 Problemas na detecção de linhas retas no algoritmo utilizado no

conjunto de características LRPS. (a) linha de varredura coincide com um

traço horizontal no caractere “A”. (b) linha incorretamente detectada no

caractere “S”. (c) a linha da direita é incorretamente detectada no caractere

“R”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Lista de Tabelas

Tabela 2.1 Seqüência de características LRPS dos caracteres (LU; TAN, 2004). 16

Tabela 2.2 Resultado ﬁnal da comparação de “unhealthy” e “health” (LU;

TAN, 2004). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Tabela 3.1 Descritor que representa a palavra top utilizando o conjunto de

características LRPS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Tabela 4.1 Palavras, com o respectivo número de ocorrências, utilizadas na

realização dos testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Tabela 4.2 Número de iterações necessárias para detectar os 40 primeiros es-

paços vazios em uma página. . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Tabela 4.3 Estatísticas de desempenho do conjunto de características LRPS

original e modiﬁcado sobre os 815 documentos digitalizados. . . . . . . . . 50

Tabela 4.4 Estatísticas de desempenho do conjunto de características AYV

sobre os 815 documentos digitalizados. . . . . . . . . . . . . . . . . . . . . 51

Tabela 4.5 Estatísticas de desempenho do conjunto de características ULTC

sobre os 815 documentos digitalizados. . . . . . . . . . . . . . . . . . . . . 52

Tabela 4.6 Estatísticas de desempenho do conjunto de características ULTC

Modiﬁcado sobre os 815 documentos digitalizados. . . . . . . . . . . . . . . 53

Tabela 4.7 Estatísticas de desempenho com os melhores resultados de cada

conjunto de características proposto. . . . . . . . . . . . . . . . . . . . . . 53

vii

Lista de Símbolos

δ Parâmetro no cálculo da prioridade do retângulo na busca por espaços em

branco

α Valor que multiplica a mediana das distâncias entre componentes conexos

em uma linha para efetuar a segmentação de palavras

σ Atributo de linha ou transição no conjunto de características LRPS

ω Atributo de posicionamento com relação às linhas de ascendentes e descen-

dentes no conjunto de características LRPS

λ Limiar de similaridade utilizado no método de comparação de descritores

viii

Lista de Abreviações

OCR Optical Character Recognition

ASCII American Standard Code for Information Interchange

PDF Portable Document Format

TIFF Tagged Image File Format

CC Componente Conexo

HMM Hidden Markov Model

SOM Self Organizing Map

LRPS Left-to-Right Primitive String

LTA Line-or-Traversal Attribute

ADA Ascender-and-Descender Attribute

DTW Dynamic Time Warping

AYV Conjunto de características baseado nas características desenvolvidas por

Arica e Yarman-Vural

ULTC Upper and Lower proﬁles and Transitions Count

Resumo

Hoje em dia, há um grande volume de informação disponível na forma digital, seja em

grandes empresas seja em bibliotecas digitais. Grande parte dessa informação é composta

de imagens de documentos digitalizados. Devido ao grande volume, existe a necessidade

de prover métodos de acesso rápido a essa informação. Entretanto, as ferramentas atuais

de indexação e busca não estão preparadas para lidar com esse tipo de dados e o uso de

OCR tem se mostrado uma opção cara do ponto de vista computacional. Neste contexto,

surge o grupo dos métodos que visam possibilitar a busca por palavras em documentos

de imagens sem utilizar OCR, no qual este trabalho se insere. Estes métodos tem como

vantagem o menor tempo de execução, além de geralmente serem mais robustos em do-

cumentos ruidosos. Neste trabalho será apresentado um método independente de OCR

capaz de buscar uma cadeia de caracteres, no formato ASCII, informada pelo usuário

em uma imagem de documento digitalizada. O método ainda tem como característica a

possibilidade de encontrar palavras dentro de palavras através da utilização de um algo-

ritmo de comparação de descritores capaz de fornecer uma medida de similaridade entre

dois descritores, representantes da palavra procurada e da imagem da palavra analisada,

e realizar a correspondência parcial entre eles. Além disso, será apresentado o processo

de segmentação da página em palavras, as quais são a menor unidade de segmentação,

visto que a segmentação a nível de caractere não será utilizada. Três conjuntos de carac-

terísticas distintos foram avaliados com o objetivo de encontrar um boa representação da

imagem da palavra apenas com características extraídas de colunas e da análise das linhas

dos traços dos caracteres. Os resultados dos testes realizados em mais de 800 imagens de

documentos mostraram a viabilidade do método, onde foi possível obter taxas de precisão

e revocação em torno de 65% e 70%, respectivamente.

Palavras-chave: Recuperação de Texto em Imagens de Documentos, Comparação

Inexata de Características, Segmentação de Imagens de Documentos.

Abstract

Nowadays, there is a large volume of information available in digital format, either in large

companies either in digital libraries. Most of of this information is composed of scanned

document images. Due to the large volume, there is the urgency to provide fast access

methods to this information. However, the current tools of indexing and search are not

prepared to deal with this type of data and the OCR use has shown itself an expensive

option of the computational point of view. In this context, appears the group of methods

that aim to make possible the search for words in documents images without using OCR, in

which this work is inserted. These methods have as advantage the smaller execution time,

beyond generally being more robust in noisy documents. In this work will be presented

an OCR free method capable of search a string, in ASCII format, informed by the user in

a scanned document image. The method even has as characteristic the possibility to ﬁnd

words inside of words through the use of a describers matching algorithm capable to supply

a measure of similarity between two describers, representatives of the searched word and of

the analyzed word image, and to carry through the partial correspondence between them.

Moreover, the segmentation process of the page into words will be presented, which are

the smaller unit of segmentation, since the segmentation at the character level will not

be used. Three distinct sets of features had been evaluated with the objective to ﬁnd a

good representation of the word image only with features extracted from columns and

from the analysis of the lines of the characters strokes. The results of tests carried out

in more than 800 document images had shown the viability of the method, where it was

possible to obtain precision rates around 65% and recall rates around 70%.

Keywords: Text Retrieval in Document Images, Inexact Feature Matching, Document

Images Segmentation.

Capítulo 1

Introdução

Com o aumento da capacidade de armazenamento e da redução no custo das memórias

de computador tem ocorrido um aumento no número de dados armazenados por empresas

e por pessoas comuns. Essas informações muitas vezes se encontram na forma de imagem.

Da mesma maneira, algumas empresas têm adotado a prática de manter cópias digitais de

alguns documentos na forma de imagem, para facilitar o compartilhamento de informações

e diminuir o espaço necessário para armazenamento. Porém, os recursos de software

existentes para manipular essas imagens de documentos ainda não estão aptos a indexar,

de forma consistente e automática, imagens de documentos. Faz-se necessário que existam

ferramentas capazes de indexar imagens a partir do conteúdo de maneira automática, para

que o armazenamento de documentos na forma digital seja realmente uma alternativa

plausível.

Uma alternativa que algumas empresas têm adotado para indexar imagens é utilizar

indexação manual, onde o trabalho de colher palavras-chave ou até mesmo transcrever o

documento inteiro é feito por pessoas. Apesar de ser uma alternativa que pode apresentar

resultados satisfatórios, esta possui um alto custo, pois demanda muitos recursos pessoais

e temporais, podendo torná-la inviável.

No intuito de indexar esses documentos de forma automatizada algumas propostas

utilizam-se do Reconhecimento Óptico de Caracteres OCR (Optical Character Recogni-

tion), como na proposta de Kise, Wuotang e Matsumoto (2003). Ou seja, transformar

texto digitalizado para texto ASCII (American Standard Code for Information Inter-

change), que é um formato facilmente manipulado por computador, para depois utilizar

técnicas de indexação tradicionais para documentos no formato ASCII. O problema é que

o OCR ainda apresenta erros no processamento de documentos com formatos complexos

e o problema pode piorar quando a imagem em questão não for de boa qualidade. Além

disso, os erros causados durante a conversão da imagem para texto podem impossibilitar

a localização de um determinado documento a partir de uma palavra fornecida, visto que

a comparação de duas cadeias de caracteres, quando é realizada pela simples comparação

binária dos caracteres, retorna uma resposta positiva ou negativa, limitando a busca às

palavras que foram corretamente identiﬁcadas. Uma alternativa interessante tem sido o

uso de estratégias que executam a comparação de dois descritores e retornam o grau de

semelhança entre eles ou a probabilidade das palavras que eles representam serem iguais.

Quando se está trabalhando com imagens de documentos, que não podem ser trans-

formadas de forma segura (sem erros na conversão) para o formato textual, uma opção é

manter o documento na forma de imagem e utilizar métodos de indexação que sejam capa-

zes de retornar a probabilidade de certa palavra ser igual a outra presente no documento.

Assim, pode-se retornar todos os itens que alcançarem uma probabilidade pré-deﬁnida.

As chances de encontrar o que se procura aumentam, de maneira que mais informação

será retornada. Porém, o método deve ter a precisão suﬁciente para evitar que muita

informação indesejada seja retornada para o usuário.

Nesse contexto, surgem os métodos que fazem uso da técnica de Word Spotting, desti-

nados a trabalhar com documentos em um nível intermediário, entre o formato de imagem

e o formato textual. Essa técnica pode ser descrita como segue:

Word Spotting é uma técnica que permite encontrar todas as ocorrên-

cias de uma palavra em um documento (manuscrito ou impresso). Este

método é usado quando os OCRs comerciais não podem processar o

documento (documentos antigos, manuscritos . . . ). O princípio é sele-

cionar um modelo (a palavra que se deseja encontrar) e comparar sua

forma com a forma de cada palavra no documento. Isto permite aces-

sar a lista de todas as ocorrências de uma palavra no texto e assim nos

permite indexá-lo (LEYDIER, 2004).

A técnica de Word Spotting basicamente consiste em localizar imagens de palavras

que se assemelhem a uma imagem de palavra selecionado do texto. O fato de se ter que

selecionar uma imagem extraída do texto que represente a palavra que se deseja encontrar,

limita a utilização dessa técnica no contexto de recuperação automatizada de imagens de

documentos. Devido a isso, surgem métodos que permitem a recuperação de imagens de

documentos através de uma palavra no formato ASCII (ou outra codiﬁcação de caracteres

conhecida), realizando a conversão dos caracteres para algo que possa ser comparado com

as imagens de palavras coletadas do texto.

Alguns trabalhos foram publicados nesse contexto. Entre os métodos desenvolvidos,

diferentes princípios foram utilizados para a comparação das palavras. Já se usou a

Figura 1.1: Estrutura básica de um sistema para a recuperação de imagens de documentos

utilizando uma palavra no formato textual.

relação das linhas e dos traços que formam a palavra (LU; TAN, 2004), as projeções

verticais e horizontais da palavra, as linhas superiores e inferiores formadas pela palavra,

entre outros. Além disso, Marinai et al. (2004) ﬁzeram uso de informações relativas ao

formato do documento para aprimorar a busca do usuário.

Na Figura 1.1, pode-se visualizar a estrutura básica de um sistema que se propõem

a realizar a recuperação de imagens de documentos utilizando uma palavra textual. O

processo inicia com a segmentação das páginas em palavras. Depois de segmentadas as

palavras, as características de cada uma são extraídas gerando descritores que são armaze-

nados em um banco de dados de descritores. Juntamente com a palavra e o descritor são

armazenadas informações sobre a posição e o número da página em que ela se encontra.

Na etapa de busca o usuário informa a palavra que deseja encontrar no formato ASCII,

a qual é transformada em um descritor e comparado com outros descritores existentes no

banco de dados. As páginas que contiverem palavras cujos descritores apresentaram simi-

laridade suﬁciente com o descritor da palavra procurada serão retornadas para o usuário.

A extração de características é um processo fundamental e de grande importância

nos sistemas de indexação de documentos digitalizados. Aspectos como caracteres que se

tocam, ruídos e invariância a diferentes tipos de fontes, escala, rotação e translação devem

ser levados em conta no momento da especiﬁcação do conjunto de características que será

utilizado. Neste contexto, o objetivo deste trabalho é desenvolver um método para a loca-

lização de palavras em imagens de documentos. Para tanto, a imagem de uma página deve

ser segmentada em linhas e a seguir em palavras. A partir de cada palavra no documento

será extraído um descritor. A palavra fornecida, no formato ASCII, será convertida para

um descritor no mesmo formato do descritor extraído da imagem. Estes descritores serão

comparados através da comparação inexata de características (LOPRESTI; ZHOU, 1996)

(a qual será descrita no Capítulo 2), e uma medida de similaridade entre eles será dada.

Implementada uma versão inicial considerando-se o conjunto de características pro-

posto por Lu e Tan (2004), os esforços serão concentrados no processo de extração de

características, visto que este pode ser considerado o mais importante do sistema. Nesse

sentido, novos conjuntos de características serão implementados e testados. Finalmente,

espera-se, através dessas novas características, melhorar o desempenho do método original.

1.1 Objetivo

O objetivo geral deste projeto é desenvolver um método capaz de encontrar, de forma

eﬁcaz, em imagens digitalizadas de documentos impressos palavras que correspondam a

palavra que se deseja buscar no formato ASCII. O escopo dos documentos analisados se

restringirá a documentos com fontes tradicionais em documentos na língua inglesa tais

como Times e Arial.

Alguns objetivos especíﬁcos serão importantes para a realização do objetivo principal:

• Criar um banco de dados com imagens de documentos no formato PDF (Portable

Document Format)

. Este banco de dados será utilizado para testes e deverá ser

composto por documentos em duas versões: uma no formato textual e uma no

formato de imagem. O arquivo no formato textual será utilizado para validar os

resultados das buscas efetuadas nos documentos no formato de imagem.

• Desenvolver uma plataforma que possibilite a implementação e avaliação do método

proposto. Para a realização de testes e implementação de qualquer método cujo

objetivo seja realizar a busca por palavras em imagens de documentos, se faz ne-

cessário a implementação de uma plataforma de desenvolvimento. Pretende-se com

Formato desenvolvido para proporcionar o máximo de compatibilidade entre o que se vê na tela e o

que se imprime.

essa plataforma realizar tarefas cruciais para qualquer método que se proponha a

trabalhar com a análise de uma imagem de documento. Entre essas tarefas pode-se

citar:

– Ler a imagem a partir de diferentes formatos de arquivo, incluindo PDF, TIFF

(Tagged Image File Format) e outros formatos comumente utilizados para ar-

mazenar imagens de documentos. O formato PDF é largamente utilizado na

publicação de artigos e outros documentos na Internet. Existem documentos

disponibilizados nesse formato que estão no formato texto e podem ser inde-

xados com ferramentas de indexação tradicionais para a indexação de textos.

Porém, existem também documentos PDF que consistem em imagens digi-

talizadas do documento original e que não podem ser indexadas da maneira

tradicional. É esse tipo de documento que se deseja tratar;

– Desenvolver um conjunto de funções para a realização de tarefas atribuídas ao

processamento de imagens, tal como binarização, cópia, redimensionamento,

entre outros;

• Segmentar o documento ao nível de palavras ou outro nível que seja interessante

ao método que se deseja implementar. A segmentação é uma etapa importante

do processo de indexação de imagens de documentos. Se esta etapa não obtiver

um desempenho satisfatório, comprometerá todo o processo. Assim, ﬁgura entre

os objetivos deste projeto implementar métodos para realizar essa tarefa de forma

eﬁcaz (ver o Capítulo 2);

• Implementar o método inicial, baseado na proposta de Lu e Tan (2004);

• Avaliar diferentes variações do método inicialmente implementado. Novas caracte-

rísticas devem ser desenvolvidas e testes serão realizados para avaliar o impacto no

método.

A realização de cada um destes objetivos é de grande importância para o resultado

ﬁnal. O processo terá inicio como a implementação da plataforma de desenvolvimento

e com a criação do banco de dados de testes. A seguir, o método propriamente dito

será implementado e o processo de investigação terá inicio, no qual diferentes conjuntos

de características serão avaliados. Finalmente, o método será comparado com outros

existentes.

1.2 Motivação

Dois pontos principais motivam este projeto:

• O grande volume de documentos disponíveis na Internet e em bibliotecas digitais na

forma de imagens. Algumas bibliotecas como a Making of America (da Biblioteca

da Universidade Cornell), Gallica (da Biblioteca Nacional da França) e a Biblioteca

Britânica, possuem métodos precários de indexação de documentos. Algumas fazem

uso do OCR e outras indexam manualmente o sumário dos livros. Além disso,

artigos cientíﬁcos também são comumente disponibilizados na forma de imagens

incorporadas a documentos PDF;

• A falta de ferramentas capazes de indexar automaticamente e buscar documentos

na forma de imagens de maneira eﬁcaz;

• A possibilidade de se avaliar diferentes conjuntos de características na tarefa de

buscar palavras em imagens de documentos sem o uso de OCR.

Existe uma crescente demanda em grandes empresas na área de indexação de imagens.

Os métodos existentes, baseados em OCR, quando submetidos a documentos de baixa

qualidade, têm uma tendência a gerar erros prejudicando a qualidade da busca. Além

disso, os métodos baseados em OCR geralmente apresentam um custo computacional

maior do que os baseados em outras técnicas que não utilizam OCR, visto que estes

adotam um procedimento onde a palavra procurada é aproximada do formato da imagem,

evitando assim a necessidade de tentar converter cada imagem de palavra do documento

para uma versão textual. Ou seja, ao invés de aproximar a maioria da minoria aproxima-se

a minoria da maioria. Porém, ainda há muito para ser feito nessa área, principalmente no

desenvolvimento de características e de métodos que não fazem uso do OCR. Os resultados

obtidos com técnicas independentes de OCR ainda são inferiores, em termos de precisão

e revocação, aos obtidos em métodos que fazem uso do OCR. Por outro lado, a medida

que mais trabalhos forem publicados nessa área os números devem ao menos se igualar e

os ganhos em tempo de processamento falarão mais auto.

1.3 Contribuições

Este trabalho contribui para a comunidade cientíﬁca de modo que fornece uma análise

de diferentes conjuntos de características no âmbito da localização de palavras em imagens

de documentos. Contribui para a sociedade, a medida que se procura desenvolver um

método que venha a acelerar a recuperação de texto em imagens de documentos, o que

causa um maior acesso a informação armazenada nesses meios e beneﬁcia um número

maior pessoas que necessitam desses dados. Por ﬁm, pode-se relacionar aqui contribuições

ao meio ambiente, visto que quando se reduz o número de recursos computacional gastos

para se realizar uma determinada tarefa reduz-se o consumo de recursos naturais utilizados

pela mesma.

1.4 Organização do Documento

No próximo capítulo estão relacionados alguns dos trabalhos publicados na área de

processamento e recuperação de texto em imagens de documentos. No Capítulo 3 está

detalhado o método desenvolvido e os conjuntos de características utilizados. No Capítulo

4 têm-se os resultados experimentais, a descrição do procedimento utilizado para calcular

tais resultados e a análise do desempenho do método como um todo e dos diferentes

conjuntos de características empregados. O fechamento do trabalho e as considerações

ﬁnais são apresentadas no Capítulo 5.

Capítulo 2

Revisão Bibliográﬁca

Antes de se chegar a uma proposta para abordar o problema da localização de palavras

em imagens de documentos, foi necessário realizar uma pesquisa bibliográﬁca e levantar

algumas das técnicas utilizadas em outros trabalhos, relativos a esta área, publicados

ao longo dos últimos anos. Entre os trabalhos avaliados dedicou-se maior atenção aos

trabalhos na área de recuperação de texto a partir de imagens de documentos sem o uso

de OCR. Nesse contexto, serão relacionados a seguir alguns trabalhos que são objeto de

estudo dentro do escopo deste trabalho: segmentação de documentos e recuperação de

texto em imagens de documentos.

Durante a avaliação dos trabalhos apresentados neste capítulo, encontrou-se com

frequência duas métricas: precisão e revocação. Considerando-se o contexto de uma

busca em um conjunto de elementos, o número de acertos (X

) seria o número de vezes

em que a busca encontrou o que se estava procurando, o número de ocorrências (X

) seria

o número de elementos encontrados e o número de elementos existentes (X

) corresponde

ao número de elementos que uma busca ideal retornaria. Assim, pode-se deﬁnir a precisão

como a relação entre o número de acertos e o número de ocorrências e a revocação como

a relação entre o número de acertos e o número de elementos existentes. Assim, podemos

calcular a precisão P e a revocação R através das equações 2.1 e 2.2, respectivamente.

P =

(2.1)

R =

(2.2)

2.1 Segmentação de Documentos

Uma das etapas presentes em praticamente todos os sistemas de processamento de

imagens de documentos é a segmentação. Dependendo do método utilizado o objetivo

da segmentação pode ser a delimitação das imagens, tabelas, blocos de texto, parágrafos,

linhas de texto, palavras, caracteres e outros itens estruturais presentes em um documento.

Uma correta segmentação é essencial para o funcionamento do sistema como um todo.

Além disso, seu desempenho deve ser adequado para que não afete o desempenho do

sistema.

Neste trabalho o foco da segmentação serão as palavras do texto. Porém, uma das

formas de segmentar as palavras é primeiramente segmentar o texto em blocos, em linhas

e a seguir em palavras. Assim, a segmentação das colunas e das linhas do texto também

são importantes para o foco principal.

Uma das primeiras fases na segmentação de um documentos é a detecção de com-

ponentes conexos. Um CC (Componente Conexo) nada mais é do que um conjunto de

pixels pretos (representando parte de um objeto na imagem) dispostos de tal maneira que

pode-se chegar a qualquer pixels presente no componente a partir de outro pixel qualquer

presente no mesmo componente. Ou seja, todos os pixel presentes em um componente

conexo estão conectados de alguma maneira.

Breuel (2002) propôs dois métodos para solução de problemas relativos a segmentação

de documentos: identiﬁcar espaços retangulares em branco e identiﬁcar linhas levando-

se em consideração um conjunto de espaços em branco em uma página. O primeiro

método pode ser utilizado para detectar colunas em um documento, desde que encontre

um retângulo vazio entre duas colunas de texto. Esse método identiﬁca espaços em branco

na ordem crescente de área, utilizando uma ﬁla de prioridades onde a prioridade de cada

retângulo é dada pela sua área. A cada iteração do método um retângulo é retirado da

ﬁla e dividido em quatro partes que são re-inseridas na ﬁla. Quando um retângulo vazio

é encontrado ele é classiﬁcado como espaço em branco e inserido na lista de CCs para

evitar que outros retângulo contendo partes em comum com este sejam detectados. A

iteração continua até que os N maiores retângulos vazios sejam encontrados. O segundo

método é utilizado para encontrar linhas de texto. Este método busca encontrar linhas

que minimizem a distância para a parte inferior central dos componentes conexos da

página. As linhas encontradas não devem exceder os limites gerados pela detecção de

espaços vazios. Esses dois métodos juntos formam uma poderosa ferramenta de análise

da estrutura de documentos.

Figura 2.1: Método proposto por Breuel (2002) para detecção de espaços em branco.

Figura 2.2: Regiões em comum (1, 2, 3 e 4) geradas pela estratégia de divisão utilizada

por Breuel.

O algoritmo apresentado por Breuel (2002) para a detecção de espaços é ótimo. Ou

seja, apresenta como solução o maior retângulo, que não contém CCs no seu interior, exis-

tente no documento. Ao se inserir o retângulo encontrado na lista de CCs do documento,

tem-se a capacidade de re-executar o método para obter o segundo maior retângulo e

assim por diante. A Figura 2.1 ilustra o processo que está descrito abaixo:

1. Cria-se uma ﬁla de prioridades onde o retângulo que tem maior área ﬁca mais a

frente na ﬁla, e insere-se o retângulo inicial (que pode ser correspondente a página a

ser analisada). A Figura 2.1(a) representa uma região da imagem onde os retângulos

mostrados correspondem aos CCs pertencentes a esta região;

2. Retira-se um retângulo  da ﬁla;

3. Se  não contiver CCs ele é retornado como resposta. Senão, um componente

pertencente a  é escolhido para ser o pivô da sua divisão. O melhor componente

é aquele que está mais perto do centro do retângulo, conforme mostrado na Figura

2.1(b);

4. Divide-se  em quatro, baseando-se nas coordenadas do pivô: a esquerda, direita,

acima e abaixo, conforme Figuras 2.1(c) e 2.1(d). Cada sub-retângulo formado é

inserido na ﬁla de prioridades;

5. Retorna para o passo 2.

A estratégia de divisão e conquista proposta por Breuel (2002) para identiﬁcar espaços

vazios é interessante porque garante que o n-ésimo retângulo encontrado será o n-ésimo

maior retângulo vazio da imagem, simpliﬁcando a tarefa de encontrar os N maiores retân-

gulos vazios. Porém, ela tem a desvantagem de ocasionar o re-processamento de várias

áreas da imagem devido a maneira como as divisões são feitas. A divisão de um retân-

gulo como está ilustrado na Figura 2.1 gera regiões em comum, conforme pode-se ver na

Figura 2.2, estas regiões serão analisadas mais de uma vez o que torna o algoritmo ineﬁci-

ente e limita a sua utilização. Tal problema pode ser solucionado dividindo os retângulos

sem deixar regiões em comum. Além disso, pode-se dividir os retângulos de maneira a

privilegiar aqueles que possuem as maiores relações de altura/largura para favorecer a

detecção de colunas. Entretanto, perde-se a garantia de que os N primeiros retângulos

encontrados serão os N maiores retângulos da imagem. A modiﬁcação necessária é uma

das contribuições deste trabalho e será apresentada em detalhes no Capítulo 3.

Wang, Lu e Tan (2003) mostraram que é possível segmentar palavras em uma imagem

utilizando diagramas de Voronoi. Primeiro, os componentes conexos são encontrados e a

seguir os componentes conexos detectados como ruído e os que provavelmente represen-

tam caracteres especiais (“{”,“}”,“(”,“)”,...) são eliminados. O diagrama de Voronoi é

calculado para a imagem, formando bordas que separam dois componentes conexos. Cada

borda é avaliada segundo um conjunto de restrições que levam em conta a distância da

borda aos componentes conexos que ela separa e a relação dessa distância com as distân-

cias das outras bordas que cercam o componente. Se a borda se enquadrar nas restrições

então ela é removida, unindo dois componentes conexos. Este processo continua de modo

a formar palavras. Este método tem a vantagem de dispensar a detecção de linhas e

segmentar as palavras diretamente. Por outro lado, o cálculo do diagrama de Voronoi é

complexo e o processamento envolvido é relativamente custoso.

A segmentação de documentos é uma área bastante desenvolvida e vem sendo objeto

de várias pesquisas ao longo dos anos. Sua utilização neste trabalho se da como um pré-

requisito para a execução do método de localização de palavras. Desse modo, esta seção

não revisa de maneira exaustiva esta área, limitando-se aos trabalhos mais relevantes a

nosso objeto de estudo.

2.2 Recuperação de Texto em Imagens de Documentos

Os métodos de recuperação de texto em imagens de documento podem ser divididos

em dois grupos: os que fazem uso de OCR e os livres de OCR. No primeiro a imagem

do documento é convertida para texto e depois analisada por ferramentas tradicionais de

busca em texto. Nos métodos do segundo grupo não se realiza a conversão para texto

e a busca é efetuada através da similaridade entre descritores extraídos da imagem e da

palavra que se deseja encontrar.

Os métodos livres de OCR tem como vantagem sobre as baseadas em OCR o tempo

de execução. Normalmente, os métodos livres de OCR são mais rápidos que os baseados

em OCR. Este comportamento é devido ao fato de que o processamento necessário para

converter toda a imagem do documento para texto é muito grande. Além disso, métodos

livres de OCR são mais indicados para documentos ruidosos, já que a conversão da imagem

para texto costuma ser imprecisa nestes casos.

Alguns métodos baseados em OCR utilizam classiﬁcadores HMM para a converter

imagens de caracteres em caracteres interpretados por computador. Porém, tais classiﬁ-

cadores podem ser utilizados mesmo em técnicas que não realizam a conversão da imagem

via OCR. No trabalho de Chen, Bloomberg e Wilcox (1996), foi desenvolvido um método

para efetuar a busca por palavras e frases em imagens de documentos através do uso de

classiﬁcadores HMM (Hidden Markov Model). Após segmentar o texto em linhas, palavras

e caracteres os pixels das colunas existentes entre as linhas de ascendentes e descenden-

tes são utilizados como vetores de características que servem como entrada para a rede

HMM. Assim, a única funcionalidade do processo de extração de características é enqua-

drar uma coluna de pixels em um vetor de tamanho pré-deﬁnido. Através da utilização

desse método em um subconjunto do banco de imagens de documentos da Universidade

de Washington(UW), foram relatadas revocação igual a 94% e taxa de falsos alarmes igual

a 0,2% na localização de frases com três palavras e taxas de falsos alarmes igual a 0,5%

na localização de palavras individuais. Portanto, pode-se concluir que quanto mais in-

formação fornecida melhores são os resultados obtidos. Um dos pontos fracos do método

reside na necessidade de uma etapa de treinamento.

Ainda no contexto de busca por palavras em documentos pode-se relacionar o tra-

balho de Marinai et al. (2004), onde o formato da página foi utilizado para auxiliar na

recuperação de documentos. Nesse trabalho os autores desenvolveram um método para

fazer a recuperação de imagens de documentos através da análise do formato da página

e das palavras-chave que se deseja encontrar. Na fase de indexação o método gera três

repositórios de informações sobre o documento que se está indexando: árvores MXY

formatos de página e palavras. No primeiro repositório são armazenadas as árvores MXY

para cada página do documento. Nesse repositório a árvore é armazena de forma com-

pleta, representando todas as divisões encontradas na página. No segundo repositório, a

árvore MXY é codiﬁcada em uma forma mais compacta, rotulando padrões de árvore pré-

deﬁnidos. Além disso, nesse repositório são armazenadas informações relativas à página

como um todo, como a percentagem da página ocupada pelo texto. No terceiro reposi-

tório são armazenadas palavras na forma vetorial. Os vetores de palavras são formados

pelas posições de cada caractere relativas a um SOM (Self Organizing Map), o qual é

um tipo especial de rede neural, correspondendo à aglomeração que o caractere pertence.

Na etapa de recuperação a palavra procurada é transformada em uma imagem e seus

caracteres submetidos ao SOM para formar o vetor de características que será buscado

no repositório de palavras. Uma página com o formato desejado pode ser fornecida para

aprimorar a busca. Métodos de busca foram desenvolvidos pelos autores, os quais com-

binaram o formato e as palavras do documento. Através da utilização do repositório de

formatos de página, com o método proposto é possível buscar palavras em lugares espe-

cíﬁcos do documento, como em legendas de imagens ou em início de capítulos. Porém,

para documentos ruidosos esse método pode não apresentar bons resultados devido ao

fato de segmentar palavras em caracteres, estratégia que tradicionalmente não traz bons

resultados para documentos com caracteres que se tocam.

Para cada idioma de escrita dos documentos a localização de palavras apresenta parti-

cularidades. Nesse sentido, pode-se relacionar o trabalho de Lu e Tan (2002). Os autores

desenvolveram um método para efetuar a busca por palavras ou frases em imagens de

documentos chineses, sem a necessidade de analisar o formato do documento. O método

se propõe a encontrar palavras na vertical e na horizontal. Numa primeira etapa os com-

ponentes conexos são encontrados e alguns componentes conexos próximo são unidos, de

acordo com a relação proximidade e distância, para formar caracteres chineses. A seguir

um caractere da palavra de pesquisa é utilizado para iniciar a busca. Quando um ca-

ractere correspondente for encontrado os caracteres da direita e de baixo da imagem são

comparados com os próximos caracteres da palavra de pesquisa. Quando o primeiro ca-

ractere pesquisado não for o primeiro caractere da palavra de pesquisa então os caracteres

da direita e de cima são comparados com o caractere anterior da palavra de pesquisa e

assim sucessivamente. A imagem do caractere é dividida em um grade e a densidade de

Árvores MXY são utilizadas na análise do formato do documento. A raiz da árvore é a própria página

do documento, os nós internos são as divisões da página e os nós folhas são as regiões de texto e imagens

existentes na página.

cada região é utilizada para comparar os dois caracteres, se houver correspondência então

a distancia ponderada de Hausdorﬀ é calculada para ﬁnalmente dizer se os caracteres

correspondem. O método proposto é relativamente simples, porém, segundo os próprios

autores, não apresenta um bom desempenho com imagens ruidosas.

Um dos métodos fortemente relacionados com a pesquisa apresentada neste docu-

mento é o proposto por Lu e Tan (2004). Os autores propuseram um método para efetuar

a busca por palavras em imagens de documentos baseado em informações estruturais da

imagem da palavra. Após a segmentação do documento em palavras, a extração de carac-

terísticas de linhas e de passagem das mesmas é realizada. As características extraídas das

imagens das palavras são chamadas de LRPS (Left-to-Right Primitive String), as quais

são formadas através da análise da imagem da palavra da esquerda para a direita.

Cada característica p do conjunto de características é formada por um par de atri-

butos (σ, ω), onde σ é o LTA (Line-or-Traversal Attribute) e ω é o ADA (Ascender-and-

Descender Attribute). Como resultado a imagem de uma palavra é expressa por uma

seqüência P de p

’s.

P =< p

...p

>=< (σ

, ω

)(σ

, ω

)...(σ

, ω

) > (2.3)

O atributo ω da característica p pode receber um dos seguintes valores:

‘x’ se a primitiva

está entre linha de ascendentes

e a linha de descendentes;

‘a’ se a primitiva está entre a margem superior e a linha de ascendentes;

‘A’ se a primitiva está entre a margem superior e a linha de descendentes;

‘D’ se a primitiva está entre a linha de ascendentes e a margem inferior;

‘Q’ se a primitiva está entre a margem superior e a margem inferior.

O atributo σ da característica p é formado por características de linhas retas (se

houver) ou características de transição. Para gerar este atributo o algoritmo percorre a

imagem horizontalmente até encontrar um ponto preto. Ao encontrar este ponto preto

ele tenta encontrar a maior seqüência de pontos consecutivos dentro de determinados

ângulos. Se a maior seqüência encontrada for maior ou igual a distância entre a linha de

Primitiva é o traço ou o conjunto de pixels que esta sendo analisado dentro da imagem da palavra.

linha imaginária paralela a linha de descendentes que se encontra no topo da maioria das letras

minúsculas

ascendentes e a linha de descendentes então a linha que obteve o maior comprimento é

retirada da imagem, e o atributo σ recebe um dos seguintes valores:

‘l’ : linha reta vertical. Se o atributo ω da primitiva for ‘x’ ou ‘D’ e se existir um ponto

acima da primitiva este valor será mudado para ‘i’;

‘v’ : linha reta diagonal da direita para baixo;

‘w’ : linha reta diagonal da esquerda para baixo. Se o atributo ω da primitiva for ‘x’ ou

‘A’ e se existirem duas retas horizontais conectadas as extremidades da linha este

valor será mudado para ‘z’;

‘x’ : uma linha reta diagonal da esquerda para baixo cruza com uma linha reta diagonal

da direita para baixo;

‘y’ : uma linha reta diagonal da esquerda para baixo encontra o meio de uma linha reta

diagonal da direita para baixo;

‘Y’ : uma linha reta diagonal da esquerda para baixo, uma linha reta diagonal da direita

para baixo e uma linha reta vertical se encontram em um ponto;

‘k’ : uma linha reta diagonal da esquerda para baixo, uma linha reta diagonal da direita

para baixo e uma linha reta vertical se tocam no mesmo ponto.

Depois das primitivas de linhas retas serem retiradas da imagem as primitivas restantes

são analisadas, coluna a coluna, para contar o número de transições de pixels pretos para

pixels brancos (NT); veriﬁcar a distância do pixel mais abaixo, com relação a linha de

descendentes (D

); a distância do pixel mais acima, com relação a linha de ascendentes

) e calcular a razão do número de pixels pretos pela distância da linha de descendentes

até a linha de ascendentes (k). Se NT = 0 então σ e ω recebem ‘&’ que corresponde a

um espaço em branco. Se NT = 2 então tem-se ξ = D

e o atributo σ pode receber

um dos seguintes valores:

σ =











n se k < 0, 2 e ξ < 0, 3

u se k < 0, 2 e ξ < 3

c se k < 0, 5 e ξ < 1, 5

Se NT >= 4, σ recebe:

σ =











o se NT = 4

e se NT = 6

g se NT = 8

Ca LRPS Ca LRPS

a (o,x)(e,x)(l,x) A (w,A)(v,A)

b (l,A)(o,x)(c,x) B (l,A)(e,A)(o,A)

c (c,x)(o,x) C (c,A)(o,A)

d (c,x)(o,x)(l,A) D (l,A)(o,A)(c,A)

e (c,x)(e,x)(o,x) E (l,A)(e,A)

f (n,x)(l,A)(u,a) F (l,A)(o,A)(u,a)

g (g,D)(e,D) G (c,A)(o,A)(e,A)(o,A)

h (l,A)(n,x)(l,x) H (l,A)(n,x)(l,A)

i (i,A) I (l,A)

j (i,Q) J (u,x)(l,A)

k (k,x) K (k,A)

l (l,A) L (l,A)(u,x)

m (l,x)(n,x)(l,x)(n,x)(l,x) M (l,A)(v,A)(w,A)(l,A)

n (l,x)(n,x)(l,x) N (l,A)(v,A)(l,A)

o (c,x)(o,x)(c,x) O (c,A)(o,A)(c,A)

p (l,D)(o,x)(c,x) P (l,A)(o,A)(c,A)

q (c,x)(o,x)(l,D) Q (c,A)(o,A)(e,Q)(o,D)

r (l,x)(n,x) R (l,A)(o,A)(e,A)(o,A)

s (o,x)(e,x)(o,x) S (o,A)(e,A)(o,A)

t (n,x)(l,A)(o,x) T (u,a)(l,A)(u,a)

u (l,x)(u,x)(l,x) U (l,A)(u,x)(l,A)

v (v,x)(w,x) V (v,A)(w,A)

w (v,x)(w,x)(v,x)(w,x) W (v,A)(w,A)(v,A)(w,A)

x (x,x) X (x,A)

y (y,D) Y (Y,A)

z (z,x) Z (z,A)

Tabela 2.1: Seqüência de características LRPS dos caracteres (LU; TAN, 2004).

Quando duas características vizinhas do vetor de características são iguais, apenas

uma é deixada no vetor. Além disso, um pré-processamento é feito para remover caracte-

rísticas decorrentes de fontes com serifa, ou seja, fontes que apresentam pontos adjacentes

nas extremidades de algumas letras.

Para efetuar uma pesquisa em um documento de imagem, através do método proposto,

a palavra procurada deve ser representada em um vetor de características LRPS. Assim

sendo, cada caractere foi mapeado para uma seqüência de características LRPS, possibili-

tando a conversão de uma cadeia de caracteres apenas pela substituição de cada caractere

pela sua seqüência equivalente em LRPS e a adição da característica (&,&) entre cada

caractere. Por exemplo, a palavra “health” corresponde a seguinte seqüência de carac-

terísticas LRPS: “(l,A)(n,x)(l,x)(&,&)(c,x)(e,x)(o,x)(&,&)(o,x)(e,x)(l,x)(&,&)(l,A)(&,&)

(n,x)(l,A)(o,x)(&,&)(l,A)(n,x)(l,x)”. A Tabela 2.1 traz a relação completa dos caracteres

e suas respectivas seqüências de características.

Para medir a similaridade entre dois vetores de características a técnica de comparação

inexata de características(LOPRESTI; ZHOU, 1996) foi utilizada. O algoritmo faz uso da

técnica de programação dinâmica, a qual utiliza uma tabela para armazenar os dados já

calculados pelo algoritmo para evitar o recálculo. O algoritmo compara os dois vetores de

características e através de pesos, atribuídos para cada par de características diferentes,

chega a uma pontuação, onde pode ser medida a similaridade entre as duas palavras.

O cálculo da pontuação (similaridade) é feito de forma tabular, onde o tamanho dos

dois vetores a serem comparados corresponde às dimensões da tabela. Ao ﬁnal do cálculo

a tabela é percorrida em busca do maior valor, que será então normalizado entre 0 e 1 e

comparado a um limiar para dizer se os vetores são semelhantes o suﬁciente.

O pseudocódigo do algoritmo utilizado para comparar dois conjuntos a e b de ca-

racterísticas LRPS pode ser visualizado no Algoritmo 1. Um traço “−” representa a

primitiva de espaço inserida na correspondente posição da cadeia de caracteres e V é a

tabela (matriz) utilizada para armazenar os resultados. As funções (p

, p

), µ(p

, p

) e

ν(p

, p

) retornam o peso atribuído ao par de características p

e p

, o qual é positivo

quando p

= p

e negativo quando p

= p

. Um mínimo de 0 (zero) é atribuído a V (i, j)

para garantir ao algoritmo a capacidade de reinicio.

Algoritmo 1 Cálculo da similaridade utilizando programação dinâmica

{inicialização}

para i ← 0 até n faça

V (i, 0) ← 0

ﬁm para

para j ← 0 até m faça

V (0, j) ← 0

ﬁm para

{calcula cada elemento levando em conta os resultados anteriores}

para i ← 1 até n faça

para j ← 1 até m faça

V (i, j) ← max











V (i − 1, j − 1) + (a

, b

)

V (i − 1, j) + µ(a

, −)

V (i, j − 1) + ν(−, b

)

ﬁm para

Após a comparação de “unhealthy” e “health” tem-se o resultado ilustrado na Tabela

2.2, na qual se pode ver que a medida de similaridade (nesse exemplo) é igual a 34, ou

seja, o maior valor da tabela. Os números em negrito mostram qual dos três vizinhos

de V (i, j) obteve maior valor e foi escolhido pelo algoritmo e qual região das palavras

Tabela 2.2: Resultado ﬁnal da comparação de “unhealthy” e “health” (LU; TAN, 2004).

apresenta maior similaridade.

Ainda no contexto de indexação de imagens de documentos pode-se citar o trabalho

de Balasubramanian, Meshesha e Jawahar (2006), no qual um sistema completo foi de-

senvolvido para realizar a indexação de imagens de documentos impressos em diferentes

linguagens indianas. O método desenvolvido mesclou a rotulação de palavras chave com

a indexação automática de imagens de palavras. Os autores mesclaram o uso de caracte-

rísticas locais e globais. Entre as características locais utilizadas pode-se citar o contorno

superior e inferior, projeções verticais e horizontais e número de transições. Entre as glo-

bais foram utilizados momentos estatísticos (como média e desvio padrão) e momentos

baseados na região (como momentos de primeira e segunda magnitude). Esta combina-

ção de características locais e globais é reconhecidamente robusta. Porém, características

globais diﬁcultam a implementação de métodos que busquem sub-palavras.

O método de comparação utilizado por Balasubramanian, Meshesha e Jawahar (2006)

fez uso do algoritmo DTW (Dynamic Time Warping) responsável por alinhar as carac-

terísticas extraídas de duas palavras distintas e retornar um valor de similaridade entre

elas. Este método é semelhante a comparação inexata de características (Algoritmo 1)

utilizada por Lu e Tan (2004). Porém, neste método não é possível detectar sub-palavras

e a distância entre dois vetores de características a e b, componentes da seqüência de

vetores que compõe as palavras comparadas, é dada por



k=1

(a[k] − b[k])

Após armazenar os descritores das várias palavras existente no banco de imagens, o

método agrupa as palavras semelhantes para que seja feita uma rotulação manual dos

grupos. Esta rotulação visa possibilitar a detecção de palavras parecidas como “directed”

e “redirected”. Nem todas as grupos são rotulados, somente os maiores. Através dessa

técnica em união com a comparação de características utilizando a DTW os autores che-

garam a resultados com precisão e revocação próximos de 95%, realizando os testes sobre

um banco de imagens desenvolvido pelos próprios autores. Entretanto, o uso da rotu-

lação manual e a impossibilidade de encontrar sub-palavras que não estejam em grupos

previamente rotulados são pontos fracos do método.

Algumas vezes não se deseja procurar apenas uma palavra em um documento, mas sim

procurar documentos semelhantes a um outro qualquer. Neste contexto, pode-se relacio-

nar o trabalho de Tan et al. (2002), onde os autores propuseram um método para efetuar

a recuperação de imagens de documentos utilizando n-gramas

. Um dos pontos mais inte-

ressantes do método proposto é a independência da linguagem de escrita dos documentos.

O processo se inicia com a segmentação do documento em caracteres, mas sem se preo-

cupar com a segmentação de palavras, visto que se deseja independência de linguagem.

Após a segmentação, características relativas ao número de transições verticais e horizon-

tais dos caracteres são extraídas e normalizadas em um vetor de tamanho pré-deﬁnido.

A seguir, os vetores são agrupados em classes de acordo com a semelhança. Deﬁnidas as

classes os documentos são analisados através do algoritmo n-grama, onde cada caractere

é representado pelo centróide da classe a que pertence, com o objetivo de formar um vetor

que descreva o documento. A comparação entre duas imagens de documentos se da pelo

produto vetorial entre os dois vetores representantes de cada documento. Utilizando essa

técnica, os autores relataram resultados interessantes para documentos com o mesmo tipo

de fonte, mas o método foi incapaz de tratar pequenas variações na fonte. Entretanto,

os autores apresentaram bons resultados com documentos na língua inglesa e chinesa,

com taxas de precisão e revocação iguais a 73,9% e 85,7% respectivamente, mostrando a

viabilidade do método no tratamento de documentos escritos em diferentes línguas.

Durante anos de pesquisa muitas características foram utilizadas na difícil tarefa de

detectar a semelhança entre palavras situadas em uma imagem gerada a partir da digitali-

zação de um documento. Esta tarefa passa a ser ainda mais complexa quando se trata de

um documento manuscrito. Características utilizadas na indexação de documentos ma-

nuscritos podem ser utilizadas na indexação de documento impressos, apresentando bons

resultados. Em contrapartida, documentos impressos geralmente são mais padronizados

N-grama é uma seqüência de n caracteres consecutivos. Uma seqüência de n-gramas é obtida através

do deslocamento de uma janela com n-itens de largura sobre do texto, avançando um caractere por vez.

que documentos manuscritos, fato que muitas vezes não permite que técnicas geralmente

empregadas no primeiro sejam utilizadas no último.

Usando DTW em seu método de comparação de características, Rath e Manmatha

(2003) experimentaram várias características e algumas combinações delas para encontrar

palavras semelhantes em um subconjunto de manuscritos da coleção de George Washing-

ton. Entre as características avaliadas pode-se citar:

• Projeção Horizontal: soma do valor dos pixels de uma coluna;

• Projeção Vertical: soma do valor dos pixels de uma linha

;

• Contorno Superior/Inferior: distância entre o pixel mais acima ou abaixo da coluna

e a margem superior ou inferior da palavra, respectivamente;

• Número de Transições: número de transições preto/branco em uma coluna;

• Variação em Níveis de Cinza: variação das intensidades dos níveis de cinza dos pixels

de uma coluna.

Para reduzir o número de palavras que tiveram suas características comparadas, alguns

fatores como a razão altura/largura das palavras em questão foi levada em conta para

determinar se a etapa de comparação seria necessária. Ao ﬁnal, foi relatado um melhor

desempenho individual da característica de contorno superior e um melhor desempenho em

conjunto das características de contorno superior, contorno inferior e número de transições.

No primeiro obteve-se 64,29% de precisão e 58,07% de revocação contra 72,56% de precisão

e 65,17% de revocação no último. Os autores também realizaram testes com características

obtidas através da suavização Gaussiana e da derivação Gaussiana, porém os resultados

foram inferiores a característica de contorno superior.

O trabalho de Rath e Manmatha (2003) mostrou que a combinação de características

simples pode apresentar bons resultados. Porém, características mais simples tendem

a apresentar suas fraquezas quando submetidas a imagens ruidosas e textos impressos

com diferentes fontes ou textos manuscritos com diferentes autores, por isso devem ser

utilizadas com cuidado utilizando-se técnicas de pré-processamento sempre que possível.

Esta característica somente pode ser utilizada quando não se deseja encontrar palavras que estejam

contidas dentro de outras palavras

2.3 Considerações Finais

Boa parte dos trabalhos analisados não permite encontrar sub-palavras, esse ponto

será abordado nesse trabalho através da utilização da técnicas proposta por Lu e Tan

(2004), visto que é uma funcionalidade que permite aumentar em muito a abrangência

das buscas. O ponto comum entre os métodos é a comparação a nível de descritores, a

qual é comumente implementada com os algoritmos DTW ou com a comparação inexata

de características. Este último, é muito semelhante ao DTW porém permite detectar

sub-descritores dentro de um outro descritor, possibilitando a localização de palavras

dentro de palavras. Alguns métodos relacionados aqui utilizam classiﬁcadores HMM.

Estes classiﬁcadores são comumente utilizados no reconhecimento de caracteres via OCR

e normalmente exigem grande quantidade de recursos computacionais. Entretanto, um

dos objetivos deste trabalho é reduzir o tempo de execução gasto para a realização de

uma busca. Assim, deve-se evitar o uso de estratégias que reconhecidamente apresentam

alto custo computacional.

Concluída a análise de alguns dos métodos pesquisados, será iniciada a descrição da

metodologia a ser utilizada. O método a ser implementado e os conjuntos de caracterís-

ticas que serão avaliados para fazer a busca de palavras em imagens de documentos sem

a utilização de OCR estão descritos no próximo capítulo.

Capítulo 3

Metodologia

Neste capítulo é apresentado, de forma detalhada, o método desenvolvido e as téc-

nicas empregadas durante a pesquisa. Onde é possível visualizar a estrutura da solução

desenvolvida, a qual encontra-se dividida em pré-processamento, segmentação, extração

e comparação de descritores.

O método proposto é formado por quatro estágios distintos. O primeiro estágio con-

siste em deixar a imagem da página a ser processada em condições mais favoráveis ao

seu processamento. Nesta etapa são realizados procedimentos a ﬁm de extrair ruídos e

converter a imagem para o formato esperado pelo sistema. No segundo estágio é realizada

a segmentação da imagem da página em blocos de texto, em linhas e em palavras. No

terceiro estágio é realizada a extração de características, onde são empregados diferentes

conjuntos de características para transformar a imagem de uma palavra em um descritor

simbólico

para que se possa comparar com texto ASCII, o qual também é convertido para

um descritor utilizando-se o mesmo conjunto de características. Finalmente, no quarto

e último estágio é realizada a comparação dos descritores extraídos da imagem da pala-

vra com o gerado a partir do texto ASCII, a ﬁm de obter uma medida de similaridade

que é utilizada para decidir se a imagem da palavra corresponde a palavra procurada.

Na Figura 3.1 pode-se visualizar os estágios do método proposto e um exemplo de seu

funcionamento.

Tendo como objetivo possibilitar a busca de palavras em imagens de documentos,

busca-se a capacidade de fazer a correspondência parcial entre imagens de palavras, ou

seja, identiﬁcar um subconjunto de características correspondente à palavra procurada

dentro de um conjunto maior correspondente a uma palavra derivada da procurada. Para

Conjunto de símbolos ou números que representa a imagem de uma palavra em um determinado

conjunto de características.

Figura 3.1: Visão geral do método desenvolvido; exemplo de busca da palavra “speech”.

tanto, segmenta-se a imagem de uma página em palavras e extrai-se das mesmas um

descritor que a represente. A palavra que se deseja encontrar também é convertida em

um descritor e submetida juntamente com cada palavra detectada na página ao algo-

ritmo de comparação inexata de características (LOPRESTI; ZHOU, 1996), o qual utiliza

programação dinâmica para calcular a similaridade entre dois descritores, ou parte deles.

Imagens de documentos comumente apresentam diferenças no formato dos caracteres,

seja por diferenças na fonte utilizada ou seja por ruídos. Diante desse problema, o método

proposto tem a capacidade de encontrar palavras que apresentem diferenças em determi-

nados itens do descritor. Além disso, trabalhou-se com palavras onde existam caracteres

que se tocam, sem a necessidade de uma etapa de segmentação de caracteres.

Após a implementação do conjunto de características proposto por Lu e Tan e da

devida avaliação deste, novas características foram avaliadas e comparadas com o mé-

todo recém implementado. Para tanto, características descritas nos trabalhos de Arica

e Yarman-Vural (2000) e Rath e Manmatha (2003) foram implementadas e adequadas

ao método de comparação de descritores. Estes novos conjuntos de características serão

abordados na Seção 3.4.

3.1 Obtenção das Imagens

O formato de arquivos PDF é utilizado como fonte primaria de obtenção das imagens

processadas. Esse formato é utilizado tanto para armazenar texto formatado como ima-

gens de documentos digitalizados e vem se tornando um dos formatos mais populares para

a apresentação de documentos digitais. Várias empresas e organizações estão utilizando

este formato, por exemplo, o IEEE realizou a digitalização de vários artigos que não esta-

vam mais disponíveis no formato digital e armazenou as imagens no formato PDF. Outro

exemplo é a distribuição dos anais da conferência ICASSP’97 que contêm duas versões de

cada artigo nela publicado, sendo uma digital e outra digitalizada a partir da impressão

da primeira, ambas no formato PDF.

A aquisição das imagens analisadas é realizada através da extração de imagens de

arquivos no formato PDF. Esta etapa é realizada com o auxilio do software Xpdf (2005),

o qual sofreu pequenas modiﬁcações para ser integrado ao sistema desenvolvido. Assim,

é possível extrair as imagens diretamente do sistema. O formato PDF é utilizado devido

ao fato de que documentos digitalizados são comumente armazenados neste formato por

conveniência e organização.

3.2 Pré-Processamento

Na etapa de pré-processamento a imagem analisada é convertida para o formato bi-

nário (preto e branco), descartando a informação de níveis de cinza ou cor presente na

imagem, este processo é chamado de binarização. O método utilizado para efetuar a

binarização da imagem é o desenvolvido por Otsu (1978), devido ao seu reconhecido de-

sempenho e adaptabilidade a vários tipos de imagens. A binarização da imagem é utilizada

para facilitar e acelerar o processamento da imagem, visto que após binarizar a imagem

tem-se apenas dois valores para representar um pixel, um representando o branco e outro

representando o preto. Ou seja, dois níveis são suﬁcientes para representar imagens de

documentos onde se está interessado apenas no texto, sendo que um nível representa o

texto e o outro representa o fundo da imagem.

Outra técnica utilizada é a suavização de contornos apresentada por Suen et al. (1992).

Este processo consiste em corrigir imperfeições causadas nos caracteres do texto durante

os processos de digitalização e binarização. Estas imperfeições prejudicam o desempenho

do processo de extração de características, de modo que alteram as bordas internas e

? 1 ?

1 0 1

? 1 ?

(a)

? 1 ?

1 0 1

0 0 1

(b)

1 1 0

1 0 0

1 1 0

(c)

0 0 ?

0 1 1

0 0 1

(d)

0 0 0

0 1 1

0 0 ?

(e)

0 - Fundo

1 - Primeiro Plano

? - Não considera

Figura 3.2: Mascaras utilizadas para realizar a suavização de contornos. Em (a), (b) e

Figura 3.3: Resultado da suavização de contornos em um caractere colhido de um dos

documentos analisados.

externas do traçado dos caracteres. Utilizou-se as máscaras ilustradas na Figura 3.2 e

as suas rotações em 90

◦

, 180

◦

e 270

◦

. Estas máscaras são “deslizadas” sobre a matriz de

zeros e uns correspondente à imagem binarizada e quando todos os valores da mascara

coincidem com a posição atual na matriz da imagem o pixel central é mudado de zero para

um ou vice versa. O símbolo “?” na representação da máscara indica que este valor da

matriz é ignorado. Este processo é repetido por três vezes ou até que não haja alterações

na imagem.

Na Figura 3.3 pode-se visualizar a imagem de um caractere com ruídos causados no

processo de digitalização e o resultado obtido após a aplicação da suavização. Pode-se

visualizar uma redução das imperfeições no contorno do caractere, realizada através do

preenchimento de lacunas e da exclusão de pixels. Porém, em alguns casos este processo

pode gerar deformações na forma do caractere que ao contrário de ajudar acabam por

prejudicar o desempenho do método. Assim, a utilização da técnica deve ser avaliada com

cuidado.

O pré-processamento utilizado é mínimo, visto que este projeto não pretende adentrar

nas áreas de ﬁltragem de imagens ruidosas, correção de inclinação e outras correções

aplicadas a imagem de documentos. Além disso, os softwares mais recentes utilizados no

processo de digitalização submetem os documentos a algumas correções após a captura

da imagem, o que torna as imagens praticamente prontas para o processamento. Porém,

o desempenho do método está diretamente ligado a qualidade das imagens. Ainda que

haja a preocupação de se utilizar características robustas perante a imagens ruidosas, é

muito difícil trabalhar com certos tipos de ruídos (alguns dos quais estão relacionados na

Figura 3.4: Divisão da página em listas verticais e horizontais. Blocos representam os

componentes conexos detectados (imagens, tabelas, caracteres, etc.).

Seção 4.5 do Capítulo 4). Assim, a qualidade dos equipamentos utilizados na impressão e

digitalização dos documentos são fatores incidentes nos resultados de precisão e revocação

do método proposto.

3.3 Segmentação

A etapa inicial do processo de segmentação consiste em detectar os componentes

conexos (CCs) da imagem. Um CC nada mais é do que uma área retangular que engloba

um conjunto de pixels pretos (podem ser brancos dependendo do que se está procurando)

onde pode-se chegar a qualquer pixel partindo de outro pixel qualquer, pertencente ao

mesmo conjunto, sem passar por um pixel branco. Cada CC encontrado é submetido a

um ﬁltro que avalia sua forma (relação altura vs largura) e seu preenchimento (relação

de pixels pretos vs brancos), para eliminar possíveis linhas de tabelas, ﬁguras gráﬁcas e

ruídos presentes na imagem analisada.

Cada CC que passar pelo ﬁltro de forma e preenchimento tem sua posição e dimensões

armazenadas. Devido a grande quantidade de CCs que podem ser encontrados em uma

página, deve-se ter o cuidado de usar uma estrutura que possibilite acessá-los de forma

eﬁciente. Assim, resolveu-se utilizar a estratégia de dividir a página em várias listas

horizontais e verticais (50 pontos de largura para cada lista) onde cada lista contém os

CCs que fazem parte de uma determinada zona da página. As regras dessa estrutura, a

qual pode ser visualizada na Figura 3.4, são as seguintes:

Figura 3.5: Alteração do método de detecção de espaços para evitar recálculo. (a) Ima-

gem com os componentes conexos delimitados; (b) Seleção do pivô; (c) Criação dos sub-

retângulos esquerdo e direito; (d) Criação dos sub-retângulos superior e inferior.

1. Um CC faz parte de pelo menos uma lista vertical e uma horizontal;

2. CCs que fazem parte de mais de uma zona devem fazer parte de mais de uma lista;

3. Se o retângulo de um CC intercepta outro eles devem ser unidos em um único CC

que é re-inserido na lista.

A próxima etapa no processo de segmentação utilizado é a detecção das linhas. Para

capacitar o sistema a segmentar as linhas de documentos que apresentem mais de uma

coluna de texto e diferentes formatos é utilizada uma variação do método proposto por

Breuel (2002), o qual busca espaços em branco na página a ser segmentada. Espaços em

branco normalmente são encontrados entre colunas de texto facilitando a delimitação das

linhas.

Com o intuito de evitar o recálculo uma variação do algoritmo proposto por Breuel

(2002) foi desenvolvida e está ilustrada na Figura 3.5. A partir desse aperfeiçoamento foi

possível diminuir drasticamente o tempo de execução. Essa variação não garante que a

resposta seja o maior retângulo vazio da imagem, mas tem a característica de retornar

retângulos com maior relação altura/largura primeiro. Esse resultado é atrativo quando

se deseja detectar colunas no texto. Ao invés da área do retângulo a seguinte função é

utilizada para deﬁnir a prioridade Q de cada retângulo:

Q = largura(δ + altura) (3.1)

Quando δ for maior que zero os retângulos com menor relação altura/largura serão

levemente beneﬁciados na ﬁla, fato esse que ajuda a diminuir o problema dos retângulos

serem tão ﬁnos que se encaixem nos espaços entre as palavras.

Após detectar os espaços em brancos na imagem é possível realizar com mais precisão

Figura 3.6: Posição das linhas de apoio em uma imagem de palavra.

Figura 3.7: Projeção horizontal da imagem da palavra “system”.

a tarefa de detecção de linhas, tem-se apenas que unir os CCs adjacentes enquanto um

espaço em branco não for encontrado.

Alguns dos métodos de extração de características utilizados fazem uso das linhas

dos caracteres ascendentes e descendentes

, as quais estão ilustradas na Figura 3.6. Para

determiná-las em uma linha de texto é possível utilizar a projeção do histograma horizon-

tal. Esta técnica consiste em contar o número de pixels pretos em cada linha de pixels da

imagem. A seguir, as duas linhas onde esta contagem é máxima são encontradas e a par-

tir delas delimita-se as linhas de ascendentes e descendentes. Por exemplo, na Figura 3.7

têm-se a projeção horizontal da imagem da palavra “system”, onde as linhas de ascenden-

tes e descendentes estão posicionadas nas linhas 6 e 22, respectivamente. Para utilização

deste método é fundamental que as palavras em uma linhas do documento estejam ali-

nhadas horizontalmente, existem vários métodos existentes para corrigir a inclinação de

documentos, porém nenhum deles foi utilizado neste trabalho visto que os documentos

utilizados não apresentam inclinação.

A última etapa necessária na segmentação da página é a segmentação das palavras,

visto que não se pretende trabalhar com segmentação ao nível de caractere, devido a

problemas causados por caracteres que se tocam. Dado que M é igual a mediana das

distâncias entre CCs adjacentes em uma determinada linha, pode-se determinar se dois

Normalmente as linhas de ascendentes e descendentes são um produto do algoritmo de extração das

linhas do texto.

CCs pertencem a mesma palavra veriﬁcando se a distâncias entre eles é menor ou igual a

αM, onde α é um fator deﬁnido experimentalmente. A mediana foi utilizada por fornecer,

na maioria dos casos, a distância mais frequente entre caracteres adjacentes em uma linha

de texto, a média das distâncias não foi utilizada por estar sujeita a distorções causadas

por um espaço muito grande existente na linha de texto analisada.

Finalizado o pré-processamento e a segmentação do texto em linhas e palavras obtém-

se um ambiente pronto para receber os métodos de extração e comparação de descritores,

os quais obrigatoriamente devem fornecer as seguintes funcionalidades:

• Converter uma palavra ASCII para um descritor χ;

• Converter a imagem de uma palavra para um descritor β;

• Comparar χ com todos os sub-descritores contidas em β e fornecer o maior valor de

similaridade encontrado.

3.4 Extração de Características

Conforme citado anteriormente o método utilizado para fazer a busca por palavras

trabalha a nível de descritores formado com características extraídas da imagem, evitando

a conversão da imagem para o formato textual via OCR. Ou seja, a palavra procurada é

convertida para um descritor e comparada com o descritor extraído das palavras existentes

na imagem processada. Assim, o processo de extração e comparação de descritores pode

ser considerado o mais importante deste processo, já que lhe foi dada a responsabilidade

de aproximar descritores gerados a partir da imagem da palavra dos gerados a partir de

uma cadeia de caracteres ASCII.

A deﬁnição das características que foram extraídas das imagens das palavras foi uma

das tarefas mais difíceis do método proposto. Características propostas em trabalhos na

área de reconhecimento de caracteres foram adaptadas ao método. Porém, durante a

avaliação de novas características alguns pontos foram priorizados:

• Tolerância a caracteres que se tocam. É necessário que haja uma preocupação com

palavras que apresentem caracteres que se tocam em um ou mais pontos, visto que

este efeito pode ser causado pela fonte utilizada ou por baixa qualidade da imagem

digitalizada. Além dos caracteres que se tocam, deve-se prever os casos onde haja

sobreposição de caracteres, mais comum em seqüências como “VA” e “To” onde

parte da primeira letra ﬁca sobre a segunda;

• Invariância ao tamanho e a posição da palavra. Uma característica deve ser a mesma

para o mesmo caractere em diferentes tamanhos de fonte e em diferentes posições

da palavra(início, meio ou ﬁm);

• Invariância ao tipo de fonte. A total invariância ao tipo de fonte é um desaﬁo

grandioso e um problema que ainda não tem solução. Porém, deve-se buscar ca-

racterísticas que tolerem algumas modiﬁcações na forma dos caracteres causadas

pela fonte utilizada, como a serifa que é apresentada nas extremidades de alguns

caracteres em certos tipos de fonte;

• Robustez a ruídos. Imagens digitalizadas não são perfeitas e os ruídos são uma

constante que afeta diretamente o desempenho de qualquer sistema que se propõe

a analisar imagem de texto. Por isso procurou-se características o mais robustas

possíveis;

• Representação particionada da imagem. Devido ao fato de que se deseja encontrar

palavras dentro de palavras, é necessário que se tenha características que possibili-

tem a comparação de partes da palavra (geralmente colunas de pixels), de forma que

se possa identiﬁcar uma palavra no corpo de outra palavra que tenha comprimento

maior ou igual a ela.

A seguir serão apresentados os conjuntos de características analisados. Entre eles

podemos destacar os conjuntos LRPS (Left-to-Right Primitive String), AYV (Conjunto

de características baseado nas características desenvolvidas por Arica e Yarman-Vural) e

ULTC (Upper and Lower proﬁles and Transitions Count).

3.4.1 Conjunto de Características LRPS

O primeiro conjunto de características implementado e avaliado foi o LRPS (descrito

na Seção 2.2 do Capítulo 2) proposto por Lu e Tan (2004). Cada característica deste con-

junto é formada por um par de atributos (σ, ω), onde σ é o Line-or-Traversal Attribute

(LTA) e ω é o Ascender-and-Descender Attribute (ADA). A extração do primeiro é divi-

dida em duas partes: análise de linhas retas e análise das transições preto/branco que não

pertencem a uma linha reta. O segundo atributo é obtido através da análise da posição

da primitiva(linha reta ou transição) com relação as linhas de apoio(ascendentes e descen-

dentes) detectadas na imagem da palavra. Estas características levam em consideração

aspectos estruturais da imagem da palavra e são invariantes a escala e translação. Além

disso, estas características apresentam certa invariância à fonte utilizada para imprimir o

documento, dado que levam em conta aspectos relativos a fontes com ou sem serifa.

Após a implementação e avaliação do conjunto de características LRPS iniciou-se a

avaliação de novas características. As características avaliadas foram baseadas em traba-

lhos recentes nas áreas de reconhecimento de caracteres impressos, manuscritos e indexa-

ção de imagens de documentos.

3.4.2 Conjunto de Características LRPS Modiﬁcado

O método de extração de características utilizado para gerar o conjunto de caracterís-

ticas LRPS foi modiﬁcado para tentar deixá-lo mais robusto. Em uma das modiﬁcações

foi inserida a condição que determinava que uma característica deveria ser detectada em

duas colunas vizinhas para ser inserida no descritor. A modiﬁcação consistiu em igno-

rar características isoladas nos descritores extraídos da imagem da palavra. Ou seja, se

V representa o descritor de uma palavra então o atributo LTA de V[i] deveria ser igual

ao de V[i-1] para V[i] ser considerado. Esta variação do conjunto de características tem

como objetivo diminuir o impacto causado por ruídos. Uma característica obtida em uma

coluna da imagem da palavra com ruído normalmente é diferente da coluna anterior e da

coluna posterior. Por outro lado, características extraídas de colunas de imagens de carac-

teres com pouco ou nenhum ruído normalmente se repetem uma ou mais vezes devido a

resolução da imagem. Esta variação do conjunto de características LRPS foi desenvolvida

durante a pesquisa realizada neste trabalho e será referenciada como LRPS Modiﬁcado

no restante do documento.

3.4.3 Conjunto de Características AYV

A idéia da divisão das linhas e colunas da imagem de um caractere em regiões, pro-

posta por Arica e Yarman-Vural (2000), é aqui utilizada para a criação de novas carac-

terísticas. A idéia foi utilizada para o desenvolvimento de características empregadas no

reconhecimento de caracteres manuscritos. Estas características não puderam ser empre-

gadas integralmente ao método aqui proposto, devido ao fato de terem sido desenvolvidas

para caracteres isolados e não para palavras. Além disso, alguns procedimentos como

Figura 3.8: Divisão das colunas em regiões e o cálculo da característica das colunas 5 e 9

do caractere “a”.

a normalização da imagem da palavra em uma janela de tamanho pré-ﬁxado não foram

utilizados porque podem provocar distorções na estrutura da palavra.

O processo de extração de características baseado na proposta de Arica e Yarman-

Vural está ilustrado na Figura 3.8. Neste processo cada coluna da palavra é analisada da

seguinte maneira:

• A coluna é dividida em quatro regiões iguais (a diferença de 1 pixel no tamanho das

regiões pode ocorrer devido a divisão inteira);

• Cada região recebe o valor 2

, onde i = índice_da_região −1;

• Cada seqüência consecutiva de pixels pretos tem seu elemento médio M encontrado

e o valor da região a que M pertence é somado ao resultado ﬁnal.

A soma do valor das regiões que contêm um elemento médio corresponde ao valor

da característica atribuída à coluna analisada. Esta característica é então inserida no

descritor da palavra somente se ela for diferente da característica anteriormente inserida.

Arica e Yarman-Vural utilizaram a característica descrita acima e mais três carac-

terísticas que seguem a mesma lógica porém analisando as diagonais e linhas verticais

da imagem de um caractere para efetuar o reconhecimento de caracteres manuscritos.

Obtendo como resultado taxas de reconhecimento de caracteres manuscritos em torno

de 90% utilizando apenas duas das quatro características propostas por eles. Perante a

estes resultados, decidiu-se avaliar a utilização da característica descrita acima no método

proposto neste trabalho. Apesar de se utilizar apenas uma característica, acredita-se que

a mesma seja suﬁciente para uma boa representação de uma coluna da imagem de um

caractere e conseqüentemente suﬁciente para a representação da imagem da palavra como

um todo. Outro fator que motiva a sua utilização é a a facilidade de implementação, visto

que permite uma rápida avaliação da mesma.

3.4.4 Conjunto de Características ULTC

O contorno externo de uma palavra pode dizer muito a respeito dela. Pelo menos é o

que mostra o estudo realizado por Rath e Manmatha (2003) onde os contornos superiores

e inferiores da imagem da palavra foram utilizados como características para a indexação

de documentos manuscritos. Assim, adaptou-se tais características para o sistema desen-

volvido e o método de comparação. Além disso, utilizou-se a característica de número de

transições preto/branco para fornecer informações a respeito da forma interna da imagem

da palavra. Buscou-se com a união dessas três características, contorno superior, inferior

e número de transições preto/branco, obter uma representação consistente da palavra

analisada.

A característica de contorno superior de uma coluna é obtida através do cálculo da

distância existente entre a borda superior da palavra e o pixel mais próximo dela. Da

mesma maneira, a característica de contorno inferior é obtida através do cálculo da dis-

tância existente entre a borda inferior da palavra e o pixel mais próximo dela. A Figura

3.10 e a Figura 3.11 ilustram de forma gráﬁca o valor das características de contorno

superior e inferior para todas as colunas da imagem da palavra “problem”(Figura 3.9).

Ambas as características são normalizadas entre 0 e 1. Para facilitar a visualização do

gráﬁco o valor da característica de contorno superior foi invertido.

A característica de número de transições é obtida através da contagem do número

de traços em uma coluna. Ou seja, para cada transição de um pixel representante do

fundo da imagem(geralmente branco) para um pixel representante dos objetos da ima-

gem(geralmente preto) o número de transições é incrementado. Assim, considerou-se um

número máximo de quatro transições em uma coluna, sendo o valor da característica o

número de transições divido pelo máximo permitido, gerando um valor entre 0 e 1. A

Figura 3.12 apresenta de forma gráﬁca o valor atribuído para esta característica em todas

as colunas da palavra “problem”.

No conjunto de características formado pelas características de contorno superior, con-

torno inferior e número de transições cada coluna da imagem da palavra foi representada

por um vetor composto de três características com valores entre 0 e 1. Este conjunto de

características será referenciado no resto do documento como ULTC.

Figura 3.9: Imagem da palavra “problem” extraída de um dos documentos analisados.

Figura 3.10: Característica de contorno superior(invertida) ao longo da palavra “problem”.

Figura 3.11: Característica de contorno inferior ao longo da palavra “problem”.

Figura 3.12: Número de transições(normalizado) ao longo da palavra “problem”.

3.4.5 Conjunto de Características ULTC Modiﬁcado

Durante a pesquisa implementou-se um novo conjunto de características, formado

pelo conjunto ULTC e uma característica correspondente ao número de pixels pretos da

coluna. Esta última característica foi a mais simples das implementadas e consiste em

contar o número de pixels pretos em uma coluna e normaliza-lo entre 0 e 1. O objetivo

dessa modiﬁcação é aumentar a precisão do conjunto de características ULTC, visto que

duas das três características que fazem parte do conjunto dizem respeito a forma externa

da imagem palavra, contando apenas com a características de número de transições para

representar a forma interna da imagem da palavra. A nível de caractere, a forma externa

pode não ser suﬁciente para distinguir caracteres como “o” e “a”. Assim, faz-se a inclusão

de uma característica que representa a forma interna da palavra e que juntamente com a

característica de número de transições espera-se obter um aumento da precisão do método.

Este conjunto de características será referenciado no restante do documento como ULTC

Modiﬁcado.

3.5 Conversão ASCII/Descritor

A conversão de uma cadeia de caracteres ASCII para um descritor pode ser feita

através de uma tabela gerada manualmente. Por exemplo, no conjunto de características

LRPS a conversão utilizada pelos autores do método fez uso de uma tabela (ilustrada na

Tabela 2.1 do Capítulo 2) gerada manualmente a partir da observação de cada caractere.

Porém, neste projeto avaliou-se também a criação desta tabela de forma automática a

partir da extração de características de uma imagem com os modelos de caractere, a qual

contêm todos os caracteres do alfabeto inglês, minúsculos e maiúsculos, no tamanho de 48

pixels. Assim, torna-se mais rápido o processo de criação da tabela sempre que o método

for modiﬁcado. Além disso, essa metodologia permite que diferentes tabelas sejam criadas

a partir de diferentes modelos de caracteres criados com fontes distintas. Todos os modelos

foram criados a partir de um editor de imagens comum, sendo estes sintéticos para que

não se tornem especíﬁcos para um determinado conjunto de documentos.

A conversão de uma cadeia de caracteres P para o descritor correspondente é reali-

zada da seguinte maneira: para cada caractere C em P inclui-se no descritor os valores

correspondentes as características de C presentes na tabela de conversão gerada manual-

mente ou automaticamente. Além disso, entre as características correspondentes a dois

caracteres vizinhos em P insere-se as características correspondentes a representação de

Caracteres ASCII t o p

Descritor (n,x)(l,A)(o,x) (&) (c,x)(o,x)(c,x) (&) (l,D)(o,x)(c,x)

Tabela 3.1: Descritor que representa a palavra top utilizando o conjunto de características

LRPS.

uma coluna em branco, para simular os espaços entre caracteres existentes na imagem da

palavra.

Na Tabela 3.1 está exempliﬁcada a representação de um descritor gerado pelo conjunto

de características LRPS a partir da cadeia de caracteres “top”. No conjunto de caracterís-

ticas LRPS o simbolo “&” representa um espaço em branco entre dois caracteres. Durante

a conversão de uma cadeia de caracteres para um descritor o símbolo “&” é inserido entre

o primeiro e o último símbolo de cada caractere adjacente. Neste conjunto de caracterís-

tica os símbolos que representam os caracteres estão em uma tabela pré-deﬁnida, a qual

está apresentada na Tabela 2.1 (Capítulo 2, Secção 2.2). Os símbolos nada mais são do

que representações de características que podem ser extraídas da imagem da palavra.

Quando utiliza-se o conjunto de características LRPS, a tabela de conversão é mantida

como no método original, gerada manualmente. Porém, nos outros conjuntos de carac-

terísticas implementados utiliza-se tabelas geradas automaticamente através de imagens

com modelos de caractere. Durante a geração da tabela de conversão as imagens são seg-

mentadas de forma a isolar as palavras, assim como uma página do documento também

é segmentada. Cada imagem de palavra segmentada é submetida ao método de extração

de características em questão para gerar o descritor da palavra. Este descritor, por sua

vez, é processado para identiﬁcar características correspondentes as colunas em branco,

existentes entre caracteres da imagem, estas características servem como delimitadores de

caractere utilizados para saber quais características correspondem a determinado carac-

tere. Com a posse das características de todos os caracteres, basta organizá-las em uma

tabela, que é posteriormente utilizada para conversão das palavras chave fornecidas ao

sistema.

Os modelos de caractere são gerados a partir de duas fontes: Times New Roman

e Sans. A primeira fonte contêm caracteres com serifa e é comumente encontrada em

documentos. A segunda não contêm serifa e é utilizada para possibilitar a detecção de

palavras em fontes sem a mesma.

O conjunto de características ULTC faz uso de duas tabelas de conversão ao mesmo

tempo. Assim, a estrutura de dados utilizada para armazenar o descritor de uma palavra

chave tem que ser duplicado, para que armazene dois descritores: com e sem serifa. Além

disso, o método de comparação pode ser acionado duas vezes para cada par de palavras

comparado (se a primeira comparação retornar um valor de similaridade maior ou igual

ao limiar deﬁnido então apenas uma chamada será realizada).

3.6 Comparação de Descritores

O processo de comparação de descritores é responsável por grande parte do tempo

de processamento do sistema. Seu desempenho é O(nmp), onde p corresponde ao total

de palavras no documento e n m correspondem ao tamanho do descritor gerado a partir

da palavra que se deseja encontrar e da imagem da palavra analisada no momento, res-

pectivamente. Dessa maneira qualquer aumento, mesmo que pequeno, no tamanho dos

descritores acarreta em perda de performance, visto que é necessário acionar o método

para praticamente todas as palavras existentes nos documentos analisados. Dado dois

descritores, representando a imagem de uma palavra no documento e a cadeia de carac-

teres que se deseja encontrar, a função desse método é retornar a similaridade entre estes

dois descritores na forma de um valor entre 0 e 1. A partir da deﬁnição de um valor mí-

nimo para a similaridade é possível dizer se estes dois descritores correspondem a mesma

cadeia de caracteres.

O método desenvolvido durante a pesquisa é baseado no método utilizado por Lu e

Tan (2004). Utilizou-se este método devido a sua capacidade de fazer a correspondência

parcial entre dois descritores. Ou seja, ser capaz de detectar uma sub-palavra dentro

de outra, como “feliz” dentro da cadeia de caracteres “infeliz”. Procurou-se manter esta

qualidade do método de comparação de descritores durante o processo de implementação

de novas características.

Cada palavra encontrada no documento em que a relação altura/largura é menor

ou igual a da palavra fornecida, é submetida a comparação com esta. Assim, quando

deseja-se procurar por uma sub-palavra, todas as palavras maiores que a sub-palavra são

analisadas. Esta ﬁltragem é necessária para agilizar a busca, visto que um documento

pode ter uma quantidade relativamente grande de palavras.

O método de comparação utilizado nos conjuntos de características LRPS e AYV deve

sofrer alterações para se adequar as características implementadas no conjunto ULTC.

Neste último conjunto de características, os valores das características obtidas para cada

coluna não são mapeados para valores discretos e sim armazenados em um vetor de ca-

racterísticas. Assim, cada coluna possui o seu próprio vetor de características que é

comparado ao de outra coluna utilizando-se a distância D calculada através da equação

3.2. Esta metodologia tem como aspecto positivo o fornecimento intrínseco de uma mé-

trica para julgar a distância entre duas colunas, fato esse que não ocorre nos outros dois

métodos onde a distância entre características deve ser tabelada. Porém, a implemen-

tação de um algoritmo de comparação que trabalhe com a identiﬁcação de sub-palavras

torna-se mais complexa, porque agora é preciso identiﬁcar a distância máxima aceitável

entre dois vetores de características.

ULT C



k=1

(a[k] − b[k])

(3.2)

onde N corresponde ao número de características extraídas por coluna, ou seja, 3 para

o conjunto ULTC e 4 para o ULTC Modiﬁcado, e a e b correspondem aos vetores de

características das colunas comparadas.

A comparação de dois vetores de características, representantes de duas colunas da

imagem do caractere e extraídos utilizando o conjunto de características ULTC, precisa

de um valor que indique qual a distância máxima positiva entre eles. Assim, quando a

distância for maior que este limiar a pontuação somada no algoritmo de comparação de

descritores será negativa. Quanto maior for a distância menor será a pontuação atribuída

ao par de colunas analisado.

A comparação de dois descritores é feita através da técnica de comparação inexata

de características. Através dessa técnica, analisa-se os descritores gerados pelo processo

de extração de características, de modo a fornecer um valor de similaridade entre eles.

Um dos pontos chaves deste método é a deﬁnição da pontuação atribuída a cada coluna

comparada. No conjunto de características ULTC esta pontuação é obtida pelo cálculo

da distância, descrita na equação 3.2, entre os vetores de características de duas colunas,

visto que cada coluna é representada por um vetor de três características com valores

entre 0 e 1. Porém, em alguns conjuntos de características essa abordagem não pode ser

aplicada, devido ao fato do método de extração de características gerar valores discretos

que não tem relação de distância. Nestes casos, a deﬁnição dessa pontuação é ﬁxada no

método.

No caso do conjunto de características LRPS atribui-se a mesma pontuação utilizada

pelos autores do método. O valor D atribuído as diferentes possibilidade de comparação

de dois pares de atributos a e b está relacionado na equação 3.3, onde σ corresponde

ao atributo de linhas e transições (LTA) e ω corresponde ao atributo do posicionamento

relativo as linhas de ascendentes e descendentes (ADA). Vale relembrar que o símbolo &

do conjunto LRPS simboliza uma coluna da imagem sem pixels pretos.

LRP S











2 se σ

= σ

e ω

= ω

0 se σ

= σ

e ω

= ω

ou σ

= σ

e ω

= ω

−1 se σ

= σ

e ω

= ω

e σ

= & ou σ

= &

−2 se σ

= σ

e ω

= ω

(3.3)

Pontuação semelhante à do conjunto LRPS é utilizada quando da comparação das

características do conjunto AYV. Porém, no conjunto AYV se tem apenas um atributo

para cada coluna. O valor D atribuído nas diferentes possibilidades de comparação de

duas características a e b do conjunto AYV está relacionado na equação 3.4, onde o ν

representa a característica extraída por este conjunto e ν = 0 é verdadeiro quando ν

representa um coluna da imagem sem pixels pretos.

AY V











2 se ν

= ν

0 se ν

= ν

e ν

= 0 ou ν

= 0

−2 se ν

= ν

(3.4)

O método de comparação de descritores utilizado no conjunto de características LRPS

pode ser visualizado no Algoritmo 1(Capítulo 2). Uma variação desse algoritmo é utilizada

para comparar os descritores gerados com as características do conjunto AYV. Além disso,

este algoritmo segue a mesma linha de raciocínio do DTW, utilizado na comparação dos

descritores gerados com o conjunto ULTC.

Após comparar os dois descritores, sendo um gerado a partir da imagem da palavra

extraída do documento e o outro a partir da conversão dos caracteres ASCII da palavra,

obtém-se uma medida de similaridade entre eles. Esta medida de similaridade S é com-

parada a um limiar λ, quando S ≥ λ considera-se que a palavra procurada esta contida

na palavra correspondente ao descritor analisado. Assim, a palavra é marcada como coin-

cidente e tem sua posição, página, documento e valor de similaridade armazenados para

posterior conferência. O valor do limiar λ é atribuído experimentalmente, visando um

equilíbrio entre precisão e revocação. Durante os testes observou-se que o valor de λ é

diretamente proporcional à precisão e inversamente proporcional à revocação do método.

3.7 Considerações Finais

O pré-processamento é mínimo dado que os documentos analisados não apresentam

inclinação e ruídos em excesso. Porém, no futuro pode haver a necessidade de implementar

novos métodos de ﬁltragem e correção da imagem da página.

A segmentação utilizada é simples, porém eﬁcaz, visto que apenas se deseja obter

as linhas e palavras do texto sem se preocupar com características estruturais, como

delimitação de parágrafos e seções.

Três conjuntos de características foram propostos aqui, cada um possui características

distintas. No conjunto de características LRPS realiza-se uma análise de características

estruturais da imagem da palavra e este é o conjunto de características mais complexo dos

três implementados. Espera-se obter uma maior precisão com este conjunto, devido ao

grande número de análises realizadas nas linhas dos traçoes dos caracteres e nas transições

pertencentes a imagem da palavra. O conjunto AYV é o mais simples, porém a idéia da

divisão em regiões das colunas da imagem da palavra é interessante e espera-se com ela

obter uma boa representação de cada padrão de coluna presente na imagem. Finalmente, o

conjunto ULTC apresenta característica que visam a forma externa da imagem da palavra

e espera-se com isso obter certa robustez a ruídos.

Através da avaliação dos diferentes conjuntos de características implementados é pos-

sível determinar qual obteve melhor desempenho perante um banco de dados de testes

utilizado. O processo de avaliação de cada método está descrito no próximo capítulo

juntamente com os resultados experimentais e a análise dos mesmos.

Capítulo 4

Resultados Experimentais

Neste capítulo é apresentada a metodologia utilizada para avaliar o desempenho do

método proposto, uma análise de cada conjunto de características implementado assim

como uma análise global dos resultados.

4.1 Banco de Imagens de Documentos

A realização dos testes dependeu da utilização de imagens de documentos que apre-

sentassem uma versão textual com a informação da posição de cada palavra na imagem,

para que a conferência das palavras encontradas fosse feita a partir da veriﬁcação da po-

sição. Porém, não foi possível encontrar um banco de dados de imagens de documentos

que se enquadrasse nessa restrição. Assim, foi necessária a criação de tal banco de dados.

Este procedimento foi realizado através de um conjunto de artigos cientíﬁcos digitaliza-

dos e armazenados no formato PDF. Ao todo foram utilizados 865 artigos publicados na

ICASSP’97 (IEEE. . . , 1997), os quais foram copiados de um CD fornecido pela confe-

rência. Cada documento contém entre duas e quatro páginas e é formado por texto em

colunas podendo conter imagens, tabelas e fórmulas matemáticas. Os documentos foram

digitalizados a uma resolução de 300dpi, o que é considerado suﬁciente para a maioria

dos métodos existentes na área de processamento de imagens. Além disso, não foram

observados documentos com problemas de inclinação do texto. A Figura 4.1 apresenta

quatro páginas de um exemplar pertencente ao banco de imagens de documentos utilizado

para realizar os testes.

A qualidade dos documentos existentes no banco de dados de testes varia de docu-

mento para documento. Em alguns documentos podem ser observados traços mais grossos

Figura 4.1: Quatro páginas de um documento pertencente ao banco de imagens de docu-

mentos utilizado.

Figura 4.2: Parte de dois documentos pertencentes ao banco de imagens de documentos

utilizado: (b) apresenta traços mais grossos que (a).

em alguns caracteres, fato que ocasiona união de caracteres vizinhos e deformação de al-

guns caracteres. Este problema está ilustrado na Figura 4.2, onde (b) apresenta traços

mais grossos, caracteres unidos e deformados. Por outro lado, a Figura 4.2(a) apresenta

um trecho de imagem com traços mais ﬁnos e algumas vezes não contínuos causando ou-

tros tipos de deformação. Este tipo de variação é comum em documentos digitalizados e

por isso foi levada em consideração durante o desenvolvimento do método proposto.

4.2 Protocolo Experimental

Os documentos utilizados para criar o banco de dados de testes também contém uma

versão PDF no formato texto, fornecidos no mesmo CD das versões digitalizadas. Inicial-

mente se pretendia utilizar esta versão textual para extrair as palavras e suas respectivas

posições para gerar o índice de palavras. Porém, as posições das palavras na versão tex-

tual não correspondem, com o devido grau de precisão, às posições das mesmas palavras

na versão digitalizada, composta de imagens. Assim, não é possível comparar a posição

das palavras encontradas nos testes com a posição das palavras existentes no banco de

dados de testes. Devido a isso, não se pode utilizar esta versão textual dos documentos

e houve a necessidade de utilizar o software Acrobat (2006) para gerar os documentos na

versão textual.

Utilizando-se o OCR embutido no software comercial Acrobat (2006), converteu-se

as imagens de documentos digitalizados em documentos texto com o mesmo layout, os

quais foram utilizados para fazer a avaliação dos métodos implementados. O software

Xpdf (2005) foi utilizado para extrair o texto contido nestes documentos convertidos jun-

tamente com a posição de cada palavra na página, de forma a gerar um índice contendo

Figura 4.3: Processo de criação do banco de dados de testes.

a palavra no formato ASCII, a posição, o número da página e o nome do documento.

Este processo está ilustrado na Figura 4.3. Durante a avaliação dos resultados busca-se

no índice a palavra existente na página e posição em que uma determinada palavra foi

encontrada na imagem e compara-se as palavras, contabilizando assim o número de pala-

vras corretamente encontradas e o número total de palavras encontradas. Além disso, uma

imagem de cada palavra encontrada durante os experimentos foi salva para conferência

visual.

O processo de conversão via OCR falhou para aproximadamente 1% das imagens de

documentos. Estas imagens não puderam ser convertidas para texto e deste modo foram

removidas do banco de imagens. Porém, isto não causa um grande impacto no número

de amostras disponíveis.

Para avaliar o método proposto foram utilizadas inicialmente duas medidas: precisão

e revocação. A precisão é a relação entre o número de palavras corretamente encontradas

e o número total de palavras encontradas durante o teste. A revocação é a relação entre

o número de palavras encontradas e o número de ocorrências das palavras procuradas na

fração do banco de dados de testes utilizada no teste em questão. As taxas de precisão P

e revocação R foram obtidas de acordo com as equações 4.1 e 4.2.

P =

(4.1)

R =

(4.2)

onde, X

corresponde ao número de palavras corretamente encontradas nas imagens de

documentos analisadas, X

corresponde ao número total de palavras encontradas nas ima-

gens de documentos analisadas durante a realização do teste e X

corresponde ao número

de ocorrências, no índice gerado a partir dos arquivos no formato texto, das palavras pro-

curadas. O valor ideal para P e R seria 1, o que representa taxas de precisão e revocação

iguais a 100% que por sua vez representa um resultado onde nenhuma palavra foi identi-

ﬁcada incorretamente e todos as palavras existentes nos documentos foram encontradas.

Dizer que um conjunto de características ou a utilização de um limiar diferente apre-

sentou um resultado superior a outro não é uma tarefa trivial. Na realidade, o peso

atribuído à precisão e revocação pode variar dependendo da utilização do método em

questão. Porém, para efeito de comparação entre os resultados fornecidos pelos diferentes

conjuntos de características utilizados, deve-se encontrar uma métrica que determine o

quanto um método foi melhor ou pior que outro. Nesse contexto, a métrica F

(YANG;

LIU, 1999) foi utilizada para a obtenção de um valor que represente o resultado de um

teste. Tal métrica está deﬁnida na equação 4.3.

2RP

R + P

(4.3)

A eleição das palavras que foram utilizadas nos testes foi feita através da seleção

das cinqüenta palavras mais freqüentes encontradas nos documentos presentes no banco

de dados. A experiência demonstrou que a avaliação dos métodos se torna mais difícil

quando utilizamos palavras pequenas. Devido a isso, inclui-se uma restrição na seleção

das palavras mais freqüentes para garantir que apenas palavras com pelo menos cinco

caracteres fossem selecionadas. Além disso, algumas palavras comumente encontradas em

documentos normalmente chamadas de stop words, como conectores, não foram conside-

radas. Na maioria dos casos estas palavras não são úteis para identiﬁcar um documento

e raramente são realizadas buscas por elas, visto que não trazem informação alguma.

A listagem completa das palavras desconsideradas durante a seleção das palavras mais

freqüentes esta disponível no Anexo A. A Tabela 4.1 relaciona o resultado da seleção

juntamente com o número de ocorrências de cada palavra no índice gerado a partir dos

documentos no formato texto. O número de ocorrências é relativo a todos os documentos

existentes no banco de dados de testes.

O banco de imagens de documentos foi divido em duas partes. A primeira parte é

formado pelos primeiros 50 documentos deste banco, selecionados em ordem alfabética, e

foi utilizada para a deﬁnição do limiar de similaridade e do limiar que deﬁne a distância

máxima positiva entre duas colunas extraídas com o conjunto de características ULTC. A

deﬁnição destes parâmetros foi realizada através da realização de testes com os 50 docu-

mentos selecionados, da observação das palavras obtidas e das suas respectivas pontuações

de comparação com as palavras procuradas. A primeira parte do banco de imagens de

Palavra Ocorrências Palavra Ocorrências

speech 5364 shown 2366

signal 5312 models 2315

using 5223 channel 2305

algorithm 4954 diﬀerent 2269

model 4544 problem 2251

Figure 4512 input 2244

noise 3969 proposed 2242

ﬁlter 3723 approach 2185

number 3378 signals 2114

function 3285 linear 2066

results 3262 obtained 1895

method 3164 estimation 1805

based 3108 algorithms 1799

performance 2890 information 1795

image 2855 Speech 1726

error 2855 ﬁlters 1711

vector 2748 coding 1707

given 2741 output 1704

order 2679 coeﬃcients 1678

parameters 2496 analysis 1670

matrix 2428 sequence 1638

training 2405 Table 1620

recognition 2386 Signal 1616

frequency 2384 values 1614

Tabela 4.1: Palavras, com o respectivo número de ocorrências, utilizadas na realização

dos testes.

documentos também foi utilizada para validação do método proposto. A segunda parte

é formada de 815 documentos e foi utilizada para a realização dos testes. Assim, cada

palavra da Tabela 4.1 e os 815 documentos existentes no banco de dados de testes foram

utilizadas na avaliação do método e de cada conjunto de características implementado.

Isto gerou um grande volume de dados e permitiu uma boa avaliação do sistema.

O procedimento descrito acima foi realizado para todos os conjuntos de característi-

cas implementados, assim como para as suas variações. Seguindo este protocolo tem-se

a capacidade de avaliar os métodos propostos através da execução de testes com as 815

imagens de documentos destinadas a este propósito e da utilização da métrica F

para

identiﬁcar os melhores resultados. Através da análise dos resultados, buscando identiﬁ-

car os problemas que impossibilitam melhores resultados, é possível identiﬁcar as falhas

existentes em cada um dos conjuntos de características avaliados.

Método Iterações

Original 21393

Otimizado 643

Ganho 96,99%

Tabela 4.2: Número de iterações necessárias para detectar os 40 primeiros espaços vazios

em uma página.

4.3 Segmentação

A etapa de segmentação consiste na segmentação de componentes conexos seguida

da segmentação de blocos de texto, linhas e palavras. A segmentação de palavras em

uma linha é realizada utilizando-se a mediana M das distâncias entre caracteres vizinhos

presentes na linha analisada. Dois componentes conexos são considerados pertencentes

a mesma palavra se a distância horizontal entre eles for menor que αM. O fator α foi

deﬁnido através de experimentos, realizados sobre os 50 documentos selecionados para

ajustar os parâmetros do método, e da análise visual da segmentação das imagens dos

documentos, chegando-se a bons resultados com α = 2.

Durante o desenvolvimento dos métodos de segmentação de linhas e palavras foi pos-

sível realizar uma melhoria no método proposto por Breuel (2002) para fazer a detecção

de espaços em vazios na imagem. A detecção de espaços vazios é importante no contexto

de detecção de colunas e linhas. Um espaço vazio pode representar a separação entre

duas colunas do texto ou simplesmente a separação entre uma ﬁgura ou tabela de um

bloco de texto. O método original, proposto por Breuel, visa a detecção dos espaços va-

zios na imagem ordenados por área. Porém, a maneira como a página é dividida a cada

iteração do sistema causa muitos recálculos. Tendo em vista este problema, realizou-se

uma modiﬁcação do algoritmo para que evitasse por completo o recálculo. Os ganhos em

tempo de execução podem ser visualizados através do número de iterações do algoritmo

para detectar os primeiros 40 espaços na imagem de uma página. A Tabela 4.3 relaciona

o número de iterações do método original e do método otimizado, assim como o ganho

obtido com a alteração no método. Porém, é interessante lembrar que o método alterado

não garante o retângulo de maior área, apesar de retornar retângulos grandes o suﬁciente

para a correta segmentação da página.

4.4 Experimentos Realizados

Os experimentos foram realizados com os três conjuntos de características propostos

e com os dois conjuntos gerados a partir da modiﬁcação dos conjuntos LRPS e ULTC.

Além disso, para aumentar o desempenho do método testado uma etapa de suavização

de contornos foi adicionada ao sistema. A utilização da suavização trouxe benefícios para

alguns dos conjuntos de características avaliados, aumentando as taxas de revocação. Po-

rém, em outros conjuntos não houve melhora. Estes experimentos foram realizados sobre

os 815 documentos dedicados a este propósito, não pertencentes ao grupo de documentos

selecionados para ajuste de parâmetros.

Em cada um dos conjuntos de características avaliou-se diferentes valores para o limiar

de similaridade. Este limiar corresponde ao valor mínimo aceitável da pontuação obtida

após a comparação de dois descritores. Esta pontuação tem mínimo em 0 e máximo

em 1, sendo que 1 somente pode ser obtido quando o descritor da palavra procurada

existe integralmente(sem inserções e remoções) dentro do descritor extraído da imagem da

palavra analisada. Assim, quando maior for a pontuação menor o número de modiﬁcações

que precisam ser realizadas no descritor da palavra procurada para que ele se iguale a

porção possivelmente correspondente a ele dentro do descritor extraído da imagem da

palavra.

Antes de iniciar a análise de cada um dos conjuntos de características implementados

vale a pena sumarizar as siglas adotadas para os conjuntos de características descritos nas

próximas seções:

• LRPS: Características estruturais baseadas na detecção de linhas retas, análise de

transições e do posicionamento relativo às linhas de ascendentes e descendentes;

• AYV: Divisão da coluna em regiões e atribuição de múltiplos de dois a cada região

que contêm o pixel central de uma seqüência consecutiva de pixels pretos;

• ULTC: Características de contorno superior e inferior e número de transições;

• ULTC II: Conjunto ULTC com a adição da características de contagem de pixels

pretos.

4.4.1 LRPS

As primeiras características implementadas e testadas foram as propostas por Lu e Tan

(2004), chamadas de LRPS. Estas características apresentaram um grau de diﬁculdade

relativamente alto na implementação, devido à detecção de linhas retas e à detecção de

relacionamentos entre linhas que se interceptam. Apesar dos autores relatarem resultados

de precisão e revocação acima de 90%, o máximo que se obteve nos testes foi 61,37% e

53,11% para precisão e revocação, respectivamente. A causa de valores abaixo do esperado

pode estar relacionada a diﬁculdade de se delimitar linhas retas e encontrar relações entre

elas em imagens ruidosas. Além disso, não foi possível utilizar o mesmo banco de imagens

utilizado pelos autores, visto que na maioria dos testes realizados pelos autores foi utilizado

um banco de imagens próprio que não foi possível obtê-lo. Os autores também utilizaram

um banco de imagens de documentos comercial chamado UW, o qual só está disponível

para compra.

Testou-se o conjunto de características LRPS na sua forma original, como proposto

pelos autores. Porém, devido ao baixo desempenho obtido decidiu-se realizar uma modi-

ﬁcação que visou diminuir os impactos causados por ruídos. Esta modiﬁcação consistiu

em descartar características isoladas, ou seja, diferente da característica extraída anteri-

ormente e posteriormente a ela.

A Tabela 4.3 ilustra os resultados obtidos com o conjunto de características LRPS

e LRPS Modiﬁcado, aonde é possível observar que a medida em que o limiar de simi-

laridade aumenta também aumenta a precisão, porém decai a taxa de revocação. Este

comportamento é característica do método e, através da métrica F

, deve-se encontrar

um equilíbrio entre as taxas de precisão e revocação de forma a maximizar os resulta-

dos. Outro ponto a ser observado é o ganho nas taxas de revocação proporcionado pelo

conjunto de características LRPS Modiﬁcado, o qual é maior proporcionalmente a queda

nas taxas de precisão quando comparado ao conjunto de características LRPS. Assim, o

desempenho do conjunto LRPS Modiﬁcado foi considerado superior ao LRPS original.

Os itens em negrito na Tabela 4.3 representam os melhores resultados, julgados com o

auxílio da métrica F

, com e sem a suavização de contornos.

4.4.2 AYV

O segundo conjunto de características implementado e avaliado foi um subconjunto

das características propostas por Arica e Yarman-Vural (2000), referenciado neste do-

Limiar Similaridade 0,60 0,65 0,70 0,75 0,80 0,85

LRPS Precisão(%) 20,27 35,68 55,54 71,31 89,00 95,23

(Original) Revocação(%) 65,46 55,92 45,40 35,40 22,58 12,63

0,310 0,436 0,500 0,473 0,360 0,223

LRPS Modiﬁcado Precisão(%) 16,55 30,08 48,91 65,01 86,63 95,08

Revocação(%) 74,83 67,31 58,38 48,03 34,12 21,05

0,271 0,416 0,532 0,553 0,490 0,345

LRPS Precisão(%) — — — — — — 69,15 87,63 — —

(com suavização) Revocação(%) — — — — — — 42,98 28,93 — —

— — — — — — 0,530 0,435 — —

LRPS Modiﬁcado Precisão(%) — — — — — — 61,37 83,46 — —

(com suavização) Revocação(%) — — — — — — 53,11 38,73 — —

— — — — — — 0,569 0,529 — —

Tabela 4.3: Estatísticas de desempenho do conjunto de características LRPS original e

modiﬁcado sobre os 815 documentos digitalizados.

cumento por AYV. Apenas as características relativas às colunas da imagem foram im-

plementadas, visto que as características propostas pelos autores englobam a análise da

imagem da palavra na diagonal e na horizontal. Porém, esta análise não pode ser adaptada

ao método porque não permitiria a busca por “sub-palavras”.

O conjunto de características AYV é relativamente simples e basea-se por completo na

análise das transições. O resultado obtido nos testes foi o menor entre todos os conjuntos

de características testados. Porém, não se chegou a testar a combinação desse conjunto

de características com outras técnicas, o que poderia dar respostas mais concretas sobre

o desempenho das características.

As taxas de precisão do conjunto de características AYV, obtidas após a realização

dos testes e apresentadas na Tabela 4.4, são semelhantes as obtidas com o conjunto de

características LRPS. Porém, as taxas de revocação estão bem abaixo do obtido com o

conjunto de características LRPS. Uma análise mais profunda dos resultados com este

conjunto, mostrou que as características extraídas são sensíveis a variações pequenas na

forma dos caracteres e a ruídos, devido a isso obteve-se valores inferiores nas taxas de

revocação.

Pode-se observar na Tabela 4.4 que o uso da suavização de contornos aumentou a

precisão porém provocou uma queda proporcionalmente maior na revocação. Através da

utilização da métrica F

foi possível veriﬁcar que o uso da suavização provocou uma queda

de 0,73% no desempenho do conjunto AYV. Ou seja, a suavização de contornos não trouxe

benefícios ao sistema quando utilizada juntamente com este conjunto de características.

Limiar Similaridade 0,60 0,65 0,70 0,75 0,80 0,85

AYV Precisão(%) 10,38 19,18 38,92 61,86 85,87 94,62

Revocação(%) 39,63 31,77 23,12 15,11 6,85 2,55

0,165 0,239 0,290 0,243 0,127 0,050

AYV Precisão(%) — — 20,06 40,03 62,93 — — — —

(com suavização) Revocação(%) — — 30,74 21,84 14,09 — — — —

— — 0,243 0,283 0,230 — — — —

Tabela 4.4: Estatísticas de desempenho do conjunto de características AYV sobre os 815

documentos digitalizados.

4.4.3 ULTC

As características de contorno superior e inferior e número de transições preto/branco

formam o terceiro conjunto de características avaliado. Estas características são relativa-

mente simples e apresentam um boa resistência a ruídos. No entanto, tais características

não distinguem suﬁcientemente alguns caracteres, impondo um limite relativamente baixo

a precisão ou revocação do método, dependendo do valor do limiar de similaridade.

Quando este conjunto de características foi utilizado realizou-se testes com uma va-

riação do mesmo que utilizou uma tabela de vetores de características em que todos os

outros vetores de características extraídos da imagem deveriam se adequar. Ou seja, um

vetor calculado a partir de uma coluna da imagem deveria ser substituído pelo vetor na

tabela que apresentasse menor distância para ele. Tentou-se com isso diminuir os ruí-

dos e aumentar a revocação. Porém os resultados mostraram que nem a precisão nem a

revocação obtiveram ganho com essa técnica.

Este conjunto de características utilizou duas tabelas de conversão de caracteres para

características ao mesmo tempo. Uma tabela foi gerada a partir da imagem de caracteres

em uma fonte com serifa e a outra com uma fonte sem serifa. A utilização de duas tabelas

de conversão abriu a possibilidade de tratar de igual maneira caracteres impressos em

fontes com e sem serifa sem a necessidade de uma etapa de remoção de serifas. Isto

proporcionou resultados melhores que os do conjunto de características LRPS, no qual se

efetua a remoção das serifas em uma etapa pós-extração de características.

A comparação de dois vetores de características, descritores de duas colunas, extraídos

utilizando este conjunto de características precisa de um valor que indique qual a distância

máxima positiva entre eles. Experimentalmente chegou-se ao valor de 0,07. A deﬁnição

deste limiar afeta o método de maneira semelhante ao limiar de similaridade. Ou seja,

quando menor o valor do limiar maior a precisão do método proposto.

Limiar Similaridade 0,60 0,65 0,70 0,75 0,80 0,85

ULTC Precisão(%) 27,16 46,61 65,89 81,42 91,98 96,78

Revocação(%) 86,32 80,48 70,35 55,63 36,95 19,01

0,413 0,590 0,680 0,661 0.537 0,318

ULTC Precisão(%) — — — — 64,84 80,28 90,98 — —

(com suavização) Revocação(%) — — — — 71,63 56,79 38,17 — —

— — — — 0,681 0,665 0,538 — —

Tabela 4.5: Estatísticas de desempenho do conjunto de características ULTC sobre os 815

documentos digitalizados.

A Tabela 4.5 relaciona as taxas de precisão e revocação para os diferentes limiares de

similaridade avaliados. Os itens em negrito destacam os melhores resultados de acordo

com a equação 4.3.

Após o uso da suavização de contornos o sistema apresentou uma melhora de apenas

0,02% na métrica F

. Isto mostra que as características do conjunto ULTC são menos

sensíveis a ruídos do que as do conjunto LRPS onde os ganhos com o uso da suavização

foram de 1,69% na métrica F

. Ou seja, a suavização quase não trouxe benefícios ao

conjunto ULTC. Quando se leva em conta que houve um aumento de 15% no tempo de

processamento em virtude da suavização, pode-se considerar desnecessário o seu uso em

associação com o este conjunto de características.

4.4.4 ULTC Modiﬁcado

Numa tentativa de melhorar a precisão do sistema uma quarta característica foi adici-

onada ao conjunto de características ULTC, a qual mediu a porcentagem de pixels pretos

em uma coluna.

Conforme ilustrada na Tabela 4.6, o resultado dos testes mostrou um ganho na preci-

são. Porém, perdeu-se proporcionalmente em revocação, quando comparado ao conjunto

ULTC. Além disso, obteve-se aumento de 16% no tempo de processamento. O uso da

suavização de contornos não trouxe benefícios ao sistema quando utilizada juntamente

com que este conjunto de características.

A inclusão de mais uma característica ao conjunto ULTC trouxe, como era esperado,

um aumento da precisão e ao mesmo tempo proporcionou uma queda proporcionalmente

maior na revocação. Este fato torna o conjunto ULTC Modiﬁcado inferior ao ULTC,

visto que o desempenho do primeiro pode ser obtido no segundo quando se aumenta o

valor do limiar de similaridade. Sendo assim, pode-se concluir que a implementação da

Limiar Similaridade 0,65 0,70 0,75 0,80 0,85

ULTC Modiﬁcado Precisão(%) 61,99 77,42 88,11 94,88 98,30

Revocação(%) 68,53 52,72 34,25 18,03 7,61

0,651 0,627 0,493 0,303 0,141

ULTC Modiﬁcado Precisão(%) 60,96 76,36 86,97 94,28 — —

(com suavização) Revocação(%) 68,40 52,07 33,80 18,23 — —

0,645 0,619 0,487 0,306 — —

Tabela 4.6: Estatísticas de desempenho do conjunto de características ULTC Modiﬁcado

sobre os 815 documentos digitalizados.

Características Precisão Revocação F

Limiar Similaridade

AYV 38,92 23,12 0,290 0,70

LRPS 61,37 53,11 0,569 0,75

ULTC Modiﬁcado 61,99 68,53 0,645 0,65

ULTC 65,89 70,35 0,681 0,70

Tabela 4.7: Estatísticas de desempenho com os melhores resultados de cada conjunto de

características proposto.

característica extra não trouxe benefícios ao sistema.

Na Tabela 4.7 estão relacionadas as características implementadas e o melhor de-

sempenho obtido com cada um dos conjuntos de características. Os valores do conjunto

LRPS são relativos ao conjunto LRPS modiﬁcado (LRPS Modiﬁcado) e com a suavização

de contornos.

Os melhores resultados obtidos, de acordo com a métrica F

, na busca pelas cinqüenta

palavras mais freqüentes nos oitocentos e quinze artigos integrantes da base de testes foi

obtido com o uso de características de contorno superior e inferior e número de transições

preto/branco, ou seja, o conjunto ULTC. Estas características são relativamente simples

e apresentam um boa resistência a ruídos. No entanto, tais características não distinguem

suﬁcientemente alguns caracteres, impondo um limite relativamente baixo a precisão ou

revocação do método, dependendo do valor do limiar de similaridade.

4.5 Análise de Erros

Cada um dos conjuntos de características implementados possui suas falhas. O con-

junto de características AYV tem como maior falha a sensibilidade a ruídos. O conjunto

LRPS apresenta um alto nível de complexidade e a detecção de linhas retas nem sempre

pode ser realizada da forma como os autores propuseram. O conjunto ULTC, por sua vez,

Figura 4.4: Deformações nos caracteres “a”(a), “h”(b) e “n”(c) causadas por ruídos.

não distingue suﬁcientemente alguns caracteres como o “u” e o “n”.

Além das fraquezas encontradas em cada conjunto de características ainda existem

os problemas causados por ruídos. Na Figura 4.4 estão ilustrados três caracteres que

tiveram suas formas alteradas por más condições de impressão e/ou digitalização. Na

Figura 4.4(a) o caractere “a” tem seu interior preenchido eliminando o loop próprio deste

caractere, esse tipo de deformação afeta características baseadas em transições mas não

afeta características relativas ao contorno externo. Nas Figuras 4.4(b) e 4.4(c) o caractere

“h” e o caractere “n” tem a parte inferior ligada com um traço eliminando a concavidade

própria desses caracteres, esse tipo de deformação afeta todas as características propostas

neste trabalho. Estas deformações são um desaﬁo a ser superado, tratá-las na etapa de pré-

processamento seria um procedimento bastante agressivo podendo causar imperfeições a

caracteres sem deformações. Provavelmente, o lugar mais adequado para tratá-las seria na

extração de características, porém distinguir uma característica extraída de um caractere

normal de um defeituoso não é um tarefa fácil e possivelmente causaria a inserção de

heurísticas no método.

Durante a análise dos resultados ﬁcou claro que o conjunto de características LRPS

apresentou um desempenho superior no processamento de palavras escritas na graﬁa itá-

lica. Esta superioridade pode ser atribuída a utilização das características estruturais

relativas a extração de linhas retas, as quais apresentam robustez com relação a presença

ou não de fontes itálicas. A diferença causada pelo uso da graﬁa itálica é mais visível em

caracteres com ascendentes e descendentes e em caracteres que apresentam linhas retas.

Conjuntos de característica dependentes da análise da transição não se comportam bem

na presença de itálicos, e os conjuntos ULTC e AYV praticamente não identiﬁcaram pala-

vras na graﬁa itálica. Uma das soluções para este problema seria a correção de inclinação

da imagem da palavra após a segmentação da mesma. Outra solução seria utilizar mais

uma tabela de conversão de caractere para descritor, nesse caso a tabela seria gerada a

partir de uma imagem com modelos de caractere criados com uma fonte itálica.

Após avaliar diferentes conjuntos de características foi possível diagnosticar que as

características se dividem em dois grupos. Em um grupo tem-se as características que

apresentam boa invariância a ruídos e toleram pequenas variações na forma dos carac-

teres. O segundo grupo é formado pelas características que são mais sensíveis a ruídos,

porém são mais precisas que as do primeiro grupo. Essa divisão é visível entre os conjun-

tos de características avaliados. Por exemplo, o conjunto de características AYV possui

basicamente uma característica, a qual é sensível a imperfeições na forma dos caracteres

e produz baixas taxas de revocação. Do outro lado, tem-se as características de con-

torno utilizadas no conjunto de características ULTC, as quais tem baixa precisão porém

apresentam boas taxas de revocação.

Na Figura 4.5 estão ilustrados alguns dos problemas comumente encontrados no pro-

cesso de detecção de linhas retas do conjunto de características LRPS. Estes problemas

afetam a desempenho do método, de modo que ocasionam a incorreta identiﬁcação das

características na imagem. Na Figura 4.5(a) tem-se o problema causado pela escolha da

linha de varredura. A linha de varredura é utilizada como ponto de partida para detectar

os traços existentes na imagem e quando esta linha coincide com uma reta horizontal não

é possível detectar as linhas verticais que possivelmente cortem esta linha horizontal. No

exemplo da ﬁgura, deveriam ser detectadas as duas linhas retas na diagonal presentes na

imagem do caractere “A”, mas como o ponto médio ﬁca no centro da linha horizontal

presente neste caractere nenhuma delas pode ser encontrada. Na Figura 4.5(b) e (c) estão

ilustrados casos onde uma linha reta pode ser encontrada em posições não desejadas. Na

imagem do caractere “S” foi detectada uma linha reta na diagonal, mas o conjunto de

características não prevê uma reta neste caractere. Na imagem do caractere “R” foram

encontradas duas retas, mas somente a da esquerda está correta.

A inclusão de mais uma característica ao conjunto ULTC, conforme mostrado no

conjunto ULTC Modiﬁcado, mostrou que a precisão pode ser melhorada, mas com o custo

da queda na revocação. O equilíbrio entre essas duas taxas é um questão fundamental,

visto que uma tende a crescer em detrimento da outra. Isto é natural, levando-se em conta

que quanto mais preciso é um conjunto de características mais sensível a ruídos também

é.

A utilização da suavização de contornos, além de corrigir imperfeições na imagem,

pode gerar imperfeições em alguns casos. Este comportamento pode ser observado nos

resultados do conjunto de características AYV, onde o desempenho do sistema apresentou

Figura 4.5: Problemas na detecção de linhas retas no algoritmo utilizado no conjunto

de características LRPS. (a) linha de varredura coincide com um traço horizontal no

caractere “A”. (b) linha incorretamente detectada no caractere “S”. (c) a linha da direita

é incorretamente detectada no caractere “R”.

piora após a inclusão da suavização de contornos. Porém, vale destacar, que no conjunto

de características LRPS a suavização trouxe visível melhora ao sistema. Assim, o uso

da suavização de contornos deve ser o menos agressiva possível para que não cause mais

imperfeições do que as existentes.

Capítulo 5

Conclusão

Neste trabalho foi apresentado um método capaz de realizar a busca por palavras em

imagens de documentos impressos sem recorrer ao OCR, mantendo o foco na utilização

de novos conjuntos características compostos por características presentes nos trabalhos

revisados. Foram apresentados três conjuntos de características utilizados para gerar

descritores representantes de imagens de palavras. Também foi apresentada a forma de

comparar estes descritores seguindo a técnica de comparação inexata de características,

de maneira que houve a necessidade de adaptar o procedimento de comparação a cada

conjunto avaliado. Entretanto, para realizar a extração das características de imagens de

palavras é necessário segmentar as palavras existentes em uma imagem de página. Assim,

também foi apresentado o procedimento de segmentação utilizado pelo método e descritas

a etapas necessárias para se chegar a segmentação das palavras presentes na imagem de

uma página.

Entre as contribuições deste projeto pode-se destacar: as otimizações no processo de

segmentação, a criação de um banco de dados de testes e a avaliação de novos conjuntos

de características. A contribuição no processo de segmentação está relacionada a econo-

mia de tempo de processamento proporcionada pela otimização do método de detecção

de espaços em branco na imagem. A criação de um banco de dados de testes representa

um recurso que permite que trabalhos futuros realizem testes em um banco de dados com

865 imagens de documentos e índice de palavras com informação de posicionamento das

palavras contidas nos documentos. A avaliação de novos conjuntos de característica é

importante para a ciência da computação, fornecendo resultados e análises que contri-

buirão com trabalhos realizados na mesma área de pesquisa desse trabalho e em áreas

relacionadas.

A avaliação do método e dos conjuntos de características propostos envolveu a rea-

lização de vários testes com diferentes valores para o limiar de similaridade. Depois de

realizados os testes, foi possível observar que quanto maior o limiar de similaridade(valor

mínimo necessário para considerar dois descritores como sendo relativos a mesma pala-

vra) menor a revocação e maior a precisão do método. Também, ﬁcou visível algumas

fraquezas dos conjuntos de características apresentados, como a baixa robustez perante a

ruídos.

Os resultados apresentados mostram a viabilidade do método e deixam expostos al-

guns pontos que podem ser melhorados no futuro. Uma das necessidades a serem su-

pridas no futuro é possibilidade de buscar frases e não apenas palavras em imagens de

documentos. Outro ponto a considerar é a combinação de características para gerar novos

conjuntos. Além disso, pode-se combinar o método com OCR. O uso de OCR é computa-

cionalmente intensivo quando se deseja analisar uma página inteira. Porém, seria possível

em um trabalho futuro realizar uma ﬁltragem das palavras que mais se assemelham com

a palavra procurada e depois submeter o resultado da ﬁltragem a conversão para texto

por OCR, aumentando o nível de precisão do método e ao mesmo tempo reduzir o tempo

de processamento dos métodos baseados em OCR.

Referências Bibliográﬁcas

ACROBAT. Adobe, 2006. Disponível em: <http://www.adobe.com>.

ARICA, N.; YARMAN-VURAL, F. T. One-dimensional representation of two-

dimensional information for HMM based handwriting recognition. Pattern Recognition

Letters, v. 21, n. 6-7, p. 583–592, jun. 2000.

BALASUBRAMANIAN, A.; MESHESHA, M.; JAWAHAR, C. V. Retrieval from

document image collections. In: Workshop on Document Analysis Systems. Nelson, Nova

Zelândia: Springer, 2006. p. 1–12.

BREUEL, T. M. Two geometric algorithms for layout analysis. In: DAS ’02: Proceedings

of the 5th International Workshop on Document Analysis Systems V. London, UK:

Springer-Verlag, 2002. p. 188–199. ISBN 3-540-44068-2.

CHEN, F. R.; BLOOMBERG, D. S.; WILCOX, L. D. Detection and location of

multicharacter sequences in lines of imaged text. Journal of Electronic Imaging, v. 5,

n. 1, p. 37–49, jan. 1996.

IEEE International Conference on Acoustics, Speech, and Signal Processing

(ICASSP”97).

KISE, K.; WUOTANG, Y.; MATSUMOTO, K. Document image retrieval based

on 2d density distributions of terms with pseudo relevance feedback. In: ICDAR

’03: Proceedings of the Seventh International Conference on Document Analysis and

Recognition. Washington, DC, USA: IEEE Computer Society, 2003. p. 488. ISBN

0-7695-1960-1.

LEYDIER, Y. Word Spotting. 2004. Disponível em:

<http://liris.cnrs.fr/yann.leydier/ws.html>. Acesso em: 13 de fev. de 2006.

LOPRESTI, D. P.; ZHOU, J. Retrieval strategies for noisy text. In: Proceedings of the

Fifth Annual Symposium on Document Analysis and Information Retrieval. Las Vegas,

NV: Information Science Research Institute, University of Nevada, Las Vegas (Ed.),

1996. p. 225–269.

LU, Y.; TAN, C. L. Word spotting in chinese document images without layout analysis.

In: 16th International Conference on Pattern Recognition (ICPR). Quebec, Canada:

IEEE Computer Society, 2002. p. 57–60.

LU, Y.; TAN, C. L. Information retrieval in document image databases. IEEE Trans.

Knowl. Data Eng., v. 16, n. 11, p. 1398–1410, 2004.

MARINAI, S. et al. A general system for the retrieval of document images from digital

libraries. In: DIAL. California, EUA: IEEE Computer Society, 2004. p. 150–173. ISBN

0-7695-2088-X.

OTSU, N. A threshold selection method from gray-level histogram. IEEE Trans.

Systems, Man, and Cybernetics, v. 8, p. 62–66, 1978.

RATH, T. M.; MANMATHA, R. Features for word spotting in historical manuscripts.

In: ICDAR. [S.l.]: IEEE Computer Society, 2003. p. 218–222. ISBN 0-7695-1960-1.

SUEN, C. Y. et al. Computer recognition of unconstrained handwritten numerals. In:

Proc. IEEE. [S.l.]: IEEE Computer Society, 1992. v. 7, n. 80, p. 1162–1180.

TAN, C. L. et al. Imaged document text retrieval without OCR. IEEE Trans.

Pattern Anal. Mach. Intell, v. 24, n. 6, p. 838–844, 2002. Disponível em:

<http://computer.org/tpami/tp2002/i0838abs.htm>.

WANG, Z.; LU, Y.; TAN, C. L. Word extraction using area voronoi diagram. In: 2003

Conference on Computer Vision and Pattern Recognition Workshop. Wisconsin, EUA:

cvprw, 2003. v. 3, p. 31.

XPDF: A pdf viewer for X. Glyph & Cog, 2005. Disponível em:

<http://www.foolabs.com/xpdf/>.

YANG, Y.; LIU, X. A re-examination of text categorization methods. In: Proc. 22th

Ann. Int’l ACM SIGIR Conf. Research and Development in Information Retrieval.

Califórnia, Canadá: ACM, 1999. p. 42–49.

ANEXO A

Palavras Desconsideradas Durante a Seleção das

Palavras Utilizadas nos Testes

A, about, above, across, after, afterwards, again, against, all, almost, alone, along, al-

ready, also, although, always, am, among, amongst, amoungst, amount, an, and, another,

any, anyhow, anyone, anything, anyway, anywhere, are, around, as, at, back, be, became,

because, become, becomes, becoming, been, before, beforehand, behind, being, below,

beside, besides, between, beyond, bill, both, bottom, but, by, call, can, cannot, cant, co,

computer, con, could, couldnt, cry, de, describe, detail, do, done, down, due, during, each,

eg, eight, either, eleven, else, elsewhere, empty, enough, etc, even, ever, every, everyone,

everything, everywhere, except, few, ﬁfteen, ﬁfy, ﬁll, ﬁnd, ﬁre, ﬁrst, ﬁve, for, former, for-

merly, forty, found, four, from, front, full, further, get, give, go, had, has, hasnt, have,

he, hence, her, here, hereafter, hereby, herein, hereupon, hers, herself, him, himself, his,

how, however, hundred, i, ie, if, in, inc, indeed, interest, into, is, it, its, itself, keep, last,

latter, latterly, least, less, ltd, made, many, may, me, meanwhile, might, mill, mine, more,

moreover, most, mostly, move, much, must, my, myself, name, namely, neither, never,

nevertheless, next, nine, no, nobody, none, noone, nor, not, nothing, now, nowhere, of,

oﬀ, often, on, once, one, only, onto, or, other, others, otherwise, our, ours, ourselves, out,

over, own, part, per, perhaps, please, put, rather, re, same, see, seem, seemed, seeming,

seems, serious, several, she, should, show, side, since, sincere, six, sixty, so, some, so-

mehow, someone, something, sometime, sometimes, somewhere, still, such, system, take,

ten, than, that, the, their, them, themselves, then, thence, there, thereafter, thereby,

therefore, therein, thereupon, these, they, thick, thin, third, this, those, though, three,

through, throughout, thru, thus, to, together, too, top, toward, towards, twelve, twenty,

two, un, under, until, up, upon, us, very, via, was, we, well, were, what, whatever, when,

whence, whenever, where, whereafter, whereas, whereby, wherein, whereupon, wherever,

whether, which, while, whither, who, whoever, whole, whom, whose, why, will, with,

within, without, would, yet, you, your, yours, yourself, yourselves.

Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo