Download PDF
ads:
ANA CLÁUDIA PARIS
Análise da Eficiência de Recuperação por Conteúdo de
Imagens Médicas, utilizando Extratores de Textura baseados
em Wavelet e Wavelet Packet
Dissertação apresentada à Escola de Engenharia de São Carlos da
Universidade de São Paulo, como parte dos requisitos para
obtenção do título de Mestre em Engenharia Elétrica.
Área de Concentração: Processamento de Sinais e Instrumentação
Orientador: Prof. Dr. Adilson Gonzaga
São Carlos
2008
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Dedico este trabalho a minha família e aos verdadeiros
amigos que me auxiliaram nesta caminhada.
ads:
AGRADECIMENTOS
A Deus, criador e misericordioso, que sem dúvidas foi o grande facilitador para esta
trajetória, abrindo os caminhos em direção ao sucesso e possibilitando que eu encontrasse as
pessoas certas para me auxiliar nesta jornada.
Ao meu querido orientador Prof. Dr. Adilson Gonzaga, a quem tenho grande estima por
sua paciência, amizade, compreensão e pelos preciosos conhecimentos compartilhados.
À minha família, em especial obviamente à minha mãe Amélia, uma grande mulher e
vencedora que é um dos alicerces de uma família saudável e feliz.
Ao meu namorado Armando, com quem sempre posso contar verdadeiramente, uma
pessoa especial que sempre me apoiou e incentivou em várias decisões de minha vida.
Aos amigos e amigas, cuja colaboração revelou-se essencial durante a caminhada. Em
especial às amigas Renata e Ana Carolina pela grande amizade e companheirismo,
experiências, dicas e acima de tudo pelas deliciosas gargalhadas que demos juntas. E ao
amigo Sérgio pelos conselhos e persistência demonstrada.
Ao Hospital Amaral Carvalho da cidade de Jaú, em especial ao Dr. Ricardo C. Brandão,
diretor da Fundação Amaral Carvalho que possibilitou acesso aos dados essenciais para o
desenvolvimento deste trabalho.
Aos professores e funcionários do Programa de Pós Graduação em Engenharia Elétrica
da Universidade de São Paulo, sempre prestativos e atenciosos.
“Ter problemas na vida é inevitável, ser derrotado por eles é
opcional!” (Roger Crawford) “É justamente a possibilidade de
realizar um sonho que torna a vida interessante" (Paulo Coelho).
RESUMO
PARIS, A. C. Análise da Eficiência de Recuperação por Conteúdo de Imagens Médicas,
utilizando Extratores de Textura baseados em Wavelet e Wavelet Packet. 2008. 228 f.
Dissertação (Mestrado) - Escola de Engenharia Elétrica de São Carlos, Universidade de São
Paulo, 2008.
Aplicações computacionais voltadas para o auxílio ao diagnóstico (Computer-Aided
Diagnosis – CAD) estão se tornando cada vez mais freqüentes. O objetivo dessas aplicações é
fornecer ao profissional da área médica ferramentas que auxiliem na detecção precoce de
patologias diversas. Nesse contexto, algoritmos que satisfaçam o interesse do usuário em
encontrar imagens semelhantes a um caso específico podem ser desenvolvidos. Essas buscas
devem ser feitas por similaridade, considerando a informação visual da imagem e não
utilizando os recursos do processo convencional de busca textual, o qual compara parâmetros
fornecidos pelo usuário com valores de atributos armazenados. As técnicas que permitem esse
desenvolvimento são descritas na literatura como Recuperação de Imagens Baseada em
Conteúdo (Content-Based Image Retrieval CBIR). O maior desafio nessa abordagem é
determinar o conjunto de características que descrevem o conteúdo da imagem
adequadamente. No presente trabalho foram implementados algoritmos para extrair as
características das imagens médicas utilizando as Transformadas Wavelet e Wavelet Packet. A
Transformada Wavelet Packet tem maior capacidade para distinguir as freqüências quando
comparada com a Transformada Wavelet “tradicional”. Esse estudo explora tal propriedade e
analisa o desempenho dessas abordagens matemáticas na recuperação das imagens médicas
por conteúdo. Ao final do estudo pôde-se estabelecer um comparativo entre os resultados
obtidos com os vetores gerados a partir dos dados extraídos por ambas transformadas.
Considerando-se que na área médica a precisão na obtenção das informações tem importância
fundamental, a Transformada Wavelet Packet revelou vantagens relevantes sobre os métodos
tradicionais que aplicam a Transformada Wavelet. Gráficos Recall x Precision e Confusion
Matrix forneceram medidas da eficácia de recuperação.
Palavras-chave: Wavelet, Wavelet Packet, Best Tree, CBIR, Imagens Médicas.
ABSTRACT
PARIS, A. C. Efficiency Analysis of Content-based Medical Image Retrieval, using
Texture Extractors based on Wavelet e Wavelet Packet. 2008. 228 f. M.Sc Dissertation -
São Carlos Engineering School– Electrical Engineering Department, University of São Paulo,
2008.
Computer-Aided Diagnosis (CAD) applications are becoming more frequent each day. This
application’s objective is to provide tools for the medical professional that help in the
precocious detection of different pathologies. On this context, algorithms that satisfy the user
interest to find similar images related to a singular case can be developed. Such searches must
be done considering the visual information instead of using common resources employed in
textual conventional procces’s searches, which compares parameters provide by the user to
attribute’s values stored. The techniques that admit such development are depicted in the
literature as Content-Based Image Retrieval (CBIR). The great challenge here is to define the
features that represent the image appropriately. In the present research were implemented
algorithms to extract the images features using the Wavelet Transform and Wavelet Packet
Transform. A Wavelet Packet Transform distinguish frequencies better than the “tradicional”
Wavelet Transform. Therefore this study explores such properties and analyze the both
mathematics approaches performance in the medical images retrieval. A comparative can be
estabilished between the results obtained with the vectors produced using extracted data in
both transforms. Considering that in the medical area the precision to obtain informations has
fundamental importance, the Wavelet Packet Transform revealed relevant advantages
compared to the traditional methods that use the Wavelet Transform. Recall x Precision
graphs and Confusion Matrix provides retrieval efficiency measures.
Palavras-chave: Wavelet, Wavelet Packet, Best Tree, CBIR, Medical Images.
LISTA DE FIGURAS
Figura 2.1: Figura ilustrativa para indicar similaridade e dissimilaridade entre objetos......... 27
Figura 2.2: (a) Identificação das extremidades usando formas regulares (b) Massa Encefálica.
............................................................................................................................................ 34
Figura 2.3: Imagem monocromática..................................................................................... 37
Figura 2.4: A partir de um pixel central X estabelece-se a relação aos seus oito vizinhos...... 38
Figura 2.5(a) e (b): Agrupamento de dados (JAIN; MURTY; FLYNN, 1999). ..................... 40
Figura 2.6: Dendograma....................................................................................................... 41
Figura 2.7: Consulta kNN: Dado uma imagem de exame de CT do paciente X, encontre as 3
mais parecidas com o exame original (TRAINA; TRAINA JR, 2005).................................. 42
Figura 2.8: Métrica Minkowski (AKLEMAN; JIANER, 1999). ........................................... 46
Figura 2.9: Técnica de validação do método aplicado: Recall x Precision. ........................... 51
Figura 2.10: Exemplo de Gráfico Recall x Precision............................................................ 52
Figura 3.1: Sinal Estacionário. ............................................................................................. 56
Figura 3.2: Sinal não-estacionário. ....................................................................................... 57
Figura 3.3: Short Time Fourier Transform (adaptado de MATHWORKS, 2004).................. 58
Figura 3.4: Representação Tempo x Freqüência da análise do sinal da figura 3.2 utilizando a
STFT (adaptado de POLIKAR, 2001). ................................................................................. 59
Figura 3.5: (a) Janelas usadas na TW. (b) Janelas usadas na STFT. ...................................... 60
Figura 3.6: Representação Translação x Escala da análise de um sinal, utilizando a
Transformada Wavelet (adaptado de POLIKAR, 2001). ....................................................... 65
Figura 3.7: Sinal e as Wavelets constituintes de diferentes escalas e posições....................... 68
Figura 3.8: Localização de Wavelets Discretas no espaço Tempo x Escala sobre um Grid
Dyadic, onde S indica escala e
τ
indica translação.............................................................. 69
Figura 3.9: Decomposição Wavelet discreta (PARRAGA, 2002 pp. 51). .............................. 71
Figura 3.10: Decomposição e subsampling do sinal (adaptado de POLIKAR, 2001). ........... 72
Figura 3.11: Árvore de Decomposição Wavelet.................................................................... 73
Figura 3.12: A Wavelet de Haar,
ψ
...................................................................................... 75
Figura 3.13: A função escala,
φ
, associada a Wavelet de Haar (LIMA, 2002). ..................... 75
Figura 3.14: Decomposição Wavelet de um sinal bidimensional........................................... 77
Figura 3.15: Sinal bidimensional com dois níveis de decomposição. .................................... 78
Figura 3.16: Decomposição padrão de um sinal bidimensional............................................. 79
Figura 3.17: Decomposição não-padrão de um sinal bidimensional...................................... 80
Figura 3.18: Decomposição Wavelet Packet Unidimensional (MATHWORKS, 2004)......... 82
Figura 3.19: Decomposição Wavelet Packet Bidimensional. ................................................ 82
Figura 3.20: Diagrama de Blocos da Transf. Wavelet Packet (PARRAGA, 2002, pp. 59)..... 84
Figura 3.21: Algoritmo Best Basis: os nós finais são “marcados” para iniciar o processo de
análise das entopias dos nós filhos (WICKERHAUSER, 1991, pp.57). ................................ 86
Figura 5.1: (a) Imagem de RM Original. (b) TW com 2 níveis de decomposição. (c) TWP com
2 níveis de decomposição................................................................................................... 108
Figura 5.2: (a) Transf. Wavelet Discreta. (b) Transf. Wavelet Packet.................................. 110
Figura 5.3: Exemplo de uma série de Imagens de CT de Abdômen Superior em Corte Axial.
.......................................................................................................................................... 112
Figura 5.4: (a) Cintilografia Pulmonar. (b) Cintilografia do Esqueleto – Análise do Fluxo
Sangüíneo Ósseo................................................................................................................ 113
Figura 5.5: Exemplo de uma série de Imagens de CT de Abdômen Superior em Corte Axial.
.......................................................................................................................................... 114
Figura 5.6: Amostra de imagens de um exame de CT de Crânio......................................... 115
Figura 5.7: Amostra de imagens das 13 classes selecionadas (primeiro conjunto de testes). 115
Figura 5.8: Amostra de imagens das 12 classes selecionadas (segundo conjunto de testes). 116
Figura 5.9: (a) Imagem Original. (b) Convolução com Máscara 3x3. (c) Convolução com
Máscara 5x5....................................................................................................................... 124
Figura 6.1: Decomposição Wavelet em dois níveis. ............................................................ 127
Figura 6.2: Eficiência de recuperação usando vetores com coeficientes Wavelets (TW)...... 129
Figura 6.3: Matriz de confusão – TW com 6 níveis, coeficientes de aproximação............... 130
Figura 6.4: Matriz de confusão – TW com 6 níveis, CA normalizados. .............................. 131
Figura 6.5: Matriz de confusão – TW com 6 níveis, CA uniformizados.............................. 131
Figura 6.6: Recall x Precision comparativo entre as Wavelets de Haar e Biorthogonal....... 132
Figura 6.7: Filtros da Wavelet Biorthogonal 1.1 (LE-TIEN; CHIEN, 2004)........................ 133
Figura 6.8: Matriz de confusão da Biorthogonal 1.1 com 6 níveis de decomposição........... 134
Figura 6.9: (a) Imagem Original. (b) Filtro de Sobel........................................................... 135
Figura 6.10: Matriz de confusão gerada a partir das 13 Características de Haralick. ........... 136
Figura 6.11: Matriz de confusão resultante da aplicação do algoritmo não-supervisionado. 139
Figura 6.12: Desempenho das métricas de dissimilaridade. ................................................ 140
Figura 6.13: Dendograma de agrupamento das classes. ...................................................... 142
Figura 6.14: Melhores resultados por nível sem alterar os dados. ....................................... 149
Figura 6.15: Melhores resultados por nível: valores uniformizados. ................................... 149
Figura 6.16: Melhores resultados por nível: valores normalizados...................................... 150
Figura 6.17: (a) RxP: dados sem manipulação. (b) RxP: dados uniformizados.................... 151
Figura 6.18: Recall x Precision do melhor resultado nas buscas com características extraídas
após aplicação da Wavelet Packet. ..................................................................................... 155
Figura 6.19: Melhores resultados por nível: Wavelet Packet............................................... 156
Figura 6.20: Desempenho considerando o máximo versus o mínimo número de elementos no
vetor por nível de decomposição. ....................................................................................... 157
Figura 6.21: Árvore Wavelet Packet após algoritmo Best Tree. .......................................... 159
Figura 6.22: Recall x Precision – algoritmo Best Tree........................................................ 160
Figura 6.23: Matriz de confusão do melhor resultado com a TW........................................ 161
Figura 6.24: Matriz de confusão do melhor resultado com a TWP...................................... 162
Figura 6.25: Matriz de confusão do melhor resultado com a TWP – Best Tree. .................. 162
Figura 6.26: Imagem 1111.dcm (CT – cardíaca)................................................................. 163
Figura 6.27: Recuperação das 20 imagens mais similares à 1111.dcm................................ 165
LISTA DE TABELAS
Tabela 5.1 – Quantidade de Subimagens geradas após a decomposição............................. 109
Tabela 5.2 – Classes de Imagens ....................................................................................... 116
Tabela 5.3 – Classes de Imagens ....................................................................................... 117
Tabela 5.4 – Vetor gerado com o segundo nível de decomposição da TW.......................... 119
Tabela 5.5 – Vetor gerado com o segundo nível de decomposição da TWP........................ 119
Tabela 5.6 – Dimensão dos subespaços em cada nível de decomposição ............................ 120
Tabela 6.1 – Número de Elementos no Vetor: Coeficientes Wavelets................................. 128
Tabela 6.2 – Média de Acertos em cada Classe usando CA, CH, CD ou CV no vetor......... 137
Tabela 6.3 – Recuperação da Imagem 31 usando Vetor com Diferentes Coeficientes......... 138
Tabela 6.4 – Agrupamentos gerados de acordo com o método de ligação........................... 141
Tabela 6.5 – Discriminação dos elementos em cada cluster................................................ 142
Tabela 6.6 – Composição dos Vetores de Características: Transf. Wavelet......................... 143
Tabela 6.7 –Comparativo das médias de eficiência de recuperação usando as distâncias City-
block e Euclidiana para cálculo da dissimilaridade entre vetores com valores “puros”, obtidas
a partir de matrizes de confusão. ........................................................................................ 146
Tabela 6.8 – Comparativo das médias de eficiência de recuperação usando a distância City-
block para cálculo da dissimilaridade entre vetores com valores “puros” e uniformizados,
obtidas a partir de matrizes de confusão. ............................................................................ 146
Tabela 6.9 – Comparativo das médias de eficiência de recuperação usando a distância City-
block para cálculo da dissimilaridade entre vetores com valores “puros” e normalizados,
obtidas a partir de matrizes de confusão ............................................................................. 147
Tabela 6.10 – Número de subespaços no último nível de decomposição da TWP ............... 152
Tabela 6.11 – Composição dos Vetores de Características: Transf. Wavelet Packet............ 152
Tabela 6.12 – Comparativo das médias de eficiência de recuperação usando vetores de
características obtidos com a Transf. Wavelet Packet......................................................... 154
Tabela 6.13 – Dez melhores resultados: Transf. Wavelet Packet ........................................ 155
Tabela 6.14 – Uniformização x Normalização – Transf. Wavelet Packet............................ 158
Tabela 6.15 – Resultados obtidos com o algoritmo Best Tree............................................. 161
Tabela 6.16 – Tempo Médio de Processamento.................................................................. 164
LISTA DE SIGLAS
ACR
American College of Radiology
BD
Bhattacharya Distance
CBIR
Content-based Image Retrieval
CBVIR
Content-Based Visual Information Retrieval
CA
Coeficientes de Aproximação
CD
Coeficientes de Detalhes Diagonais
CH
Coeficientes de Detalhes Horizontais
CT
Computer Tomography
CV
Coeficientes de Detalhes Verticais
CWT
Continuous Wavelet Transform
DB
Daubechie
DICOM
Digital Imaging and Communications in Medicine
DWT
Discrete Wavelet Transform
ED
Euclidian Distance
FD
Fisher Distance
FT
Fourier Transform
FWT
Fast Wavelet Transform
GUI
Graphical User Interface
GLCM
Grey Level Co-Ocurrence Matrix
GLDM
Grey Level Difference Method
HIS
Hospital Information System
HM
Histograma Métrico
HSI
Hue, Saturation, Intensity
IA
Inteligência Artificial
KL
Kullback-Leibler Distance
k-NNQ
k-Nearest Neighbor Query
LDA
Linear Discriminant Analysis
LVQ
Learning Vector Quantization
MAE
Método de Acesso Espacial
MAENP
Método de Acesso Espacial Não Pontual
MAEP
Método de Acesso Espacial Pontual
MAM
Métodos de Acesso Métrico
MR
Magnetic Resonance
MRA
Multiresolution Analisys
MVE
Média, Variância e Energia
NEMA
National Electrical Manufacturers Association
PACS
Picture Archiving and Communication Systems
PCA
Principal Component Analysis
QBIC
Query by Image Content
QMF
Quadrature Mirror Filter
RIS
Radiology Information System
RGB
Red, Blue, Green
ROI
Region of Interest
R
q
Range Query
RLM
Run Length Method
RxP
Recall x Precision
SGBDR
Sistema Gerenciador de Banco de Dados Relacional
SGLDM
Spatial Grey Level Dependence Method
SRIS-HC
Sistema de Recuperação de Imagens Similares – Hospital das Clínicas
STFT
Short Time Fourier Transform
TW
Transformada Wavelet
TWP
Transformada Wavelet Packet
XA
X-ray Angiography
WMV
Weighted-Mean -Variance
SUMÁRIO
Capítulo 1 _____________________________________________________________ 20
Introdução_____________________________________________________________ 20
1.1 Considerações Gerais________________________________________________________ 20
1.2 Motivação _________________________________________________________________ 22
1.3 Objetivos__________________________________________________________________ 22
1.4 Organização do Trabalho ____________________________________________________ 23
Capítulo 2 _____________________________________________________________ 26
Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo _ 26
2.1 Considerações Iniciais _______________________________________________________ 26
2.2 Sistemas de Recuperação de Imagem baseados em Conteúdo_______________________ 28
2.3 Extração de Características __________________________________________________ 30
2.4 Atributos da Imagem________________________________________________________ 32
2.4.1 Atributo Cor _____________________________________________________________________ 32
2.4.2 Atributo Textura __________________________________________________________________ 33
2.4.3 Atributo Forma ___________________________________________________________________ 34
2.5 Vetor de Características e Caracterização da Imagem ____________________________ 35
2.6 Seleção de Características____________________________________________________ 35
2.6.1 Características para Descrição de Textura de Haralick ____________________________________ 36
2.6.2 Pré-processamento da Imagem e Algoritmos Supervionados e Não-supervisionados. ___________ 39
2.6.3 Análise de Agrupamentos. __________________________________________________________ 40
2.7 Consultas por Similaridade___________________________________________________ 41
2.8 Função de Distância_________________________________________________________ 43
2.9 Indexação _________________________________________________________________ 47
2.10 Avaliação dos Resultados ___________________________________________________ 50
2.10.1 Gráficos Recall x Precision ________________________________________________________ 51
2.10.2 Matrizes de Confusão (Confusion Matrix)_____________________________________________ 52
2.11 Considerações Finais _______________________________________________________ 53
Capítulo 3 _____________________________________________________________ 54
Transformada Wavelet e Wavelet Packet _____________________________ 54
3.1 Considerações Iniciais _______________________________________________________ 54
3.2 Evolução das Wavelets ______________________________________________________ 55
3.3 Histórico __________________________________________________________________ 62
3.4 Transformada Wavelet ______________________________________________________ 63
3.4.1 Transformada Wavelet Contínua _____________________________________________________ 67
3.4.2 Transformada Wavelet Discreta ______________________________________________________ 68
3.5 Wavelet de Haar____________________________________________________________ 74
3.6 Wavelets em Processamento de Imagens Digitais_________________________________ 75
3.7 Transformada Wavelet Packet ________________________________________________ 81
3.8 Considerações Finais ________________________________________________________ 86
Capíttulo 4 ____________________________________________________________ 88
Recuperação de Imagens na Área Médica _____________________________ 88
4.1 Considerações Iniciais _______________________________________________________ 88
4.2 Sistemas de Informação na Área Médica _______________________________________ 89
4.2.1 Sistemas de Informação Hospitalar ___________________________________________________ 90
4.2.2 Sistemas de Informações Radiológicas ________________________________________________ 90
4.2.3 Sistemas de Comunicação e Arquivamento de Imagem ___________________________________ 90
4.3 Padrão DICOM ____________________________________________________________ 91
4.4 Áreas de Aplicação__________________________________________________________ 94
4.5 Estado da Arte _____________________________________________________________ 95
4.6 Considerações Finais _______________________________________________________ 104
Capítulo 5 ____________________________________________________________ 106
Metodologia do Trabalho Desenvolvido_______________________________ 106
5.1 Introdução _______________________________________________________________ 106
5.2 Transformada Wavelet e Transformada Wavelet Packet _________________________ 107
5.3 Conjunto de Dados_________________________________________________________ 111
5.4 Conjunto de Imagens Teste__________________________________________________ 114
5.5 Conjunto de Características _________________________________________________ 118
5.6 Normalização e Uniformização dos Dados _____________________________________ 120
5.7 Função de Distância________________________________________________________ 121
5.8 Técnicas Auxiliares ________________________________________________________ 123
5.8.1 Características para Descrição de Textura de Haralick ___________________________________ 123
5.8.2 Pré-processamento da Imagem e Algoritmos Supervionados e Não-supervisionados. __________ 123
5.9 Materias _________________________________________________________________ 125
Capítulo 6 ____________________________________________________________ 126
Resultados e Conclusões _____________________________________________ 126
6.1 Considerações Iniciais ______________________________________________________ 126
6.2 Análise do Nível de Decomposição ____________________________________________ 127
6.3 Resultados obtidos com a Normalização e Uniformização dos Dados _______________ 130
6.4 Análise da Wavelet Biorthogonal _____________________________________________ 131
6.5 Resultados obtidos com Imagens pré-processadas _______________________________ 134
6.6 Análise utilizando as Características de Haralick _______________________________ 135
6.7 Algoritmo Não supervisionado _______________________________________________ 137
6.8 Análise de Métricas para Cálculo da Dissimilaridade ____________________________ 139
6.9 Ampliação da Base de Testes ________________________________________________ 140
6.10 Recuperação das Imagens usando a Transformada Wavelet _____________________ 142
6.11 Recuperação das Imagens usando a Transformada Wavelet Packet _______________ 151
6.12 Wavelet Packet vinculada ao algoritmo Best Tree ______________________________ 158
6.13 Comparativo entre a TW, TWP e a TWP com Best Tree ________________________ 161
6.14 Tempo de Processamento __________________________________________________ 163
6.15 Conclusões ______________________________________________________________ 165
6.16 Contribuições ____________________________________________________________ 171
6.17 Trabalhos Futuros ________________________________________________________ 172
Referências Bibliográficas ___________________________________________ 174
APÊNDICE A __________________________________________________________ 184
APÊNDICE B __________________________________________________________ 185
APÊNDICE C __________________________________________________________ 186
APÊNDICE D __________________________________________________________ 189
APÊNDICE E __________________________________________________________ 222
APÊNDICE F___________________________________________________________ 225
Capítulo 1
Capítulo
1
Introdução
1.1 Considerações Gerais
Aquisição de imagens digitais para fins relacionados à Medicina tem se tornado muito
comum atualmente. Com isso, a quantidade de informação gerada em centros médicos
provenientes das diversas modalidades de exames tem crescido exponencialmente. Técnicas
mais recentes como Tomografia Computadorizada (Computer Tomography CT) e
Ressonância Magnética (Magnetic Resonance – MR) geram dezenas ou até centenas de
imagens para um único exame.
A difusão das imagens médicas e dos sistemas que as manipulam culminou no
desenvolvimento de padrões cujos principais representantes são os PACS (Picture Archiving
and Communication Systems) e as imagens em padrão DICOM (Digital Imaging and
Communications in Medicine) (FIGUEIREDO et al., 2004).
21 . _________________________________________________________________ Capítulo 1 – Introdução
O objetivo dos sistemas de recuperação de imagens na área médica é disponibilizar a
informação necessária de forma precisa, contribuindo para a qualidade e eficiência dos
diagnósticos. Encontrar imagens com a mesma patologia, mesma modalidade de exame,
mesma região anatômica, pode ser essencial no processo de decisões clínicas (EAKINS;
GRAHAM, 1999).
Na técnica CBIR (Content-based Image Retrieval) ao invés de se utilizar anotações
textuais para representar as imagens, elas são indexadas com base em seu conteúdo visual
através de características de cor, textura ou forma, por exemplo, que são as chamadas
características primitivas da imagem. Os métodos de acesso visuais além de beneficiar os
diagnósticos, também auxiliam o ensino e a pesquisa na área médica.
Uma alternativa para indexar imagens por conteúdo é a indexação pelo domínio da
transformada, devido a efetiva caracterização das propriedades locais da imagem
(CASTAÑÓN, 2003), campo no qual as Transformadas Wavelets tem se destacado como
excelentes ferramentas. Elas possibilitam gerar os vetores de características para representar
uma imagem utilizando poucas informações obtidas com base nos coeficientes gerados.
Nas últimas décadas a teoria Wavelet tem emergido como um framework matemático
que fornece uma análise formal, sólida e unificada para imagens. Mais recentemente Coifman
e Wickerhauser (1991) generalizaram as funções base Wavelets para incluir uma biblioteca
modulada de waveforms ortonormais chamada Wavelet Packets. Desde então as
transformadas Wavelet e Wavelet Packet têm sido implementadas eficientemente com
algoritmos estruturados em árvore, onde altas e baixas freqüências são subdivididas. Os
valores ou coeficientes gerados capturam as características essenciais para análise e
discriminação de texturas (HIREMATH; SHIVASHANKAR, 2006).
Capítulo 1 – Introdução _________________________________________________________________ 22
1.2 Motivação
Em aplicações na área das imagens médicas, encontrar o grau de similaridade entre
duas imagens, ou seja, realizar comparações entre duas imagens para descobrir quão parecida
elas são é sem dúvida de grande utilidade. Em imagens médicas a utilização do atributo
textura para caracterização das imagens tem se destacado como um dos mais apropriados,
pois órgãos, tecidos e anomalias têm texturas específicas que os delimitam e separam e nesse
campo de pesquisa a Transformada Wavelet tem apresentado resultados promissores. sua
variação, a Transformada Wavelet Packet não tem sido utilizada com freqüência para
caracterização das imagens médicas, motivo pelo qual se optou por utilizá-la, a fim de
investigar suas propriedades nesse contexto. Além disso, dependendo da modalidade de
exame utilizado para gerar as imagens pode fazer com que as informações mais significantes
se concentrem nas altas freqüências. A decomposição obtida com a Transformada Wavelet
Packet enfatiza tanto características contidas nas baixas quanto nas altas freqüências,
diferentemente da Tranformada Wavelet que parte do pressuposto que as baixas freqüências
contêm mais informações do que as altas freqüências, decompondo em todos os níveis a
imagem resultante da convolução com filtros passa-baixa. Esta capacidade da Tranformada
Wavelet Packet pode enfatizar detalhes únicos em cada imagem, destacando-a das demais
imagens contidas no banco de imagens médicas.
1.3 Objetivos
O objetivo deste trabalho é desenvolver um conjunto de algoritmos que gere vetores de
características para cada imagem armazenada na base, usando as Transformadas Wavelet e
Wavelet Packet através de uma análise multiresolução e compará-los utilizando uma medida
de dissimilaridade para recuperar as imagens mais semelhantes à imagem de entrada.
23 . _________________________________________________________________ Capítulo 1 – Introdução
A Transformada Wavelet Packet é uma generalização da Transformada Wavelet, que
obtém uma análise mais detalhada da imagem, sendo que não apenas os coeficientes de
aproximação são subdivididos, mas também os coeficientes de detalhes. Este trabalho, analisa
e compara o desempenho na recuperação das imagens utilizando essa segunda abordagem
além de verificar se os resultados são mais precisos nas buscas, mesmo sendo a Transformada
Wavelet Packet mais custosa computacionalmente que a Transformada Wavelet.
Para atingir os objetivos deste trabalho, foi criado de um banco de imagens médicas
devidamente laudadas para validar os resultados obtidos com as transformadas matemáticas.
A montagem dessa base faz-se necessária, pois devido a natureza particular dos dados
contidos nos exames médicos tais bases dificilmente são públicas como ocorre com base de
imagens de faces humanas, texturas, etc.
1.4 Organização do Trabalho
Este primeiro capítulo apresentou uma visão geral do trabalho proposto descrevendo
algumas considerações iniciais e definindo os objetivos. Foram apresentadas a
contextualização do estudo e a motivação para o seu desenvolvimento.
No capítulo 2 serão apresentados os principais aspectos envolvidos em um sistema de
Recuperação de Imagens por Conteúdo, destacando a importância das fases de extração e
seleção de características para geração dos vetores de características, além da definição
adequada da função de distância para o cálculo de dissimilaridade entre as imagens.
O capítulo 3 aborda os conceitos relacionados à teoria das Transformadas Wavelet e
Wavelet Packet, partindo de sua contextualização na teoria de processamento de sinais e
fatores que geraram seu desenvolvimento, com destaque para sua capacidade de análise
multiresolução, propriedade na qual está embasado o presente trabalho para geração dos
vetores de características.
Capítulo 1 – Introdução _________________________________________________________________ 24
O capítulo 4 descreve a contextualização dos sistemas de Recuperação de Imagens
baseado em Conteúdo e de aplicações que fazem uso das vantagens da Transformada Wavelet
no âmbito das imagens médicas.
No capítulo 5 está descrita a metodologia utilizada na elaboração deste projeto de
mestrado e no capítulo 6 são apresentados os resultados e as conclusões.
Capítulo 2
Capítulo
2
Aspectos Gerais da Recuperação de Imagens
baseada em Conteúdo
2.1 Considerações Iniciais
Os sistemas de Recuperação de Imagens Baseados em Conteúdo (Content-Based Image
Retrieval CBIR) tentam minimizar a complexidade envolvida na análise computacional dos
dados visuais que representam uma imagem. Nesse contexto, é importante destacar que duas
representações binárias com consideráveis diferenças podem representar duas imagens
visualmente muito semelhantes. O principal objetivo em um sistema CBIR é transformar a
informação pictórica em dados numéricos e/ou textuais para gerar um conjunto de dados
adequado, contendo informações o mais próximo possível da semântica envolvida na imagem.
Para atingir esse objetivo, algoritmos de processamento de imagens são aplicados para
extrair características intrínsecas da imagem e montar o vetor de características, que será
27 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
comparado com vetores da base por meio de medidas de dissimilaridade para recuperação das
imagens mais semelhantes à imagem de consulta ou também chamada imagem de referência.
É importante também fazer uma breve explicação sobre similaridade e dissimilaridade. A
figura 2.1 pode ser usada como base para a indagação: “Quais desses objetos são similares e
quais são diferentes?” A resposta depende de quais características ou conjunto de
características estão sendo consideradas (tamanho, cor, forma, etc).
Figura 2.1: Figura ilustrativa para indicar similaridade e dissimilaridade entre objetos.
Similaridade é a medida que reflete a intensidade do relacionamento entre dois objetos
ou dois conjuntos de características. O valor da similaridade geralmente varia de -1 a 1 ou de
0 a 1 quando normalizada. A similaridade entre as características de textura do objeto i e do
objeto j é denotada por
ij
S
.
A dissimilaridade mede a discrepância entre dois objetos com base em um conjunto de
características. Dissimilaridade também pode ser vista como uma medida da desordem entre
dois objetos. Essas características podem ser representadas como coordenadas do objeto em
um espaço de características. O relacionamento entre similaridade e dissimilaridade pode ser
definido da seguinte forma: considere uma dissimilaridade normalizada entre o objeto i e o
objeto j, denotada por
ij
δ
. O relacionamento é dado por
ijij
S
δ
=
1 . Para similaridade
delimitada entre 0 e 1, quando a similaridade é igual a 1 (ou seja, exatamente similar), a
dissimilaridade é 0 e quando a similaridade é 0 (ou seja, muito diferente), a dissimilaridade
é 1.
Em muitos casos, medir a dissimilaridade, ou seja, a distância entre os objetos, é mais
fácil do que medir a similaridade. No entanto, uma vez medida a dissimilaridade, pode-se
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 28
facilmente normalizá-la e convertê-la em uma medida de similaridade (TEKNOMO, 2006). O
presente trabalho está focado na análise da dissimilaridade entre as imagens.
2.2 Sistemas de Recuperação de Imagem baseados em Conteúdo
O termo Recuperação de Imagem baseada em Conteúdo (Content-Based Image
Retrieval CBIR), começou a ser utilizado na literatura em 1992, por Kato (1992), para
descrever seu experimento sobre recuperação automática de imagens de uma base de dados
usando as características de cor e de forma. A partir desse trabalho, o termo passou a ser
amplamente usado para descrever o processo de recuperação de imagens baseado em um
conjunto de características, extraídas das próprias imagens (EAKINS; GRAHAM, 1999).
Pesquisas e sistemas envolvendo Recuperação de Informação Visual baseada em
Conteúdo (Content-Based Visual Information Retrieval CBVIR) ou Recuperação de
Imagem baseada em Conteúdo (CBIR) têm sido desenvolvidos desde o início da década de 80.
Desde então, e principalmente nos últimos 10 anos, recuperação de imagens baseada em
conteúdo tem se destacado como uma das áreas de pesquisas mais ativas no campo da Visão
Computacional e conseqüentemente em Processamento de Imagens. No entanto, a maioria
dessas pesquisas ainda se restringe ao campo acadêmico. Em (MÜLLER et al., 2004;
MOURA et al., 2003), pode ser encontrada uma revisão de alguns sistemas comerciais e
acadêmicos conhecidos, como o sistema QBIC
1
(Query by Image Content) da IBM, que pode
ser citado como o primeiro sistema comercial nessa área.
Grande parte das técnicas atuais mais usadas para recuperação da informação envolve
anotações que visam descrever a semântica da imagem. Esses textos são a base para a
pesquisa sobre as imagens, usando as ferramentas desenvolvidas para pesquisa em texto.
Contudo, existem muitos problemas nessa abordagem. Pode-se dizer que a principal
1
http://www.qbic.almaden.ibm.com, acessado em 20/01/2007.
29 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
deficiência reside na subjetividade implícita nas anotações, a qual pode interferir no processo
de recuperação, pois esses dados além de variar de usuário para usuário também variam para
o mesmo usuário no decorrer do tempo. Diferentes pessoas podem fornecer informações
diferentes sobre a mesma imagem, gerando respostas não confiáveis para pesquisas sobre
esses assuntos. Outro ponto a ser considerado nas abordagens textuais é o custo dispensado
para se fazer anotações em grandes bancos de dados de imagens.
Dessa forma, dentre os desafios a serem superados nos sistemas CBIR, o principal
refere-se ao gargalo existente entre a informação semântica de alto nível do usuário e a
informação de baixo vel gerada pelos algoritmos de processamento de imagens. Esse
problema é descrito na literatura como gap semântico”. Uma alternativa para superá-lo seria
mesclar características visuais de baixo vel com características textuais de alto nível
(EAKINS; GRAHAM, 1999).
Para a obtenção de bons resultados nas buscas por conteúdo é necessário possuir uma
codificação e busca de imagens eficientes, baseadas no conteúdo semântico das imagens.
Uma abordagem utilizada para se obter uma caracterização eficiente da semântica da imagem
é através de vetor de características (OLIVEIRA et al., 2000), descrito na seção 2.5.
Alguns trabalhos optam por dicionários de sinônimos, utilizando palavras-chaves, as
quais podem ser geradas por processamento, reconhecimento de voz, ou outras técnicas
(ZHOU; HUANG, 2002). Também é possível mapear conceitos semânticos para comandos
SQL, por exemplo, traga uma imagem de uma lesão cerebral ‘grande’”, onde o atributo
tamanho seja maior que um valor pré-definido (MIAO et al., 2004).
Outro fator importante a ser considerado em um sistema CBIR é o tratamento do
domínio das imagens, isto é, o contexto no qual a imagem é utilizada e processada, sendo que,
um domínio pode ter sub-domínios e esses podem ter outros sub-domínios. A determinação
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 30
do domínio a partir do contexto de uso é a principal influência sobre os requisitos semânticos
que podem existir em cada processamento.
Um sistema CBIR visa descrever da forma mais adequada o conteúdo das imagens,
com base em suas propriedades locais. Para isto, algoritmos de processamento de imagens são
aplicados como detectores de bordas, técnicas de segmentação automáticas ou baseada em
ROI (Região de Interesse demarcada pelo Usuário Region of Interest), transformações de
domínio, entre outras metodologias, a fim de extrair as informações visuais da imagem de
consulta que servirão como parâmetros para o processamento, bem como das imagens
armazenadas na base. As características da imagem de consulta são enviadas para o cálculo de
similaridade com as demais imagens cadastradas. As imagens resultantes desse cálculo são
apresentadas ao usuário no final do processo (FIGUEIREDO, 2005).
2.3 Extração de Características
Uma etapa muito importante no processo de Visão Computacional é a extração de
características da imagem, pois elas sintetizam as suas propriedades inerentes (GATO;
NUNES; SCHIABEL, 2004).
O objetivo nessa etapa é expressar em números as propriedades da imagem, sendo que a
maior dificuldade é conseguir expressar com valores semelhantes as propriedades de imagens
consideradas semanticamente semelhantes.
Em geral, as pesquisas utilizam características visuais classificadas como primitivas,
tais como cor, forma e textura. também características classificadas como lógicas, que
tratam da identificação do objeto e características classificadas como abstratas, que tratam do
contexto da cena descrita (EAKINS; GRAHAM, 1999). No entanto, o usuário geralmente
pensa em termos de conceitos semânticos, o que faz com que em um primeiro momento ele
não esteja interessado nas características de baixo nível da imagem, desafiando os
31 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
pesquisadores a encontrarem alternativas para diminuir o chamado gap semântico” entre a
aplicação e o usuário, conforme mencionado na seção anterior.
As características de baixo nível podem ser usadas tanto em nível global sobre a
imagem quanto em vel local sobre partes da imagem, visando à segmentação. Nesse caso, o
atributo forma pode ser empregado, posteriormente, como um mecanismo para descrever as
partes segmentadas (EAKINS; GRAHAM, 1999). Independente das características usadas:
simples ou compostas, muitas vezes é necessário um processo de normalização. Simples se
for considerado apenas um atributo (textura) e composta se considerado mais de um atributo
(cor e textura).
No caso das imagens médicas, normalmente imagens provenientes do mesmo tipo de
exame possuem as mesmas propriedades. Exames de CT, por exemplo, usualmente possuem
tamanhos de 512x512 e codificação de 12 bits. Mas ao utilizar histogramas, por exemplo, para
extrair características de cor, se as imagens possuírem tamanhos diferentes ou codificações de
níveis de cinza diferentes (uma pode estar com 12 bits e outra com 8 bits), uma normalização
pode ser necessária (FIGUEIREDO, 2005).
Assim, a parte crítica do processo de recuperação de imagens é definir o espaço de
características a ser utilizado para realizar a correlação entre atributos similares. O espaço de
características é a representação dos dados que serão usados no processo de recuperação de
imagens por conteúdo e define o que será comparado, mediante uma métrica de similaridade
no momento da busca de imagens (CASTAÑÓN, 2003).
Na fase de extração de características, técnicas de IA (Inteligência Artificial) e
reconhecimento de padrões podem ser usadas, para evitar a tarefa exaustiva de detectar qual
técnica é melhor para qual imagem e/ou parte da imagem. Técnicas de redução de
dimensionalidade também muitas vezes são requeridas, devido a grande quantidade de
características extraídas das imagens. O uso de espaço de características em alta
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 32
dimensionalidade tem mostrado causar problemas e exige grande atenção na escolha da
medida de dissimilaridade para obter resultados significativos (MÜLLER et al., 2004). Os
problemas com a definição de similaridade em espaços de características de alta
dimensionalidade são conhecidos como a maldição da alta dimensionalidade”
(FIGUEIREDO, 2005).
2.4 Atributos da Imagem
Os trabalhos em CBIR podem ser divididos em três grandes grupos dentro do conjunto
de características chamadas primitivas, pois muitos sistemas de recuperação utilizam cor,
textura e forma para representar uma imagem e a recuperação está baseada na similaridade
das características derivadas delas (EAKINS; GRAHAM, 1999).
2.4.1 Atributo Cor
Existem diferentes representações de cores que incluem desde o tradicional RGB (Red,
Green, Blue), até o HSI (Hue, Saturation, Intensity). Muitos trabalhos em sistemas CBIR
utilizam distribuição de cores (ROSA et al., 2002; MOURA et al., 2003; MÜLLER et al.,
2004). Uma das técnicas mais populares são os histogramas de cor ou brilho das imagens. Os
histogramas apresentam baixo custo computacional e indicam a distribuição das tonalidades,
além de serem invariantes à translação e rotação das imagens, sendo que, com a normalização
dos histogramas se obtêm também a invariância à escala.
os histogramas em imagens coloridas apresentam algumas dificuldades para
manipulação devido ao seu caráter não invariante e se a imagem contém um grande número
de cores, então o vetor de características será maior e a indexação de vetores com alta
dimensão torna-se problemática. No caso das imagens médicas, estas normalmente são
33 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
apresentadas em tons de cinza, o que pode viabilizar a utilização de histogramas para extração
das características.
Um ponto a ser considerado refere-se ao fato de que o histograma produz uma
representação ambígua da mesma, visto que duas imagens diferentes podem ter o mesmo
histograma. Por outro lado, os histogramas podem fornecer uma rápida pré-seleção para
sistemas de recuperação de imagens, e o resultado da pré-seleção pode ser posteriormente
refinado por técnicas mais elaboradas e complexas, e conseqüentemente mais caras (BALAN
et al., 2004).
2.4.2 Atributo Textura
Textura pode ser caracterizada por variações locais dos valores de pixels que se repetem
de maneira regular ou aleatória ao longo do objeto ou imagem (ROCHA, 2007). Uma região
em uma imagem tem textura constante se um conjunto de estatísticas locais ou outras
propriedades locais são constantes, variam suavemente ou são aproximadamente periódicas
(SKALANSKY, 1978). A textura é uma das mais importantes características usadas para
classificar e reconhecer objetos e cenas em várias áreas como automação industrial,
processamento de imagens de sensoriamento remoto e biomédicas. A análise da textura tem
por objetivo estabelecer o relacionamento de vizinhança dos elementos e seu posicionamento
em relação aos demais (conectividade), o número de elementos por unidade espacial
(densidade) e a sua regularidade (homogeneidade) (TRAINA, 2001).
Uma das dificuldades no uso do atributo textura reside na alta dimensionalidade do
vetor de características. Nos sistemas CBIR voltados para a área médica, as características de
textura são muito úteis, pelo fato de que a maioria das superfícies naturais exibem texturas e,
através desse atributo, é possível identificar órgãos e regiões específicas dentro desses órgãos,
anomalias, patologias, entre outras peculiaridades pertinentes às imagens médicas.
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 34
2.4.3 Atributo Forma
A utilização do atributo forma exige o desenvolvimento de técnicas que concedam uma
descrição total da borda do objeto ou que descrevam as características morfológicas de uma
região. Em sistemas CBIR, o atributo forma é a abordagem que apresenta maior dificuldade,
pois há a necessidade de segmentar e reconhecer o tamanho dos objetos contidos na imagem.
Esse ponto é fundamental em imagens médicas, onde variações na forma podem indicar
estruturas sadias ou com patologia, por exemplo. As estruturas dos objetos existentes em
imagens médicas não seguem o padrão de classificação para formas geométricas (regulares e
irregulares). Na área médica quando um objeto é classificado como oval, por exemplo, ele
possui variações com relação a forma normal de um objeto oval, devido a existência de
pequenas concavidades na estrutura do objeto, conforme pode ser observado na figura 2.2,
que exibe uma imagem de uma massa encefálica, acompanhado de um método para
identificação das extremidades do objeto usando formas regulares. Por outro lado a análise de
estruturas convexas também dificulta a classificação de um objeto com forma irregular.
Determinar a área do objeto e identificar os limites de sua estrutura pode ser um dos pontos
que requer atenção ao se trabalhar com o atributo forma (WANGENHEIM, 2005).
(a)
(b)
Figura 2.2: (a) Identificação das extremidades usando formas regulares (b) Massa Encefálica.
35 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
2.5 Vetor de Características e Caracterização da Imagem
O vetor de características (feature vector) pode ser definido como uma representação
numérica da imagem, caracterizando medidas dos aspectos representativos do objeto. Essa
nova representação da imagem obtida através do vetor de características deve atender a três
considerações: reduzir a dimensionalidade dos dados, ressaltar aspectos da imagem para
facilitar a percepção humana e ser invariante às transformações da imagem.
Devido à dificuldade de se manipular a grande quantidade de informações contida na
imagem, surge a necessidade de se gerar vetores de características. Assim, a geração do vetor
de características é um processo que calcula novas variáveis, a partir da imagem original. Esse
processo visa extrair informações contidas na imagem que permitirão codificá-la
adequadamente (CASTAÑÓN; TRAINA, 2002). O uso das Wavelets para extrair as
características tem se tornado uma prática muito comum devido à boa caracterização que pode
ser obtida da imagem (OLIVEIRA et al., 2000).
A análise multiresolução das Wavelets é uma estratégia que se mostra bastante
adequada para extração das características, pois com poucos coeficientes é possível obter uma
boa representação da imagem. Os coeficientes praticamente não dependem da resolução da
imagem e a transformada possui custo linear (BIANCHI, 2006).
2.6 Seleção de Características
O campo de pesquisa que se refere à extração e seleção de características é muito amplo.
Muitos estudos têm sido realizados nos últimos anos visando encontrar o espaço de
características mais representativo ao domínio das imagens, para permitir a recuperação de
maneira mais eficiente. Extração e seleção de características adequadas são extremamente
importantes. A tarefa de calcular as características mais relevantes é tão importante quanto a
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 36
tarefa de calcular as características redundantes. No entanto, o segundo estudo não recebe
tanto enfoque quanto o primeiro.
Dentre algumas técnicas que podem ser usadas para seleção estão os algoritmos
genéticos, escolha ponderada, seleção seqüencial de propriedades, fractais e técnicas de
aprendizado de máquinas. Outras técnicas como Transformada de Fourier e Transformada
Wavelets aplicam transformações no domínio de dados ao invés de transformações lineares
(FIGUEIREDO, 2005). Freqüentemente o processo de seleção é precedido pela extração, de
forma que inicialmente as características são extraídas a partir dos dados de entrada e a seguir
um algoritmo de seleção elimina os atributos menos relevantes segundo um determinado
critério, reduzindo a dimensionalidade.
No entanto, a redução excessiva de dimensionalidade pode prejudicar a discriminação
dos elementos. Por outro lado, a alta dimensionalidade dos dados pode trazer alguns efeitos
incômodos como, por exemplo, fazer com que os algoritmos de manipulação fiquem na
ordem quadrática em relação ao número de elementos do conjunto, ou pode representar ruídos
ou informações redundantes. Há ainda o efeito da esparsidade, fazendo com que a distância
entre elementos próximos não seja discriminada. Assim, é importante analisar a variação do
comportamento da discriminação ao aplicar algoritmos para selecionar e reduzir a
dimensionalidade do conjunto de características, visando estimar a dimensionalidade ideal.
2.6.1 Características para Descrição de Textura de Haralick
Através da análise do atributo textura pode-se identificar padrões como uniformidade,
densidade, aspereza, regularidade e intensidade. na literatura 3 métodos principais para
descrever a textura: espectrais, estruturais e estatísticos. O método espectral é baseado na
análise de espectros de freqüências, obtidos através de transformadas como a Wavelet, que foi
empregado nos testes desse trabalho, destacando a existência de padrões periódicos ou semi-
37 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
periódicos. O método estatístico é baseado na extração de um conjunto de medidas estatísticas
de uma imagem através da relação entre seus níveis de cinza (luminância). Método que
apresenta bons resultados principalmente quando as texturas a serem analisadas não possuem
boa regularidade.
Pode-se realizar uma análise estatística de primeira ordem extraindo-se características
como média, variância, desvio padrão, simetria, achatamento, energia e entropia. Porém, essa
abordagem não leva em consideração uma informação muito importante que é a relação do
pixel com a sua vizinhança, ou seja, a sua distribuição espacial. A figura 2.3 apresenta duas
imagens com características visualmente distintas. Uma análise estatística de primeira ordem
pode gerar valores semelhantes para ambas as imagens. Assim, uma análise estatística de
segunda ordem que leva em consideração a relação de cada pixel da imagem com a sua
vizinhança, ou seja, avalia o posicionamento espacial relativo a ocorrência dos níveis de cinza
na imagem pode superar essa deficiência.
Figura 2.3: Imagem monocromática.
Existem basicamente três métodos que aplicam respectivamente a análise de estatísticas
de segunda ordem, são eles: o Método de Dependência Espacial de Nível de Cinza – SGLDM
(Spatial Grey Level Dependence Method), o Método da Diferença de Nível de Cinza –
GLDM (Grey Level Difference Method) e o Método de Comprimento de Sequências de
Níveis de Cinza – RLM (Run Length Method).
O método SGLDM calcula a probabilidade de ocorrer qualquer transição de nível de
cinza entre dois pixels da imagem separados por uma dada orientação espacial. O método
GLDM calcula a probabilidade de existência de uma dada diferença específica de nível de
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 38
cinza entre dois pixels (valor fixo), separados por uma dada orientação espacial. Por fim, o
método RLM calcula a probabilidade de existência de seqüências de pixels idênticos, para um
dado comprimento e, ao longo de uma dada orientação.
Dentre esses métodos o que apresenta melhor resultado é o método SGLDM para
caracterizar texturas. Este método é também conhecido como Método das Matrizes de Co-
ocorrência GLCM (Grey Level Co-Ocurrence Matrix), o qual foi primeiramente
apresentado por Haralick.
A estatística de segunda ordem é calculada pela probabilidade de um determinado par
de níveis de cinza i e j, numa determinada distância δ e uma direção θ (0
o
, 45
o
, 90
o
e 135
o
)
ocorrer, ou seja, a GLCM pode ser denominada como sendo um histograma bidimensional
que fornece a freqüência de ocorrência P(i, j, δ, θ), conforme ilustrada a figura 2.4. Esses
quatro direcionamentos geram quatro matrizes diferentes que são ordenadas e normalizadas.
Haralick definiu 13 características que podem ser extraídas dessas matrizes para descrição de
textura (energia, ou momento angular, entropia, contraste ou variância, homogeneidade local,
correlação, entre outras) (HARALICK; SHANMUGAN; DINSTEIN, 1973).
Figura 2.4: A partir de um pixel central X estabelece-se a relação aos seus oito vizinhos.
A maioria dos trabalhos encontrados na Literatura não identificam todas as 13
características definidas por Haralick. Xue et al. (2007) empregam 4 características (contraste
correlação, homogeneidade e energia) para recuperar imagens cervicográficas visualmente
similares e com patologia relevante. Silva, Carvalho e Gattas (2004) aplicam contraste,
39 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
homogeneidade local, segundo momento angular, entropia, variância e correlação para
auxiliar no diagnóstico de nódulos pulmonares em imagens de CT.
2.6.2 Pré-processamento da Imagem e Algoritmos Supervionados e Não-
supervisionados.
Alguns trabalhos interessantes também podem ser encontrados na literatura
desenvolvendo técnicas que auxiliam no processo de extração de características. Moura et al.
(2003) acrescentam uma fase de pré-processamento nas etapas de um sistema CBIR, onde
algoritmos para realce de contraste, remoção de ruídos, isolamento de regiões podem ser
aplicados, visando melhorar a imagem de forma a aumentar as chances de sucesso na etapa
final de recuperação.
Outros autores trabalham com algoritmos supervisionados e não-supervisionados para
apurar os resultados das buscas. Uma técnica chamada realimentação por relevância
(relevance feedback) pode ser empregada para refinar os resultados. Nela o usuário interage
em tempo real com o algoritmo julgando os resultados trazidos e filtrando-os através da
seleção de regiões da imagem, range de cores, forma, texturas ou mesmo parâmetros de
movimento (EAKINS; GRAHAM, 1999). Mas, a aposta em algoritmos não-supervisionados
que refinem os resultados também é forte. Nessa linha pode-se citar Kim e Kang (2007) que
decompõem imagens de textura usando Wavelet Packet, em seguida aplicam um algoritmo
não-supervisionado para classificar e recuperar as imagens. Dy et al. (2003) aplica um
algoritmo o-supervisionado para extração de características que usa uma abordagem
chamada de consultas-customizadas, a qual trabalha com múltiplos vetores de características.
A primeira busca é realizada normalmente, já a segunda busca recupera as imagens de pulmão
mais similares a de uma classe pré-selecionada na primeira busca usando características
customizadas que distinguem subclasses dentro dessa classe.
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 40
2.6.3 Análise de Agrupamentos.
Análise de agrupamentos é uma técnica para criar grupos de objetos (clusters) de
maneira que os perfis dos objetos em um mesmo cluster sejam muito similares e os perfis de
objetos em diferentes clusters sejam muito distintos. É um método de classificação não-
supervisionada, onde o número de clusters é desconhecido antes da análise. O agrupamento é
baseado na similaridade, assim para um conjunto de dados de entrada como o exemplificado
na figura 2.5(a) e desejável um agrupamento de acordo com o exibido na figura 2.5(b).
Figura 2.5(a) e (b): Agrupamento de dados (JAIN; MURTY; FLYNN, 1999).
Esse agrupamento é realizado analisando-se as distâncias entre os objetos e
considerando-se uma relação entre esses objetos que é chamada de método de ligação (linkage
method). Existem vários métodos de ligação como a “ligação simples” que é definida como a
distância entre os vizinhos mais próximos, a “ligação completa” definida como a distância
entre os vizinhos mais distantes, a “ligação média” definida como a média de todas as
distâncias entre dois clusters, centróide” definida como a distância entre os centros
gravitacionais de cada cluster, etc.
Outra alternativa para investigar o conjunto de dados em uma análise de cluster
(grupos), é o método de agrupamento hierárquico (Hierarquical Clustering), que permite
analisar os dados simultaneamente em várias escalas. Nesse método, clusters de um nível
41 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
inferior são combinados com clusters de um nível superior, gerando um diagrama em formato
de árvore chamado Dendograma que também usa um método de ligação para definir os
agrupamentos, ilustrado na figura 2.6.
Inicialmente todos os indivíduos são considerados como clusters de um único objeto.
Dois objetos com distâncias menores são combinados para formar um novo cluster. Computa-
se novamente as distâncias desse novo cluster para os demais objetos para formar um novo
agrupamento. A cada passo desse processo o número de objetos sem agrupamento diminui. O
algoritmo finaliza quando todos os objetos pertencerem a um cluster.
Figura 2.6: Dendograma.
Obviamente na maioria das vezes não se deseja encontrar um único agrupamento, assim
“corta-se” o dendograma para obter vários clusters. Essa hierarquia em multi escla permite
decidir qual nível ou escala de agrupamento é mais apropriada para cada aplicação (YANG;
TREWN, 2004), (JAIN; MURTY; FLYNN, 1999).
2.7 Consultas por Similaridade
Cálculos de similaridade são altamente dependentes das características selecionadas. As
consultas por conteúdo envolvem, na maioria das vezes, consultas por vizinhos mais
próximos (kNN) ou consultas por abrangência (Rq). Consultas por vizinhos mais próximos
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 42
visam encontrar quais são os n vizinhos mais próximos da imagem de consulta, conforme
ilustra a figura 2.7. Um exemplo seria encontrar as 5 imagens mais semelhantes a do paciente
em questão. uma consulta por abrangência busca todas as imagens que estão dentro de um
raio r de distância da imagem de consulta. Uma consulta ilustrativa seria encontrar todas as
imagens que estão a uma distância de 10 unidades da imagem do paciente pesquisado.
Figura 2.7: Consulta kNN: Dado uma imagem de exame de CT do paciente X, encontre as 3
mais parecidas com o exame original (TRAINA; TRAINA JR, 2005).
Consultas aos k-Vizinhos Mais Próximos (k-Nearest Neighbor Query kNN): expressa
pelo predicado kNN(s
q
), recupera os k objetos mais próximos ao objeto de referência s
q
, no
qual
Ss
q
. Formalmente, pretende-se encontrar o subconjunto
SA
que atenda a:
}||),,(),(,,|{)( kAssdasdASsSaaAskNN
iqqiq
=
=
=
(2.1)
Consultas por Abrangência (Range Query R
q
): expressa pelo predicado range
),( rsR
qq
, recupera objetos que se encontram a uma distância máxima r (raio de busca), a
partir do objeto de referência s
q
(objeto de busca), onde Ss
q
. Formalmente, pretende-se
encontrar o subconjunto SA
que atenda a (FIGUEIREDO, 2005):
}),(,|{),( rasdSaaArsRq
qq
==
(2.2)
43 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
2.8 Função de Distância
A base de características normalmente é formada por um conjunto de vetores que são
tratados como dados multidimensionais, o qual pode ser indexado utilizando um método de
acesso espacial. Outra alternativa é criar uma função de dissimilaridade, que possibilite
definir a distância entre dois conjuntos de características, o que permite indexar a base
utilizando um método de acesso métrico.
A consulta e recuperação estão baseadas na similaridade semântica entre as imagens,
sendo que apenas imagens do mesmo tipo devem ser pesquisadas. Por exemplo, dada uma
imagem de abdômen de uma classe, outras imagens desse órgão devem ser recuperadas e
exibidas como resposta ao usuário.
A análise da similaridade de dados multidimensionais é conseguida através de funções
de distâncias que são a chave para recuperação de imagens por conteúdo (ZHANG; LU, 2003)
e algoritmos de agrupamento. No caso de dados adimensionais como palavras e imagens
utiliza-se o conceito de espaço métrico que pode ser definido por {P, d()}, onde P é o
conjunto de elementos do domínio e d é a distância entre os elementos (FIGUEIREDO, 2005).
Dessa forma, sejam dois objetos S e Q pertencentes a um mesmo domínio, a distância
(ou dissimilaridade) entre os dois objetos é denotada por d(S, Q). Se vetores de características
de igual tamanho representam os dois objetos, a distância d() poderá ser a Distância
Euclidiana entre eles, conforme equação 2.3:
=
1
2/12
)])[][((),(
i
iQiSQSd
(2.3)
Onde, S e Q são os objetos, S[i] e Q[i] correspondem ao valor de i-ésima dimensão de S e Q
respectivamente (CASTAÑÓN, 2003).
Toda função de distância no espaço métrico deve obedecer às seguintes propriedades
(TRAINA; TRAINA JR, 2005):
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 44
Simetria d (x, y) = d (y, x)
Não negatividade 0 < d(x, y) < se x y e d(x, x) = 0
Desigualdade triangular d(x, y) d(x, z) + d(z, y)
A escolha da função de distância adequada para o domínio dos objetos é de extrema
importância. No entanto, não existem métodos definidos, e a função é identificada por meio
de heurísticas dependentes das características dos dados. Para espaços vetoriais de baixas
dimensões as mais usadas são: L
1
ou Manhatan ou city-block, L
2
ou Euclidiana, L ou
Chebychev. No entanto, essas distâncias são mais suscetíveis ao aumento da
dimensionalidade. Assim, para dados que possuem alta dimensionalidade, a distância
Euclidiana, por exemplo, pode não ser a mais adequada, pois nesse caso a distância de um
ponto até seu vizinho mais próximo ou mais distante tende a ser muito similar e quase
insignificante. Funções fracionárias como a Mahalanobis, podem ser usadas então, pois
estudos que indicam que elas são mais adequadas para identificar agrupamentos em alta
dimensionalidade. As funções fracionárias são parecidas com as Normas Minkowski, exceto
que o valor do expoente p é positivo, mas menor que um (FRANCOIS; WERTZ;
VERLEYSEN, 2005).
A questão principal é qual distância usar? Considerando tal indagação e os inúmeros
trabalhos existentes na literatura que analisam a função de distância mais adequada foi
desenvolvida uma análise nesse sentido para as imagens médicas estudadas no presente
trabalho, cujos resultados serão detalhados na seção 6.8.
A Distância Euclidiana é uma métrica utilizada para comparar os desvios
individualizados e identificar o comportamento mais próximo entre eles, ou seja, a menor
distância, sendo que as observações serão agregadas de acordo com essas distâncias. A
distância do Cosseno computa a distância em direção, independente do tamanho do vetor, a
distância é dada pelo ângulo entre dois vetores. Essas medidas de distâncias somente levam
45 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
em conta a correspondência de cada dimensão e não fazem uso da informação através das
dimensões. distâncias quadráticas consideram essa informação (ZHANG; LU, 2003). A
distância Mahalanobis, por exemplo, usa a covariância de cada coordenada no conjunto de
dados. Ela utiliza os desvios de cada valor observado para um único ponto, o centróide e
ressalta a variabilidade através da matriz de covariância, agregando grupos de menor
variância em contraposição aos de expressiva variabilidade.
Analisar a distribuição dos dados também pode auxiliar na escolha da medida de
distância mais adequada. Segundo Yu et al. (2006), a distância Euclidiana (soma das
diferenças dos quadrados ou L2) é justificada quando o conjunto de características é uma
distribuição Gaussiana. o uso da distância City-block (soma das diferenças absolutas ou
L1) pode ser empregada quando uma distribuição exponencial. Muitos trabalhos assumem
que a distribuição é Gaussiana (L2), Exponencial (L1) ou Cauchy, porém muitas outras
distribuições. Yu et al. (2006) propõe usar um critério baseado na Maximum Likelihood
Theory (Máxima Verossimilhança) para encontrar a métrica ideal para cada modelo de
distribuição. Considerando esse critério tem-se que a métrica L2 corresponde a média
aritmética enquanto que a métrica L1 corresponde a mediana. Esse trabalho investiga uma
nova métrica sem considerar qualquer tipo de distribuição para o conjunto de dados e a
compara com as mais populares.
Vários outros trabalhos analisam o desempenho das métricas para recuperação de
imagens. Em (KOKARE; CHATTERJI; BISWAS, 2003) nove métricas são analisadas para
recuperação de imagens de textura: Manhattan (Ll), Weighted-Mean -Variance (WMV),
Euclidiana (L2), Chebychev (Lm ), Mahalanobis, Canberra, Bray- Curtis, Squared Chord e
Squared Chi-Squared. As imagens de textura são derivadas do álbum de Brodatz
2
, cujas
características foram extraídas usando Wavelet de Gabor. Para os vetores de características foi
2
Brodatz é um álbum público de imagens de textura.
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 46
considerado a média e o desvio padrão de cada imagem filtrada. Em seu estudo as métricas
Canberra e Bray-Curtis apresentaram melhor desempenho quando comparadas as tradicionais
Euclidiana e Mahalanobis. Já Lui et al. (2008) vão além e avalia o desempenho de 14
métricas para recuperação de imagens.
Em François, Wertz, Verleysen (2005) as métricas Minkowski foram o foco do estudo,
a qual tem sido usada com sucesso quando a distribuição dos dados não é Gaussiana. As
normas de Minkowski (também chamadas de Normas Lp) são uma família de normas
parametrizadas pelo seu expoente (
p1
). Quando p =2, tem-se a norma Euclidiana,
quando p = 1, induz-se a métrica Manhattan, o limite para
p
induz-se a métrica
Chebychev, conforme ilustra a figura 2.8. O artigo também analisa normas fracionárias, as
quais embora não possam ser chamadas de normas, pois em geral a desigualdade triangular
não é assegurada, ainda assim, são usadas nas buscas pelo vizinho mais próximo. Como os
dados envolvidos no estudo contém ruído parte-se da tese que essas métricas funcionam
melhor do que as métricas tradicionais.
Figura 2.8: Métrica Minkowski (AKLEMAN; JIANER, 1999).
Qiao et al. (2005) fazem uma comparação entre a distância Canberra e a City-block
normalizada para recuperar imagens de textura extraídas do álbum de Brodatz, considerando
vetores de características contendo média e desvio padrão calculados após a decomposição
das imagens com a Wavelet Spline. Em seus testes a City-block apresentou melhores
47 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
resultados, o mesmo ocorre no estudo desenvolvido por Zhang e Lu (2003) onde a distância
City-block apresentou desempenho superior as demais distâncias, inclusive a Euclidiana.
Seguindo essa linha de pesquisa de analisar qual a melhor medida de distância para os
dados estudados e avaliar a necessidade de normalizar ou uniformizar as características
extraídas desses dados, muitos outros artigos podem ser encontrados na literatura.
2.9 Indexação
Transformando as características em um vetor, os dados podem ser diretamente
processados usando estruturas de índices para espaços métricos, onde as estruturas são
organizadas com base nas distâncias métricas.
A análise do comportamento dos dados é importante para a escolha da função de
distância. É necessário também utilizar algum método de acesso que organize os dados e
facilite seu armazenamento. Dados podem ser armazenados em SGBDs (Sistemas
Gerenciadores de Banco de Dados), que conseguem armazenar grande quantidade de dados e
fornecem respostas rápidas para a recuperação dos mesmos. Nesse ponto, o método de acesso
vinculado às estruturas de indexação é que define a velocidade de consulta às informações.
Alguns métodos têm seu desempenho deteriorado quando se trata de inclusão de dados.
Bons métodos de acesso permitem alcançar dados com o menor mero possível de acessos
no momento da consulta (STASIU, 2003).
Métodos de acesso hierárquicos são muito usados em geral, pois dependendo do tipo de
árvore, um pode possuir uma ou mais ligações para nós inferiores. Outro aspecto
importante refere-se a distribuição dos dados, que utiliza sempre parâmetros para determinar
qual dos nós inferiores será acessado.
Dentre os métodos de acessos são as árvores binárias e balanceadas como a AVL, B-
Tree e suas variações B+-Tree e B*-Tree, que tem bom desempenho para dados
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 48
unidimensionais. Porém, quando se trabalha com dados multidimensionais ou adimensionais,
a relação de ordem total para efeitos de comparação (igual, maior que, menor que) no domínio
não existe, como ocorre nos unidimensionais, inviabilizando a utilização desses métodos.
Para superar essa deficiência, foram criados os métodos espaciais e métricos. Os MAEs
(Método de Acesso Espacial) resolvem o problema de organizar dados multidimensionais,
contudo, dependem de propriedades dos elementos e se apresentam inadequados para espaços
de alta dimensionalidade, além de não suportarem dados adimensionais como palavras e
imagens. Os métodos MAEs existentes podem ser classificados como MAEP (Método de
Acesso Espacial Pontual), que consideram os dados como pontos em um espaço e MAENP
(Método de Acesso Espacial Não Pontual), que tratam os dados como regiões de cobertura
que determinam a distribuição dos dados (FIGUEIREDO, 2005).
As conseqüências da alta dimensionalidade nos MAEs e o fato dos mesmoso
suportarem o tratamento de dados adimensionais culminaram no desenvolvimento de
Métodos de Acesso Métrico (MAM), que funcionam de forma a selecionar no conjunto de
dados o(s) elemento(s) representante(s) e, a partir deles calculam as distâncias para os outros
elementos, ou seja, o parâmetro de comparação passa a ser a distância do elemento para o(s)
representante(s). Dessa forma, quando um novo elemento é inserido, sua distância para cada
um dos representantes é medida e dependendo do valor o elemento é posicionado em um local
específico (subárvore).
Os Métodos de Acesso Métrico (MAM), organizam um amplo conjunto de dados
métricos permitindo inserções, exclusões, buscas e suportam consultas por similaridade, com
base nos vetores de características (ROSA et al., 2002).
Dentro desse contexto, os MAMs realizam suas comparações (ou buscas) através do
cálculo da similaridade entre os elementos. Portanto, em uma consulta por similaridade, o
descarte (poda) de elementos é realizado utilizando a desigualdade triangular. Essa
49 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
propriedade reduz sensivelmente a quantidade de cálculos de distância, além disso, esse tipo
de funcionamento permite ao método ser independente da métrica, como se a métrica
funcionasse como uma caixa preta para o método de acesso (FIGUEIREDO, 2005). Os
estudos desenvolvidos por Burkhard e Keller, em 1973 (BURKHARD; KELLER, 1973),
podem ser considerados como as primeiras propostas de se utilizar apenas a distância como
parâmetro de indexação de dados em espaços métricos.
A partir desse, vários MAMs foram desenvolvidos, dentre eles o MAM Slim-Tree
(TRAINA JR. et al., 2000), tem se apresentado como uma eficiente estrutura métrica. O
MAM Slim-Tree é uma árvore dinâmica para organização de conjunto de dados métricos em
páginas de tamanhos fixos. Ela é uma árvore balanceada e dinâmica que cresce de baixo para
cima, das folhas para a raiz. Da mesma forma que em outras árvores métricas, os objetos são
agrupados em páginas de disco de tamanho fixo, cada página correspondente a um nó-árvore.
Os objetos são armazenados nas folhas. O intuito principal é organizar os objetos em uma
estrutura hierárquica usando um elemento representante como o centro de cada região de
fronteira mínima, a qual cobre os objetos em uma subárvore. A distância para um
representativo pode ser usada combinada com a desigualdade triangular para podar uma
entrada sem qualquer cálculo extra de distância. As regiões que correspondem a cada na
Slim-Tree podem se sobrepor entre si. O aumento da sobreposição aumenta o número de
caminhos a serem percorridos quando uma consulta é disparada, o que também aumenta o
número de cálculos de distância para responder a consulta. A Slim-Tree foi projetada para
reduzir a sobreposição entre regiões de cada nível, além de minimizar o número de acessos a
disco, tornando o sistema todo mais rápido.
A Slim-Tree possui funcionamento semelhante ao método M-Tree, porém permite que
a taxa de sobreposição dos nós seja medida e que a partir dessa medida a árvore seja
otimizada, usando um algoritmo chamado Slim Down (FIGUEIREDO, 2005). Conhecer o
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 50
comportamento dos dados é muito importante para o uso adequado de um MAN, que visa
agilizar as consultas. Um ambiente que disponibilize o uso de MANs deve possibilitar que
seus diversos parâmetros sejam ajustados para atender os requisitos, ou seja, função de
distância, conjunto de características, por exemplo. Uma possibilidade é permitir que o
usuário selecione a melhor projeção a ser realizada no momento da consulta, tornando a
utilização do contexto semântico inevitável. Devido aos objetivos estabelecidos e ao pequeno
volume de imagens utilizadas, a indexação não faz parte do escopo deste trabalho.
2.10 Avaliação dos Resultados
várias técnicas para validar os resultados obtidos. Algumas aplicações visam buscas
exatas, porém a maioria não demanda uma resposta muito precisa. Quanto ao fato das
consultas gerarem resultados imprecisos, dois conceitos importantes. Um dado é
considerado falso negativo se deveria estar no conjunto de respostas, mas o processo de busca
o descartou. Por outro lado, um dado falso positivo é aquele que deveria ser descartado, mas
foi incluído na resposta.
Outra possibilidade de validação é utilizar medidas estatísticas para avaliar os
algoritmos desenvolvidos, como por exemplo, sensibilidade e especificidade (EAKINS;
GRAHAM, 1999).
positivositensostodos
positivoscomodosclassificapositivositens
adesensibilid
___
____
=
negativositensostodos
negativoscomodosclassificanegativositens
dadeespecifici
___
____
=
No entanto, a técnica de avaliação mais comum em sistemas CBIR são os gráficos
Precision x Recall (MÜLLER et al., 2004).
51 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
Também é ideal que um especialista na área valide as respostas fornecidas pelas
técnicas de recuperação implementadas, pois o conhecimento do profissional pode garantir
que os resutlados obtidos estão próximos ao esperado na prática.
2.10.1 Gráficos Recall x Precision
Os gráficos Recall x Precision (BAEZA-YATES, RIBEIRO-NETO, 1999), constituem
uma abordagem simples e bastante difundida para avaliar os resultados obtidos na
recuperação das imagens médicas.
Nessa abordagem, dado um conjunto de dados, sobre o qual serão feitas as consultas,
alguns valores (figura 2.9) são definidos como TR, que corresponde ao número total de
objetos Relevantes, ou seja, o número de imagens pertencentes à mesma classe que a imagem
de consulta, TRO, que corresponde ao número total de objetos relevantes recuperados na
consulta e TO, que corresponde ao número total de objetos recuperados na consulta,
independente da classe a que pertencem (TRAINA; TRAINA JR, 2005).
Figura 2.9: Técnica de validação do método aplicado: Recall x Precision.
A precisão (precision) representa a porção de imagens recuperadas que são relevantes à
consulta. Já a revocação (recall) corresponde a porção de imagens relevantes que foram
recuperadas. Na prática, uma curva mais próxima do alto do gráfico representa maior eficácia
na recuperação (BALAN et al., 2004), conforme gráfico exibido na figura 2.10.
TRO
– Total de
Relevantes Obtidos
TO
– Total de
Objetos Obtidos
TR
– Objetos
Relevantes
Precision
=
TRO
TO
Recall
=
TRO
TR
Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo ___________________ 52
Figura 2.10: Exemplo de Gráfico Recall x Precision.
2.10.2 Matrizes de Confusão (Confusion Matrix)
Outro método comum para avaliar as saídas geradas por um sistema classificador são
as matrizes de confusão. As matrizes de confusão tem por objetivo mostrar a quantidade de
amostras classificadas corretamente para cada classe, portanto mede a eficiência. Através dela
também pode ser verificado, no caso de percentual de classificação incorreta, com qual classe
houve a confusão. A média da diagonal dessa matriz gera uma medida da eficiência do
algoritmo aplicado.
Ela é uma ferramenta de visualização onde cada coluna da matriz representa a
instância em uma classe pré-definida, enquanto que cada linha representa as instâncias em
uma classe atual. Um dos benefícios da matriz de confusão é que é possível de maneira rápida
e fácil identificar se o sistema está confundindo as classes ou está separando-as corretamente.
53 . ___________________ Capítulo 2 – Aspectos Gerais da Recuperação de Imagens baseada em Conteúdo
2.11 Considerações Finais
Neste capítulo foram apresentados os principais pontos a serem observados em um
sistema de Recuperação de Imagens por Conteúdo. Além dos conceitos gerais, foi comentado
sobre as principais técnicas para extração de características considerando-se atributos
classificados como primitivas da imagem (cor, textura e forma). No contexto das imagens
médicas o atributo textura é fundamental e a Transformada Wavelet, a qual será apresentada
no próximo capítulo, tem apresentado resultados importantes para a geração do vetor de
características.
Alguns desafios devem ser superados como os efeitos da alta dimensionalidade e a
redução do gap semântico. A escolha de uma função de distância adequada aliada a um bom
método de indexação, pode apresentar resultados mais eficientes em termos de precisão e
desempenho das consultas.
Capítulo 3
Capítulo
3
Transformada Wavelet e Wavelet Packet
3.1 Considerações Iniciais
As Wavelets destacam-se por conseguirem representar uma imagem com uma
quantidade mínima de valores, considerando uma escala menor,
possibilitando a montagem de um vetor de características “enxuto” para sua representação.
Por se tratar de um estudo envolvendo processamento digital será dado maior ênfase às
Wavelets Discretas e, pela sua simplicidade para implementação e baixo custo computacional,
uma atenção especial será atribuída à Wavelet de Haar que, apesar de não ser suave, é
amplamente usada em muitas aplicações, especialmente em processamento de imagens
digitais (LIMA, 2002).
As operações envolvendo a Transformada Wavelet são reversíveis, significando que a
qualquer momento pode-se reverter o processo de decomposição e reconstruir a imagem
inicial. Porém, esse tópico particular está fora do escopo do presente trabalho.
55 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
3.2 Evolução das Wavelets
As Wavelets são funções que satisfazem certos requisitos matemáticos e são usadas na
representação de dados ou de outras funções. Elas apresentam os dados contidos em
diferentes componentes de freqüência e estudam cada componente com uma resolução
relacionada a sua escala (SILVA; EYNG, 2002). O objetivo fundamental por trás das
Wavelets é analisar de acordo com a escala (GRAPS, 1995).
A idéia de funções que utilizam o conceito de aproximação usando a superposição de
funções, não é nova. Sua origem baseia-se no trabalho de Joseph Fourier, que no século XIX
descobriu que poderia utilizar senos e co-senos para representar outras funções. A diferença
em relação a Transformada de Fourier é que a análise Wavelet não é feita segundo a
freqüência, mas sim segundo a escala. Os algoritmos Wavelet processam dados em diferentes
escalas e resoluções, permitindo que sejam vistos tanto o global quanto os detalhes (SILVA;
EYNG, 2002). Isso torna as Wavelets úteis para inúmeras aplicações (GRAPS, 1995).
Segundo Lima (2002), apesar da funcionalidade da Transformada de Fourier (Fourier
Transform FT), especialmente no que diz respeito à obtenção da análise espectral de um
sinal estacionário, ilustrado na figura 3.1, cuja freqüência não varia no tempo, existem muitas
falhas nessa cnica, o que a torna inadequada em algumas aplicações. Uma dessas falhas é a
incapacidade da Transformada de Fourier em representar funções que têm componentes não
periódicos. Outra deficiência é a incapacidade em fornecer informações sobre a dependência
do tempo de um sinal, visto que ela faz a média sobre todo o tempo de duração do sinal. Além
disso, as funções senos e co-senos usadas na análise de Fourier não são locais e, portanto,
apresentam desempenho muito pobre na aproximação de sinais muito localizados.
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 56
Figura 3.1: Sinal Estacionário.
A informação de tempo é importante, porque normalmente existe uma correlação direta
entre a freqüência característica de um dado segmento do sinal e a duração temporal desse
segmento. Os segmentos com pequenas freqüências tendem a durar por um intervalo de
tempo maior, enquanto os segmentos do sinal com freqüências altas ocorrem, em geral,
durante um pequeno intervalo de tempo. “Os sinais da fala humana são exemplos típicos: as
vogais têm freqüências médias relativamente baixas e duram bastante, enquanto que as
consoantes contêm um espectro extenso de freqüências, mas são breves” (LIMA, 2002).
Nesses casos, a análise de Fourier padrão é inadequada, pois ela perde toda a informação
sobre a localização temporal de uma dada componente da freqüência. Além disso, a análise de
Fourier é instável em relação à perturbação, devido ao seu caráter global. Por exemplo, se for
adicionado um termo extra, com uma amplitude muito pequena, o sinal será modificado
ligeiramente e o espectro de Fourier será completamente perturbado (LIMA, 2002).
Em muitas aplicações práticas é importante obter a informação de localização da
componente de freqüência no tempo. Considere-se, por exemplo, um exame de Eletro-
Encefalograma. Nesses exames, conhecer a latência de um potencial evento relacionado é
fundamental, pois é a resposta do cérebro a um estímulo específico e a latência dessa resposta
é a quantidade de tempo decorrida entre o início do estímulo e a resposta do cérebro
(POLIKAR, 2001).
Sintetizando, pode-se dizer que a Transformada de Fourier gera uma representação
Amplitude x Freqüência do sinal, uma vez que ela fornece exclusivamente quais componentes
57 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
de freqüência estão presentes no sinal. Esta informação é independente de onde esses
componentes aparecem no tempo, ou seja, ela diz simplesmente se uma componente de
freqüência existe ou não. Sua relação com o domínio temporal é inexistente, o que a torna
inadequada para sinais cujas freqüências variam no tempo, os chamados sinais não-
estacionários como ilustrado na figura 3.2 (VALENS, 1999; OLIVEIRA, 2003).
Figura 3.2: Sinal não-estacionário.
Por todos esses motivos, os analistas de sinais voltaram-se para uma representação
Tempo x Freqüência. A idéia é que são necessários dois parâmetros: um caracteriza a
freqüência e o outro, indica a posição no sinal (LIMA, 2002).
Assim, surgiu uma versão revisada da FT, conhecida como Transformada de Fourier
Janelada (Windowed Fourier Transform – WFT ou Short Time Fourier TransformSTFT), a
qual considera um sinal não-estacionário, como sendo composto por porções de sinais
estacionários. Visualiza-se o sinal não-estacionário de janelas limitadas e aplica-se a FT nas
porções, conforme ilustrado na figura 3.3.
-1
-0,5
1
0,5
0
200
400
600
800
1000
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 58
Figura 3.3: Short Time Fourier Transform (adaptado de MATHWORKS, 2004).
Na STFT o sinal é subdividido em segmentos pequenos o suficiente para serem
considerados como estacionários. Para esse propósito uma função janela é escolhida, cuja
largura deve ser igual ao segmento do sinal onde é assumido como estacionário. Existem
diversas escolhas para a janela, sendo a mais comum uma janela Gaussiana. Essa função
janela é localizada inicialmente em 0
=
t e multiplicada pelo sinal; em seguida, obtêm-se a
FT dessa porção de sinal e desloca-se a função janela, repetindo-se o processo até o final do
sinal. Dessa forma, uma representação Tempo x Freqüência será obtida, fornecendo a
informação de quais componentes de freqüência estão presentes no sinal e onde elas estão
localizadas no tempo confome ilustrado na figura 3.4. É importante notar que uma vez
escolhida uma janela, a resolução tempo-freqüência é fixa para todo o plano, pois é usada a
mesma janela para todas as freqüências (SOARES, 1997; OLIVEIRA, 2003).
Tempo
Janela
59 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
Figura 3.4: Representação Tempo x Freqüência da análise do sinal da figura 3.2 utilizando a
STFT (adaptado de POLIKAR, 2001).
A deficiência da STFT reside no chamado Princípio da Incerteza de Heisenberg, cuja
formulação original afirma que o momentume a posição de uma partícula em movimento
não podem ser conhecidos simultaneamente. Essa teoria aplicada a sinais, indica que as
informações de tempo e freqüência para um ponto exato no plano Tempo x Freqüência, não
podem ser simultaneamente conhecidas, ou seja, não se pode saber qual componente ocorre
em um determinado instante de tempo. Esse fato gera um problema de resolução, pois quanto
mais precisão exige-se no tempo, menor será a precisão na freqüência.
Este foi o principal motivo dos pesquisadores terem substituído a STFT pela
Transformada Wavelet (TW), pois a STFT fornece uma resolução fixa para todos os tempos,
enquanto que a Transformada Wavelet fornece uma resolução variável. Altas freqüências o
melhor resolvidas no tempo, isto é, podem ser melhor localizadas no tempo do que uma
componente de baixa freqüência, por outro lado, baixas freqüências são melhor resolvidas na
Tempo Freqüência
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 60
freqüência, isto é, podem ser melhor localizadas na freqüência do que componentes de alta
freqüência (SOARES, 1997).
O problema da resolução está relacionado a largura da função janela usada, o que é
conhecido como suporte da janela. Se a função janela é limitada, isso é conhecido como
suporte compacto, terminologia freqüentemente usada na teoria de Wavelets.
Na FT tem-se uma resolução de freqüência perfeita, pois o comprimento da janela
usada é infinito, mas não se tem informação de tempo. Na STFT, a largura da função janela é
fixa e se for usada uma janela estreita, ter-se-á boa resolução de tempo, porém resolução de
freqüência mais pobre. Se for usada uma janela expandida, ter-se-á boa resolução de
freqüência, porém resolução de tempo mais pobre. Pode-se dizer que a precisão relacionada a
informação de quando e em qual freqüência ocorreu um evento no sinal é limitada pelo
tamanho da janela (PARRAGA, 2002).
Assim, a TW foi desenvolvida para superar o problema de resolução da STFT,
eliminando o dilema de qual tamanho de janela usar, pois ela permite analisar um sinal
usando a abordagem chamada de Análise Multiresolução (Multiresolution Analisys MRA),
fornecendo boa resolução de tempo, para altas freqüências, com janelas mais estreitas e boa
resolução de freqüência, para baixas freqüências, com janelas expandidas (DAUBECHIE,
1992). No entanto, a área das janelas permanece inalterada, conforme observado na figura 3.5.
(a)
(b)
Figura 3.5: (a) Janelas usadas na TW. (b) Janelas usadas na STFT.
61 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
Embora a análise da TW seja similar a análise da STFT, no sentido de que o sinal é
multiplicado por uma função, importantes diferenças a serem destacadas. A largura da
função janela muda conforme a transformada é aplicada. Ela possui propriedades de
localização no tempo e na freqüência, por meio de translações e dilatações, respectivamente,
de uma função base intitulada Wavelet-mãe, a qual está descrita na seção 3.4.
A análise temporal é realizada com uma versão de alta-freqüência da Wavelet-mãe,
enquanto que a análise de freqüência é realizada por uma versão dilatada (baixa freqüência)
da mesma. A TW não possui um único conjunto de funções base, como acontece com a FT,
que utiliza apenas as funções senos e co-senos; seu conjunto de funções base é infinito. As
funções individuais Wavelets estão localizadas no tempo, possibilitando inúmeras aplicações e
vantagens sobre o tradicional método de Fourier e sua derivada STFT, principalmente em
situações onde há descontinuidades ou picos no sinal (LIMA, 2004).
Por causa de suas propriedades únicas, as Wavelets se desenvolveram nos campos da
Matemática, Engenharia, Física Quântica. Atualmente são usadas em compressão de dados
(por exemplo, o padrão JPEG2000
3
Still Image Compression e o padrão do FBI para
armazenamento de impressões digitiais – FBI Wavelet/Scalar Quantization Fingerprint Image
Compression Standard
4
), detecção de características em imagens, remoção de ruídos,
reconhecimento de padrões, acústica, astronomia, engenharia nuclear, neurofisiologia, ótica,
música, fractais, processamento de geometria digital, na solução de vários problemas de física,
biologia, medicina, previsão de terremotos, aplicações matemáticas puras, como na resolução
de equações diferenciais parciais, singularidades ou oscilações locais de funções, e muitas
outras (LIMA, 2004; OLIVEIRA, 2003).
3
http://www.jpeg2000.org
4
http://www.ccs3.lanl.gov/~brislawn/FBI/FBI.html
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 62
3.3 Histórico
As Transformadas Wavelets foram introduzidas pela Escola Francesa (Morlet,
Grossmann, Meyer, Battle, Lemarié, Cohen, Mallat, Coifman, Rioul, etc.), originária de
estudos de curta duração associada a pacotes de ondas acústicas sísmicas (OLIVEIRA, 2003).
Daubechie afirma que “em resumo o desenvolvimento das Wavelets é um exemplo de idéias
de diferentes áreas juntadas para formar um todo que é maior do que a soma das partes”
(DAUBECHIE, 1996).
A primeira menção às Wavelets apareceu no apêndice da tese de Alfred Haar, em 1909.
Uma das propriedades da Wavelet de Haar é que ela tem suporte compacto, o que significa
que ela tende a zero fora de um intervalo finito (LIMA, 2002 apud HAAR, 1910). As
Wavelets de Haar ficaram no anonimato por muitos anos até que na década de 30, vários
grupos trabalhando independentemente, pesquisaram a representação de funções usando uma
base variando a escala. Naquela ocasião, usando a base da Wavelet de Haar, Paul Levy
investigou o movimento Browniano. Ele mostrou que as funções da base de Haar eram
melhores do que as da base de Fourier para estudar os pequenos e complicados detalhes do
movimento Browniano. Outra pesquisa desenvolvida nessa época, por Littlewood, Paley e
Stein usando Wavelets, envolvia a computação da energia de uma função
)(xf
. Eles
perceberam que o cálculo produzia resultados diferentes se a energia estava concentrada em
torno de poucos pontos ou distribuída sobre um grande intervalo, o que indicava que a energia
podia não estar sendo conservada, chamando a atenção dos cientistas. Então, os pesquisadores
descobriram uma função que podia variar em escala e conservar a energia. Esse trabalho foi
relevante para as pesquisas de David Marr, no início da década de 80, que visava desenvolver
um algoritmo para processamento de imagens (LIMA, 2002).
Por um período muito longo, as Wavelets de Haar continuaram a ser a única base
ortonormal de Wavelets conhecida, até sua teoria ser efetivamente formalizada, na década de
63 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
80. O termo “Wavelets” é atribuído a Norman Ricker (1940) em seu trabalho sobre sismologia,
mas foi introduzido por J. Morlet e sua base matemática formalizada pelo físico teórico A.
Grossmann. Os dados sísmicos estudados por Morlet (GROSSMAN; MORLET, 1984)
exibiam conteúdos de freqüências que mudavam rapidamente ao longo do tempo, além disso,
mostraram que qualquer tipo de sinal pode ser analisado em termos de escala e translações de
uma simples função Wavelet-mãe.
Em 1985, Stephane Mallat deu às Wavelets um grande impulso através de suas
pesquisas e inspirado nos resultados de Mallat, Yves Meyer construiu a primeira Wavelet não-
trivial (suave). Ao contrário das Wavelets de Haar, as Wavelets de Meyer o continuamente
diferenciáveis; contudo, elas não têm suporte compacto. Em 1988, Mallat e Meyer
desenvolveram a teoria denominada Análise Multiresolução (Multiresolution Analisys
MRA), a qual pode ser vista simplesmente como uma forma de algoritmos piramidais. Poucos
anos mais tarde, Ingrid Daubechies usou os trabalhos de Mallat para construir um conjunto de
bases ortonormais de Wavelets suaves, com suportes compactos. Os trabalhos de Daubechies
são os alicerces das aplicações atuais de Wavelets (LIMA, 2002; GRAPS, 1995).
3.4 Transformada Wavelet
O termo Wavelet significa pequena onda. Pequena, porque se refere ao fato da função
janela ter largura finita, ou seja, suporte compacto. Onda, porque se refere a condição de que
essa função é oscilatória.
As Transformadas Wavelets podem ser vistas como mecanismos para dissecar ou
quebrar sinais nas suas partes constituintes, permitindo analisar os dados em diferentes
domínios de freqüências com a resolução de cada componente amarrada a sua escala. Funções
que estão contidas em regiões finitas podem ser usadas, tornando-as convenientes na
aproximação de dados com descontinuidades agudas. Wavelets constituem uma ferramenta
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 64
matemática para decompor funções hierarquicamente, permitindo que uma função seja
descrita de forma mais grosseira, gerando uma visão global, ou enfatizando detalhes mais
finos (LIMA, 2002). Elas permitem recuperar os detalhes que seriam perdidos com a
diminuição de resolução quando se passa de uma escala para a escala seguinte, ou seja, elas
medem as flutuações entre duas escalas consecutivas (LIMA, 2004).
As Wavelets são usadas nos casos em que o resultado da análise de um problema
particular deve conter não somente a relação de suas freqüências típicas (escalas), mas
também o conhecimento das coordenadas locais onde essas propriedades são importantes.
Portanto, análise e processamento de diferentes classes de sinais não-estacionários (no tempo)
ou não-homogêneos (no espaço) constituem o principal campo de aplicações da análise de
Wavelets. (LIMA, 2002).
Para isto, a análise Wavelet adota uma função protótipo
ψ
, chamada de Wavelet-mãe,
ou seja, uma função com diferentes regiões de suporte que são usadas no processo de
transformação. Essa função possui dois parâmetros representando a translação (
τ
) e a escala
(
φ
). A translação é a localização da janela no decorrer do sinal e está relacionada com a
informação de tempo. A escala, termo este, que substitui o termo freqüência na análise
Wavelet, é inversamente proporcional a freqüência. Seu conceito pode ser empregado de
forma semelhante ao uso em mapas, onde baixas escalas permitem uma visão detalhada, ou
seja, visualiza-se as altas freqüências e altas escalas permitem uma visão global, referindo-se
às baixas freqüências (DAUBECHIE, 1992). Fazendo uma simples analogia, é como se
variando a escala fosse possível visualizar a floresta em uma escala mais alta e suas árvores
em uma escala mais baixa (POLIKAR, 2001). Com relação a representação gerada pela
análise Wavelet, exemplificado na figura 3.6, normalmente usa-se os termos Tempo x Escala
ou Translação x Escala, uma vez que o termo freqüência especificamente é reservado para a
FT e STFT (VALENS, 1999).
65 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
Figura 3.6: Representação Translação x Escala da análise de um sinal, utilizando a
Transformada Wavelet (adaptado de POLIKAR, 2001).
Para calcular os coeficientes na análise Wavelet, versões comprimidas ou dilatadas e
deslocadas da Wavelet-mãe são usadas, distinguindo características globais e locais de todo o
objeto de estudo. As Wavelets mais usadas formam um sistema ortonormal de funções com
suporte compacto (anulam-se completamete fora do intervalo finito de tempo). Diz-se que
uma função
f
tem suporte compacto, se existe um intervalo fechado e limitado, fora do qual
0)(
=
xf
(LIMA, 2003). Em síntese pode-se dizer que uma Wavelet é dita ter suporte
compacto se a maioria da energia dessa wavelet está restrita a um intervalo finito, ou seja, se a
função é exatamente zero fora desse intervalo .
Em Wavelets tem-se um conjunto de funções base, usadas para análise e reconstrução,
cuja conceituação parte da abordagem matemática usada em vetores, onde um vetor bi-
dimensional
),( yx
é uma combinação dos vetores (1,0) e (0,1), os quais são os vetores base
para
),( yx
, tal que multiplicando
x
por (1,0), tem-se
)0,(x
e multiplicando
y
por (0,1),
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 66
obtém-se
),0( y
, cuja soma é igual a
),( yx
. A melhor base de vetores é aquela cujos vetores
são perpendiculares, ou ortogonais, sendo que (1,0) e (0,1) satisfazem esse critério, neste caso
(GRAPS, 1995). Uma base de um vetor
ν
é um conjunto de vetores linearmente
independentes, tal que qualquer vetor
v
em
ν
pode ser escrito como uma combinação linear
desses vetores base. Esses conceitos podem ser generalizados para funções, substituindo os
vetores base
k
b pela função base
k
φ
e o vetor
v
pela função
)(tf
, conforme equação 3.1:
==
k
kk
k
k
k
ttfbv )()(
φµ
ν
(3.1)
Escolhendo-se a combinação apropriada de funções, cujo produto interno é igual a zero,
obtém-se uma base ortogonal. Dois vetores
v
e
w
são ditos ortogonais se o produto interno
deles é igual a zero. Similarmente, duas funções são ditas ortogonais se o produto interno
delas é igual a zero:
Assim, na TW as funções
ψ
(wavelet) e
φ
(escala) devem ser ortogonais entre si. No
espaço vetorial, se existe uma base ortogonal composta de vetores normalizados, a base é
chamada ortonormal.
Bases ortonormais podem não ser válidas para todo tipo de aplicação, nesse caso, uma
versão generalizada, definida como base bi-ortogonal, pode ser usada, onde o termo bi-
ortogonal refere-se a duas bases diferentes, que são ortogonais entre si, mas cada uma o
forma um conjunto ortogonal (DAUBECHIE, 1992).
Necessariamente, toda Wavelet-mãe satisfaz
= 0)( dxx
ψ
, ou seja, ela tem o
momento de ordem zero nulo 0
0
=
M , que corresnponde a condição de admissibilidade.
Frequentemente as Wavelets são classificadas em famílias de acordo com o número de
momentos nulos (vanishing moments), onde
+∞
= dtttM
n
n
)(
ψ
é o momento de ordem n da
Wavelet-mãe. Uma Wavelet é dita ser N momentos nulos se )0(|)(
)(
0
)( n
w
n
n
wM Ψ=Ψ=
. Sob
67 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
o ponto de vista prático, quanto mais momentos nulos uma Wavelet possuir, menores serão os
coeficientes de Wavelets correspondentes às partes de
f
que são suaves, ou seja, os
coeficientes de Wavelets serão apreciáveis onde
f
não for suave, o que permite usar Wavelets
para detectar singularidades de
f
. Pode-se dizer que o cálculo dos coeficientes Wavelets
refere-se à proximidade do sinal para a Wavelet na escala atual. Em contrapartida, uma função
escala
φ
, satisfaz necessariamente
0)( dxx
φ
. A vantagem de uma Wavelet
ψ
ter vários
momentos nulos conduz a uma alta compressividade, porque os coeficientes Wavelets das
escalas mais finas de uma função são essencialmente nulos onde a função é suave. Em alguns
casos, também é desejável que a função escala tenha momentos nulos.
Em 1989, Coifman sugeriu a Daubechies a construção de uma base ortogonal de
Wavelets onde não somente
ψ
, como também
φ
, tivesse momentos nulos, as quais foram
denominadas de Coiflets. A escolha de uma Wavelet específica seja ela discreta ou contínua,
depende do sinal a ser analisado ou do problema a ser resolvido (LIMA, 2002; OLIVEIRA,
2003).
3.4.1 Transformada Wavelet Contínua
A Transformada Wavelet Contínua (Continuous Wavelet Transform CWT) é definida
como a soma sobre todos os tempos do sinal multiplicado por uma versão escalada e
deslocada da Wavelet-mãe. Supõe-se sempre que
2
L
ψ
(DAUBECHIE, 1992).
=Ψ=
dt
s
t
tx
s
ssCWT
xx
τ
ψττ
ψψ
*)(
1
),(),(
(3.2)
Na equação (3.2) )(tx é o objeto de estudo, * denota o conjugado complexo,
τ
e S são
os parâmetros translação e escala respectivamente, da Wavelet-mãe )(t
ψ
. O resultado da
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 68
integral é multiplicado por um valor constante, para normalização da energia através das
diferentes escalas (VALENS, 1999).
Ao final da Transformada Wavelet Contínua obtêm-se muitos coeficientes.
Multiplicando cada coeficiente pela Wavelet escalada e deslocada apropriadamente produz-se
as Wavelets constituintes do sinal original, conforme ilustrado pela figura 3.7
(MATHWORKS, 2004).
Figura 3.7: Sinal e as Wavelets constituintes de diferentes escalas e posições.
Obter os coeficientes Wavelets em cada escala possível requer uma grande quantidade
de cálculo, tornando o trabalho muito “custoso” computacionalmente, pois na Transformada
Wavelet Contínua, a função wavelet é deslocada suavemente sobre todo o domínio da função
analisada, calculando a correlação entre as duas. Esse processo gera uma enorme quantidade
de informação altamente redundante. Essa redundância requer significante quantidade de
tempo e recurso computacional. Dessa forma, algoritmos rápidos capazes de explorar o poder
da TW são necessários. E é justamente, a existência desses algoritmos que colocam as
Wavelets em destaque nos dias atuais.
3.4.2 Transformada Wavelet Discreta
A Transformada Wavelet Discreta (Discrete Wavelet Transform DWT) escolhe um
subconjunto de escala e translações sobre os quais realiza os cálculos (intervalos discretos). A
Transformada Wavelet Discreta fornece informação suficiente tanto para análise ou
Transformada
Wavelet
69 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
decomposição quanto para síntese ou reconstrução do sinal, com significante redução do
tempo computacional. Ela é considerada mais fácil para implementar quando comparada com
a Transformada Wavelet Contínua (VALENS, 1999), e pode ser aplicada recursivamente
sobre diferentes escalas, através de rápidos algoritmos. Quando Wavelets com suporte
compacto são utilizadas, a Transformada Wavelet Discreta requer somente O(N) operações,
sendo mais pida que a Transformada Rápida de Fourier (SAARBRÜCKEN;
KAISERSLAUTERN, 1994).
Na Transformada Wavelet Discreta escalas e posições são escolhidas baseadas em
potência de dois, geralmente as chamadas escalas e posições dyadic, conforme ilustrado na
figura 3.8; então, a análise será muito mais eficiente no sentido de aumentar o desempenho do
algoritmo, mantendo a exatidão (MALLAT, 1998).
Normalmente escolhe-se um fator de dois (2) para a escala, que corresponde ao eixo da
freqüência, e um fator de um (1) para a translação, que corresponde ao eixo do tempo,
obtendo uma amostragem dyadic em ambos os casos (VALENS, 1999).
Figura 3.8: Localização de Wavelets Discretas no espaço Tempo x Escala sobre um Grid
Dyadic, onde S indica escala e
τ
indica translação.
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 70
Dentro da Transformada Wavelet Discreta distinguem-se duas abordagens: sistemas
redundantes discretos, chamados frames e o ortonormal. A segunda abordagem considera a
estratégia de análise multiresolução, a qual será considerada no presente estudo.
Uma maneira eficiente de implementar esse esquema é através do uso dos filtros
desenvolvidos por Mallat em 1986. Os algoritmos de Mallat são um esquema clássico
conhecido pela comunidade de processamento de sinais como Análise Multiresolução
(Subband Code ou Two-Channel Subband Coder) (MALLAT, 1998).
Quando Mallat trabalhou com Wavelets de Meyer pela primeira vez, ele estava
trabalhando com análise de imagens, onde a idéia de se estudar imagens em várias escalas
simultaneamente era popular. Isso o estimulou a ver bases ortonormais de Wavelets como
uma ferramenta para descrever matematicamente o “incremento na informação” necessário
para se ir de uma aproximação grosseira para uma aproximação com maior resolução.
Formulada em 1986 por Mallat e Meyer, fornece um framework natural para
entendimento das bases Wavelet e para a construção de novos exemplos (DAUBECHIE,
1992). A análise de multiresolução, inicialmente visando tornar-se uma ferramenta para
compressão de dados (SAARBRÜCKEN; KAISERSLAUTERN, 1994), é uma seqüência,
Ζ
jjV }{
de espaços fechados de
2
L
(R), representando os sucessivos níveis de resoluções.
Todos os espaços estão relacionados por escala a um mesmo espaço, e quanto maior
j
, mais
fina é a resolução obtida (LIMA, 2002). Segundo Daubechie (1992), a idéia básica da MRA
consiste de uma seqüência de sucessivos espaços V
j
de aproximação, mais precisamente
subespaços fechados que satisfazem a:
......
2112
VVVVV
o
(3.3)
com, )(
2
=
Ζ
LV
j
j
U
(3.4)
}0{=
Ζ
I
j
j
V
(3.5)
71 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
Mas, o aspecto multiresolução é uma conseqüência de requisitos adicionais, onde todos
os espaços são versões escaladas do espaço V
0
central, sendo então necessária uma função
escala (
0
V
φ
) e a invariância de V
0
sob uma transalação inteira. Para todo
Ζ
j
define W
j
como sendo o complemento ortogonal de
j
V em
1j
V , tem-se:
jjj
WVV
=
1
, sendo que o
espaço
j
W herda as propriedades de escala de
j
V (DAUBECHIE, 1992).
Na MRA um algorimo piramidal baseado em convoluções com um par de filtros
digitais (Quadrature Mirror Filter QMF) extrai a diferença de informação entre a
aproximação do sinal na resolução 2
j + 1
e 2
j
(MALLAT, 1989). Esses algoritmos de filtragem
práticos produzem a Transformada Wavelet Rápida (Fast Wavelet Transform FWT). Pode-
se compará-los a uma caixa por onde o sinal passa e é convertido em coeficientes Wavelets de
detalhe e aproximação, conforme representado na figura 3.9 (MATHWORKS, 2004).
Figura 3.9: Decomposição Wavelet discreta (PARRAGA, 2002 pp. 51).
O par de filtros digitais utilizados na Transformada Wavelet Discreta em multiresolução
tem como característica filtrar e decimar o sinal, respectivamente. Decimação é uma operação
que diminui a taxa de amostragem do sinal. Em outras palavras, significa eliminar dados ou
pontos intercalados.
A resolução, que é uma medida da quantidade de detalhes e es relacionada a
quantidade de informação, é afetada pelas operações de filtragem.
Filtros
Passa-Baixa
Passa-Alta
Sinal
Coeficientes de
Aproximação
Coeficientes de
Detalhes
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 72
A escala, por sua vez, é modificada pelas operações de aumento da taxa de amostragem
(Upsampling) e pelas operações de redução da taxa de amostragem (Downsampling ou
Subsampling) (POLIKAR, 2001). Efetuar um Subsampling por um fator
n
, reduz o número
de amostras
n
vezes. Decimar um sinal pelo fator 2, significa que a cada 2 pontos, um é
eliminado (sub-amostrado por um fator de 2), obtendo-se metade do sinal original. No
processo de decimação, aumenta-se o tamanho do período de amostragem do sinal, e
conseqüentemente, diminui-se a taxa de amostragem (PARRAGA, 2002).
Esse processo de filtrar e amostrar pode ser repetido várias vezes. A cada nível de
filtragem e subsampling tem-se metade do número de amostras e conseqüentemente metade
da resolução de tempo, uma vez que agora somente metade do número de amostras
caracteriza o sinal. Entretanto, tem-se o dobro de resolução de freqüência, uma vez que após o
subsampling metade do número de amostras torna-se redundante. A figura 3.10 ilustra esse
processo, onde
][nx
é o sinal a ser decomposto e
][nh
e
][ng
são os filtros passa-alta e passa-
baixa respectivamente.
Figura 3.10: Decomposição e subsampling do sinal (adaptado de POLIKAR, 2001).
Nível 1
Coeficientes DWT
Nível 3
Coeficientes DWT
Coeficientes DWT
Nível 2
73 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
Mallat (1989) afirma que a MRA é muito efetiva para analisar a informação contida na
imagem, podendo ser aplicada com sucesso para discriminação de textura, que é um dos
objetivos desse trabalho. A função Wavelet
)(t
ψ
está relacionada a um filtro passa-alta, o qual
produz os coeficientes de detalhes da imagem. Há uma função adicional que está relacionada
ao filtro passa-baixa, chamada de função de escalonamento )(t
φ
(scaling functions), que
produz os coeficientes de aproximação da imagem na decomposição Wavelet (PARRAGA,
2002). No caso discreto os filtros passa-alta analisam as altas freqüências e os filtros passa-
baixa analisam as baixas freqüências. O banco de filtros lineares usado serve para suavizar ou
realçar detalhes da imagem, ou ainda minimizar efeitos de ruído. No filtro passa-baixa, as
altas freqüências, que correspondem às transições abruptas são atenuadas, ou seja, as
informações de altas freqüências são removidas, mas a escala permanece inalterada. A
suavização tende a minimizar ruídos, porém pode apresentar o efeito de “borramento” da
imagem. No filtro passa-alta os detalhes são realçados (bordas, linhas curvas, etc). As
transições entre regiões diferentes tornam-se mais nítidas. Porém pode porventura, enfatizar o
ruído existente na imagem.
A implementação pode ser introduzida como uma decomposição em subbandas, ou seja,
o processo é iterativo com sucessivas decomposições nos coeficientes de aproximação. Dessa
forma, obtém-se a árvore de decomposição da Wavelet (PARRAGA, 2002), apresentada na
figura 3.11. Como essas operações são invertíveis, pode-se inverter o processo de
decomposição e reconstruir a imagem inicial.
S
A1 D1
A2 D2
A3 D3
S
A1 D1
A2 D2
A3 D3
S = A1 + D1
S = A2 + D2 + D1
S = A3 + D3 + D2 + D1
Figura 3.11: Árvore de Decomposição Wavelet.
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 74
Onde, S representa o sinal, A corresponde aos coeficientes de aproximação e D
corresponde aos coeficientes de detalhes.
Existem várias famílias Wavelets dentre as quais destacam-se de forma sintética:
Haar: é a primeira e a mais simples de todas. É descontínua e equivale a Wavelet de
Daubechies de ordem 1 (db1).
Daubechies: são Wavelets ortonormais com suporte compacto.
Biortogonal: apresentam a propriedade de fase linear, que é necessária na
reconstrução de sinais e imagens. Utiliza duas Wavelets, uma para decomposição e
outra para reconstrução, o que gera propriedades interessantes.
Coiflets: possuem a função Wavelet com 2N momentos iguais a zero e a função
escala tem 2N-1 momentos iguais a zero.
Symlets: são Wavelets simétricas. Foi proposta como uma modificação da família
Daubechies pela própria, possuindo características similares às desta família.
Morlet: não possui função escala.
Mexican Hat: também não possui função escala.
Meyer: a Wavelet e a função escala estão definidas no domínio de freqüência.
3.5 Wavelet de Haar
A Wavelet de Haar é a única com suporte compacto para a qual se tem uma forma
analítica fechada. As Wavelets de Daubechies também têm suportes compactos e podem ser
tomadas tão suaves e com quantos momentos nulos quanto desejados. Entretanto, elas são
calculadas numericamente e não se conhece uma forma analítica fechada para as mesmas.
A Wavelet de Haar (figura 3.12) pode ser vista como um caso particular das Wavelets
de Daubechies quando N = 1 (LIMA, 2002) e é definida como:
75 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
[
)
[
)
=
contráriocaso
xse
xse
x
0,
1, 1,-
,0 1,
)(
2
1
2
1
ψ
(3.6)
Figura 3.12: A Wavelet de Haar,
ψ
.
A figura 3.13 mostra a função escala (
φ
) associada a Wavelet de Haar
<
=
contráriocaso
x
x
,0
10 ,1
)(
φ
(3.7)
Figura 3.13: A função escala,
φ
, associada a Wavelet de Haar (LIMA, 2002).
3.6 Wavelets em Processamento de Imagens Digitais
Em Visão Computacional é difícil analisar a informação contida na imagem
diretamente da intensidade dos níveis de cinza dos pixels da imagem, pois os valores
dependem das condições de iluminação da cena. Mais importantes são as variações locais de
intensidade da imagem. A MRA permite ter uma interpretação da imagem invariante à escala.
Em diferentes resoluções, os detalhes de uma imagem geralmente caracterizam diferentes
estruturas físicas da cena. Em uma resolução mais grosseira, esses detalhes correspondem a
estruturas maiores que fornecem o “contexto” da imagem. É natural analisar primeiro os
1
-1 2
1
1
-1
-1 2
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 76
detalhes da imagem em uma resolução mais grosseira e ir gradualmente aumentando a
resolução. Assim, uma estratégia de análise “grosseira a fina” é útil para algoritmos de
reconhecimento de padrões (MALLAT, 1989).
A imagem digital é uma equação ),( yxf discretizada tanto em coordenadas espaciais
quanto em brilho. Uma imagem digital pode ser considerada como sendo uma matriz cujos
índices de linhas e colunas identificam um ponto na imagem, e o correspondente valor do
elemento da matriz identifica o vel de cinza naquele ponto. Os elementos dessa matriz
digital são chamados de elementos da imagem ou simplesmente pixels”, proveniente da
abreviação de Picture Elements (GONZALEZ; WOODS, 2000).
Quando se considera uma imagem digital (bi-dimensional), para se calcular seus
coeficientes Wavelets, o sinal passa a ser uma função de energia finita
)(),(
22
Lyxf
(MALLAT, 1989) e suas linhas e suas colunas são tratadas como se fossem
“imagens unidimensionais” (LIMA, 2002). Dada uma função f no espaço
0
V , ela pode ser
escrita de maneira única como:
=
k
k
kxaxf )()(
,0
φ
(3.8)
Dada uma imagem digital unidimensional, em preto e branco, com
l
2
pixels, onde
l
é
um inteiro não-negativo, sejam
{
}
12,...,0
,0
=
l
k
k
a os valores de cada um de seus pixels. Associa-se
a essa imagem a seguinte função em
=
k
k
kxaxfV )()(:
,00
φ
. Com tal definição, usando
algoritmos apropriados, pode-se calcular os coeficientes Wavelets de
l
kj
Jjdf 2,...,1,,
,
== e
os coeficientes .
,kJ
a Ao projetar-se
f
sob um dos subespaços
j
V o que se está fazendo é
obter uma versão de baixa resolução de
f
, reduzindo a resolução por um fator de
j
2
e ao
passar de
j
V para
1+j
V perde-se a resolução por um fator de 2 e os detalhes que se perderiam
são representados por
j
. O que se obtém então ao decompor
f
é uma versão da imagem
77 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
onde todos os pixels possuem o mesmo valor, que é a “média” de todos os pixels, mais
detalhes correspondentes às escalas intermediárias (LIMA, 2004).
Assim, sob o ponto de vista computacional, considerando inicialmente uma imagem
unidimensional com
l
2
pixels, armazenada em um vetor
A
, com
l
2
posições, ao se decompor
esta referida imagem, no primeiro passo, passa-se de
0
V para
1
V
, gerando-se
1
2
l
coeficientes
de aproximação e detalhes. Com isso, tem-se uma imagem de baixa resolução,
011
VVf
,
com resolução diminuída por fator de dois, armazenada nas primeiras
1
2
l
posições do vetor
A
,
nas posições seguintes estão os detalhes, correspondentes à passagem de
0
V
para
1
V
que é a
projeção de f sobre
1
W . Esse processo pode ser repetido l vezes. Sendo que, cada passo nesse
processo pode ser implementado por uma matriz invertível (ortogonal), o que significa que a
imagem pode ser reconstruída.
No caso de uma imagem colorida, os coeficientes
kj
a
,
e
kj
d
,
serão necessários vetores
com três componentes e o procedimento, nesse caso, será aplicado a cada componente,
separadamente (LIMA, 2004). Assim, a decomposição de um sinal bidimensional em seus
coeficientes Wavelet, quando efetuada em uma única escala (nível), produz o resultado
mostrado na figura 3.14 (LIMA, 2002).
Figura 3.14: Decomposição Wavelet de um sinal bidimensional.
h
(
x
)
g
(
x
)
h
(
z
)
H
1
2
2
2
h
(
z
)
2
2
2
V
1
D
1
W
H
1
A
1
V
1
D
1
g
(
z
)
g
(
z
)
A
0
V
1
H
1
D
1
A
1
A1
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 78
Quando a decomposição é efetuada em mais de um vel, duas formas diferentes
para obtê-la. A forma chamada de convencional consiste na tomada da TW das linhas seguida
pela TW das colunas. A maior desvantagem dessa forma é a mistura entre as diferentes
escalas. Outra forma, chamada de não convencional, é obtida pela decomposição alternada de
linhas e colunas a cada nível.
Cada nível de decomposição
j
é um novo grupo de quatro subespaços denominados
aproximação, detalhe horizontal, detalhe vertical e detalhe diagonal, ou simplesmente,
jjjj
DVHA ,,, , conforme esquema com dois níveis de decomposição ilustrado na figura 3.15.
Figura 3.15: Sinal bidimensional com dois níveis de decomposição.
Considerando uma imagem com
l
2
x
l
2
pixels, a qual pode ser armazenada em uma
matriz quadrada
A
, de ordem
l
2
, nesse caso, cada linha ou coluna é tratada como se fosse
uma imagem unidimensional.
Na decomposição padrão, no primeiro passo, associa-se a cada linha da imagem uma
função em
0
V , conforme descrito acima, em seguida, para cada linha calcula-se os
coeficientes Wavelets. A seguir, associa-se a cada uma das colunas transformadas no processo
anterior uma função em
0
V e aplica-se o mesmo processo às mesmas e obtém-se os
respectivos coeficientes Wavelets. A figura 3.16 ilustra esse processo (LIMA, 2004).
W
A
1
H
1
V
1
D
1
W
A
2
H
2
V
2
D
2
A
2
V
2
H
2
D
2
V
1
H
1
D
1
79 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
Figura 3.16: Decomposição padrão de um sinal bidimensional.
Na decomposição não-padrão, aplica-se operações em linhas e colunas
alternadamente. Associa-se à cada linha da imagem uma função em
0
V . A seguir, decompõe-
se cada linha aplicando-se apenas um passo no processo descrito na passagem
5
de
0
V para
11
WV
, depois cada coluna resultante é tratada como se fosse uma função em
0
V que são
decompostas, como feito no passo anterior, onde as linhas foram substituídas pelas colunas.
No passo seguinte, toma-se a versão de baixa resolução da imagem original a qual está
armazenada em uma submatriz, de
A
, restrita aos
],[ jiA
com
12,...,0,
1
=
l
ji
(nas demais
posições tem-se os coeficientes Wavelets). A seguir, o processo é repetido para a versão de
5
A decomposição gerará W
1
que é o complemento ortogonal resultante da passagem de V
0
para V
1
Transformação na linha
Transformação na coluna
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 80
baixa resolução da imagem obtida no passo anterior, gerando uma submatriz de
A
, restrita a
],[
1
jiA
com
12,...,0,
2
=
l
ji
, na qual está uma nova versão de baixa resolução da imagem
(nas demais posições estão os coeficientes Wavelets). Prosseguindo dessa forma, após,
l
passos, encontra-se uma submatriz de
A
, formada por
]0;0[A
contendo a “média” de todos os
pixels e nas demais posições estarão os coeficientes Wavelets, conforme ilustrado na figura
3.17 (LIMA., 2004).
Figura 3.17: Decomposição não-padrão de um sinal bidimensional.
Transformação
na linha
Transformação
na coluna
81 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
A decomposição padrão é considerada mais simples para implementar, enquanto que a
decomposição não-padrão apresenta-se como levemente mais eficiente para calcular.
3.7 Transformada Wavelet Packet
Uma outra abordagem para a decomposição Wavelet em mais de um nível é a chamada
Transformada Wavelet Packet (Wavelet Packet Transform – WPT), também descrita na
literatura como Pacotes Wavelet, que foi proposta por Coifman e Wickerhauser em 1992,
sendo uma generalização do conceito da Transformada Wavelet Clássica. Coifman e
Wickerhauser (1992) a definem como uma coleção de waveforms moduladas que
corresponde em linhas gerais a cobertura do espaço de freqüências. Essa biblioteca de bases
Wavelet Packet é composta de funções de bases ortonormais na forma )2( kxW
l
n
, onde
Ν
Ζ
nkl ,, , sendo que l é o parâmetro escala, k é o parâmetro localização e n é o
parâmetro oscilação.
Na Wavelet Packet a resolução tempo-freqüência pode ser escolhida de acordo com o
sinal, oferecendo uma análise mais rica em detalhes. Isso é feito dentro dos limites do
Princípio de Incerteza de Heisenberg (GARCIA; ZIKOS; TZIRITAS, 2000).
A decomposição usando Wavelet Packet não se limita ao subespaço de aproximação
nas sucessivas decomposições. Nesse ponto reside a principal diferença entre os frameworks
apresentados. A análise Wavelet Packet oferece maior complexidade e uma análise mais
flexível, pois tanto os coeficientes de detalhes quanto os coeficientes de aproximações são
subdivididos, conforme ilustrado na figura 3.18.
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 82
Figura 3.18: Decomposição Wavelet Packet Unidimensional (MATHWORKS, 2004).
O sinal é decomposto em forma de árvore binária, gerando a chamada Árvore Wavelet
Packet. Na raíz tem-se o sinal a ser analisado e nas folhas ou nós tem-se os subespaços. Essa
vertente é explorada devido ao particionamento mais homogêneo obtido, ideal para
distribuição uniforme de tarefas em paralelo (LOUREIRO et al., 2005).
Em duas dimensões, a transformada continua sendo aplicada nos subespaços de
detalhes horizontais, verticais e diagonais, gerando assim uma quantidade de
j
4
subespaços
contra os j31
+
alcançados pela Transformada Wavelet, conforme ilustrado na figura 3.19.
Figura 3.19: Decomposição Wavelet Packet Bidimensional.
Em relação à Transformada Wavelet padrão (TW), a Transformada Wavelet Packet
(TWP) fornece a possibilidade de dar zoom em qualquer faixa de freqüência desejada. É
utilizada como uma ferramenta para extrair características relevantes de uma ou duas
dimensões, melhorando a performance dos classificadores ao extrair características relativas
83 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
através da decomposição em diferentes bandas de freqüências. Alguns autores concluem que a
análise da imagem utilizando a Wavelet Packet fornece excelente descrição de textura e sua
implementação é muito rápida (PARRAGA, 2002).
Ao contrário da Transformada Wavelet Discreta, que é função de duas variáveis
(escalonamento e translação), a Transformada Wavelet Packet é uma função de três variáveis,
incluindo a variável
f
que corresponde a um índice de freqüência da Wavelet, conforme
equação 3.8 (GRAPS, 1995; WICKERHAUSER, 1994).
== dtpt
s
f
w
s
tx
sfp
wx
def
p
sf
)2(
2
2).( ,)(
λ
(3.9)
onde,
)( p
sf
λ
são coeficientes da expansão de
x
nas funções Wavelet Packet,
)(tw
sfp
são as
funções Wavelet Packet básicas,
s
é o índice de escala (ou dilatação),
p
é o índice de
posição (ou translação),
f
é o índice de freqüência.
Diferentemente da Transformada Wavelet Discreta, a Transformada Wavelet Packet
utiliza mais filtros passa-alta (H) em cada nível de dilatação. A decomposição com múltiplas
escalas também é possível e pode ser implementada aplicando-se os filtros passa-baixa (G) e
passa-alta na seqüência de coeficientes
sf
λ
da equação 3.9, satisfazendo a relação recursiva,
ou seja, a decomposição Wavelet Packet é construída com um algoritmo Wavelet recursivo
usando mais filtros passa-alta, conforme esquema de decomposição unidimensional ilustrado
na figura 3.20 , onde
x
é o sinal a ser analisado,
H
e G são o par de filtros de quadratura
(Quadrature Mirror Filters - QMF).
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 84
Figura 3.20: Diagrama de Blocos da Transf. Wavelet Packet (PARRAGA, 2002, pp. 59).
Uma única decomposição Wavelet Packet fornece muitas bases admissíveis, das quais
pode-se escolher a melhor representação com relação ao objetivo do projeto. Assim, para
representar um sinal ou uma imagem, existem mais de um conjunto de funções possíveis que
formam uma base.
As áreas retangulares em cinza na figura 3.20 constituem um conjunto de bases
particular para a representação do sinal x. Esse conjunto é uma representação mínima na qual
a seqüência x pode ser exatamente reconstruída. No entanto, existem outros subconjuntos de
bases disponíveis que representam a decomposição completa do sinal original.
Devido às propriedades de ortogonalidade, a qual é conseqüência das condições dos
filtros QMF, existem muitos conjuntos de Wavelet Packet que constituem bases ortogonais.
Da árvore completa da Wavelet Packet pode-se escolher diferentes subconjuntos de nós que
possam formar uma base ortogonal. Diferentes escolhas de nós fornecem diversos
subconjuntos de bases ortogonais.
Uma vez que existem diferentes possíveis bases para a representação do objeto de
estudo, um subconjunto de funções que melhor se adapte a um problema em particular pode
x
Hx Gx
HH
x
GH
x
HG
x
GG
x
HHHx GHHx HGHx GGHx HHGx GHGx HGGx GGGx
HHHHx
85 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
ser escolhido segundo algum método de seleção. O método de seleção da melhor base é
chamado de algoritmo Best Basis, o qual seleciona a melhor entre essas bases, também
chamada de representação ótima, conforme algum critério de escolha embutido em uma
função custo (PARRAGA, 2002).
O algoritmo Best Basis emprega o conceito de custo de informação, ou custo para
armazenar a representação escolhida. Podem ser definidos diversos tipos de função custo de
informação, mas os mais usados o aqueles que medem concentração ou número de
coeficientes necessários para descrever a seqüência. Isso significa que o valor da função custo
tem que ser grande quando os elementos da seqüência são basicamente do mesmo tamanho e
pequeno quando quase todos são negligenciáveis. Alguns exemplos de função custo de
informação são: Threshold, Entropia, Concentração em l
p
, Logaritmo da energia. Um mapa M
de seqüências {x
i
} para
é chamado função de informação de custo se M(0) = 0 e
M
=
i
ii
xMx )(})({
(COIFMAN, WICKERHAUSER, 1992).
O critério baseado na Entropia, particularmente Entropia de Shannon é geralmente um
dos mais usados para selecionar o nível mais profundo da árvore, enquanto mantém a
informação mais significativa (GARCIA; ZIKOS; TZIRITAS, 2000).
Em linhas gerais pode-se descrever o funcionamento do algoritmo Best Basis da
seguinte forma: calcula-se a entropia de todos os nós durante a decomposição, a árvore é
analisada recursivamente de baixo para cima, os nós finais são identificados e então compara-
se a entropia de cada par adjacente com a entropia da união desses pares. Escolhe-se a
expansão de entropia mais baixa e continua-se o processo. Em síntese quando a informação de
custo do nó-pai é menor que a informação de custo dos nós-filhos, marca-se o pai. Se os filhos
tem informação de custo mais baixa, o pai não é marcado, mas atribui-se a informação de
custo total mais baixa dos filhos ao pai, conforme ilustra a figura 3.21. (WICKERHAUSER,
1991).
Capítulo 3 – Transformada Wavelet e Wavelet Packet _________________________________________ 86
Figura 3.21: Algoritmo Best Basis: os nós finais são “marcados” para iniciar o processo de
análise das entopias dos nós filhos (WICKERHAUSER, 1991, pp.57).
Comparações são sempre realizadas entre as gerações adjacentes da árvore binária.
Consequentemente, a complexidade da busca das melhores bases é proporcional ao número de
nós da árvore. Esta complexidade é dominada pelo cálculo do custo de todos os coeficientes
para todas as bases na biblioteca, o que leva para O(N log N) para as Wavelet Packets
3.8 Considerações Finais
A Transformada Wavelet Discreta é uma operação linear, cujas funções individuais
Wavelets estão localizadas no espaço quando se considera uma decomposição bidimensional.
Essa característica de localização, junto com a localização de freqüência, faz muitas funções e
operadores que usam Wavelets esparsos quando transformados em domínios Wavelet. A
característica de ser esparsa resulta em um número de aplicações úteis, como compressão de
dados, remoção de ruídos e também voltados para detecção de características em imagens e
reconhecimento de padrões (SILVA; EYNG, 2002).
Neste capítulo foi apresentada a teoria Wavelet considerando sua evolução a partir da
Transformada de Fourier. É importante notar que a Transformada Wavelet permite a análise
local, devido às funções base de suporte compacto. O uso das Wavelets demonstra grande
87 . _________________________________________ Capítulo 3 – Transformada Wavelet e Wavelet Packet
pontencial no que se refere a extração de características para sistemas CBIR, relacionados às
imagens médicas, pelo fato destas apresentarem regiões com texturas (CASTAÑÓN, 2003).
Dependendo da função
ψ
escolhida é possível extrair bordas ou descontinuidades,
auxiliar no reconhecimento de padrões ou armazenar de forma eficiente uma versão
comprimida do objeto de estudo (SAARBRÜCKEN; KAISERSLAUTERN, 1994).
Por fornecer uma análise mais minuciosa as Wavelet Packets ampliam as vantagens
dessa poderosa e consagrada ferramenta matemática: as Wavelets. Essa peculiaridade tem
propiciado destaque as Wavelets Packets recentemente.
Capíttulo 4
Capítulo
4
Recuperação de Imagens na Área Médica
4.1 Considerações Iniciais
Atualmente é cada vez mais constante o uso de tecnologias computacionais na área da
saúde. Essa inovação tecnológica que a princípio começou de maneira gradativa, é hoje
considerada uma das ferramentas mais importantes e indispensáveis (NETO; OLIVEIRA;
VALERI, 2004).
A área da Informática aplicada à Saúde está em constante expansão devido a grande
variedade de informações e tipos de dados. Requisitos de processamento, armazenamento,
visualização e transmissão colocados pelas diversas áreas e aspectos da Medicina impõem
constantes desafios aos pesquisadores interessados no desenvolvimento de soluções
duradouras que sejam ao mesmo tempo tecnológica, segura, confiável e eticamente
fundamentais para satisfazer as necessidades decorrentes do desejo de se informatizar a
atividade relacionada à saúde (WANGENHEIM, 2005).
89 . ________________________________________ Capítulo 4 – Recuperação de Imagens na Área Médica
Uma das razões para o desenvolvimento de aplicações de CBIR na área médica é
devido ao crescente volume de informações geradas, tornando o acesso cada vez mais
complexo (MÜLLER et al., 2004).
O processo de recuperação de imagens baseado nas características ou no conteúdo das
imagens apresenta variações de possibilidade de estruturação, pois o processo de recuperação
pode ser baseado em diferentes características visuais como cor, forma, textura, identidades
dos objetos, entre outras. A idéia central do conceito de recuperação baseada no conteúdo das
imagens é poder localizar uma imagem ou grupo de imagens semelhantes a uma imagem
passada como parâmetro. Devido às diversas possibilidades de embasamento dentro desse
contexto, várias técnicas foram propostas no decorrer dos anos (WANGENHEIM, 2005).
4.2 Sistemas de Informação na Área Médica
As imagens proporcionam uma interpretação direta e cada vez mais precisa. Assim,
sistemas que armazenam e gerenciam imagens médicas de forma automatizada, tem
proporcionado grandes benefícios para a medicina, os quais são de extrema importância para
centros de diagnósticos por imagens (NETO; OLIVEIRA; VALERI, 2004).
Com a inovação da tecnologia da informação na área da medicina, visando melhorar a
qualidade dos serviços e o atendimento dos pacientes, hospitais e clínicas de pequeno, médio
e grande porte estão realizando a integração de seus sistemas de informações para tecnologias
utilizadas mundialmente como Hospital Information System HIS, Radiology Information
System – RIS e Picture Archiving and Communication System – PACS.
Essa integração possibilita o gerenciamento e armazenamento de imagens, permitindo
que as informações dos pacientes e suas respectivas imagens sejam compartilhadas,
recuperadas e visualizadas localmente e/ou remotamente (BUENO et al., 2002).
Capítulo 4 – Recuperação de Imagens na Área Médica ________________________________________ 90
4.2.1 Sistemas de Informação Hospitalar
Os Sistemas de Informação Hospitalar (Hospital Information Systems HIS),
consistem no estudo e desenvolvimento de metodologias de informatização para hospitais. Os
Sistemas de Informações Hospitalares armazenam as informações relativas aos pacientes
destacando-se, entre elas, seu estado de saúde, os exames realizados e os procedimentos
médicos adotados.
4.2.2 Sistemas de Informações Radiológicas
Os Sistemas de Informações Radiológicas (Radiological Information Systems RIS),
consistem no estudo e desenvolvimento de metodologias de gerência e intercâmbio de
imagens radiológicas e também estratégias de integração destas ao prontuário eletrônico do
paciente, definindo interfaces padrão entre sistemas (NETO; OLIVEIRA; VALERI, 2004).
4.2.3 Sistemas de Comunicação e Arquivamento de Imagem
Sistemas de Comunicação e Arquivamento de Imagem (Picture Archiving and
Communications System - PACS), são sistemas compostos por aparelhos de diagnóstico
médico (fornecedores de imagens digitais), computadores (estações de trabalho para
visualização e análise das imagens) e servidores de dados (responsáveis pelo armazenamento
e gerenciamento das imagens) interconectados entre si através de redes lógicas (local ou
remota) sendo acessíveis por diferentes clientes (programas de diferentes computadores).
(WANGENHEIM, 2005).
Os PACS são sistemas para armazenar e acessar a grande quantidade de dados visuais
usados nos departamentos médicos. O acesso a esses sistemas é geralmente baseado na
identificação do paciente ou características do estudo (MÜLLER et al., 2004).
91 . ________________________________________ Capítulo 4 – Recuperação de Imagens na Área Médica
Com a introdução dos sistemas PACS cresceu o interesse por integrar em um único
sistema todas as informações dos pacientes (textos, imagens, gráficos, dados temporais, etc).
Além disso, o custo operacional dos exames de imagens diminui quando se utiliza tecnologia
de radiologia sem filme, o que permite direcionar investimentos maiores para a área de
diagnóstico (SIEGEL, 1999). A tecnologia de radiologia sem filme (Filmless) refere-se a um
hospital ou um amplo ambiente de rede no qual o filme é substituído completamente ou
parcialmente por um sistema eletrônico que adquire, armazena, comunica e exibe imagens
(ROSA et al., 2002) reduzindo, de maneira significativa, o custo da manutenção desses
exames.
No entanto, os sistemas PACS infelizmente não tem sido utilizados como se esperava
pelas inúmeras instituições que trabalham com diagnósticos por imagem. Determinado fato
ocorre porque sistemas de armazenamento de imagens são considerados por muitos como
sistemas que envolvem grandes investimentos para implantação e manutenção (NETO;
OLIVEIRA; VALERI, 2004).
4.3 Padrão DICOM
Com o aumento da utilização das tecnologias computacionais para auxiliar no
diagnóstico clínico dos pacientes, possibilitada pelos RIS, principalmente após o surgimento
da Computer Tomography (CT), na década de 70, diversos equipamentos foram
desenvolvidos por diferentes fabricantes.
O PACS tem como objetivo principal realizar a integração e comunicação eficiente de
vários equipamentos médicos que trabalham com imagens como Raio X, Tomografia
Computadorizada, Ressonância Magnética, Ultra-som, entre outros.
Capítulo 4 – Recuperação de Imagens na Área Médica ________________________________________ 92
Com o início do processo de informatização dos diagnósticos surgiram os primeiros
problemas de interoperabilidade entre esses equipamentos. (WANGENHEIM, 2005; NETO;
OLIVEIRA; VALERI, 2004).
Para solucionar esse problema de interoperabilidade, o ACR (American College of
Radiology) e o NEMA (National Electrical Manufacturers Association), em 1983,
organizaram um comitê para elaboração de um padrão de dados e imagens, para comunicação
dos diversos equipamentos de RIS.
Esse padrão foi inicialmente publicado em 1985, chamado de ACR/NEMA 1.0. Após
algumas atualizações, em 1986 surgiu o ACR/NEMA 2.0. Em 1988, após duas revisões foi
publicada a versão 3.0 do padrão denominado DICOM
6
(Digital Imaging and Communication
in Medicine) usado atualmente pela maioria dos equipamentos.
Esse padrão visa facilitar a interoperabilidade entre os equipamentos de imagens
médicas, pois especifica um conjunto de protocolos para comunicação em rede; a sintaxe e
semântica dos comandos e as informações associadas que podem ser trocadas usando os
protocolos; um conjunto de serviços para o meio de armazenamento, bem como um formato
de arquivo e uma estrutura de diretório médico para facilitar o acesso às imagens e
informações armazenadas (NEMA, 2004).
De forma sintética, o padrão DICOM define o armazenamento e transmissão de
imagens médicas e informações associadas de maneira padronizada. Também visa promover a
comunicação de informações de imagens digitais, sem levar em consideração os fabricantes
dos aparelhos, por fim, facilitar o desenvolvimento e expansão dos sistemas PACS (NETO;
OLIVEIRA; VALERI, 2004; POLIKAR, 2001; ROSA et al., 2002).
Assim, o DICOM é o padrão internacionalmente aceito para sistemas PACS e usado
por diversas modalidades de equipamentos de imagens médicas (WANGENHEIM, 2005).
6
http://dicom.nema.org/
93 . ________________________________________ Capítulo 4 – Recuperação de Imagens na Área Médica
Uma das principais vantagens em utilizar o padrão DICOM reside no fato de que esse
padrão é diferente dos demais formatos conhecidos comercialmente como (JPEG, TIF, BMP e
outros), pois permite que as informações dos pacientes sejam armazenadas, de forma
estruturada, juntamente com a imagem, isto é, elas são armazenadas utilizando ponteiros,
conhecidos como tags que identificam e limitam as informações textuais (NETO;
OLIVEIRA; VALERI, 2004).
Um arquivo imagem no formato DICOM é composto de duas partes distintas. Um
cabeçalho contendo informações diversas sobre a imagem, o paciente, o equipamento, estudo
e série, organizadas em tags. Cada estudo contém uma ou mais séries. Séries são seqüências
de imagens ou cortes de imagens (ROSA et al., 2002). A outra parte de um arquivo DICOM
contém a imagem propriamente dita, com informações sobre os pixels que a compõem
(NEMA, 2004).
Na área médica, normalmente, o objetivo ultrapassa uma simples busca pelo nome do
paciente ou modalidade. No caso dos arquivos DICOM, seus cabeçalhos são preenchidos
com diversas informações médicas, como nome do paciente, modalidade do exame, data de
aquisição, parâmetros de regulagem dos aparelhos de aquisição, entre outras. Essas
informações podem ser utilizadas em fases posteriores à recuperação para aprimorar o
resultado da busca, pois outras informações além das pictóricas podem ser necessárias e úteis
como a anatomia, posição do paciente ou a modalidade do exame. Considerando que uma
característica é qualquer informação adicional à presente nos pixels, também pode-se
considerar como características as informações contidas nos cabeçalhos dos arquivos no
formato DICOM, o que possibilita desenvolver um mecanismo de busca que mescle
informações textuais e visuais (FIGUEIREDO, 2005).
Capítulo 4 – Recuperação de Imagens na Área Médica ________________________________________ 94
Dessa forma, o padrão DICOM permite realizar consultas textuais baseadas nas
informações do cabeçalho, baseado nas informações do diagnóstico e consultas baseada no
conteúdo das imagens.
4.4 Áreas de Aplicação
As aplicações CBIR, além de auxiliar nos diagnósticos, contribuem para o ensino e a
pesquisa na área médica.
No ensino, o professor pode buscar em uma grande base de imagens casos de interesse
para apresentar aos estudantes, considerando a região anatômica ou o diagnóstico. Essa idéia
está sendo colocada em prática atualmente através de um sistema de ensino eletrônico em
Radiologia, no Instituto do Coração do Hospital das Clínicas (SANTOS; FURUIE, 2006). As
características visuais permitem tanto a recuperação de casos com diagnósticos similares,
quanto a recuperação de casos com similaridade visual, mas com diagnósticos diferentes.
Sistemas CBIR podem se transformar em uma ferramenta para ajudar professores e estudantes
da área médica, na exploração de repositórios de imagens educacionais e permitir inspecionar
visualmente os resultados encontrados, ampliando a qualidade educacional. Especialmente em
ensino à distância, que usam tecnologias baseadas na Internet, novas possibilidades podem ser
exploradas com as técnicas baseadas em conteúdo que possibilitam investigar as bases de
dados e comparar diagnósticos, sem grandes dificuldades de implementação.
Na pesquisa, os dados visuais podem ser analisados com o auxílio de técnicas de
mineração de dados em busca de padrões de interesse que podem levar a novas descobertas,
as quais podem inclusive contribuir para a cura de doenças.
No auxílio ao diagnóstico, onde atualmente está concentrada a maior parte das
pesquisas, duas idéias principais: a primeira é fornecer ao profissional da área médica
casos que apresentem similaridade visual. Isso pode fornecer uma segunda opinião e o
95 . ________________________________________ Capítulo 4 – Recuperação de Imagens na Área Médica
profissional pode desenvolver seu raciocínio baseado nos vários casos apresentados pelo
sistema de recuperação, considerando a opção mais vantajosa e adequada para o paciente.
Outra idéia é a criação de bases de imagens contendo casos sem patologia (normais) e
comparar a distância de um novo caso com os casos existentes fazendo dessa forma,
recuperação da dissimilaridade ao contrário da recuperação da similaridade (distância para a
normalidade) (EAKINS; GRAHAM, 1999).
4.5 Estado da Arte
A área de Recuperação de Imagens por Conteúdo aplicado à Medicina, tem crescido
muito recentemente. Esse crescimento é atribuído à disseminação dos produtos tecnológicos e
a necessidade de administrar grandes quantidades de dados e imagens (CAMPO; TRAINA,
2003).
A variedade de equipamentos, procedimentos e pessoal técnico que os manuseiam
tornam o processo de aquisição de imagens uma das partes mais delicadas, pois dependendo
de como a imagem foi adquirida ela pode se tornar mais escura (menos brilho) ou mesmo
saturada (brilho em demasia). Tais variações dificultam a recuperação e comparação entre
imagens. Os principais sistemas de Recuperação de Imagens por Conteúdo baseados em cor
em geral, não suportam essas variações, não recuperando de maneira eficiente a mesma
imagem que tenha sofrido variações de brilho e/ou contraste.
As técnicas descritas na literatura em sua maioria não tratam de maneira eficiente a
questão da variação de brilho, porém estudos nesse sentido, como é o caso do estudo
apresentado em Bueno et al. (2002) que visa preencher essa lacuna. Essa invariância às
transformações de brilho é muito importante, porque imagens de mesmo paciente e exame ao
serem adquiridas em situações diferentes tendem a variar o brilho (CAMPO; TRAINA, 2003)
e Bueno et al. (2002) apresentam uma nova abordagem de extração de características com
Capítulo 4 – Recuperação de Imagens na Área Médica ________________________________________ 96
respeito a tais restrições de transformações de brilho sobre as imagens, baseada em
intensidade de cor. É utilizado o Histograma trico (HM), o qual conserva a curva original
do histograma de brilho de uma imagem sem perda considerável da sua informação e reduz o
número de bins
7
reduzindo, assim, o custo computacional na busca. Um histograma
normalizado é composto por um número específico de bins. Esse número depende da
resolução de intensidades (luminosidade) da imagem, sendo dessa maneira um número fixo.
Em um histograma métrico, o equivalente ao bin do histograma é chamado de bucket. Cada
bucket corresponde a uma linha na aproximação do histograma normalizado.
Seguindo uma outra vertente, vários artigos focam seus estudos no atributo textura para
classificar, segmentar e reconhecer imagens. E muitos desses artigos avaliam o poder das
Wavelet para esse fim. Bhalerao e Rajpoot (2003), por exemplo, aplicam Wavelet Packet
usando Daubechie com 8 filtros com dois níveis de decomposição e o esquema Wilson-Spann
para 3 e 5 níveis (semelhante aos filtros Gabor), para classificar imagens de textura extraídas
do álbum de Brodatz
8
. Para reduzir a dimensionalidade dos dados eles utilizam os métodos
PCA e LDA. Um algoritmo para classificação supervisionada de textura foi implementado
empregando o classificador k-means para separar as imagens em duas classes. Foram
realizados experimentos com variadas medidas de distância (Kullback-Leibler - KL, Fisher
Distance FD, Bhattacharya Distance BD, Euclidian Distance ED), sendo que para
selecionar características das subbandas da TWP as medidas BD e FD apresentaram melhores
resultados e para as subbandas do domínio de Fourier (Wilson-Spann), BD foi a melhor, mas a
KL pode se destacar mais quando a distribuição de energia é periódica. Rajpoot (2003) ainda
faz um estudo comparativo selecionando as características com Wavelet, Wavelet Packet Full
e Wavelet Packet Adaptativa.
7
Em um histograma ocorre um agrupamento de acordo com a escala de valores dos elementos. Cada grupo é
mostrado como um bin.
8
Brodatz é um álbum público de imagens de textura.
97 . ________________________________________ Capítulo 4 – Recuperação de Imagens na Área Médica
Seguindo essa linha de estudo, a respeito das imagens médicas, acredita-se que as
características baseadas em textura e forma obtidas das regiões da imagem podem discriminá-
las e separá-las de modo mais apurado, pois os objetos (órgãos, tecidos e anomalias) m, na
maioria das vezes, forma e textura específicas que podem ser empregadas para a delimitação
dos mesmos (BALAN et al., 2004).
Em Balan et al. (2004) é apresentada uma abordagem singular de extração de
características da imagem. A técnica consiste em segmentar automaticamente a imagem com
base em textura utilizando um algoritmo estocástico baseado nos campos aleatórios de
Markov. O método de segmentação empregado é um algoritmo interativo que implementa um
processo estocástico de otimização, cujo objetivo é minimizar o número previsto de pixels
classificados erroneamente. O método utilizado nesse estudo é não-supervisionado, onde os
parâmetros assumem valores iniciais aleatórios e são ajustados durante o processo de
segmentação. Assim, somente o mero de classes previstas para a segmentação precisa ser
informado inicialmente.
Após a imagem ter sido segmentada automaticamente em um mero de classes pré-
definido, várias medidas são extraídas das regiões de textura homogênea, como o centro da
massa da região, a massa da região, que é o tamanho em número de pixels da região que
foram classificados como sendo de uma determinada classe, uma medida denominada
dispersão, a média e a variância da região. As três primeiras características (massa, centro de
massa e dispersão) são computadas diretamente sobre a imagem segmentada, sendo que a
média e variância são medidas da imagem original considerando-se a segmentação obtida. O
vetor de características proposto é construído utilizando-se essas cinco características para
cada classe e a distância Euclidiana é usada para a comparação desses vetores. Para validar a
técnica, gráficos de Recall x Precision (Revocação x Precisão), foram utilizados.
Capítulo 4 – Recuperação de Imagens na Área Médica ________________________________________ 98
O artigo de Huang e Aviyente (2006) também enfatiza a importância do atributo textura
para classificar imagens. Para isto as imagens são decompostas usando Wavelet Packet de
Haar e Daubechie. Valores estatísticos são extraídos da matriz de coeficientes Wavelets, como
energia, média e desvio padrão. Uma atenção especial é atribuída ao valor de energia obtido a
partir dos coeficientes das diferentes subimagens, o qual segundo os autores tem importantes
propriedades para discriminação de imagens de textura. Como a TWP gera um grande número
de representações possíveis é proposto um algoritmo para escolha de subimagens
independentes para gerar uma representação esparsa das imagens de textura, com base na
utilização de uma função de custo que analisa a dependência dos valores de energia das
diferentes subimagens.
Watanabe e Traina (2005) exploram o atributo textura de imagens dicas em suas
pesquisas, através da transformada Wavelet de Haar em um nível de resolução e da extração
de características de cada subespaço das imagens através do cálculo de coeficientes
estatísticos de média, variância e energia e da dimensão fractal, para a construção de vetores
de características. As imagens utilizadas no trabalho correspondem a exames de Ressonância
Magnética (MR) e Angiograma de 8 bits, resultando em 256 tons de cinza, com dimensões de
256 x 256. Para realização dos testes, foi preparado um conjunto com 210 imagens de vários
tipos de exames realizados no Hospital das Clínicas de Ribeirão Preto. Esse conjunto foi
dividido em 7 classes, com 30 imagens cada, de acordo com a região do corpo examinada e o
tipo de corte tomado: Angiograma, Axial MR Bacia, Axial MR Cabeça, Coronal, Abdômen,
Coronal MR Cabeça, Sagital MR Cabeça e Sagital MR Coluna. Foi implementado o método
de busca aos vizinhos mais próximos, k-NNQ e os resultados foram avaliados através de
gráfico Recall x Precision, os quais mostraram que a união dos atributos gera melhores
resultados que atributos isolados, alcançando pelo menos 80% de exatidão.
99 . ________________________________________ Capítulo 4 – Recuperação de Imagens na Área Médica
Em Castañón e Traina (2002) é descrita uma abordagem para um banco de imagens
médicas, que é orientada a extração de características para um sistema CBIR baseada na
decomposição multiresolução Wavelet, aplicando filtros Daubechies e Gabor. Essas novas
características da imagem foram indexadas e testadas utilizando uma estrutura de indexação
métrica (Slim-Tree). O enfoque é caracterizar as imagens aproveitando os espaços Wavelets
gerados após aplicar os filtros da transformada e mediante medidas estatísticas desses espaços,
montar o vetor de características. Parraga (2002) utilizou a Transformada Wavelet Packet
como extrator de características para gerar os vetores e auxiliar no diagnóstico de patologias
da laringe. Qureshi et al.(2006), decompõe em 4 níveis imagens de tumor cerebral benigno
nas meninges usando a Wavelet Packet com Daubechie-4 filtros. Uma pseudo função de
densidade de probabilidade (PDF) é obtida para cada subbanda usando a energia normalizada
dos coeficientes e a distância Hellinger é usada como função de custo no processo de seleção
da Best Basis. Devido a alta dimensionalidade, medidas estatísticas são obtidas das
subbandas: curtose, entropia, energia e média e passam a ser utilizados como vetores de
entrada para treinamento da rede neural LVQ (Learning Vector Quantization).
A recuperação de imagens baseada na descrição textual e a baseada em conteúdo o
abordagens independentes e ortogonais. No entanto, de forma prática, podem ser integradas
em um único sistema a fim de proporcionar um maior poder de recuperação em Sistemas de
Informação Hospitalar (HIS) ou em Sistemas de Comunicação e Arquivamento de Imagens
(PACS) (BALAN et al., 2004).
A integração de métodos de recuperação baseados em conteúdo com PACS facilitam o
gerenciamento dos dados clínicos. Integrar CBIR com PACS tem sido proposto e desejável,
pois é um ponto decisivo para o uso clínico de forma efetiva dos sistemas de recuperação
(MÜLLER et al., 2004).
Capítulo 4 – Recuperação de Imagens na Área Médica ________________________________________ 100
Em Rosa et al. (2002), é apresentado o SRIS-HC – Sistema de Recuperação de Imagens
Similares, para uso no Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto da
Universidade de São Paulo HC-FMRP/USP. O SRIS-HC atua como um recurso adicional de
um sistema PACS. As imagens foram indexadas, utilizando o método de acesso métrico
(MAM) Slim-Tree e recuperadas através de características extraídas por histograma
tradicional e o histograma métrico.
Dentro do contexto de incorporar aos PACS as funcionalidades dos sistemas de buscas
por conteúdo, existem algumas peculiaridades dos PACS que em geral, não são tratadas pelos
sistemas CBIR, como por exemplo, as informações contidas nos cabeçalhos dos arquivos
DICOM, que são informações adicionais às informações pictóricas da imagem em si, porém
relevantes para o usuário especialista. Outro ponto é o tratamento do domínio, que nesse caso
está relacionado com as diversas modalidades médicas e suas respectivas técnicas de
aquisição, por exemplo, imagens de Tomografia Computadorizada (CT) junto com
Ressonância Magnética (MR), ou de pélvis com rebro, órgãos sadios com órgãos com
patologia. Um exemplo da falta de tratamento de domínios nos PACS é que a inclusão de uma
imagem de CT em um conjunto de imagens de MR é permitida pelo sistema sem que nenhum
tipo de validação automática ocorra, ficando essa validação muitas vezes a cargo do usuário
(FIGUEIREDO et al., 2004).
Devido a essas peculiaridades encontram-se na literatura vários estudos em sistemas
CBIR descritos, que em geral trabalham com domínios específicos visando aprimorar os
resultados. Em Gato, Nunes e Schiabel (2004), por exemplo, a proposta é realizar buscas por
conteúdo aos vizinhos mais próximos, em imagens mamográficas, baseado na densidade e na
área da mama. Uma varredura na área pertencente à mama é realizada e calculada a média de
níveis de cinza referente aos pixels que pertenciam apenas à mama. O fundo da imagem é
descartado através de um algoritmo que recorta a área que efetivamente contém estruturas
101 . ________________________________________ Capítulo 4 – Recuperação de Imagens na Área Médica
mamárias. A área da mama é calculada considerando-se a quantidade de pixels da área
segmentada através do algoritmo de eliminação do fundo.
O uso de tecnologias vinculadas à Internet, também podem auxiliar para integrar
métodos de recuperação com outras aplicações. A integração das tecnologias Web com os
diversos equipamentos médicos torna possível a visualização de imagens em qualquer parte
do mundo a custo acessível. Assim padrões mundiais como o DICOM, tornam-se
imprescindíveis (NETO; OLIVEIRA; VALERI, 2004).
Essa vertente está sendo explorada em nosso grupo de pesquisa através do trabalho de
pesquisa de mestrado de Ana Carolina Nicolosi da Rocha Gracioso, que desenvolveu um
sistema de recuperação de imagens médicas por conteúdo e disponibilizou o sistema para
testes na Internet e em uma rede óptica de alta velocidade chamada Kyatera do projeto TIDIA
(FAPESP). Segundo Ana Carolina os testes realizados em rede demonstraram que é possível a
implementação de um sistema de recuperação de imagens por conteúdo em rede, porém, que
fatores importantes devem ser considerados como: arquitetura da quina utilizada;
utilização da CPU e disponibilidade da banda. Testes realizados por voluntários
demonstraram que a Internet atual não é ideal para o uso de um sistema de recuperação de
imagens por conteúdo. Para acesso em rede de um sistema como esse, seria necessária a
implantação de uma rede de alta velocidade interligando os hospitais, clínicas médicas e
universidades. Porém, eventuais acessos fora destes locais seriam possíveis dependendo da
velocidade da Internet, tamanho do arquivo e disposição do usuário em aguardar o tráfego dos
dados pela rede (GRACIOSO, 2008).
O cbPACS, proposto por Bueno et al. (2002) é um PACS com recursos que permitem
Recuperação de Imagens Baseadas em Conteúdo que faz uso das facilidades da Internet. O
cbPACS responde a consultas por similaridade baseadas no vizinho mais próximo ou por
range, com a vantagem do método de acesso métrico embutido no gerenciador de banco de
Capítulo 4 – Recuperação de Imagens na Área Médica ________________________________________ 102
dados. O sistema compara as características das imagens obtidas através de histogramas
normalizados e histogramas métricos. O cbPACS é composto por quatro módulos. O primeiro
módulo trata da aquisição da imagem, recebendo as imagens em formato DICOM 3.0 dos
dispositivos de imagem e enviando a informação alfanumérica e os arquivos imagem para o
Banco de Dados. O segundo módulo, que é o núcleo do cbPACS, processa as imagens para
extrair as características que serão usadas pelo Servidor de Banco de Dados e pelo Servidor
Web, que juntamente com o MAM Slim-Tree permitirão a recuperação das imagens por
conteúdo. O terceiro módulo é um Sistema Gerenciador de Banco de Dados Relacional
estendido para suportar imagens como um tipo nativo através de um interpretador de
extensões SQL chamado “Circe”. O quarto módulo é um Servidor Web, responsável por
gerenciar o fluxo de informação entre o servidor de Banco de Dados e a aplicação cliente
(BUENO et al., 2002). Nessa aplicação específica utilizou-se o SGBDR Oracle para indexar
as imagens, vinculado ao MAM Slim-Tree, porém outros SGBDRs também tem sido
utilizados, como o InterBase (NETO; OLIVEIRA; VALERI, 2004) que é um banco de dados
relacional (SGBDR), que incorpora conceitos subjacentes ao modelo de dados relacional.
Em Figueiredo et al. (2004) propõe-se incorporar o tipo imagem em um SGBD
Relacional através de uma implementação com base na arquitetura de componentes, das
funcionalidades de um sistema CBIR como um módulo que pode ser acoplado a qualquer
ambiente.
Diferentemente do que acontece com outros domínios de imagens pesquisados em
Visão Computacional, como faces, por exemplo, em que há bases públicas disponíveis para
testes, em geral, pesquisas envolvendo imagens médicas têm que superar o obstáculo de
encontrar conjuntos de dados que ofereçam conteúdos abrangentes, variados e confiáveis.
Entretanto, projetos que visam criar bases públicas de imagens médicas para validação de
103 . ________________________________________ Capítulo 4 – Recuperação de Imagens na Área Médica
algoritmos de processamento de imagens médicas. As bases de imagens MIRC-RSNA
9
e
myPACS.net
10
são exemplos típicos. Há também um projeto (SANTOS; FURUIE, 2005)
vinculado ao Instituto do Coração (InCor), no Hospital das Clínicas que visa tornar disponível
uma base intermodal de imagens médicas de arquitetura distribuída, juntamente com
protocolos clínicos, informações de diagnóstico, contexto da aquisição, para uso livre em
diferentes propósitos. O projeto visa a interação com outras bases de uso livre, além de
permitir pesquisa e recuperação de dados, processamento e análise dos dados, entre outras
funcionalidades. Xue et al. (2007) também estão trabalhando em um projeto semelhante,
porém focado em imagens uterinas. O projeto visa auxiliar os profissionais no diagnóstico do
câncer de colo de útero, disponibilizando 100.000 imagens e diagnósticos clínicos que
poderão ser acessados através de ferramentas via web que também propiciarão através de uma
interface gráfica (GUI) funcionadades CBIR baseadas na extração de características de cor,
textura, tamanho e localização.
A base criada para realização das pesquisas no presente trabalho também poder-se-á
tornar pública, após uma análise da viabilidade de disponibilização desses dados e obviamente
se houver consentimento das partes envolvidas. É importante e fundamental enfatizar que
aplicações na área médica envolvem questões éticas no que se refere a divulgação de dados
pessoais e todos os projetos nessa área de pesquisa devem atentar a essas restrições.
Outro domínio ainda não discutido fervorosamente para imagens médicas são as
interfaces para usuário. Algumas vezes interfaces baseadas na Internet são propostas
(MÜLLER et al. 2003; LEHMANN; WEIN; GREENSPAN, 2003), mas geralmente
comparação de interfaces não é relatada. muitas soluções criativas em recuperação de
imagens que serão interessantes para estudos de interfaces efetivas, ergonômicas que atendam
a critérios de usabilidade, além da aceitação e uso da tecnologia na prática médica.
9
http://www.rsna.org/mirc/
10
http://www.mypacs.net/
Capítulo 4 – Recuperação de Imagens na Área Médica ________________________________________ 104
Estudos sobre os efeitos clínicos das tecnologias de recuperação de imagens por
conteúdo, ainda estão distantes. Medidas relacionadas a um possível impacto clínico da
aplicação quando usada para a prática clínica real, além de medidas relacionadas ao
desempenho e relacionadas ao fator humano, como usabilidade e aceitação da tecnologia, as
quais podem ser obtidas através de testes reais com os usuários, ainda não são muito
enfatizadas (MÜLLER et al., 2004).
Interação com o usuário e realimentação por relevância são duas outras técnicas que
precisam ser integradas aos sistemas de recuperação, pois podem proporcionar melhores
resultados na aplicação. É desejável que a recuperação de imagens seja interativa e que essa
interatividade seja explorada para propiciar os melhores resultados possíveis (MÜLLER et al.,
2004). Em Alvarez (2003) é apresentado um estudo de usabilidade de seis sistemas CBIR,
onde o foco principal é sempre o usuário final. A autora destaca que para o sucesso de uma
aplicação CBIR é necessário que as interfaces se adequem às capacidades dos usuários, mas
também deve-se ajudar o usuário a entender as limitações da aplicação.
4.6 Considerações Finais
Um dos objetivos em se desenvolver sistemas de Recuperação de Imagens baseado em
Conteúdo é evitar a subjetividade existente na caracterização de uma imagem unicamente
pelo seu conteúdo textual, visto que diferentes especialistas podem estar interessados em
diferentes aspectos de uma mesma imagem (BALAN et al., 2004). Nessa área de pesquisa um
dos desafios é encontrar o conjunto de características mais adequado para descrever uma
imagem.
Facilitar a integração dessas novas funcionalidades nas aplicações existentes, tais como
HIS (Hospital Information System), RIS (Radiology Information System) e PACS (Picture
Archiving and Communication System) ou outros softwares para visualização e gerenciamento
105 . ________________________________________ Capítulo 4 – Recuperação de Imagens na Área Médica
das imagens médicas é outro desafio a ser superado para a efetiva utilização de aplicações de
CBIR na área médica, principalmente no que diz respeito aos PACS que capturam,
armazenam, distribuem e exibem imagens dicas de forma descentralizada, mas
tradicionalmente não suportam buscas de imagens baseadas no conteúdo.
Assim, este capítulo apresentou uma visão geral dos estudos que estão sendo
realizados em Recuperação de Imagens dicas baseado em Conteúdo para atingir esses
objetivos.
Capítulo 5
Capítulo
5
Metodologia do Trabalho Desenvolvido
5.1 Introdução
O objetivo do presente trabalho é avaliar a eficiência das duas abordagens de
Transformada Wavelet e Wavelet Packet na caracterização de imagens médicas visando a
recuperação, considerando apenas suas características de textura.
Para realizar a recuperação das imagens é necessário identificar as características que
possam ser usadas para traçar pontos de similaridade entre a imagem passada por parâmetro e
as imagens contidas na base de dados onde será realizada a busca (WANGENHEIM, 2005).
Sistemas CBIR “ideais” deveriam automaticamente extrair e indexar o conteúdo
semântico das imagens para se adequar aos requisitos de aplicações específicas. No entanto,
embora pareça simples para um humano escolher uma foto dentro de uma coleção,
reconhecimento e classificação automática de objetos é ainda uma das principais dificuldades
em Visão Computacional.
107 . __________________________________________Capítulo 5 – Metodologia do Trabalho Desenvolvido
Essa é a principal razão porque características de baixo nível como cor, textura, forma e
relacionamento espacial ainda são amplamente usadas (QIAO et al., 2005). Em imagens
médicas, a textura tem se destacado como uma das características primitivas da imagem mais
utilizada para gerar o vetor de características, devido ao seu grande potencial para distinguir
as várias partes do corpo humano.
As imagens médicas contêm estruturas de passa banda orientadas e localizadas, que não
podem ser caracterizadas em termos de correlações lineares ou duais. Essa distribuição
localizada e compacta da energia nas imagens implica que elas tenham uma estrutura esparsa,
o que significa que elas contêm componentes de alta freqüência que diminuem a inata
redundância, o qual permitirá que uma imagem qualquer possa ser representada com um
número relativamente pequeno de descritores.
Nesse contexto, o presente trabalho visa estudar técnicas para extrair características de
textura baseadas nas Transformadas Wavelet e Wavelet Packet de Haar, visando a
caracterização adequada das imagens médicas.
5.2 Transformada Wavelet e Transformada Wavelet Packet
A análise multiresolução da Transformada Wavelet (TW) e sua generalização Wavelet
Packet apresenta muitas funcionalidades vantajosas (CASTAÑÓN; TRAINA, 2002), que
podem ser aproveitadas no processo de extração de características das imagens. Essas
propriedades também facilitam a extração de características a partir dos coeficientes
transformados.
Pelo fato da Transformada Wavelet Packet (TWP) separar melhor as freqüências,
conforme ilustrado pela figura 5.1, acredita-se poder contribuir para ampliar a exatidão dos
resultados das consultas, embora o custo computacional necessário para gerar os novos
espaços seja sensivelmente maior quando comparado com a Transformada Wavelet. O
Capítulo 5 – Metodologia do Trabalho Desenvolvido _________________________________________ 108
elevado custo computacional é devido à considerável quantidade de cálculos executados, pois
conforme explanado no capítulo 3, esta transformada matemática decompõe tantos os
subespaços de aproximação quanto os subespaços de detalhes horizontais, verticais e
diagonais nos níveis subseqüentes de decomposição.
(a)
(b)
(c)
Figura 5.1: (a) Imagem de RM Original. (b) TW com 2 níveis de decomposição. (c) TWP
com 2 níveis de decomposição.
109 . __________________________________________Capítulo 5 – Metodologia do Trabalho Desenvolvido
No presente trabalho, optou-se pela utilização da Wavelet de Haar, que é a Wavelet com
os coeficientes mais simples no espaço L
2
() (LIMA, 2003), logo de fácil implementação e
com baixo custo computacional. Devido a essas características a Wavelet de Haar é
amplamente utilizada em pesquisas acadêmicas. Além disso, Bianchi (2006) realizou um
estudo com várias Wavelets (Haar, Daubechie, Biorthogonal, Reserve Biorthogonal, Symlet e
Coiflet) para recuperação de imagens de faces humanas, dentre as quais a Wavelet de Haar e a
Biorthogonal destacam-se com melhores resultados nos testes. O estudo também indica que as
melhores taxas de recuperação são alcançadas utilizando-se níveis maiores de decomposiçao.
Qiao et al. (2005) também realizaram estudos envolvendo a Biorthogonal para recuperação de
imagens de textura.
Assim, o presente trabalho utiliza a Wavelet de Haar, mas realiza também um teste com
a Wavelet Biorthogonal. Foram implementados dois, três, quatro, cinco, seis e sete níveis de
decomposição nos testes, gerando uma imagem de aproximação e várias imagens de detalhes
dependendo da Wavelet aplicada, conforme tabela 5.1.
Tabela 5.1 – Quantidade de Subimagens geradas após a decomposição.
Nível de Decomposição Total de subimagens - TW Total de subimagens - TWP
1º Nível
4 = 1+3*1 4 = 4
1
2º Nível
7 = 1+3*2 16 = 4
2
3º Nível
10 = 1+3*3 32 = 4
3
4º Nível
13 = 1+3*4 64 = 4
4
5º Nível
16 = 1+3*5 256 = 4
5
6º Nível
19 = 1+3*6 1024 = 4
6
7º Nível
22 = 1+3*7 16384 = 4
7
Nota-se que o aumento no número de subimagens (os termos subespaço e subbanda
também são encontrados na literatura com o mesmo significado) é exponencial no caso da
Wavelet Packet. Fato este que ocorre porque a Wavelet aplica um certo número de filtros H
(passa-alta) e apenas um filtro G (passa-baixa). a Wavelet Packet é uma biblioteca
construída pela recursão do algoritmo Wavelet usando mais filtros G, conforme descrevem
Capítulo 5 – Metodologia do Trabalho Desenvolvido _________________________________________ 110
Coifman e Wickerhauser em seu artigo que discute justamente o uso da Wavelet Packet em
sinais médicos e imagens e ilustrado na figura 5.2 com um sinal unidimensional (COIFMAN;
WICKERHAUSER 1998).
Figura 5.2: (a) Transf. Wavelet Discreta. (b) Transf. Wavelet Packet.
É amplamente discutido na literatura que devido às propriedades da Transformada
Wavelet é possível gerar excelentes descritores de textura usando os coeficientes obtidos ou a
partir de medidas estatíticas extraídas deles. O que pretende-se aqui é avaliar se a Wavelet
Packet pode ampliar esta capaciade. No entanto, com tantos subespaços gerados após a
aplicação do algoritmo TWP, é natural questionar se todos eles contêm informações capazes
de discriminar particularidades contidas nas imagens. Daí a idéia de se utilizar um algoritmo
para selecionar os subespaços mais relevantes. Seleção esta, que se baseia no uso de uma
função de custo, conforme descrito na seção 3.7. Como foi mencionado, uma das funções de
custo mais atrativa é a baseada na Entropia, particulamente Entropia de Shannon, a qual foi
aplicada nesse estudo. Mas, Wickerhauser (1991) destaca que é importante avaliar outras
funções de custo, ressaltando que em seus testes a função de custo baseada no logaritmo da
energia (Log Energy) sobresaiu-se em determinadas situações, assim esta também foi aplicada
no algoritmo envolvendo a Wavelet Packet e posteriormente no algoritmo que aplica a Best
Basis.
111 . __________________________________________Capítulo 5 – Metodologia do Trabalho Desenvolvido
Entropia: Define-se a Entropia Shannon-Weaver da seqüência }{
i
xx
=
por
=
j
jj
ppxH log)( , onde
2
2
x
x
p
j
j
= e 0log
=
pp se 0
=
p . Essa não é uma função de
informação de custo. Entretanto, a função
=
j
jj
xxx
22
log)(
λ
é. Pela relação
22
log)()( xxxxH +=
λ
, minimizando-se o segundo, minimiza-se o primeiro. Um fato
clássico sobre a entropia é que
)(exp xH
é proporcional ao número de coeficientes necessários
para representar o sinal para um erro de média dos quadrados fixo (mean squared error).
Logaritmo da Energia: Seja
=
j
j
xxM
2
log)( , com 00log
=
sempre que
necessário. Essa é obviamente uma função de informação de custo que pode ser interpretada
como a entropia de um processo Gauss-Markov composto de N variáveis Gaussianas
randômicas de variância
2
2
2
1
2
1
,...,
NN
xx ==
σσ
. A redefinição de log para 0 é equivalente a
ignorar qualquer componente invariável no processo. Minimizando essa função encontra-se a
melhor aproximação para a base Karhunen-Loéve para o processo, a qual atinge o mínimo
global para M sobre todo grupo ortogonal. Lembrando que M é um mapa de seqüências {x
i
}
para
(WICKERHAUSER, 1991).
No capítulo 6 serão discutidos os resultados aplicando-se a Tranformada Wavelet,
Wavelet Packet e o algoritmo Best Basis para seleção das características.
5.3 Conjunto de Dados
Através de uma parceria entre o Hospital Amaral Carvalho de Jaú e o Departamento de
Engenharia Elétrica, da USP, São Carlos, es sendo possível criar um Banco de Imagens
Médicas que atualmente possui mais de 3.000 imagens laudadas.
Capítulo 5 – Metodologia do Trabalho Desenvolvido _________________________________________ 112
O Banco de Imagens está sendo populado, em sua maioria, com imagens de exames de
Medicina Nuclear e principalmente Tomografia Computadorizada de diversas partes do corpo
humano, incluindo abdômen superior, abdômen inferior, crânio, pescoço, pulmão, pelve, tórax,
coluna, entre outras.
As imagens de CT obtidas no Hospital Amaral Carvalho em geral possuem tamanho
512x512, codificação de 8 bits de níveis de cinza e em corte axial, conforme ilustra a figura
5.3. É importante ressaltar que um único exame de CT gera dezenas ou centenas de imagens
seqüênciais. Segundo profissionais da área médica, para fornecer um diagnóstico preciso é
necessário analisar o conjunto completo de imagens de um único exame, porém no presente
estudo na área de processamento de imagens, cada frame será tratado como uma imagem
única que possui características próprias e particulares de cor, forma ou mais especificamente
textura, atributo no qual estão concentradas as pesquisas aqui desenvolvidas.
Figura 5.3: Exemplo de uma série de Imagens de CT de Abdômen Superior em Corte Axial.
As imagens obtidas junto ao Departamento de Medicina Nuclear do Hospital possuem
em sua maioria tamanho 256x256 com codificação de 8 bits de nível de cinza e coloridas,
conforme amostradas na figura 5.4, embora também existam algumas imagens de tamanhos
128x128, 512x512, 1024x1024.
113 . __________________________________________Capítulo 5 – Metodologia do Trabalho Desenvolvido
(a)
(b)
Figura 5.4: (a) Cintilografia Pulmonar. (b) Cintilografia do Esqueleto – Análise do Fluxo
Sangüíneo Ósseo.
No referido conjunto de dados também encontram-se mais de 10.000 imagens de
diversos tipos de exames, resoluções, tamanhos e codificação de cores, obtidas através da
Internet em sites como MyPacs.net, MIRC.org e OsiriX
11
, porém estas em geral não possuem
laudo médico. A figura 5.5 exibe ilustração de conjuntos de imagens disponibilizadas no site
para download.
11
Software Open Source para visualização de imagens multidimensionais DICOM desenvolvido em parceria
com o Departamento de Radiologia do Hospital Universitário de Genebra – Suíça.
http://pubimage.hcuge.ch/
Capítulo 5 – Metodologia do Trabalho Desenvolvido _________________________________________ 114
Figura 5.5: Exemplo de uma série de Imagens de CT de Abdômen Superior em Corte Axial.
Todas as imagens estão em formato DICOM 3.0, o qual está se consolidando a cada dia
como o principal padrão de arquivos utilizados em instituições médicas, conforme discutido
no capítulo 4.
É imprescindível ressaltar que para a realização das pesquisas no presente trabalho, os
dados pessoais de cada paciente devem ser mantidos em sigilo, respeitando as regras
acordadas entre a Comissão de Ética do Hospital Amaral Carvalho e o Departamento de
Engenharia Elétrica da USP, Campus São Carlos.
5.4 Conjunto de Imagens Teste
Para aplicar a Análise Multiresolução Wavelet e Wavelet Packet as imagens devem
conter o mesmo número de linhas e colunas. Assim todas as imagens selecionadas para os
conjuntos de teste, respeitam essa especificação.
De todas as imagens obtidas foram selecionados dois conjuntos para testes. O primeiro
conjunto de imagens para teste é composto por 130 imagens de CT no formato DICOM, com
tamanho 512x512 e com codificação de 8 bits de níveis de cinza. Considerando que um único
exame pode gerar uma seqüência de centenas de imagens e dependendo da orientação do
115 . __________________________________________Capítulo 5 – Metodologia do Trabalho Desenvolvido
paciente e do tipo de corte utilizado no momento do exame, foram obtidas classes distintas de
imagens dentro de uma mesma modalidade de exame. Um exemplo é amostrado na figura 5.6,
que apresenta imagens de um exame de CT de Crânio, contendo 162 imagens no total, que
formam subconjuntos, os quais destacam características diferenciadas de uma mesma parte do
corpo humano.
Figura 5.6: Amostra de imagens de um exame de CT de Crânio.
Assim, as imagens do primeiro conjunto de teste estão subdivididas em 13 classes
provenientes de exames de CT de abdômen inferior, abdômen superior, abdômen completo,
tórax, pulmão, rim, coluna vertebral, cólon, intestino, crânio e rebro. Cada classe possui
imagens da mesma parte do corpo de exames diferentes e algumas do mesmo exame,
simulando as bases de imagens existentes nos hospitais. A figura 5.7 apresenta uma amostra
de imagem de cada classe e a tabela 5.2 descreve o conjunto selecionado.
Figura 5.7: Amostra de imagens das 13 classes selecionadas (primeiro conjunto de testes).
Capítulo 5 – Metodologia do Trabalho Desenvolvido _________________________________________ 116
Tabela 5.2 – Classes de Imagens
Classe Numeração das Imagens Parte do Corpo Tamanho
1 1 à 10 Abdômen Inferior 512 x 512
2 11 à 20 Abdômen Superior 512 x 512
3 21 à 30 Crânio 512 x 512
4 31 à 40 Coluna 512 x 512
5 41 à 50 Coluna 512 x 512
6 51 à 60 Abdômen/Rim 512 x 512
7 61 à 70 Crânio 512 x 512
8 71 à 80 Cólon/Intestino 512 x 512
9 81 à 90 Tórax/Pulmão 512 x 512
10 91 à 100 Tórax/Pulmão 512 x 512
11 101 à 110 Tórax 512 x 512
12 111 à 120 Coluna/Pulmão 512 x 512
13 121 à 130 Abdômen Superior 512 x 512
O segundo conjunto de imagens para teste é composto por 1.200 imagens de CT, MR
e XA (X-ray Angiography) com tamanho 512x512, conforme exemplifica a figura 5.8. As
modalidades de exames e tipo de estudo dessas imagens são descritas na tabela 5.3.
Classe1
Classe 2
Classe 3
Classe 4
Classe 5
Classe 6
Classe 7
Classe 8
Classe 9
Classe 10
Classe 11
Classe 12
Figura 5.8: Amostra de imagens das 12 classes selecionadas (segundo conjunto de testes).
117 . __________________________________________Capítulo 5 – Metodologia do Trabalho Desenvolvido
Tabela 5.3 – Classes de Imagens
Classe Numeração das
Imagens
Estudo Modalidade
Tamanho
1 1 à 100 Lombar MR 512 x 512
2 101 à 200 Joelho MR 512 x 512
3 201 à 300 Denta; CT 512 x 512
4 301 à 400 Pé (Extremidades) CT 512 x 512
5 401 à 500 Seios da Face/Tórax CT 512 x 512
6 501 à 600 Crânio/Tórax CT 512 x 512
7 601 à 700 Crânio/Ombro CT 512 x 512
8 701 à 800 Abdômen/Rim CT 512 x 512
9 801 à 900 Abdômen CT 512 x 512
10 901 à 1000 Angiografia XA 512 x 512
11 1001 à 1100 Tórax CT 512 x 512
12 1101 à 1200 Cardíaco CT 512 x 512
Inicialmente foi selecionado um conjunto menor de imagens (130) para agilizar os
testes, pois desejava-se investigar algumas questões como:
1. Quais características se demonstram mais relevantes para imagens médicas?
2. Qual nível de decomposição contribui para ampliar a exatidão dos resultados?
3. Qual a influência nos resultados ao aplicar outra família de Transformada Wavelet?
4. As características de segunda ordem de Haralick são muito úteis quando o objetivo
é classificar imagens com base no atributo textura. Tal método poderia apresentar melhores
resultados do que a Transformada Wavelet?
5. Haveria necessidade de uma fase de pré-processamento para melhorar a resolução
das imagens antes de se aplicar a Transformada Wavelet?
6. Diferentes métricas podem interferir no desempenho das buscas?
Após identificar as respostas para essas e outras questões os resultados finais foram
avaliados com o segundo conjunto de imagens.
Capítulo 5 – Metodologia do Trabalho Desenvolvido _________________________________________ 118
5.5 Conjunto de Características
Para que possam ser efetuadas consultas baseadas em conteúdo, inicialmente as
imagens coletadas são analisadas e processadas individualmente.
Duas linhas de testes são desenvolvidas. A primeira considerada a aplicação da
Transformada Wavelet e a segunda a aplicação da Transformada Wavelet Packet, ambas em
uma abordagem Multiresolução.
No caso da aplicação da TW e TWP para geração do espaço de características, algumas
estratégias podem ser traçadas com base nos novos espaços gerados após a aplicação das
transformadas. Pode-se utilizar os valores dos coeficientes Wavelets puros gerados após a
transformada para montar os vetores, efetuar uma análise estatística em cada uma das
subbandas, de forma que cada elemento do vetor corresponda a uma descrição de cada
subimagem, permitindo que o conteúdo da imagem original seja corretamente descrito pelo
vetor, ou ainda mesclar as duas estratégias anteriores, montando vetores com valores
estatísticos e valores dos coeficientes Wavelets puros.
Na literatura encontram-se vários estudos objetivando principalmente a análise
estatística dos valores dos coeficientes Wavelets. No presente trabalho, todas essas estratégias
foram avaliadas para montar o espaço de características.
Para efetuar essa análise estatística alguns valores que podem ser extraídos para
destacar algumas propriedades das imagens como a luminosidade, obtida através da média e
variância, a uniformidade, obtida através da energia, e a suavidade da imagem, obtida através
da entropia. A entropia mede a desordem em uma imagem, ou seja, o grau de dispersão de
níveis de cinza.
Dessa forma, uma vez processadas as imagens, calcula-se a média, variância, energia e
entropia dos coeficientes de detalhe e aproximação de cada subespaço gerado pela TW e TWP,
esses valores, são então armazenados em vetores de características para posterior análise com
119 . __________________________________________Capítulo 5 – Metodologia do Trabalho Desenvolvido
as métricas de distância. Tecnicamente, a variância vem a ser a soma de todos os desvios dos
dados amostrais, em relação à média, elevados ao quadrado, soma essa que depois é dividida
por (n-1), ou seja, pelo número de graus de liberdade da amostra. A variância da amostra,
antes da divisão por (n-1) seria uma grandeza representativa da variabilidade total dos dados
amostrais em relação a essa mesma média amostral. Após a divisão, seria uma variância
média (CAMPOS, 2002). De maneira simplista pode-se dizer que primeiro é calculada a
variância da amostra, depois é que se extrai a sua raiz quadrada, para conhecer o desvio-
padrão. Assim, optou-se por empregar apenas o valor de variância dos coeficientes Wavelets.
A vantagem em realizar essa análise estatística nos coeficientes resultantes é que reduz-
-se a dimensionalidade dos dados, uma vez que cada imagem passa a ser representada por
poucos valores. Considerando-se, por exemplo, as medidas estatísticas média, variância e
energia dos últimos subespaços de uma decomposição em dois níveis da TW obtém-se um
vetor com 12 valores, conforme apresentado na tabela 5.4. No caso da TWP, com dois níveis
de decomposição foi gerado um vetor com 48 valores, descritos na tabela 5.5.
Tabela 5.4 – Vetor gerado com o segundo nível de decomposição da TW
Média Variância Energia
1 2 3 4 5 6 7 8 9 10 11 12
C. Apr.
CA
D. Hor.
CH
D. Ver.
CV
D. Diag.
CD
C. Apr.
CA
D. Hor.
CH
D. Ver.
CV
D. Diag.
CD
C. Apr.
CA
D. Hor.
CH
D. Ver.
CV
D. Diag.
CD
Tabela 5.5 – Vetor gerado com o segundo nível de decomposição da TWP
Média Variância Energia
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 ... 32 33 34 ... 48
AA2 AH2 AV2 AD2 HA2 HH2 HV2 HD2 DA2 DH2 DV2 DD2 VA2 VH2 VV2 VD2 AA2 AH2 AV2 AD2 HA2 HH2 ... VD2 AA2 AH2 ... VD2
`
Ao considerar-se um vetor de características montado a partir dos valores puros dos
coeficientes Wavelets sem aplicar qualquer análise estatística, ter-se-ia subespaços de
128x128, totalizando 65.536 elementos no vetor no caso da TW e 262.144 elementos no caso
Capítulo 5 – Metodologia do Trabalho Desenvolvido _________________________________________ 120
da TWP. Tal situação certamente refletiria as conseqüências da “Maldição da alta
dimensionalidade”, descrito na seção 2.3.
uma decomposição com a TW ou TWP em 7 níveis, por exemplo, geraria subespaços
de 4x4, conforme descreve a tabela 5.6, nesse caso é totamente viável usar os coeficientes
Wavelets sem análise estatística para montar os vetores. Além disso, a investigação aqui
realizada e discutida no capítulo 6 mostrou que o subespaço de aproximação, particularmente,
contém informações suficientes para descrever uma imagem e consequentemente podem ser
usados com êxito nas buscas por conteúdo.
Tabela 5.6 – Dimensão dos subespaços em cada nível de decomposição
Nível de Decomposição Dimensão dos subespaços
1º Nível 256 x 256
2º Nível 128 x 128
3º Nível 64 x 64
4º Nível 32 x 32
5º Nível 16 x 16
6º Nível 8 x 8
7º Nível 4 x 4
5.6 Normalização e Uniformização dos Dados
Para analisar os dados numéricos dispostos em um espaço vetorial são necessárias
ferramentas que usam alguma medida de distância. A distância Euclidiana é amplamente
usada nesse tipo de problema, pois em duas ou três dimensões ela fornece um valor de
distância entre os elementos semelhante ao mundo real; no entanto ela pode não ser a solução
ideal para qualquer tipo de análise (FRACOIS; WERTZ; VERLEYSEN, 2005). A escolha da
medida de distância envolve muitas vezes uma grande subjetividade, mas é importante
analisar a natureza das variáveis (ou características extraídas das imagens), se estas são
discretas, contínuas ou binárias; as escalas de medida; se as variáveis são nominais ou
ordinais; o efeito que as diferenças de escala das variáveis provocam sobre o valor das
121 . __________________________________________Capítulo 5 – Metodologia do Trabalho Desenvolvido
distâncias, pois as que apresentam variações e unidades de medida elevadas, facilmente
anularão o efeito das outras variáveis. Para resolver esse problema é comum a prática de
normalização das variáveis, de modo a tornar a sua média nula e o seu desvio padrão unitário.
Howarth et al. (2004), por exemplo, utilizaram em seu trabalho medidas estatísticas
(média e desvio padrão) calculadas após a aplicação da Transformada Wavelet de Gabor
vinculada às características de textura de Haralick. Devido a variação de valores, os vetores
de características foram normalizados usando o desvio padrão de cada elemento no conjunto
de dados completo. Em Leow e Lai (2001), os componentes do vetor de características foram
normalizados dividindo o valor de cada componente pelo valor mais alto dentre os
componentes. Segundo Leow, esse processo remove variações devido a diferença de
intensidades, gerando obviamente novos vetores invariantes à intensidade, os quais passam a
ser considerados como os vetores de características no processo de recuperação de imagens
subseqüente. Xue et al. (2007), também enfatiza que a normalização é requerida para
compensar as disparidades de escala entre os componentes definidos em diferentes domínios.
Ele aplica um método de normalização Gaussiana intra e inter classes.
Assim, a conseqüência de uma normalização ou uniformização nas características
extraídas das imagens médicas aqui estudadas antes do cálculo das distâncias entre os vetores
também foi observada e avaliada. As pseudo-equações 5.1 e 5.2 demonstram o cálculo
realizado no presente estudo para normalizar ou uniformizar os dados.
Normalização: Z
i
= (X
i
- média) / DesvioPadrão (5.1)
Uniformização: Z
i
= (X
i
- Xmin) / (Xmax - Xmin) (5.2)
5.7 Função de Distância
Considerando a importância que diferentes métricas podem refletir no resultado final da
recuperação, implicando inclusive em maior ou menor desempenho na precisão das respostas
Capítulo 5 – Metodologia do Trabalho Desenvolvido _________________________________________ 122
trazidas pelos algoritmos, julgou-se indispensável analisar a variação de desempenho dos
algoritmos de recuperação aplicando-se funções de distância distintas.
Esse teste foi realizado no conjunto de 130 imagens para teste e se repetiu no conjunto
com 1200 imagens. Uma vez concluída a fase de montagem dos vetores de características,
estes foram comparados utilizando as métricas Euclidiana, Euclidiana Normalizada, City-
block, Mahalanobis, Minkowski, Cosseno, Hamming, Jaccard. Sendo que, as que
apresentaram melhores resultados em todos os testes foram a Distância Euclidiana e a City-
block, descritas nas equações 5.3 e 5.4 respectivamente.
Euclidiana:
(
)
2/1
2
=
iirs
yxD
(5.3)
City-block:
)(
1
=
n
j
sjrjrs
xxD
(5.4)
As distâncias resultantes são ordenadas e as n menores distâncias que correspondem
às imagens mais similares são recuperadas. As imagens resultantes da busca estão ordenadas
da menor para a maior, ou seja, da imagem mais semelhante à de referência a a menos
semelhante. Para o conjunto com 130 imagens foram consideradas as 10 imagens mais
semelhantes. Assim, a resposta considerada como ideal à consulta é a exibição das 10
imagens da mesma classe. Para o conjunto com 1200 imagens foram consideradas as 100
imagens mais semelhantes.
Nesse experimento foi implementada a Consulta por Vizinhança (k-Nearest Neighbors
Queries), onde dado um valor inteiro k, retorna os k elementos do conjunto de dados que são
mais similares ao objeto central da consulta.
123 . __________________________________________Capítulo 5 – Metodologia do Trabalho Desenvolvido
5.8 Técnicas Auxiliares
5.8.1 Características para Descrição de Textura de Haralick
A fim de se avaliar a recuperação das imagens dicas aqui estudadas usando as
características de Haralick foi realizado um teste gerando vetores a partir de valores extraídos
das matrizes de co-ocorrência. Para isto foi utilizado um algoritmo desenvolvido pelo
Laboratório de Informática Biomédica da Dra. Mia K. Markey na Universidade do Texas
(GUPTA; MARKEY, 2005)
12
que extrai as 13 características: (Energy, Correlation, Inertia,
Entropy, Inverse Difference Moment, Sum Average, Sum Variance, Sum Entropy, Difference
Average, Difference Variance, Difference Entropy, Infomation measure of correlation 1,
Information measure of correlation 2). Após calcular as matrizes de co-ocorrência nas quatro
direções, foi calculada a média de cada característica para armazenamento no vetor. Para
recuperar as imagens médicas mais similares estes vetores foram comparados usando
Distância Euclidiana. Os resultados são discutidos no capítulo 6.
5.8.2 Pré-processamento da Imagem e Algoritmos Supervionados e Não-
supervisionados.
A maioria dos trabalhos voltados para recuperação de imagens por conteúdo abordam
principalmente a fase de extração de características. Em Rodrigues e Araújo (2003), uma
outra vertente é explorada. Os autores argumentam que em um sistema CBIR a fase de pré-
processamento da imagen pode ser decisiva para ampliar a eficiência das buscas. Eles
implementaram um algoritmo chamado GRAS (Grass Region Arrow Shot), que antes de
extrair as características da imagem, aplica uma filtragem visando diminuir o ruído e definir
as regiões onde o algoritmo de extração irá trabalhar. As operações realizadas na fase de pré-
12
Haralick Texture Features Matlab Toolbox VERSION 0.1b
http://bmil.bme.utexas.edu/publications
Capítulo 5 – Metodologia do Trabalho Desenvolvido _________________________________________ 124
processamento são clássicas e constam de eliminação de ruído usando o filtro da média e
detecção de bordas com o filtro de Sobel. Em alguns casos, eles eliminam pequenas regiões
da imagem através de operações morfológicas como a dilatação. Os resultados desse trabalho
mostram que mesmo utilizando um processamento simples, obtém-se resultados satisfatórios
na fase de extração e consequentemente nas pesquisas, esse ganho pode representar de 5 a
60% dependendo do perfil das imagens contidas na base de dados.
Considerando essa idéia analisou-se o benefício que uma fase de pré-processamento
antes do cálculo dos coeficientes com a Transformada Wavelet poderia trazer na recuperação
das imagens aqui estudadas.
O filtro da média pode ser implementado usando uma máscara 3x3 com todos os
coeficientes igual a 1, dividindo o resultado da operação por um fator de normalização, nesse
caso igual a 9. Na escolha do tamanho da máscara deve-se considerar que quanto maior a
máscara, maior o grau de borramento da imagem resultante. As figuras 5.9 apresentam uma
imagem onde foi aplicado convolução com uma máscara 3x3 ou 5x5. A diferença é mínima e
o restante da base apresentou basicamente o mesmo comportamento.
Figura 5.9: (a) Imagem Original. (b) Convolução com Máscara 3x3. (c) Convolução com
Máscara 5x5.
125 . __________________________________________Capítulo 5 – Metodologia do Trabalho Desenvolvido
Informações adicionais sobre esses conceitos podem ser encontradas em (GONZALEZ;
WOODS, 2000).
5.9 Materias
Os experimentos foram realizados utilizando equipamento com processador Intel Core
2 Duo de 1.8Ghz, 2Gb de memória de RAM, 2Mb de cache e 120Gb de HD de 5.400rpm
(rotações por minuto). A informação sobre o cache é importante, pois ao repetir a busca
muitas informações se encontram no cache da máquina, tendendo a ser mais rápida. A
informação sobre a capacidade física do HD nesse caso é irrelevante, mas a informação sobre
a velocidade do disco é útil, pois quanto maior, mais rápido as informações serão carregadas
para a memória. Os algoritmos foram desenvolvidos com o auxílio da ferramenta Matlab
versão 7.0 (R14).
Capítulo 6
Capítulo
6
Resultados e Conclusões
6.1 Considerações Iniciais
Neste capítulo será apresentada uma descrição dos experimentos desenvolvidos,
resultados e conclusões obtidas com as técnicas baseadas nas Transformadas Wavelet e
Wavelet Packet e o algoritmo Best Basis descritos no capítulo 3. A decomposição Wavelet
localiza descontinuidades, enquanto que a análise da melhor base (Best Basis) encontra as
freqüências vibrantes e a representação ótima dentro da biblioteca. O objetivo é investigar se
essas variações da Transformada Wavelet original refletem de maneira positiva para extração
das características nas imagens e consequentemente aumentem o desempenho das buscas.
Estabelece-se um comparativo entre o desempenho das transformadas. Além, de avaliar
outros itens que interferem no processo de busca como a escolha da medida de
dissimilaridade, a normalização e uniformização dos dados e a combinação das características
extraídas para montagem dos vetores.
127 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
Vale ressaltar que a principal Wavelet usada nos testes foi a Wavelet de Haar por razões
discutidas na seção 5.2, mesmo que omitida das instruções do experimento. Quando a
Wavelet Biorthogonal for empregada esta será mencionada no texto.
6.2 Análise do Nível de Decomposição
Para realizar alguns testes fundamentais para esse estudo, foram inicialmente separadas
130 imagens de CT e MR com tamanhos 512x512, conforme descrito na seção 5.4. Assim, os
testes descritos a seguir baseiam-se nesse primeiro conjunto de teste. Ao utilizar a
Transformada Wavelet para extrair características de imagens, uma das questões a serem
respondidas é quantos níveis de decomposição aplicar para obter resultados satisfatórios, ou
ainda em qual nível de decomposição os resultados obtidos são melhores, além de qual dos
coeficientes gerados contém informações mais relevantes. Dessa forma, um dos primeiros
testes realizados visava aplicar a transformada em cada imagem e montar vetores de
características usando apenas os coeficientes de aproximação ou detalhes horizontais,
verticais ou diagonais do último nível de decomposição, a figura 6.1 ilustra os filtros
aplicados e os coeficientes gerados pela decomposição.
LL
(Low-Low)
Aproximação
LH
Det.
Horizontais
HL
Det.
Verticais
HH
Det.
Diagonais
LH
(Low-High)
Det. Horizontais
HL
(High-Low)
Det. Verticais
HH
(High-High)
Det. Diagonais
Figura 6.1: Decomposição Wavelet em dois níveis.
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 128
As informações do espectro são armazenadas na banda de aproximação, logo esses
coeficientes contêm informações suficientes para descrever a imagem, uma vez que é uma
versão passa-baixa da imagem orignal, por isto sobrassairam-se nos testes. As imagens de
detalhes, grosso modo, nada mais são do que a representação das bordas em cada uma das
direções obtidas pela transformada. Foram gerados vetores de características com tamanhos
variados de acordo com o nível de decomposição, conforme a tabela 6.1.
Tabela 6.1 – Número de Elementos no Vetor: Coeficientes Wavelets
Decomposição Tamanho da Imagem No. de Elementos no Vetor
2º Nível 128 x 128 16.384
3º Nível 64 x 64 4.096
4º Nível 32 x 32 1.024
5º Nível 16 x 16 256
6º Nível 8 x8 64
7º Nível 4 x4 16
Os resultados podem ser analisados a partir de gráficos Recall x Precision, exibidos na
figura 6.2. Os vetores foram comparados usando distância Euclidiana e nota-se que os
coeficientes de aproximação alcançaram maior precisão nas buscas em todos os níveis.
Outro fato notável é que embora o 6º nível gere uma matriz 8x8, o que implicará em um
vetor de apenas 64 valores, foi o que manteve maior média geral (93%) contra 81% usando
vetores com coeficientes de detalhes horizontais, 76%, com detalhes diagonais e 82% com
detalhes verticias. Ressaltando mais uma vez a capacidade das Wavelets em representar dados
com poucos valores, além disso, os coeficientes de aproximação guardam informações de
textura e forma da imagem original, os coeficientes de detalhes enfatizam as discrepâncias
entre as freqüências, ressaltando as altas freqüências. A diferença de valores entre os
coeficientes também deve ser considerada com um fator relevante, coeficientes de
aproximação possuem uma escala de valores mais altos que os demais coeficientes, o que
pode implicar em maior poder de discriminação. A matriz de confusão, exibida na figura 6.3
129 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
comprova esses dados e demonstra que poucas classes se misturaram. Das 13 classes, 8
classes recuperaram 100% das imagens corretas em todas as buscas. As demais matrizes
geradas com os coeficientes de detalhes do nível de decomposição podem ser encontradas
no Apêndice A.
Figura 6.2: Eficiência de recuperação usando vetores com coeficientes Wavelets (TW).
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 130
Figura 6.3: Matriz de confusão – TW com 6 níveis, coeficientes de aproximação.
6.3 Resultados obtidos com a Normalização e Uniformização dos Dados
Analisando os valores dos coeficientes de aproximação das diversas imagens do
conjunto de teste, nota-se que há diferenças a serem consideradas. Assim, optou-se por
realizar uma uniformização nos dados, de forma que todos os valores fiquem compreendidos
no intervalo de 0 a 1 e também uma normalização a fim de eliminar qualquer grande diferença
de valores entre os dados, usando as equações descritas na seção 5.6. No caso dos CA
(Coeficientes de Aproximação) tais métodos não geraram impacto no desempenho das buscas,
as matrizes de confusão exibidas nas figuras 6.4 e 6.5 resultam em média de eficiência de
93% com os dados normalizados, exatamente o mesmo valor obtido com os vetores de valores
puros dos coeficientes de CA e 92% com os dados uniformizados. A única variação
perceptível refere-se a média de acerto individual de algumas classes, as quais estão
destacadas nas matrizes de confusão. No entanto, ao trabalhar com características distintas
nos testes demonstrados a partir da seção 6.10 verifica-se que esses processos geram grandes
diferenças nos resultados finais.
131 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
Figura 6.4: Matriz de confusão
13
– TW com 6 níveis, CA normalizados.
Figura 6.5: Matriz de confusão – TW com 6 níveis, CA uniformizados.
6.4 Análise da Wavelet Biorthogonal
Conforme discutido na seção 5.2, alguns autores usam a Wavelet Biorthogonal ao invés
da Wavelet de Haar para extração de características alegando melhores resultados. Sabe-se
que simetria e reconstrução exatas são incompatíveis (exceto para Wavelet de Haar) se os
mesmos filtros FIR (Finite Impulse Response) são usados para reconstrução e decomposição.
Assim, a biorthogonal utiliza duas funções base wavelet ao invés de uma, sendo uma para
decomposição e outra para reconstrução, visando simetria com suporte compacto. Assim, tal
Wavelet foi implementada para análise com 6 níveis de decomposição, montando sempre o
vetor com todos os coeficientes de aproximação do último nível. As Wavelets Biortogonais
bior1.1, bior1.3, bior1.5, bior2.2, bior2.4, bior2.6, bior2.8, bior3.1, bior3.5, bior3.7, bior3.9,
13
A eficiência de recuperação é a obtida pela média da diagonal principal da matriz de confusão
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 132
bior4.4, bior5.5, bior6.8, onde biorN.N indica o número de momentos nulos dos filtros de
análise e síntese, os quais devem possuir a mesma altura, foram testadas e comparadas com os
resultados da Wavelet de Haar.
Observa-se nos gráficos Recall x Precision exibidos na figura 6.6 que a Bior1.1 possui
desempenho semelhante a Wavelet de Haar. As demais Biortogonais demonstram resultados
abaixo dos obtidos. Isto porque a Bior1.1 utiliza os mesmo filtros de Haar, conforme exibe
a figura 6.7 e a matriz de confusão na figura 6.8 consolida essa informação.
Figura 6.6: Recall x Precision comparativo entre as Wavelets de Haar e Biorthogonal
133 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
1 1.5 2
0
0.2
0.4
0.6
0.8
Dec. low-pass filter bior1.1
1 1.5 2
-1
-0.5
0
0.5
1
Dec. high-pass filter bior1.1
1 1.5 2
0
0.2
0.4
0.6
0.8
Rec. low-pass filter bior1.1
1 1.5 2
-1
-0.5
0
0.5
1
Rec. high-pass filter bior1.1
Figura 6.7: Filtros da Wavelet Biorthogonal 1.1 (LE-TIEN; CHIEN, 2004).
No primeiro gráfico da figura 6.6 que compara a Wavelet de Haar com as Biortogonais
1.1, 1.3, 1.5 cabe uma observação à Bior1.3 e Bior1.5 que apresentaram bom desempenho
enquanto a faixa de revocação é menor, buscando cerca de 60% da base. Ao ampliar a faixa
de busca, no entanto, os valores dos coeficientes extraídos perdem um pouco seu poder em
separar as imagens, fazendo com que deixem de ser tão eficiente. Analisando o gráfico
verifica-se que isto é mais nítido na Bior1.5, que embora a curva demonstre excelente
desempenho nas buscas com revocação menor, acaba literalmente “despencando” conforme
as revocacões aumentam. a Wavelet de Haar e Bior1.1 mantém um boa média de
recuperação para a toda base.
Nota-se que a matriz de confusão da Bior1.1 ilustrada na figura 6.8 exibe exatamente os
mesmo valores da matriz de confusão gerada com Wavelet de Haar e consequentemente a
mesma média de eficiência.
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 134
Figura 6.8: Matriz de confusão da Biorthogonal 1.1 com 6 níveis de decomposição.
Assim, considerando que os resultados foram inferiores à Wavelet de Haar e nos testes
realizados por Bianchi (2006) essas foram as Wavelets com melhores desempenhos para
extrair características de imagens para posterior recuperação, definiu-se para a continuidade
das análises, utilizar a Wavelet de Haar. Obviamente que, diferentes Wavelets podem
apresentar desempenhos distintos dependendo do conjunto de dados a ser analisado, mas,
testar várias Wavelets para avaliar qual delas é mais adequada para o conjunto de dados em
questão, está fora do escopo deste projeto. Essa tarefa, no entanto, pode ser desenvolvida em
um trabalho futuro.
6.5 Resultados obtidos com Imagens pré-processadas
Conforme descrito no item 5.2.7.2 da metodologia, alguns autores pré-processam as
imagens antes da fase de extração de características.
As matrizes de confusão do Apêndice B apresentam exatamente os mesmos valores de
recuperação ao se usar um filtro da média de 3x3 ou 5x5 convoluída com a imagem. A média
de eficiênca de recuperação ficou em 92%, ou seja, 1% menor que os resultantes obtidos
usando os coeficientes de aproximação Wavelet, o que se observa ao comparar as matrizes é
135 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
que algumas classes que não haviam atingido 100% de acerto em todas as buscas passou a
atingir esse valor. Por outro lado, determinadas classes registraram queda no desempenho.
O filtro de Sobel também foi aplicado nas imagens da base de estudo. Esse filtro
permite detectar bordas nos pontos onde o gradiente da imagem é maior. A figura 6.9 ilustra o
processo. Porém, novamente a média da matriz de confusão resultou em 92% de eficiência de
recuperação, mostrando que para o conjunto de dados desse estudo, tais técnicas não
agregaram melhorias.
Figura 6.9: (a) Imagem Original. (b) Filtro de Sobel
6.6 Análise utilizando as Características de Haralick
De acordo com argumentação preliminar na seção 5.8.1, as características de textura
propostas por Haralick extraídas de matrizes de co-ocorrência são exaltadas por muitos
autores como excelente mecanismo para descrição de textura. Dessa forma, visando avaliar o
comportamento de tais medidas estatísticas de segunda ordem no conjunto de dados aqui
estudado, foi aplicado um algoritmo que calcula a matriz SGLD (Spatial Grey Level
Dependence). De acordo com o autor do algoritmo
14
é recomendável que inicialmente a
imagem tenha seu histograma equalizado, para depois ser passada como parâmetro de entrada
para o algoritmo, juntamente com a distância entre os pixels e ângulo para cálculo da matriz
14
Laboratório de Informática Biomédica da Dra. Mia K. Markey na Universidade do Texas
http://bmil.bme.utexas.edu/publications
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 136
SGLD. Para cada imagem do banco foram calculadas quatro matrizes de co-ocorrência nos
seguintes ângulos (0
o
, 45
o
, 90
o
, 135
o
) e dessas matrizes foram extraídas as 13 características
(Energy, Correlation, Inertia, Entropy, Inverse Difference Moment, Sum Average, Sum
Variance, Sum Entropy, Difference Average, Difference Variance, Difference Entropy,
Infomation measure of correlation 1, Information measure of correlation 2). Após cálculo das
diferentes matrizes e das medidas estatísticas, foi extraída a média de cada uma dessas 13
características de textura das quatro matrizes gerando um vetor final com a média das mesmas.
A comparação desses vetores foi realizada usando distância Euclidiana, no entanto a
média de acerto da Matriz de confusão ficou muito abaixo quando comparada com a
utilização dos coeficientes de aproximação, conforme pode ser observado na figura 6.10, 38%
neste caso, contra 93% para a recuperação com os coeficientes de aproximação (ver figura
6.3). Essas características extraídas são globais, talvez uma segmentação na imagem antes da
extração das características poderia contribuir positivamente para melhorar os resultados, pois
assim poder-se-ia aplicar Haralick especificamente na região segmentada, analisando dessa
forma regiões específicas da imagem. O fato é que nesse caso, o foco do trabalho voltar-se-ia
ao estudo das características de Haralick, o que não é o objetivo aqui. “Haralick” apenas foi
aplicado como uma tentativa de ampliar o desempenho nas buscas e para analisar qual seria o
comportamente dessa técnica no conjunto de dados estudado. Mas, fica a ressalva para uma
investigação futura.
Figura 6.10: Matriz de confusão gerada a partir das 13 Características de Haralick.
137 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
6.7 Algoritmo Não supervisionado
Conforme discutido na seção 5.8.2 e considerando-se os resultados descritos na seção
6.2, onde o melhor desempenho de recuperação foi obtido usando-se apenas os Coeficientes
de Aproximação, decidiu-se avaliar o desempenho de cada grupo de coeficientes (CA, CH,
CV, CD). O segundo melhor resultado obtido, neste caso, ficam os Coeficientes Horizontais
para gerar o vetor, o terceiro melhor resultado foi obtido com os Coeficinetes Verticias e em
último lugar com os Coeficientes Diagonais, conforme demonstra a tabela 6.2.
Tabela 6.2 – Média de Acertos em cada Classe usando CA, CH, CD ou CV no vetor
CA CH CD CV
Classe 1 10,00
10,00
10,00
10,00
Classe 2 9,90
10,00
9,60
10,00
Classe 3 10,00
10,00
9,90
10,00
Classe 4 9,90
5,40
4,90
5,70
Classe 5 10,00
6,60
10,00
6,10
Classe 6 10,00
9,70
5,00
5,00
Classe 7 8,50
9,60
9,30
9,00
Classe 8 9,00
5,90
3,50
8,20
Classe 9 4,10
3,90
2,80
2,70
Classe 10 10,00
8,80
6,70
9,70
Classe 11 9,70
7,90
8,60
9,70
Classe 12 10,00
9,80
10,00
10,00
Classe 13 10,00
8,30
8,40
10,00
Média Geral 9,32 8,15 7,59 8,16
Utilizando a imagem 31 (número que representa a imagem no conjunto de testes) como
exemplo, cujas imagens da mesma classe são identificadas pelos números de 31 a 40, verifica-
se que variação no resultado das buscas quando considera-se apenas CA, CH, CV ou CD
como elementos do vetor. Na tabela 6.3, observa-se que a busca com CA traz 9 imagens
corretas das dez possíveis. A busca com CD traz a imagem 40 não constante nas buscas com
CA, CH e CV. Assim, utilizando-se todos os coeficientes em uma busca não-supervisionada,
avaliou-se o possível aumento de desempenho de recuperação sem a intervenção do usuário,
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 138
através de um algoritmo não-supervisionado que utilizasse as melhores taxas de cada conjunto
de características (CA, CH, CV ou CD).
Tabela 6.3 – Recuperação da Imagem 31 usando Vetor com Diferentes Coeficientes
CA
31
32
33
39
35
37
36
34
38
81
CH
31
32
33
39
37
35
34
88
85
66
CV
31
32
33
39
81
37
63
62
64
61
CD
31
32
33
39
40
34
81
85
83
66
O algoritmo proposto possui os seguintes passos:
1. Decomposição da imagem com a Transformada Wavelet de Haar em 6 níveis
(melhor resultado obtido);
2. Cálculo dos coeficientes de aproximação, detalhes horizontais, verticais e diagonais
(CA, CH, CV e CD), armazenando-os em vetores independentes;
3. Comparação do vetor contendo CA da imagem de referência (imagem identificada
como 31, por exemplo) com os demais vetores usando a Distância Euclidiana e
registro do resultado;
4. Comparação do vetor contendo CH da imagem de referência com os demais vetores
usando a Distância Euclidiana e registro do resultado. Idem para CD e CV;
a. Após esses passos o algoritmo identificará as 40 imagens mais semelhantes
à imagem de referência.
5. Análise dos resultados e escolha das 10 imagens mais similares dentre as 40
encontradas, sem repetição.
A matriz de confusão exibida na figura 6.11 descreve o desempenho das buscas usando
essa metodologia. O que nota-se é que mais uma tentativa em elevar os resultados mostrou-se
insuficiente para tal propósito. A média de eficiência ficou em torno de 78% contra 93%
obtidos apenas com CA do 6º nível.
139 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
Figura 6.11: Matriz de confusão resultante da aplicação do algoritmo não-supervisionado.
6.8 Análise de Métricas para Cálculo da Dissimilaridade
Aqui são apresentados os resultados dos testes mencionados na seção 5.7, envolvendo
métricas distintas. Durante a revisão bibliográfica pôde-se observar que diferentes autores
utilizam métricas distintas, cada um enfatizando sua escolha. O desempenho da métrica
depende do conjunto de dados e principalmente das características extraídas e do tipo de
distribuição gerada por essas características. Assim, julgou-se necessário validar os resultados
utilizando as principais tricas encontradas na literatura. O cálculo da dissimilaridade entre
a imagem de referência e as demais imagens da base foi implementado utilizando-se as
seguintes métricas: Euclidiana, Euclidiana Normalizada, City-block, Mahalanobis,
Minkowski, Jacard, Coseno, Hamming, Correlação.
O gráfico exibido na figura 6.12 apresenta uma consolidação dos testes realizados e no
Apêndice C, podem ser encontradas as matrizes de confusão obtidas. A distância de
Mahalanobis é apropriada quando existem significantes diferenças nos dados, uma vez que ela
ressalta a variabilidade entre os dados baseada na matriz de covariância.O resultado inferior
mostra que os dados (imagens da base) o possuem grande variância entre si. Os testes
também mostram que embora a distância Euclidiana seja muito difundida para recuperação de
imagens e várias outras aplicações realmente pode não ser a solução ideal para qualquer tipo
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 140
de análise, fato que fica mais evidente ao se utilizar o segundo conjunto de testes com 1200
imagens. Por fim, a distância City-block ou Manhathan demonstrou ser a mais adequada para
os dados aqui analisados e consequentemente passou a ser utilizada nos testes que se seguem
a partir desse ponto.
Figura 6.12: Desempenho das métricas de dissimilaridade.
6.9 Ampliação da Base de Testes
Os testes realizados na base inicial de 130 imagens objetivaram identificar técnicas que
otimizassem a recuperação das imagens médicas. Além disso, tais técnicas precisavam ser
aplicadas na análise da Transformada Wavelet Packet. Assim, da base de imagens atual obtida
no Hospital Amaral Carvalho de Jaú e de outros conjuntos de imagens de exames variados
disponíveis on-line (ver seção 5.3), foi montado o segundo conjunto de testes com 1.200
imagens de CT, MR e XA (X-ray Angiography), com tamanho 512x512, em veis de cinza,
separadas em 12 classes com 100 imagens cada.
As referidas imagens foram selecionadas com auxílio de técnicas de análise de
agrupamentos explanadas na seção 2.6.3. A matriz de distâncias City-block, calculada com
141 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
base nos vetores com CA do nível foi passada como parâmetro para geração dos clusters.
Vários todos de ligação foram avaliados na geração dos agrupamentos (ligação simples,
ligação completa, ligação média, centróide, weighted
15
, mediana
16
e ward
17
). O número
máximo de agrupamentos considerado foi doze. Assim, uma separação ideal apresentaria 100
elementos da mesma classe em cada agrupamento. A tabela 6.4 mostra a quantidade de
elementos em cada cluster e um resumo de quantas e quais classes cada todo de ligação
conseguiu criar sem haver qualquer mistura com elementos de classes distintas. Na referida
tabela, observa-se que usando o método de ligação ward foi possível separar 8 classes das 12
existentes com 100% de precisão, ou seja, os 100 elementos agrupados pertencem a mesma
classe. A tabela 6.5 discrimina quais tipos de elementos foram agrupados em cada cluster e a
figura 6.13 apresenta o Dendograma resultante com valor de corte igual a 12. O uso dessas
técnicas ajudou na seleção das imagens, indicando de certa forma quais classes teriam maior
probabilidade de se misturar.
Tabela 6.4 – Agrupamentos gerados de acordo com o método de ligação
Método de ligação
Simples Completa Média Centróide
Weighted Median Ward
Cluster 1
431
403
427
427
427
427
244
Cluster 2
67
51
61
70
44
48
55
Cluster 3
1
35
2
3
17
19
87
Cluster 4
1
9
10
100
102
102
100
Cluster 5 100
102
100
100
10
4
100
Cluster 6
221
100
100
100
100
100
100
Cluster 7
79
100
100
100
100
100
100
Cluster 8
14
100
100
14
100
100
100
Cluster 9
86
100
14
86
100
100
100
Cluster 10 100
14
86
100
14
14
14
Cluster 11
36
86
100
36
86
86
100
Cluster 12
64
100
100
64
100
100
100
Número de
classes separadas
2 6 6 5 6 6 8
Identificação das
classes separadas
2, 11
3, 5, 6, 8,
11, 12
3, 5, 6, 8,
11, 12
3, 5, 6, 8,
11
3, 5, 6, 8,
11, 12
3, 5, 6, 8,
11, 12
3, 4, 5, 6, 7,
8, 11,12
15
Weighted: distância media ponderada (WPGMA)
16
Mediana: distância do centro de massa ponderada (WPGMC)
17
Ward: algoritmo da distância mínima.
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 142
Tabela 6.5 – Discriminação dos elementos em cada cluster
Agrupamento Qtde. de elementos Identificação
Cluster 1 244 Classe 1 completa, elementos da classe 2 e 10
Cluster 2 55 Elementos da classe 2
Cluster 3 87 86 elementos da classe 9 e elemento 178 (classe 2)
Cluster 4 100 Classe 3
Cluster 5 100 Classe 4
Cluster 6 100 Classe 5
Cluster 7 100 Classe 6
Cluster 8 100 Classe 7
Cluster 9 100 Classe 8
Cluster 10 14 Elementos da classe 9
Cluster 11 100 Classe 11
Cluster 12 100 Classe 12
Figura 6.13: Dendograma de agrupamento das classes.
6.10 Recuperação das Imagens usando a Transformada Wavelet
As infomações coletadas com base nos testes anteriores destacam detalhes importantes
que devem ser considerados em um sistema de recuperação de imagens por conteúdo. A
normalização ou uniformização nos dados pode alterar o desempenho final de um sistema
CBIR, além dissso, quando se trata da utilização da Transformada Wavelet cada nível de
decomposição pode identificar características distintas que contibuam ou não para o processo,
e a escolha da métrica revelou-se como um fator decisivo. Ao ampliar o número de imagens
3 10 4 2 12 1 8 5 6 7 9 11
1
2
3
4
5
6
x 10
7
DENDOGRAMA
todo de Ligação: WARD
143 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
para o conjunto de testes finais julgou-se relevante revalidar algumas técnicas anteriores, a
fim de se obter dados mais concretos que comprovem a eficiência da metodologia aplicada.
O primeiro passo nessa etapa consistiu em aplicar a Transformada Wavelet
decompondo as 1200 imagens em 2, 3, 4, 5, 6 e 7 níveis. Em cada nível de decomposição
foram gerados vetores com características distintas. Trabalhou-se com vetores cujos
elementos eram todos os coeficientes wavelet e vetores cujos elementos eram medidas
estatísticas de primeira ordem obtidas dos coeficientes wavelet, além de vetores que
mesclavam esses dados, conforme descritos na tabela 6.6, sempre considerando o último nível
de decomposição, o que gerou vetores de tamanhos distintos dependendendo das
características e nível de decomposição utilizado.
Tabela 6.6 – Composição dos Vetores de Características: Transf. Wavelet
Características no vetor Abreviação
Coeficientes de Aproximação
CA
Coeficientes de Aproximação + Coefic. de Detalhe Horizontal +
Coefic. de Detalhe Vertical + Coefic. de Detalhe Diagonal
CA + DH + DV + DD
Coeficientes de Aproximação + Média, Variância e Energia dos
Coeficientes de Aproximação
CA + MVE da CA
Coeficientes de Aproximação + Média, Variância e Energia dos
Coeficientes de Aproximação, Detalhe Horizontal, Detalhe
Vertical e Detalhe Diagonal
CA + MVE (ca, dh, dv, dd)
Média, Variância e Energia dos Coeficientes de Aproximação,
Detalhe Horizontal, Detalhe Vertical e Detalhe Diagonal
MVE (ca, dh, dv, dd)
Coeficientes de Aproximação + Entropia Global da Imagem
CA + EntropGlobal
Coeficientes de Aproximação + Entropia da Imagem de
Aproximação
CA + Entrop(ca)
O cálculo da dissimilaridade entre esses vetores empregou as Distâncias City-block e
Euclidiana, a fim de comprovar através de uma base maior a diferença de desempenho entre
elas, pois se a distância City-block mostrou-se superior à Euclidiana em uma base de teste
com 130 imagens, tal fato deveria se repetir com as 1200 imagens. De todas as matrizes de
confusão geradas com os vetores da tabela 6.6, em 90% delas a distância City-block
apresentou maior eficiência, atingindo pico de 26,07% e mantendo média de 5,23% superior à
distância Euclidiana. Esses dados podem ser observados na tabela 6.7 que apresenta uma
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 144
síntese dos testes realizados envolvendo a Transformada Wavelet. Nessa tabela, encontram-se
a quantidade de elementos que compõe o vetor, além da dia da diagonal da matriz de
confusão em cada nível de decomposição e para cada tipo de vetor, totalizando 41 testes. A
tabela também estabelece um comparativo entre as métricas.
O primeiro melhor resultado91,36% de eficiência na recuperação – ocorre no 7º nível
de decomposição, usando um vetor com 64 elementos composto pelas linhas de uma matriz
4x4 de coeficientes de aproximação, detalhe horizontal, detalhe vertical e detalhe diagonal do
último nível de decomposição (4* (4*4)). Já no segundo melhor resultado – 91,15% de
eficiência – observa-se um empate entre a recuperação com um vetor de 64 elementos
formado por uma matriz 8x8 dos coeficientes de aproximação do nível de decomposição e
um vetor com 65 valores formado pela matriz 8x8 dos coeficientes de aproximação acrescidos
do valor de entropia da subimagem gerada no 6º nível. Uma vez comprovada que realmente a
métrica interfere no desempenho de recuperação e que para o conjunto de dados aqui
estudados a City-block sobresai-se às demais, precisava-se constatar a interferência de um
processo de normalização ou uniformização nesses vetores antes do cálculo da dissimilaridade.
Dessa forma, foi implementada uma alteração no algoritmo para que após a extração
dos coeficientes ou das medidas estatísticas, esses dados fossem normalizados ou
uniformizados antes de serem passados como parâmetros para recuperação. Os novos
resultados após uniformização são comparados com os anteriores e sintetizados na tabela 6.8.
Observa-se que o primeiro melhor resultado, passou de 91,36% para 91,59%, percentualmente
a diferença é pequena, mas algumas alterações devem ser enfatizadas:
1. Esse resultado ocorreu no nível de decomposição e não mais no nível
diminuindo assim o tempo de processamento.
2. O vetor que gerou esse resultado é composto por 268 elementos composto de uma
matriz 16x16 de coeficientes de aproximação, acrescido de valores estatísticos de média,
145 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
variância e energia de cada um dos subespaços gerados no Nível, contra os 64 elementos
do melhor resultado anterior.
o segundo melhor resultado não sofreu tanta variação, uma vez que emprega um
vetor com 64 elementos provenientes de uma matriz 8x8 dos CA do 6º nível.
A mesma variação também pode ser observada na tabela 6.9 que apresenta uma síntese
das dias de eficiência de recuperação obtidas a partir das matrizes de confusão geradas
calculando-se a dissimilaridade entre vetores normalizados, onde tanto o primeiro quanto o
segundo melhor resultado derivaram de vetores com CA acrescido de medidas estatísticas.
Assim, pode-se afirmar que operações de normalização e uniformização de dados certamente
interferem no desempenho da recuperação, mas é preciso uma avaliação cautelosa sobre os
ganhos conseguidos antes de qualquer generalização.
Capítulo 6 – Resultados e Conclusões ___________________________________________________________________________________________________________ 146
Tabela 6.7 –Comparativo das médias de eficiência de recuperação usando as distâncias City-block e Euclidiana para cálculo da
dissimilaridade entre vetores com valores “puros”, obtidas a partir de matrizes de confusão.
Transformada Wavelet
2
o
Nível 3
o
Nível 4
o
Nível 5
o
Nível 6
o
Nível 7
o
Nível
Características no
Vetor
Qtde Cityblock Euclidiana Qtde Cityblock Euclidiana Qtde Cityblock Euclidiana Qtde Cityblock Euclidiana Qtde Cityblock Euclidiana Qtde Cityblock Euclidiana
CA
16.384 87,75% 84,04% 4.096 88,52% 85,67% 1.024 89,70% 87,76% 256 90,94% 89,75% 64
91,15%
90,45% 16 88,60% 88,47%
CA+DH+DV+DD 65.536 inviável 16.384 83,12% 84,04% 4.096 83,49% 85,67% 1.024 84,65% 87,76% 256 88,12% 89,75% 64 91,36% 90,45%
CA + MVE da CA
16387 88,64% 62,57% 4099 82,94% 59,02% 1027 70,38% 60,36% 259 64,36% 62,23% 67 61,97% 61,69% 19 56,11% 56,05%
CA + MVE (ca…cd)
16396 88,74% 62,70% 4108 83,19% 59,43% 1036 72,76% 61,64% 268 67,76% 64,54% 76 68,39% 65,89% 28 74,73% 73,86%
MVE (ca…cd)
12 60,60% 58,11% 12 61,42% 58,92% 12 64,60% 61,61% 12 66,48% 64,54% 12 68,23% 65,89% 12 74,72% 73,86%
CA + EntropGlobal
16385 87,96% 77,94% 4097 88,68% 78,57% 1025 89,38% 78,79% 257 88,95% 78,80% 65 87,32% 77,88% 17 82,40% 74,99%
CA + Entrop(ca)
16385 87,78% 84,46% 4097 88,54% 85,72% 1025 89,71% 87,76% 257 90,94% 89,75% 65
91,15%
90,45% 17 88,60% 88,47%
Tabela 6.8 Comparativo das médias de eficiência de recuperação usando a distância City-block para cálculo da dissimilaridade entre
vetores com valores “puros” e uniformizados, obtidas a partir de matrizes de confusão.
Transformada Wavelet
2
o
Nível 3
o
Nível 4
o
Nível 5
o
Nível 6
o
Nível 7
o
Nível
Características no
Vetor
Qtde Cityblock Uniformiz. Qtde Cityblock Uniformiz. Qtde Cityblock Uniformiz. Qtde Cityblock Uniformiz. Qtde Cityblock Uniformiz. Qtde Cityblock Uniformiz.
CA
16.384 87,75% 88,23% 4.096 88,52% 88,96% 1.024 89,70% 90,31% 256 90,94% 91,35% 64 91,15%
91,41%
16 88,60% 88,94%
CA+DH+DV+DD
65.536 16.384 83,12% 71,78% 4.096 83,49% 73,79% 1.024 84,65% 76,15% 256 88,12% 80,98% 64 91,36% 89,76%
CA + MVE da CA
16387 88,64% 88,24% 4099 82,94% 88,99% 1027 70,38% 90,37% 259 64,36% 91,30% 67 61,97% 91,03% 19 56,11% 87,23%
CA + MVE (ca…cd)
16396 88,74% 88,29% 4108 83,19% 89,20% 1036 72,76% 90,80% 268 67,76%
91,59%
76 68,39% 91,03% 28 74,73% 86,51%
MVE (ca…cd)
12 60,60% 77,39% 12 61,42% 75,46% 12 64,60% 75,25% 12 66,48% 72,81% 12 68,23% 71,33% 12 74,72% 75,07%
CA + EntropGlobal 16385 87,96% 88,23% 4097 88,68% 88,97% 1025 89,38% 90,30% 257 88,95% 91,32% 65 87,32% 91,21% 17 82,40% 87,80%
CA + Entrop(ca)
16385 87,78% 88,24% 4097 88,54% 88,97% 1025 89,71% 90,31% 257 90,94% 91,31% 65 91,15% 91,11% 17 88,60% 87,39%
147 . ____________________________________________________________________________________________________________Capítulo 6 – Resultados e Conclusões
Tabela 6.9 Comparativo das médias de eficiência de recuperação usando a distância City-block para cálculo da dissimilaridade entre
vetores com valores “puros” e normalizados, obtidas a partir de matrizes de confusão
Transformada Wavelet
2
o
Nível 3
o
Nível 4
o
Nível 5
o
Nível 6
o
Nível 7
o
Nível
Características no
Vetor Qtde Cityblock Normaliz. Qtde Cityblock Normaliz. Qtde Cityblock Normaliz. Qtde Cityblock Normaliz. Qtde Cityblock Normaliz. Qtde Cityblock Normaliz.
CA
16.384 87,75% 87,88% 4.096 88,52% 88,53% 1.024 89,70% 89,59% 256 90,94% 90,81% 64 91,15% 90,95% 16 88,60% 88,47%
CA+DH+DV+DD
65.536 16.384 83,12% 46,90% 4.096 83,49% 57,60% 1.024 84,65% 67,06% 256 88,12% 77,40% 64 91,36% 88,46%
CA + MVE da CA
16387 88,64% 87,90% 4099 82,94% 88,55% 1027 70,38% 89,64% 259 64,36% 90,91% 67 61,97% 90,97% 19 56,11% 87,50%
CA + MVE (ca…cd)
16396 88,74% 87,93% 4108 83,19% 88,68% 1036 72,76% 90,09% 268 67,76% 91,56% 76 68,39% 91,14% 28 74,73% 84,97%
MVE (ca…cd)
12 60,60% 75,78% 12 61,42% 71,59% 12 64,60% 70,34% 12 66,48% 66,98% 12 68,23% 66,74% 12 74,72% 72,64%
CA + EntropGlobal
16385 87,96% 87,89% 4097 88,68% 88,53% 1025 89,38% 89,59% 257 88,95% 90,82% 65 87,32% 90,82% 17 82,40% 87,87%
CA + Entrop(ca) 16385 87,78% 87,89% 4097 88,54% 88,53% 1025 89,71% 89,60% 257 90,94% 90,85% 65 91,15% 90,45% 17 88,60% 87,41%
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 148
Muitos artigos encontrados na literatura simplesmente aplicam uniformização ou
normalização nos dados sem critério, mas comparando as médias da tabela 6.8, ou seja, dados
sem alteração versus dados uniformizados descobre-se que ao mesmo tempo em que a
uniformização elevou o desempenho, atingindo pico de 31,12% maior com dados
uniformizados, também houve situações em que ocorreram quedas acentuadas na média, com
pico de -11,34%. Nos testes aqui realizados, no geral, a uniformização elevou em média
5,46% o desempenho na recuperação.
Visando facilitar a interpretação dos dados apresentados nas tabelas 6.7, 6.8 e 6.9,
foram elaborados gráficos contendo o melhor resultado em cada nível de decomposição, os
quais são exibidos nas figuras 6.14, 6.15 e 6.16. Algo a ser observado em todos os gráficos é
que em todos os veis, o melhor resultado na recuperação de imagens sempre envolveu
vetores contendo os Coeficientes de Aproximação. Ao considerar os valores dos coeficientes
sem manipulação nota-se que em geral eles são suficientes para distinguir uma imagem da
outra, no entanto ao normalizar ou uniformizar os dados, as medidas estatísticas passam a
desempenhar papel importante para separação e recuperação das imagens. O número de
elementos no vetor também deve ser considerado, pois dependendo da característica a ser
utilizada, maior será o número de elementos quanto menor for o vel de decomposição.
Sendo assim, o algoritmo levamenos tempo para processar a Transformada Wavelet, mas
em contrapartida levará mais tempo para extrair as características e montar os vetores, pois
estará manipulando matrizes maiores.
Verificando a tabela 6.9, as médias das matrizes de confusão dos valores normalizados
ficaram sempre abaixo das médias com valores uniformizados. Essas matrizes de confusão
podem ser encontradas na íntegra no Apêndice D.
149 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
Transformada Wavelet
Melhor Resultado em cada Nível de Decomposição
91,36%
163 85
40 97
102 5
25 7 25 6
65 64 64
86,00%
87,00%
88,00%
89,00%
90,00%
91,00%
92,00%
2o. Nível 3o. Nível 4o. Nível 5o. Nível 5o. Nível 6o. Nível 6o. Nível 7o. Nível
Nível de Decomposição
Precisão
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
Qtde de Elementos do
Vetor
Precisão Qtde. de Elementos do Vetor
Figura 6.14: Melhores resultados por nível sem alterar os dados.
Transformada Wavelet
Melhor Resultado em cada Nível de Decomposição - Valores Uniformizados
91,59%
163 96
410 8
103 6
26 8
64 64
86,00%
87,00%
88,00%
89,00%
90,00%
91,00%
92,00%
2o. Nível 3o. Nível 4o. Nível 5o. Nível 6o. Nível 7o. Nível
Nível de Decomposição
Precisão
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
Qtde de Elementos do
Vetor
Precisão Qtde. de Elementos do Vetor
Figura 6.15: Melhores resultados por nível: valores uniformizados.
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 150
Transformada Wavelet
Melhor Resultado em cada Nível de Decomposição - Valores Normalizados
91,56%
16 3 96
410 8
103 6
26 8
76
16
86,00%
87,00%
88,00%
89,00%
90,00%
91,00%
92,00%
2o. Nível 3o. Nível 4o. Nível 5o. Nível 6o. Nível 7o. Nível
Nível de Decomposição
Precisão
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
Qtde de Elementos do
Vetor
Precisão Qtde. de Elementos do Vetor
Figura 6.16: Melhores resultados por nível: valores normalizados.
Em uma análise geral, a eficiência de recuperação com valores normalizados
apresentou pouca diferença quando comparada a com valores uniformizados, isto pode ser
minuciosamente apurado nas tabelas 6.7, 6.8, 6.9. Pode-se, então, afirmar que para as
características extraídas do conjunto de imagens aqui estudado, a uniformização influencia de
maneira mais positiva do que a normalização dos dados.
Foram implementados gráficos Recall x Precision, dos melhores resultados com dados
sem manipulação e dados uniformizados, os quais são exibidos na figura 6.17. Verifica-se que
a diferença de desempenho em termos percentuais é muito pequena, o que varia é o nível de
decomposição e o tipo de características no vetor.
151 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
Figura 6.17: (a) RxP: dados sem manipulação. (b) RxP: dados uniformizados.
6.11 Recuperação das Imagens usando a Transformada Wavelet Packet
A Transformada Wavelet Packet pode fornecer uma análise mais detalhada das
freqüências presente na imagem. Faz parte dos objetivos deste estudo avaliar as propriedades
da TWP voltadas para recuperações de imagens médicas. A distância City-block será
empregada nessa análise, pois como verificado foi a métrica que apresentou melhor
desempenho com o conjunto de dados utilizados.
Ao executar o algoritmo da Wavelet Packet deve-se definir qual função de informação
de custo será usada para cálculo dos coeficientes. Conforme mostram estudos de
Wickerhauser (1991) (ver seção 5.2) em geral utiliza-se uma função de custo aditiva baseada
no valor de entropia, particularmente entropia de Shannon, mas ele mesmo adverte que é
importante avaliar outros tipos de entropia como a Log Energy ou baseada em Threshold, ou
mesmo utilizar uma função baseada em outro tipo de informação.
O uso de uma entropia baseada em Threshold implicaria em uma análise dos dados para
se estabelecer qual o valor ideal para o Threshold. Tal estudo, no entanto, está fora do escopo
deste trabalho. Já a entropia Log Energy não necessita de um parâmetro extra, assim ela foi
implementada para análise dos resultados. Descobriu-se então, que os resultados das buscas
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1
Recall x Precision - Transformada Wavelet (5 Níveis - CA+MVE(ca...cd))
Dados Uniformizados
Recall
Precision
Recall = 100, MC = 91,59%
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1
Recall x Precision - Transformada Wavelet (7 Níveis - CA+CH+CV+CD)
Recall
Precision
Recal = 100, MC = 91,36%
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 152
são expressivamente melhores quando se utiliza a entropia Log Energy para cálculo dos
coeficientes na Wavelet Packet. A função de custo, no caso a entropia, é fundamental para
computar a Best Basis no algoritmo Best Tree, o qual será descrito na seção 6.12.
Foram implementados vários algoritmos para extrair atributos das imagens usando
Wavelet Packet com 2, 3, 4, 5 e 6 níveis de decomposição e armazená-los no vetor. No
nível de decomposição o alto número de coeficientes leva a uma alta dimensionalidade dos
dados inviabilizando a implementação, além do alto custo computacional envolvido para
computar a TWP em 7 níveis. A tabela 6.10 apresenta o número de subespaços gerados no
último nível de decomposição. Foram 11 testes em cada nível de decomposição usando a
TWP, totalizando 55 experimentos com características variadas, conforme descritas na tabela
6.11.
Tabela 6.10 – Número de subespaços no último nível de decomposição da TWP
Nível de decomposição Tamanho Número de subespaços no último nível
2º Nível 128x128 16
3º Nível 64x64 64
4º Nível 32x32 256
5º Nível 16x16 1024
6º Nível 8x8 4096
Tabela 6.11 – Composição dos Vetores de Características: Transf. Wavelet Packet
Características no vetor Abbreviation
Coeficientes de Aproximação + Média, Variância e Energia dos
subespaços do último nível + Entropia de todos os nós
CA + MVE + Eall
Coeficientes de Aproximação + Média, Variância e Energia dos
subespaços do último nível + Entropia dos últimos nós
CA + MVE + E
Coeficientes de Aproximação + Média, Variância e Energia dos
subespaços do último nível
CA + MVE
Coeficientes de Aproximação + Entropia de todos os nós
CA + Eall
Coeficientes de Aproximação + Entropia dos últimos nós
CA + E
Coeficientes de Aproximação
CA
Média, Variância e Energia dos subespaços do último nível +
Entropia de todos os nós
MVE + Eall
Média, Variância e Energia dos subespaços do último nível +
Entropia dos últimos nós
MVE + E
Média, Variância e Energia dos subespaços do último nível
MVE
Entropia de todos os nós
Eall
Entropia dos últimos nós
E
153 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
Considerando-se cada conjunto de características isoladamente pode-se observar
através da tabela 6.12 que os melhores desempenhos nas buscas ocorrem em sua maioria no 2º.
ou vel de decomposição, em geral com alto número de elementos no vetor, ou seja,
dependendo do espaço de características utilizado o custo computacional será infinitamente
menor. Nessa análise também fica evidente a influência da função de custo no cálculo dos
coeficientes. Nota-se que em todos os experimentos o uso da entropia Log Energy gerou
resultados iguais aos computados com a entropia de Shannon ou muito superiores.
na tabela 6.13 encontram-se os 10 (dez) melhores resultados gerais dentre os 55
experimentos realizados em ordem crescente, onde se verifica que os valores dos coeficientes
de aproximação e os valores de entropia estão presentes em todas as situações, destacando-se
como as características mais relevantes para recuperação das imagens através da Wavelet
Packet. A figura 6.18 apresenta o gráfico Recall x Precision do melhor resultado geral e a
figura 6.19 sintetiza de forma gráfica o melhor resultado nas buscas em cada nível de
decomposição, onde novamente aparecem CA e entropia. Lembrando que esses resultados
foram obtidos com valores ditos “puros”, ou seja, sem uniformização e nem normalização.
Capítulo 6 – Resultados e Conclusões ___________________________________________________________________________________________________________ 154
Tabela 6.12 – Comparativo das médias de eficiência de recuperação usando vetores de características obtidos com a Transf. Wavelet Packet
Trasnformada Wavelet Packet
2º Nível 3
o
Nível 4º Nível 5º Nível 6
o
Nível
Características no
Vetor
Qtde
Log
Energy
Shannon Qtde
Log
Energy
Shannon Qtde
Log
Energy
Shannon Qtde
Log
Energy
Shannon Qtde
Log
Energy
Shannon
CA + MVE + Eall
16.453
91,61%
55,38% 4.373 86,91% 56,15% 2.133 77,86% 56,87% 4.693 73,30% 57,61% 17.813 74,66% 58,36%
CA + MVE + E
16.448
90,92%
56,69% 4.352 85,20% 58,28% 2.048 75,62% 58,93% 4.352 72,27% 59,73% 16.448 74,39% 60,37%
CA + MVE
16.432
88,91%
88,91% 4.288 83,75% 83,75% 1.792 74,94% 74,94% 3.328 72,11% 72,11% 12.352 74,35% 74,35%
CA + Eall
16.405 92,27% 55,38% 4.181 93,48% 56,15% 1.365 93,48% 56,87% 1.621
93,77%
57,60% 5.525 92,67% 58,35%
CA + E
16.400 91,35% 56,69% 4.160 92,94% 58,28% 1.280 93,41% 58,93% 1.280 93,79% 59,72% 4.160
94,85%
60,34%
CA
16384 87,83% 87,83%
4.096 88,52% 88,52%
1.024 89,70% 89,70%
256 90,94% 90,94%
64
91,15%
91,15%
MVE + Eall
69
79,82%
55,38% 277 75,27% 56,15% 1109 72,35% 56,87% 4437 72,50% 57,61% 17749 74,56% 58,36%
MVE + E
64 73,10% 56,69% 256 67,55% 58,28% 1024 69,10% 58,93% 4096 71,46% 59,73% 16384
74,27%
60,37%
MVE
48 62,10% 62,10% 192 64,05% 64,05% 768 68,22% 68,22% 3072 71,25% 71,25% 12288
74,23%
74,23%
Eall
21 81,05% 55,38% 85 81,63% 56,15% 341 81,47% 56,87% 1365 81,51% 57,60% 5461
82,97%
58,35%
E
16
76,92%
56,69% 64 76,22% 58,28% 256 76,20% 58,93% 1024 75,61% 59,72% 4096 74,74% 60,34%
Indica melhor desempenho com o conjunto de características
VALOR
155 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
Tabela 6.13 – Dez melhores resultados: Transf. Wavelet Packet
Características Nvel de Decomp.
Qtde de Elementos
no Vetor
Média da Matriz
de Confusão
CA + E 6º Nível 4.160 94,85%
CA + E 5º Nível 1.280 93,79%
CA + Eall 5º Nível 1.621 93,77%
CA + Eall 4º Nível 1.365 93,48%
CA + Eall 3º Nível 4.181 93,48%
CA + E 4º Nível 1.280 93,41%
CA + E 3º Nível 4.160 92,94%
CA + Eall 6º Nível 5.525 92,67%
CA + Eall 2º Nível 16.405 92,27%
CA + MVE + Eall 2º Nível 16.453 91,61%
Figura 6.18: Recall x Precision do melhor resultado nas buscas com características extraídas
após aplicação da Wavelet Packet.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.94
0.95
0.96
0.97
0.98
0.99
1
Recall x Precision - Transf. Wavelet Packet (6 Níveis - CA+Entr(finais))
Recall
Precision
Recall = 100, MC = 94,85%
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 156
Transformada Wavelet Packet
Melhor Resultado em cada Nível de Decomposão
94,85%
16 .4 0 5
4.18 1
1.36 5
1.28 0
4.16 0
90,00%
91,00%
92,00%
93,00%
94,00%
95,00%
96,00%
2o. Nível 3o. Nível 4o. Nível 5o. Nível 6o. Nível
Nível de Decomposição
Precisão
0
2.000
4.000
6.000
8.000
10.000
12.000
14.000
16.000
18.000
Quantidade de Elementos
do Vetor
Log energy Valores
Figura 6.19: Melhores resultados por nível: Wavelet Packet.
Outra análise interessante que se pode fazer é sintetizada no gráfico da figura 6.20 que
compara o desempenho por nível de decomposição, considerando o número máximo de
elementos no vetor versus o número mínimo de elementos no vetor no nível de decomposição
em questão. Considere, por exemplo, o 2º vel de decomposição, o maior vetor nesse nível
possui 16.453 elementos, provenientes da matriz 128x128 dos coeficientes de aproximação,
acrescido de 48 valores de dia, variância e energia de cada um dos 16 subespaços
resultantes e 21 valores de entropia, correspondente a cada subespaço gerado. Com esse vetor
foi possível obter 91,61% de dia de acerto. Nesse mesmo nível o menor vetor possui 16
valores de entropia provenientes de cada subespaço do último nível de decomposição, com
esse vetor foi possível atingir 76,92%.
No entanto, a proporção inverte conforme aumenta o nível de decomposição. No
nível o maior vetor possui 17.813 elementos obtendo média de 74,66% e o menor vetor possui
64 elementos atingindo média de 91,15%. Para montar esse gráfico utilizou-se apenas o maior
157 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
e o menor vetor em cada nível, mas observando-se todos os resultados obtidos verifica-se que
os valores de entropia são tão relevantes para recuperar imagens quanto os coeficientes de
aproximação. Nos primeiros níveis de decomposição os vetores são basicamente formados
por valores de CA e nos útimos níveis os vetores são basicamente formados por valores de
entropia. Já nos níveis intermediários prevalecem as medidas estatísticas de média, variância e
energia que semelhante ao ocorrido com a TW provaram mais uma vez não serem suficientes
para distinguir as imagens, mesmo considerando que a TWP aumenta consideravelmente o
número desse tipo de característica no vetor.
Resultados - Máximo x Mínimo Elementos no Vetor por Nível de Decomposição
70,00%
75,00%
80,00%
85,00%
90,00%
95,00%
2o. Nível 3o. Nível 4o. Nível 5o. Nível 6o. Nível
Nível de Decomposição
Média de Acerto da Matriz de Confusão
0
1.000
2.000
3.000
4.000
5.000
6.000
7.000
8.000
9.000
10.000
11.000
12.000
13.000
14.000
15.000
16.000
17.000
18.000
Quantidade de Elementos no Vetor
Acerto - Máximo Vls
Acerto - Mínimo Vls
Máximo Vls
Mínimo Vls
Figura 6.20: Desempenho considerando o máximo versus o mínimo número de elementos no
vetor por nível de decomposição.
Conforme analisado na aplicação da TW, promover uma uniformização ou
normalização nos dados pode contribuir para ampliar a exatidão nas buscas. Assim, a tabela
6.14 apresenta os 5 (cinco) melhores resultados coletados dos experimentos com a Wavelet
Packet e sua versão uniformizada e normalizada, as matrizes de confusão desses resultados
encontram-se no Apêndice E. Novamente nota-se que a uniformização gera médias superiores
à normalização. E observa-se que o melhor resultado que havia sido obtido, apresentou queda
de 17,26% após uniformização. Mas, ao contrário do que foi observado na Transformada
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 158
Wavelet, uniformização e normalização interferem negativamente na maioria das vezes, no
caso da Transformada Wavelet Packet, considerando-se as características aqui utilizadas.
Tabela 6.14 – Uniformização x Normalização – Transf. Wavelet Packet
Características Elementos Média Nível Uniformiz. Normaliz.
CA + E 4.160
94,85%
6º Nível 77,59% 77,21%
CA + E 1.280 93,79% 5º Nível 89,31% 89,33%
CA + Eall 1.621 93,77% 5º Nível 88,91% 88,73%
CA + Eall 1.365 93,48% 4º Nível
94,59%
94,45%
CA + Eall 4.181 93,48% 3º Nível 92,52% 92,09%
6.12 Wavelet Packet vinculada ao algoritmo Best Tree
A decomposição Wavelet Packet produz muitas representações redudantes, dando
acesso a uma coleção de bases ortonormais das quais as best basispodem ser escolhidas
baseada em algum critério. A decomposição Wavelet Packet pode ser visualizada como uma
árvore onde cada nó-pai tem 4 (quatro) nós-filho. Devido a excessiva representação gerada,
em muitas abordagens tem sido implementado técnicas para podar a árvore Wavelet Packet
com base em uma função de custo. Nesses métodos a característica extraída do nó-pai é
comparada a de seus nós-filhos baseada em algum critério de avaliação. Esse processo é
iterativo começando dos nós-folha e terminando quando uma árvore podada de maneira
otimizada é obtida. Assim, o algoritmo Best Tree analisa a árvore recursivamente de baixo
para cima procurando pelas melhores bases para representar o objeto de estudo.
Ao executar o algoritmo para decomposição Wavelet Packet o mesmo calcula os
valores de entropia para cada nó. Ao rodar o algoritmo Best Tree esses valores apenas são
comparados e os nós somente permanecem divididos se a soma das entropias dos nós-filhos
for menor que a entropia do nó-pai, caso contrário esses nós-filhos são unidos ao nó-pai.
Consequentemente, o valor de entropia do nó-pai passa então a ser a soma das entropias dos
159 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
nós-filhos. A figura 6.21 ilustra o resultado do algoritmo Best Tree aplicado a uma
decomposição Wavelet Packet em 4 níveis.
Figura 6.21: Árvore Wavelet Packet após algoritmo Best Tree.
Considerando que os melhores resultados obtidos com a implementação da Wavelet
Packet foram com vetores, cujos elementos eram coeficientes de aproximação, acrescido de
valores de entropia de todos os subespaços gerados ou apenas dos subespaços do último nível
de decomposição, os testes realizados com o algoritmo Best Tree avaliou essas duas situações.
Deve-se considerar também que o algoritmo deve ser adptativo, pois cada uma das
1200 imagens do conjunto de teste pode gerar Best Tree distintas.
Assim, foi implementado um algoritmo adaptativo, cujos passoso:
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 160
1. Considera a existência de uma matriz previamente gerada, contendo os vetores de
todas as imagens que será usada como base para comparação.
2. Lê a imagem de referência
3. Aplica a TWP em quantos níveis forem necessários
4. Aplica o algoritmo Best Tree reduzindo a quantidade de nós na árvore
5. Extrai os atributos desejados dos subespaços restantes e armazena em um vetor.
6. Gera uma matriz temporária contendo todos os vetores de todas as imagens, porém
sem os atributos referentes aos nós que foram podados com o algoritmo Best Tree.
7. Calcula a distância City-block entre a imagem de referência e os vetores temporários.
8. Ordena as distâncias em ordem crescente para obter as imagens mais similares.
Esse processo é executado para cada imagem de referência a ser pesquisada.
O algoritmo Best Tree elimina os subespaços menos relevantes, no entanto, os
resultados observados na tabela 6.15 mostram-se inferiores aos resultados aplicando-se apenas
a TWP. Nesses testes o maior desempenho se deu no nível de decomposição, atingindo
93,39%. A figura 6.22 exibe o gráfico Recall x Precision desse resultado.
Figura 6.22: Recall x Precision – algoritmo Best Tree.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1
Recall x Precision - Best Tree (4 Níveis - CA+Entr(todas))
Recall
Precision
Recall = 100, MC = 93,39%
161 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
Tabela 6.15 Resultados obtidos com o algoritmo Best Tree
Trasnformada Wavelet Packet com algoritmo Best Tree
2º Nível 3º Nível 4º Nível 5º Nível Nível
Características
no Vetor
Qtde
Log
Energy Shannon Qtde
Log
Energy Shannon Qtde
Log
Energy Shannon Qtde
Log
Energy Shannon Qtde
Log
Energy Shannon
CA + E
16.400 90,95% 56,40% 4.160 89,14% 57,45% 1.280 89,83% 56,51% 1.280 90,95% 56,61% 4.160 91,15% 56,19%
CA + Eall
16.405 91,98% 55,22% 4.181 93,11% 55,74% 1.365
93,39%
56,12% 1.621 91,97% 56,76% 5.525 89,99% 57,58%
As matrizes de confusão dos resultados da tabela 6.15 encontram-se no Apêndice F.
6.13 Comparativo entre a TW, TWP e a TWP com Best Tree
Resumo dos resultados obtidos com a Wavelet e a Wavelet Packet.
Melhor resultado geral dos testes com a TW: vetor com valores uniformizados de
coeficientes de aproximação, acrescido de valores de média, variância e energia dos
subespaços do último nível, totalizando 268 elementos, com 5 níveis de decomposição,
obtendo 91,59% de eficiência de recuperação (média da diagonal principal da matriz de
confusão), conforme exibida na figura 6.23.
Figura 6.23: Matriz de confusão do melhor resultado com a TW.
Melhor resultado geral dos testes com a TWP: vetor com coeficientes de
aproximação, acrescido de valores de entropia do último nível de decomposição sem
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 162
uniformização, totalizando 4.160 elementos, com 6 níveis de decomposição, obtendo 94,85%
de eficiência de recuperação (média da diagonal principal da matriz de confusão), conforme
exibida na figura 6.24.
Figura 6.24: Matriz de confusão do melhor resultado com a TWP.
Melhor resultado geral dos testes com a TWP aplicando algoritmo Best Tree: vetor
com coeficientes de aproximação, acrescido de valores de entropia de todos os níveis de
decomposição sem uniformização, totalizando 1.365 elementos, com 4 níveis de
decomposição, obtendo 93,39% eficiência de recuperação, conforme exibida na figura 6.25.
Figura 6.25: Matriz de confusão do melhor resultado com a TWP – Best Tree.
Uma questão a ser considerada é que o ganho registrado nas buscas com Wavelet Packet e
Wavelet Packet com Best Tree inevitavelmente vem acompanhado de aumento no custo
computacional, que cresce de acordo com o nível de decomposição.
163 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
6.14 Tempo de Processamento
O tempo para geração do conjunto de características das 1200 imagens empregando a
Transformada Wavelet Packet, foi muito superior ao tempo necessário para montar os vetores
utilizando a Transformada Wavelet, além do nível de decomposição, outro fator que
influencia é o tipo de característica extraída das imagens. Para realizar as consultas por
similaridade sempre foi considerado kNN = 100, ou seja, como cada classe é composta por
100 imagens, deseja-se que o algoritmo localize todas as imagens pertencentes à classe. A
imagem de referência usada como base para montar a tabela 6.16, está identificada no
conjunto de imagens como 1111.dcm e é ilustrada na figura 6.26.
Figura 6.26: Imagem 1111.dcm (CT – cardíaca).
Uma observação com relação à Best Tree é que para qualquer imagem pesquisada deve-
se executar o algoritmo adaptativo e comparar os nós restantes da imagem de referência com
os valores dos mesmos nós para as 1200 imagens, por isso as duas últimas colunas da tabela
6.16 não estão preenchidas.
Capítulo 6 – Resultados e Conclusões ___________________________________________________________________________________________________________ 164
Tabela 6.16 – Tempo Médio de Processamento
**Tempo para extração das caracter.
da imagem de referência (segundos)
***Tempo de pesquisa da imagem considerando vetor já carregado
na memória, ou seja, apenas comparação com os demais (segs)
Transformada
aplicada
Observação
Características
extraídas
Elementos
no vetor
Nível de
decompos.
Eficiência
de Recuper.
*Tempo para
Geração dos
1200 vetores
1º. tempo 2º. tempo 1º. tempo 2º. tempo
Wavelet Melhor resultado CA+CH+CV+CD 64 vls 7n 91,36% 4m 36s 0,3120 0,2500 0,0460 0,0470
Wavelet
Dados uniformiz.
Melhor resultado CA+MVE(ca…cd) 268 vls 5n 91,59% 5m 22s 0,3590 0,3280 0,0630 0,0940
Wavelet
Dados normaliz..
Melhor resultado CA+MVE(ca…cd)
268 vls 5n 91,56% 5m 23s 0,3280 0,3430 0,0940 0,1090
Wavelet Packet
Log Energy
1º. Melhor resultado CA+E(último nível)
4160 vls 6n 94,85% 55m 25s 3,2810 3,3280 0,6250 0,5150
Wavelet Packet
Log Energy
2º. Melhor resultado CA+E(último nível)
1280 vls 5n 93,79% 24m 49s 1,5160 1,5160 0,1870 0,2190
Wavelet Packet
Dados uniformiz.
Melhor resultado CA+E(todos níveis)
1365 vls 4 n 94,59% 15m 50s 4,6250 4,5310 0,2650 0,2190
Wavelet Packet
Dados normaliz.
Melhor resultado CA+E(todos níveis)
1365 vls 4 n 94,45% 15m 51s 4,5470 4,5000 0,2180 0,2340
Best Tree Melhor resultado CA+E(todos níveis)
1365 vls 4 n 93,39% 15m 18s 2,1400 2,1250
* Lê cada uma das 1200 imagens, extrai as características e armazena no vetor
** Lê a imagem de referência, extrai as características e compara com os demais vetores já carregados na memória.
*** Os 1200 vetores já estão carregados na memória, então pode-se apenas ler o vetor correspondente à imagem de referência e compará-
lo com os demais. Nesse caso, não é necessário ler a imagem e extrair as características, uma vez que as mesmas estão na memória. No
entanto, isto apenas é válido para essa situação. Em uma aplicação real a probabilidade da imagem a ser pesquisada não existir no banco é sem
dúvida muito maior o que implicaria no tempo de processamento do teste anterior.
165 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
A figura 6.27 traz um exemplo de consulta realizada na base de imagens, com kNN = 20,
usando a metodologia descrita na última linha da tabela 6.16. Como resultado tem-se as 20
imagens mais similares à imagem de referência 1111.dcm recuperadas com sucesso.
Figura 6.27: Recuperação das 20 imagens mais similares à 1111.dcm
6.15 Conclusões
Atualmente a maioria dos equipamentos na área médica utiliza o padrão DICOM, que
foi concebido justamente para facilitar o intercâmbio de informações. Assim, as imagens
obtidas junto ao Hospital Amaral de Carvalho da cidade de Jaú seguem esse formato, o qual
foi mantido durante os testes com as imagens. É sabido que um arquivo em formato DICOM
contém duas partes: o cabeçalho com informações textuais e as imagens que compõem o
estudo clínico. Embora os arquivos DICOM contenham informações textuais adicionais em
seus cabeçalhos, que auxiliam na identificação da imagem que está sendo analisada, no
presente trabalho foram exploradas apenas as informações pictóricas contidas nesses arquivos,
Img 1111 Img 1188 Img 1194 Img 1142 Img 1148
Img 1150 Img 1167 Img 1162 Img 1151 Img 1165
Img 1182 Img 1181 Img 1124 Img 1118 Img 1172
Img 1147 Img 1189 Img 1164 Img 1163 Img 1166
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 166
objetivando mais os estudos para o processamento de imagens propriamente dito dentro da
macro linha de pesquisa Visão Computacional. Embora, essas informações possam ser de
grande valia, pois informam qual a técnica usada para obtê-las, a parte do corpo, o tipo de
exame, o sexo do paciente, etc, os estudos aqui realizados provaram que apenas analisando as
imagens é possível separá-las dos demais arquivos do banco de imagens.
No presente trabalho foram utilizadas as Transformadas Wavelet e Wavelet Packet de
Haar para transformar as imagens em espaços de freqüência multiescalas, visando a
caracterização com base no atributo textura das imagens. Uma vez processadas as imagens, os
coeficientes wavelet obtidos e medidas estatísticas foram utilizadas para gerar os vetores de
características. Os valores de média, variância e energia embora maiores em valor absoluto
que os coeficientes wavelets, o que poderia influenciar o cálculo das distâncias, mostraram
que o tem alto poder para discriminar as imagens, pois mesmo tendo gerado em alguns
casos resultados satisfatórios, prejudicaram os resultados na maioria das vezes.
No entanto, pode-se afirmar que a normalização e a uniformização ao mesmo tempo em
que aumentam expressivamente o desempenho de recuperação em alguns casos, também
proporciona o efeito contrário em outros casos, prejudicando o desempenho. Esse fato é
observado em todos os testes com a Wavelet, Wavelet Packet e algoritmo Best Tree. A
uniformização dos dados gerou sempre melhores resultados do que a normalização, pois a
uniformização promove uma equalização dos valores em um intervalo entre 0 a 1, diminuindo
de maneira mais acentuada a variação nos dados do que a normalização que considerada a
média e desvio padrão. No caso da TW, esses processos ampliaram o desempenho de
recuperação, mas o mesmo não foi observado com a TWP.
O que ficou provado nos testes com a TW é que os Coeficientes de Aproximação (CA)
são bons descritores de textura e que uniformizando os dados aumenta-se a eficiência de
recuperação. Usando apenas os valores de CA do sexto nível de decomposição para compor o
167 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
vetor de características obteve-se 91,15% de eficiência de recuperação. Com estes mesmos
valores uniformizados, obteve-se 91,41%.
Para que a Wavelet Packet torne-se vantajosa para decompor imagens, é necessário
explorar outras características que podem ser obtidas a partir dos subespaços gerados. Assim,
nos testes com a Wavelet Packet, CA e Entropia destacaram-se como os atributos com maior
capacidade para discriminar as imagens. Usando valores de CA e Entropia do sexto nível de
decomposição foi possível obter 94,85% de eficiência de recuperação.
Como comparativo, usando valores de CA e Entropia obtidos com a Transformada
Wavelet atingiu-se 91,15% (mesma eficiência de recuperação que usando apenas CA). Em
síntese, os testes visavam maior eficiência de recuperação e tentavam explorar as
propriedades da Transformada Wavelet Packet para atingir este objetivo.
Na área de processamento de imagens a TWP ainda é pouco usada, o que motivou sua
aplicação no processamento das imagens médicas, visando verificar suas reais contribuições
para a recuperação das imagens mais similares. Porém, decompor uma imagem em níveis
altos de decomposição usando a Wavelet Packet, torna o processo suscetível ao mal da alta
dimensionalidade, devido ao alto número de valores no vetor. Com 6 (seis) níveis de
decomposição obteve-se em alguns casos mais de 16.000 elementos no vetor; aplicar 7 níveis
de decomposição é praticamente inviável e provavelmente não traria ganhos de 5,15% que é o
que faltou para atingir 100% de eficiência nos testes com a Wavelet Packet.
Com relação aos coeficientes wavelet a banda de aproximação é a que concentra mais
informações sobre a imagem com importantes características para o processo de recuperação.
As informações concentradas nos coeficientes de detalhes, salvo poucas exceções, o
alcançaram destaque na análise aqui desenvolvida. Considerando-se a Transformada Wavelet,
altos níveis de decomposição geram subespaços com menos informação redundante, o que
contribui para o bom desempenho de recuperação. Na Wavelet Packet os resultados foram
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 168
mais variados, ou seja, não dependeram do nível de decomposição, mas sim das
características extraídas dos subespaços.
Apenas a Wavelet Biorthogonal, por razões já discutidas, foi empregada para testes e
comparada com a Wavelet de Haar, a qual gerou resultados inferiores, com exceção da bior1.1
que obteve o mesmo desempenho que a Wavelet de Haar, pois as duas possuem critérios
muito próximos para realizar a decomposição. Mesmo a Wavelet de Haar sendo mais simples,
e por isto muitas vezes criticadas por muitos, ela continua sendo amplamente usada nas
pesquisas e provou aqui ser suficiente para o propósito de recuperação de imagens.
Certamente, outras famílias Wavelets poderiam ter sido aplicadas, mas os resultados
dependem de uma série de fatores e não apenas da Wavelet escolhida para decomposição.
Conforme Rodrigues e Araujo (2003) afirmam em seu trabalho, uma fase de pré-
processamento pode ser decisiva para a fase de extração de características de um sistema
CBIR. Essa afirmação é totalmente plausível, por isto a metodologia por eles sugerida é
aplicada no presente trabalho. Mas, no entanto para o conjunto de imagens dessa pesquisa,
tais técnicas não influenciaram tão positivamente como nas pesquisas por eles desenvolvidas,
indicando que as imagens não continham tanto ruído ou que as técnicas foram insuficientes
para enfatizar particularidades nas imagens que pudessem separá-las das demais.
Com o pré-processamento das imagens, a média de eficiênca de recuperação ficou em
92%, ou seja, 1% menor que os resultantes obtidos usando os coeficientes de aproximação
Wavelet, mostrando que para o conjunto de dados desse estudo, tais técnicas não agregaram
melhoras.
As características de textura propostas por Haralick extraídas de matrizes de co-
ocorrência e exaltadas por muitos autores como excelente mecanismo para descrição de
textura foram também aplicadas. No entanto, a média de acerto calculada pela matriz de
169 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
confusão ficou muito abaixo quando comparada com a utilização dos coeficientes de
aproximação, atingindo apenas 38% de eficiência de recuperação.
A idéia de se implementar um algoritmo não-supervisionado trabalhando com todos os
tipos de coeficientes mostrou-se insuficiente, pois além do aumento do custo computacional, a
média de eficiência de recuperação ficou em torno de 78%.
O estudo sobre as métricas indicou que a métrica Euclidiana, embora utilizada
maciçamente nos trabalhos descritos na literatura, nem sempre é a solução mais adequada. No
caso do conjunto de características aqui estudadas a distância City-block foi a que apresentou
melhor resultado.
Técnicas de análise de agrupamento podem ser uma ferramenta muito útil para estudar
o conjunto de imagens, pois permitem identificar quais classes tem maior probabilidade de se
misturarem e consequentemente alertar sobre as classes em que as características extraídas
possuem menor poder de discriminação. Encontrar as características ideais para representar
imagens semanticamente diferentes, mas visualmente semelhantes é um dos desafios em
sistemas CBIR e tais técnicas podem minimizar esse esforço.
No que se refere ao algoritmo Best Tree, Wickerhauser (1991) alerta para a importância
da função de informação de custo no cálculo da Wavelet Packet. Nos testes aqui realizados
realmente pode-se constatar que depedendo da função escolhida os resultados obtidos são
profundamente afetados. O uso da Log Energy foi expressivamente melhor que a entropia de
Shannon, sendo responsável por melhorar os resultados com a Wavelet Packet.
Analisando-se a separação das classes foi possível observar que, em se tratando de
imagens da mesma parte do corpo, porém em cortes diferentes, provavelmente será necessário
identificar novos atributos, que as distingam com maior precisão.
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 170
Tanto nas análises com a Wavelet quanto com a Wavelet Packet as classes com mais
problemas foram as classes 1 e 2. Ao se pesquisar imagens da classe 2, a incidência de
recuperar imagem da classe 1 foi em torno de 10 a 20% (misturou joelho com coluna).
Ao se utilizar a Wavelet, as classes que apresentaram menos problemas foram as classes
3, 10, 11 e 12. Na Wavelet Packet as classes com menos problemas foram as classes 3, 4, 10
e 12, ou seja, quando uma técnica ou característica beneficia uma classe acaba prejudicando a
outra. Ao se buscar imagens das classes 3, 4, 10 e 12 raramente estas se misturam com outras
classes, pois comparada às demais imagens tem características muito particulares.
Por outro lado, em ambas as técnicas, as imagens das classes 5, 6 e 8, mesmo que
levemente, misturam-se entre si mais ou menos a uma proporção de 5%.
Dependendo da característica empregada, ao se buscar a classe 9, verifica-se que esta se
mistura levemente com a classe 7 (as duas são imagens da região abdominal). E ao se
pesquisar a classe 11 ela se mistura muito levemente com a 8 (também da região abdominal).
Encontrar o conjunto de características e a técnica perfeita que satisfaça todas as classes
é muito complexo, o que se pode fazer é refinar o resultado da metodologia aplicada através
da extração de outras características como forma, por exemplo, ou mesmo empregar uma
técnica de segmentação antes do cálculo dos coeficientes.
O que fica claro neste estudo é que o desempenho de recuperação não depende de um
fator isolado como a escolha da Wavelet ou a medida de dissimilaridade aplicada, mas sim de
um conjunto de fatores onde cada parte agrega sua contribuição ao todo. Esse trabalho
estabelece que esses fatores devem ser analisados cuidadosamente antes de se fazer uma
afirmação que um método é melhor do que outro.
A escolha da Wavelet, da medida de dissimilaridade, as características que serão
trabalhadas, a necessidade de uniformizar ou normalizar essas características, a necessidade
171 . ______________________________________________________ Capítulo 6 – Resultados e Conclusões
de pré-processar a imagem, tudo isto é importante, mas deseja-se enfatizar que não é um
desses fatores isoladamente que vai definir se have100% na recuperação das imagens. Até
mesmo a qualidade das imagens interfere no processo, pois se as imagens aqui selecionadas
tivessem sido obtidas através de outros equipamentos de diagnóstico, certamente outros
resultados poderiam ter sido obtidos.
Por fim, considerando-se que na área médica a precisão na obtenção das informações
tem importância fundamental, a Transformada Wavelet Packet revelou vantagens relevantes
sobre os métodos tradicionais que aplicam a Transformada Wavelet. Embora mais custosa
computacionalmente, esta desvantagem pode facilmente ser compensada com equipamentos
mais robustos sem prejudicar os orçamentos financeiros das instituições. Afinal, neste campo
de pesquisa, fornecer ferramentas que auxiliem o profissional no diagnóstico e escolha do
tratamento mais adequado ao paciente é imprescindível.
6.16 Contribuições
Além da revisão bibliográfica sobre métodos de caracterização de imagens médicas na
busca por métodos eficientes na recuperação de imagens por conteúdo, foram geradas as
seguintes contribuições:
Estudo comparativo entre as Transformadas Wavelet e Wavelet Packet para
caracterização das imagens médicas;
Elaboração de uma base de imagens médicas laudadas em sua maioria;
Desenvolvimento de algoritmos para extração de características em imagens
médicas, usando Wavelet, Wavelet Packet, Best Tree;
Estudo sobre variadas medidas de dissimilaridade voltadas para recuperação de
imagens por conteúdo e para comparação dos vetores gerados;
Capítulo 6 – Resultados e Conclusões ______________________________________________________ 172
Análise das características mais discriminantes em imagens médicas;
Análise dos parâmetros a serem avaliados na recuperação de imagens dicas
por conteúdo;
Análise do desempenho na recuperação das imagens utilizando as duas
abordagens matemáticas.
6.17 Trabalhos Futuros
As informações contidas no cabeçalho dos arquivos DICOM podem ser usadas para
aperfeiçoar o resultado das buscas das imagens, mesclando esses dados em um algoritmo
supervisionado.
A facilidade de acesso às informações permitindo que o profissional agilize suas
decisões também é primordial, logo disponibilizar essas imagens em uma base pública e
desenvolver uma interface amigável para acesso remoto aos algoritmos pode ser
implementada em trabalhos futuros para auxiliar o ensino e ao diagnóstico.
Além disso, outras famílias Wavelets podem ser utilizadas e avaliadas, outras funções
de custo podem ser avaliadas para uso na Wavelet Packet com o algoritmo Best Tree.Na
literatura há várias outras métricas que também podem ser avaliadas.
O estudo das técnicas empregadas para pré-processar as imagens podem ser
aperfeiçoados, para auxiliar na fase de extração.
Técnicas para redução de dimensionalidade podem ser aplicadas, pois ao se trabalhar
com a TWP obtem-se alto número de características em decorrência do grande número de
subespaços gerados, evitando assim que características relevantes percam seu poder de
discriminação por estarem misturadas a muitas outras características irrelevantes. Técnicas de
mineração de dados também podem contribuir para minimizar os efeitos da alta
dimensionalidade, além de auxiliar no processo de seleção de características.
O fato é que a área de processamento de imagens está em constante evolução e novas
investigações podem surgir para auxiliar os pesquisadores em sua missão de encontrar
alternativas que beneficiem e facilitem a vida das pessoas.
Referências Bibliográficas _______________________________________________________________ 174
Referências Bibliográficas
(ALVAREZ, 2003) ALVAREZ, S. P. Análisis de Usabilidad de Sistemas CBIR
Departamento de Biblioteconomía y Documentación. Faculdad de Ciencias de la Información.
Universidad Complutense de Madrid. Documentación de las ciencias de la información, nº 26,
pp. 313-350, 2003.
(AKLEMAN; JIANER, 1999) AKLEMAN, E., JIANER, C. Generalized distance functions.
Coll. of Archit., Texas A&M Univ., College Station, TX. Shape Modeling and Applications.
Proceedings Shape Modeling Conference International '99, Aizu-Wakamatsu, Japan, pp. 72-
79, 1999.
(BAEZA-YATES, RIBEIRO-NETO, 1999) BAEZA-YATES, R., RIBEIRO-NETO, B.
Modern Information Retrieval. Addison-Wesley Longman Publishing, 1999.
(BALAN et al., 2004) BALAN, A. G. R., TRAINA, A. J. M., TRAINA JR., C., MARQUES,
P. M. A. M. Integrando Textura e Forma para a Recuperação de Imagens por Conteúdo. IX
Congresso Brasileiro de Informática em Saúde CBIS'2004, Ribeirão Preto, SP, pp. 6, p. in
CD-ROM, 2004.
(BHALERAO; RAJPOOT, 2003) BHALERAO A. H., RAJPOOT, M. N. Discriminant
Feature Selection for Texture Classification. Proceedings British Machine Vision Conference
(BMVC'2003), Norwich (UK), September, 2003.
(BIANCHI, 2006) BIANCHI, M. F. de. Extração de Características de Imagens de Faces
Humanas através de Wavelets, PCA e IMPCA. Dissertação de mestrado. Escola de
Engenharia de São Carlos (EESC), Departamento de Engenharia Elétrica. Universidade de
São Paulo, São Carlos. 2006.
(BUENO et al., 2002) BUENO, J. M., CHINO, F., TRAINA, A. J..M., TRAINA JR, C.,
MARQUES, P. M. A. M. How to Add Content-based Image Retrieval Capability in a PACS.
IEEE International Conference on Computer Based Medical Systems - CBMS, Maribor,
Slovenia, pp. 321-326, 2002.
(BURKHARD; KELLER, 1973) BURKHARD, W. A, KELLER, R. M. Some Approaches to
Best-Match File Searching. Communications of the ACM, 16(4):230-236, 1973.
(CAMPO; TRAINA, 2003)CAMPO, C. Y., TRAINA, A. J. M. Uma Abordagem Eficiente
para Recuperação de Imagens Médicas. WIM - Workshop de Informática Médica, Fortaleza,
CE, 2003.
175 . _______________________________________________________________ Referências Bibliográficas
(CAMPOS, 2002) CAMPOS, G. M. Estatística Prática para Docentes e Pós-Graduandos.
Faculdade de Odontologia de Ribeirão Preto da Universidade de São Paulo, Capítulo 11,
2002. Disponível em:
http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap11.html
(CASTAÑÓN, 2003) CASTAÑÓN, C. A. B. Recuperação de Imagens por Conteúdo através
de uma Análise Multiresolução por Wavelets. Dissertação de Mestrado. Instituto de Ciências
Matemáticas e Computação – ICMC. Universidade de São Paulo, São Carlos. 2003.
(CASTAÑÓN; TRAINA, 2002) CASTAÑÓN, C. A. B., TRAINA, A. J. M. Extração de
Características de Imagens Médicas Baseadas na Distribuição de Cor nos Espaços de
Wavelets. Anais do Workshop de Informática Médica WIM’2002, junto ao Simpósio
Brasileiro de Engenharia de Software (SBES) da Sociedade Brasileira de Computação.
Gramado, RS, 2002.
(COIFMAN; WICKERHAUSER, 1998) COIFMAN, R. WICKERHAUSER, M. V.
Experiments with Adapted Wavelet de-noising for Medical Signals and Images. Time
Frequency and Wavelets in Biomedical Signal Processing, ser. IEEE Press Series in
Biomedical Engineering, M. Akay, Ed. 1998, ch. 12, pp. 323-346, 1998.
(COIFMAN; WICKERHAUSER, 1992) COIFMAN R. R., WICKERHAUSER, M. V.
Entropy-based algorithms for best basis selection. IEEE Transaction on Information Theory,
38(2):1713—1716, March, 1992.
(DAUBECHIE, 1992) DAUBECHIE, I. Ten Lectures on Wavelets. CBMS-NSF Regional
Coference Series in Applied Mathematics, Vol. 61. SIAM Journ. of Math. Anal. Philadelphia,
Pennsylvania, 1992.
(DAUBECHIE, 1996) DAUBECHIE, I. Where do Wavelets Come from? A Personal Point
of View. Proceedings of the IEEE, Vol. 84, No. 4, Abril, 1996.
(DY et al., 2003) DY, J.G.; BRODLEY, C.E.; KAK, A.; BRODERICK, L.S.; AISEN, A.M.
Unsupervised Feature Selection Applied to Content-based Retrieval of Lung Images. Pattern
Analysis and Machine Intelligence, IEEE Transactions on Vol. 25, Issue 3, pp: 373 378,
March, 2003.
(EAKINS; GRAHAM, 1999) EAKINS, J. P., GRAHAM, M. E. Content-based Image
Retrieval A report to the JISC Technology Applications Programme. Institute for Image Data
Research, University of Northumbria at Newcastle, 1999.
(FIGUEIREDO et al., 2004) FIGUEIREDO, J. M., TRAINA JR., C., TRAINA, A. J.,
MARQUES, P. M. A. Flexibilizando Buscas por Conteúdo em ambientes PACS. IX
Referências Bibliográficas _______________________________________________________________ 176
Congresso Brasileiro de Informática em Saúde - CBIS'2004, Ribeirão Preto, SP, pp. 6 p. in
CD-ROM, 2004.
(FIGUEIREDO, 2005) FIGUEIREDO, J. M. de. Formalização do Domínio Imagem para
Buscas Por Conteúdo em SGBDs Relacionais. Dissertação Mestrado. Instituto de Ciências
Matemáticas e de Computação – ICMC. Universidade de São Paulo, São Carlos, 2005.
(FRANCOIS; WERTZ; VERLEYSEN, 2005) FRANCOIS , D., WERTZ, V., VERLEYSEN ,
M. Non-Euclidean metrics for similarity search in noisy datasets. Université Catholique de
Louvain UCL. Machine Learning Group. ESANN’2005 Proceedings European
Symposium on Artificial Neural Nteworks, Bruges (Bélgica), pp. 27-29, Abril, 2005.
(GARCIA; ZIKOS; TZIRITAS, 2000) GARCIA, C., ZIKOS G., TZIRITAS G. Wavelet
packet analysis for face recognition. Image and Vision Computing, Vol. 18, Issue 4, pp. 289-
297, March, 2000.
(GATO; NUNES; SCHIABEL, 2004) GATO, H. E. R., NUNES, F. L. S., SCHIABEL, H.
Uma Proposta de Recuperação de Imagens Mamográficas Baseada em Conteúdo. Congresso
Brasileiro de Informática em Saúde, SBIS’2004, Ribeirão Preto, SP, 2004.
(GONZALEZ; WOODS, 2000) GONZALEZ, R. C., WOODS, R. E. Processamento de
Imagens Digitais. São Paulo, 1ª. Ed.: Edgard Blücher, 2000, 509. ISBN: 8521202644.
(GRACIOSO, 2008) GRACIOSO, A. C. N. R. Avaliação do Desempenho de Recuperação de
Imagens Médicas baseada em Conteúdo em Redes de Computadores. Dissertação de
Mestrado. Escola de Engenharia de São Carlos (EESC), Departamento de Engenharia
Elétrica. Universidade de São Paulo, São Carlos. 2008.
(GRAPS, 1995) GRAPS, A. An Introduction to Wavelets. IEEE Computational Science and
Engineering, 2(2):50-61, 1995.
(GROSSMAN; MORLET, 1984) GROSSMAN, A., MORLET, J. Decomposition of Hardy
Functions into Square Integrable Wavelets of Constant Shape. Society for Industrial and
Applied Mathematics, Vol. 15, No. 4. SIAM J. Math. Anal, July, 1984.
(GUPTA; MARKEY, 2005) GUPTA, S., MARKEY, M. K. Correspondence in Texture
Features between two Mammographic Views, Medical Physics 32:1598-1606, 2005.
(HAAR, 1910) HAAR, A. Zur Theorie der Orthogonalen Funktionen-Systeme,
Mathematische Annalen, 69, pp. 331-371, 1910.
177 . _______________________________________________________________ Referências Bibliográficas
(HARALICK; SHANMUGAN; DINSTEIN, 1973), HARALICK, R. M., SHANMUGAN, K.,
DINSTEIN, I. Textural Features for Image Classification. IEEE Transactions on Systems,
Man and Cybernetics, SMC-3(6), pp. 610-621, 1973.
(HIREMATH; SHIVASHANKAR, 2006) P.S. HIREMATH, S.SHIVASHANKAR. Texture
Classification using Wavelet Packet Decomposition. Gulbarga University. Dept. of
P.G.Studies and Research in Computer Science, Karnataka, India. GVIP Journal, Volume 6,
Issue 2, September, 2006.
(HOWARTH et al., 2004) HOWARTH, P., YAVLINSKV, A., HEESCH, D., RÜGER, S.
Visual Features for Content-based Medical Image Retrieval. Cross Language Evaluation
Forum, Bath, UK, 2004.
(HUANG; AVIYENTE, 2006) HUANG, K., AVIYENTE, S. Information Theoretic Wavelet
Packet Subband Selection for Texture Classification, Signal Processing, vol. 86, no. 7, pp.
1410-1420, July, 2006.
(JAIN; MURTY; FLYNN, 1999) JAIN, A. K., MURTY, M. N., FLYNN, P. J. Data
Clustering: A Review. ACM Computing Surveys, vol. 31, no. 3, pp. 254-323, Sep., 1999.
(KATO, 1992) KATO, T. Database Architecture for Content-Based Image Retrieval. In Proc.
Of the SPIE, Image Storage and Retrieval Systems, vol. 1662, pp. 112-123, San Jose, CA.
1992.
(KIM; KANG, 2007) KIM, S. C., KANG, T. J. Texture classification and segmentation using
Wavelet Packet Frame and Gaussian Mixture Model. Journal of the Pattern Recognition
Society, Vol. 40, pp. 1207-1221, Abril, 2007.
(KOKARE; CHATTERJI; BISWAS, 2003) KOKARE, M., CHATTERJI, B.N., BISWAS,
P.K. Comparison of Similarity Metrics for Texture Image Retrieval. Dept. of Electron. &
Electr. Commun. Eng., Indian Inst. of Technol., Kharagpur, India. TENCON 2003.
Conference on Convergent Technologies for Asia-Pacific Region, Vol.2, pp. 571- 575, 2003.
(LEHMANN; WEIN; GREENSPAN, 2003) LEHMANN, T. M., WEIN, B. B.,
GREENSPAN, H. Integration of Content-Based Image Retrieval to Picture Archiving and
Communication Systems. Proceedings of the Medical Informatics Europe Conference (MIE
2003), St. Malo, France, 2003.
(LEOW; LAI, 2001) LEOW, W. K., LAI, S. Y. Invariant texture matching method for image
retrieval. National University of Singapore (Singapore, SG). Patent number: 6192150, Issue
Referências Bibliográficas _______________________________________________________________ 178
date: February 20, 2001.
(LE-TIEN; CHIEN, 2004) LE-TIEN, L., CHIEN, H. D. An Efficient Approach Combining
Wavelets and Neural Networks for Equalizer Signal Processing in Digital Communications.
Proceeding of the 2nd IASTED International Conference on Communication and Computer
Networks, CCN 2004, Cambridge, MA, USA, pp 128-132, Nov 8-10, 2004.
(LIMA, 2002) LIMA, P. C. de. Wavelets em Processamento de Imagens. Departamento de
Matemática – ICEX. Universidade Federal de Minas Gerais, 2002.
(LIMA, 2003) LIMA, P. C. de. Wavelets: Uma Introdução. Departamento de Matemática
ICEX. Universidade Federal de Minas Gerais, 2003.
(LIMA, 2004) LIMA, P. C. de. Wavelets: Teoria, Algoritmos e Aplicações. Departamento de
Matemática – ICEX. Universidade Federal de Minas Gerais, 2004.
(LOUREIRO et al., 2005) LOUREIRO, F. P., CETALE SANTOS, M. A., OSÓRIO, P. L. M.,
SOARES FILHO, D. M. Modelagem Acústica por Divisão em Domínios Independentes
usando Transformada Wavelet Packet. Nineth International Congress of The Brazilian
Geophysical Society, Setembro, 2005.
(LUI et al., 2008) LIU, H., SONG, D., RÜGER, S., HU, R., UREN, V. Comparing
Dissimilarity Measures for Content-based Image Retrieval. Asia Information Retrieval
Symposium (AIRS’2008), Harbin, China, 2008.
(MALLAT, 1989) MALLAT, S. G. A Theory for Multiresolution Signal Decomposition: The
Wavelet Representation.IEEE Transactions on Pattern Analysis and Machine Intelligence,
Vol. 11, No. 7, July, 1989.
(MALLAT, 1998) MALLAT, S. A Wavelet Tour of Signal Processing. Academic Press, 1998.
(MATHWORKS, 2004) The Mathworks Inc. Matlab: The Language of Technical Computing.
Matlab Help, 2004
(MIAO et al., 2004) MIAO, Y., WANG, Y. The Research of Semantic Content Applied to
Brain CT Images. 17th IEEE Symposium on Computer-Based Medical Systems
(CBMS’2004), IEEE Computer Society, 2004.
(MOURA et al, 2003)
MOURA, D. M., SILVA, L. V., NERY, M. S., RODRIGUES, P. S. S.
Recuperação de Imagens Baseado em Conteúdo. Departamento de Ciência da Computação,
Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brasil. Anais do IV Workshop
179 . _______________________________________________________________ Referências Bibliográficas
em Tratamento de Imagens, NPDI/DCC/ICEx/UFMG, pp. 101-109, Junho, 2003.
(MÜLLER et al., 2004) MÜLLER, H., MICHOUX, N., BANDON, D., GEISSBUHLER A. A
Review of Content-Based Image Retrieval Systems in Medical Applications – Clinical Benefits
and Future Directions. International Journal of Medical Informatics, vol. 73, pp. 1-23, 2004
(NEMA, 2004) NEMA – National Electrical Manufacturers Association. Digital Imaging and
Communications in Medicine (DICOM). Part 1: Introduction and Overview, 2004.
(NETO; OLIVEIRA; VALERI, 2004) NETO, G. H., OLIVEIRA, W. de, VALERI, F. V.
Armazenamento de Imagens Médicas com InterBase. Infocomp Journal of Computer Science.
Vol. 3, n. 1, pp. 13-17, 2004.
(OLIVEIRA et al., 2000) OLIVEIRA, R. A R., CLAUDINO, L. M. B., ARAÚJO, A. A.,
PERRATON, L., GUIMARÃES, S. J. F. Extração de Características Utilizando Wavelets
para Indexação de Imagens. Anais I Workshop em Tratamento de Imagens. Universidade
Federal de Minas Gerais. Belo Horizonte, MG, 2000.
(OLIVEIRA, 2003) OLIVEIRA, H. M. de. Análise de Sinais para Engenheiros: Uma
Abordagem via Wavelets. Editora; Manole, 2003.
(PARRAGA, 2002) PARRAGA, A. Aplicação da Transformada Wavelet Packet na Análise e
Classificação de Sinais de Vozes Patológicas. Dissertação de Mestrado. Departamento de
Engenharia Elétrica. Universidade Federal do Rio Grande do Sul, 2002.
(POLIKAR, 2001) POLIKAR, R. The engineer's ultimate guide to wavelet analysis - the
wavelet tutorial. College of Engineering. Rowan University, 2001.
(QIAO et al., 2005) QIAO, Y.-L., LU, Z.-M., PAN, J. S.; SUN, S. H. Spline Wavelets Based
Texture Features for Image Retrieval. International Journal of Innovative Computing,
Information and Control – ICIC, Vol. 2, Number 3, pp. 653-658, June, 2006.
(QURESHI et al.,2006) QURESHI, H, RAJPOOT, N., WILSON, R., NATTKEMPER, T.,
HANS, V. Classification of Meningiomas using Discriminant Wavelet Packets and Learning
Vector Quantization. Proceedings Medical Image Understanding and Analysis (MIUA'2007),
2007.
(RAJPOOT, 2003) RAJPOOT, N. M. Local Discriminant Wavelet Packet Basis for Texture
Classification. Proceedings SPIE Wavelets X (Wavelets X'2003), San Diego (USA), August
2003.
Referências Bibliográficas _______________________________________________________________ 180
(ROCHA, 2007) ROCHA, A. R. Classificação de texturas a partir de vetores de atributos e
função de distribuição de probabilidades. Universidade Estadual de Campinas (Unicamp).
Instituto de Computação. Campinas, SP, 2007.
(RODRIGUES; ARAUJO, 2003) RODRIGUES, P. S. S., ARAUJO, A. A. Um modelo
Bayesiano combinando Análise Semântica Latente e Atributos Espaciais para Recuperação de
Informação Visual. Tese de doutorado. Departamento de Ciência da Computação.
Universidade Federal de Minas Gerais, Belo Horizonte, 2003.
(ROSA et al., 2002) ROSA, N. A., SANTOS FILHO, R. F., BUENO, J. M., TRAINA, A. J.
M., TRAINA JR., C. Sistema de Recuperação de Imagens Similares em um Hospital
Universitário. VIII Congresso Brasileiro de Informática em Saúde CBIS'2002, Natal, RN.
2002.
(SAARBRÜCKEN; KAISERSLAUTERN, 1994) SAARBRÜCKEN, P. M.,
KAISERSLAUTERN H.-G. S. Wavelet and Digital Image Processing. Surveys on
Mathematics for Industry, 4(3):195-235, 1994.
(SANTOS; FURUIE, 2005) SANTOS, M. dos, FURUIE, S. S. Base de Imagens para
Avaliação de Algoritmos de Processamento de Imagens Médicas. Anais do V Workshop de
Informática Médica (WIM´2005). Vol. 2005. pp. 1-4, Porto Alegre, RS, 2005.
(SANTOS; FURUIE, 2006) SANTOS, M. dos, FURUIE, S. S. Sharing Medical Images: a
Proposal of a Reference Image Database. In: SPIE Medical Imaging 2006: PACS and
Imaging Informatics. Vol. 6142. pp. 1-9, San Diego, CA, 2006.
(SIEGEL, 1999) SIEGEL, E. L. Current State of the Art and Future Trends. In Elliot L.
Siegel and Robert M. Kolodner, editors, Filmless Radiology, pp. 3–20, Springer Verlag, New
York City, NY, 1999.
(SILVA; CARVALHO; GATTASS, 2004) SILVA, A. C.; CARVALHO, P. C. P; GATTASS,
M. Diagnóstico de Nódulo Pulmonar Solitário Utilizando Textura e Geometria em Imagens
de Tomografia Computadorizada: Resultados Preliminares. Revista IEEE America Latina,
VOL. 2, 30, jun., 2004.
(SILVA; EYNG, 2002) SILVA, A. V. da; EYNG, J. Wavelets e Wavelet Packets. Seminário
Visão Computacional. Curso de Pós Graduação de Ciência da Computação CPGCC.
Departamento de Informática e Estatística. Universidade Federal de Santa Catarina, 2002.
(SKALANSKY, 1978) SKALANSKY, J., Image segmentation and feature extraction. IEEE
Trans. System Man Cybernat., 8(4), 237-247, 1978.
181 . _______________________________________________________________ Referências Bibliográficas
(SOARES, 1997) SOARES, M. J. Onduletas e Processamento de Sinal. Depart. de
Matemática, Universidade do Minho, Braga, Portugal. Editora: Fundação João Jacinto
Magalhães, 1997.
(SOUZA et al., ) SOUZA, E. M. de, PAGAMISSE, A., MONICO, J.F.G., POLEZEL, W.G.C.
Comparação das Bases de Wavelets Ortonormais e Biortogonais: Implementação, Vantagens
e Desvantagens no Posicionamento com GPS.
Sociedade Brasileira de Matemática Aplicada e
Computacional. TEMA Tend. Mat. Apl. Comput., 8, No. 1 , pp. 149-158, 2007,
(STASIU, 2003) STASIU, R. K. Técnicas de Indexação para Buscas por Similaridade em
Bases de Dados. TI-nr. 1082, Trabalho Individual I. Programa de Pós Graduação.
Universidade Federal do Rio Grande do Sul – UFRGS, 2003.
(TEKNOMO, 2006) TEKNOMO, Kardi. What is Similarity and Dissimilarity? Human
Centered Mobility Technologies in Arsenal Research, Austria. Disponível em
http://people.revoledu.com/kardi/tutorial/Similarity/WhatIsSimilarity.html
(TRAINA JR. et al., 2000) TRAINA JR., C., TRAINA, A., SEEGER, B., FALOUTSOS, C.
Slim-Trees: High Performance Metric Trees Minimizing Overlap Between Nodes.
International Conference on Extending Database Technology (EDBT’2000), v. 1777 of
Lecture Notes in Computer Science, pp. 51-65, Germany, 2000.
(TRAINA, 2001) TRAINA, A. J. Suporte a Visualização de Consultas por Similaridade em
Imagens Médicas através de Estruturas de Indexação Métrica. Tese de Live-Docente em
Computação. Instituto de Ciências Matemáticas e de Computação ICMC. Universidade de
São Paulo, São Carlos, 2001.
(TRAINA; TRAINA JR, 2005) TRAINA, A. J. M., TRAINA JR., C. Técnicas e Aplicações
de Recuperação de Imagens por Conteúdo. Minicurso sobre CBIR. I Workshop de Visão
Computacional. Universidade Metodista de Piracicaba – Unimep, Piracicaba, SP, 2005.
(VALENS, 1999) VALENS, C. A Really Friendly Guide to Wavelets. 2004. Technical
Report, Ume University, 1999.
Disponível em: http://pagesperso-orange.fr/polyvalens/clemens/wavelets/wavelets.html
(WANGENHEIM, 2005) WANGENHEIM, A. V. Tecnologia e Tendências em Informática
na Saúde. Seminário de Informática Médica 2005. Universidade Federal de Santa Catarina
UFSC. Laboratório de Telemedicina. Hospital Universitário Ernani de São Thiago,
Florianópolis, 2005.
(WATANABE; TRAINA, 2005) WATANABE, C. Y. V.; TRAINA, A. J. M. Recuperação de
Imagens Médicas por Conteúdo Usando Transformadas Wavelets. II Simpósio de
Referências Bibliográficas _______________________________________________________________ 182
Instrumentação e Imagens Médicas, São Pedro, SP, pp. 1-2, Outubro, 2005.
(WICKERHAUSER, 1991) WICKERHAUSER, M. V. INRIA Lectures on Wavelet Packet
Algorithms. Minicourse lecture notes. Proceedings ondelettes et paquets d'ondes, pp. 31-99,
Rocquencourt, France, 17-21 June, 1991.
(WICKERHAUSER, 1994) WICKERHAUSER M. V. Adapted Wavelet Packet Analysis from
Theory to Software. Wellesley, MA: AK Peters, Ltd., 9 May, 1994.
(XUE et al., 2007) XUE, Z., ANTANI, S., LONG, L. R., JERONIMO, J., THOMA, G. R.
Investigating CBIR Techniques for Cervicographic Images. Proceedings in Annual
Symposium of the American Medical Information Association (AMIA 2007), Chicago, pp.
826-830, November, 2007.
(YANG; TREWN, 2004) YANG, K., TREWN, J. Multivariate Statistical Methods in Quality
Management. McGraw-Hill Professional, 1 edition (February 24, 2004). 288. ISBN:
0071432086,.
(YU et al., 2006) YU, J., AMORES, J., SEBE, N., TIAN, Q. A New Study on Distance
Metrics as Similarity Measurement. IEEE International Conference on Multimedia and Expo,
pp. 533-536, Toronto, Ont., 9-12 July, 2006
(ZHANG; LU, 2003) ZHANG, D., LU G. Evaluation of similarity measurement for image
retrieval. Neural Networks and Signal Processing, 2003. Proceedings of the 2003
International Conference on Volume 2, Issue, page(s): 928 - 931 Vol.2, 14-17, Dec., 2003.
(ZHOU; HUANG, 2002) ZHOU, X. S., HUANG, T. S. Unifying Keywords and Visual
Contents in Image Retrieval. IEEE Multimedia, 2002.
Apêndice A ___________________________________________________________________________ 184
APÊNDICE A Matrizes de confusão geradas usando Transformada Wavelet com seis
níveis de decomposição e distância Euclidiana entre os vetores. Conjunto de 130 imagens.
185 . __________________________________________________________________________Apêndice B
APÊNDICE BPré-processamento com filtros lineares.
Apêndice C ____________________________________________________________________________ 186
APÊNDICE C Matrizes de confusão das métricas de dissimilaridade
Eficiência de Recuperação: 93%
Eficiência de Recuperação: 93%
Eficiência de Recuperação: 93%
Eficiência de Recuperação: 91%
187 . _________________________________________________________________________ Apêndice C
Eficiência de Recuperação: 91%
Eficiência de Recuperação: 33%
Eficiência de Recuperação: 30%
Eficiência de Recuperação: 24%
Apêndice C ____________________________________________________________________________ 188
Tabela: Desempenho das Métricas de Dissimilaridade
Métrica Performance
Distância City-block 93,38%
Distância Euclidiana Normalizada 93,23%
Distância Minkowski p = 3 93,00%
Distância Euclidiana Normalizada 92,85%
Distância Cosseno 91,38%
Distância Correlação 90,54%
Distância Mahalanobis 33,38%
Distância Hamming 29,54%
Distância Jaccard 23,62%
189 . _________________________________________________________________________ Apêndice D
APÊNDICE D Matrizes de confusão considerando dados uniformizados, normalizados e
sem manipulação para cálculo da dissimilaridade, extraídos com a Transformada Wavelet.
Apêndice D____________________________________________________________________________ 190
191 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 192
193 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 194
195 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 196
197 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 198
199 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 200
201 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 202
203 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 204
205 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 206
207 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 208
209 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 210
211 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 212
213 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 214
215 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 216
217 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 218
219 . _________________________________________________________________________ Apêndice D
Apêndice D____________________________________________________________________________ 220
221 . _________________________________________________________________________ Apêndice D
Apêndice E ____________________________________________________________________________ 222
APÊNDICE E Matrizes de confusão dos cinco melhores resultados obtidos, considerando
dados uniformizados, normalizados e sem manipulação para cálculo da dissimilaridade,
extraídos com a Transformada Wavelet Packet.
223 . __________________________________________________________________________Apêndice E
Apêndice E ____________________________________________________________________________ 224
225 . __________________________________________________________________________Apêndice F
APÊNDICE F Matrizes de confusão obtidas com o algoritmo Best Tree após
decomposição com a Transformada Wavelet Packet usando Entropia de Shannon e Log
Energy.
Apêndice F ____________________________________________________________________________ 226
227 . __________________________________________________________________________Apêndice F
Apêndice F ____________________________________________________________________________ 228
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo