Download PDF
ads:
Antonio Carlos Sobieranski
Segmenta¸ao Supervisionada de Imagens pela Funcional
de Mumford-Shah Utilizando M´etricas de Distˆancia
ao-lineares
Disserta¸ao submetida `a Universidade Federal de Santa Catarina
como parte dos requisitos para a obten¸ao do grau de Mestre em Ciˆencia
da Computa¸ao.
Orientador
Dr.rer.nat Aldo von Wangenheim
Coorientador
Dr.rer.nat Eros Comunello
Florian´opolis, 2010
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ii
ads:
Antonio Carlos Sobieranski
Segmenta¸ao Supervisionada de Imagens pela Funcional
de Mumford-Shah Utilizando M´etricas de Distˆancia
ao-lineares
Esta Disserta¸ao foi julgada adequada para a obten¸ao do t´ıtulo de Mes-
tre em Ciˆencia da Computa¸ao, ´area de concentra¸ao Processamento
Digital de Imagens e aprovada em sua forma final pelo Programa de
os-Gradua¸ao em Ciˆencia da Computa¸ao.
Florian´opolis, 19 de Agosto de 2010
Coordenador
Dr. Mario Antonio Ribeiro Dantas
Banca Examinadora
Orientador
Dr.rer.nat Aldo von Wangenheim
Coorientador
Dr.rer.nat Eros Comunello
Dra. Agma Juci Machado Traina
Dr. Pedro Alberto Barbetta
Dr. Renato Fileto
iv
“A teoria tamb´em se converte em grca material uma vez que se
apossa dos homens”
-
Karl Marx
v
`
A minha fam´ılia, pelo apoio incondicional frente `as dificuldades.
`
A Deus, pela perseveran¸ca, ˆanimo e curiosidade em novas
descobertas.
Ao meus orientadores prof.Aldo e ao amigo prof.Eros, que
possibilitaram meu ingresso no grupo Cyclops e auxiliam na
busca do conhecimento e forma¸ao acadˆemica.
Aos amigos do laborat´orio Lapix: Adiel, Daniel, Leandro,
Mathias, eng.Sylvio, Rateke e Al´essio, pelas horas de discuss˜ao
deste e outros trabalhos desenvolvidos em nosso ambiente.
Aos demais queridos amigos, obrigado por torcerem por mim
durante este per´ıodo.
Em especial, `a minha sempre companheira e esposa Cristiane,
pela paciˆencia e confian¸ca depositadas na incessante busca de
mais esta realiza¸ao, o meu amor eterno.
Enfim, `a todos que de qualquer forma colaboraram e tornaram
poss´ıvel a elabora¸ao deste trabalho, obrigado.
Sum´ario
Sum´ario vi
Lista de Figuras viii
Lista de Tabelas xiv
Abrevia¸oes e Nota¸oes xv
Resumo xvi
Abstract xvii
1 Introdu¸ao 1
1.1 Contextualiza¸ao . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Motivao e hip´otese . . . . . . . . . . . . . . . . . . . . 4
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Objetivo geral . . . . . . . . . . . . . . . . . . . 6
1.3.2 Objetivos espec´ıficos . . . . . . . . . . . . . . . . 6
1.4 Materiais e m´etodos . . . . . . . . . . . . . . . . . . . . 7
1.5 Estrutura da disserta¸ao . . . . . . . . . . . . . . . . . . 8
2 Segmenta¸ao de imagens 10
2.1 Princ´ıpio Geral . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Teoria das cores . . . . . . . . . . . . . . . . . . 12
2.1.2 Fun¸oes de similaridade . . . . . . . . . . . . . . 17
2.2 Segmenta¸ao em dom´ınio espacial . . . . . . . . . . . . . 23
2.2.1 Conexidade e continuidade . . . . . . . . . . . . 23
2.2.2 Segmenta¸ao baseada em regi˜oes . . . . . . . . . 26
2.2.3 Segmenta¸ao por watersheds . . . . . . . . . . . 28
2.3 O estado-da-arte em segmenta¸ao de imagens . . . . . . 29
2.3.1 Segmenta¸ao cl´assica . . . . . . . . . . . . . . . . 30
2.3.2 Segmenta¸ao supervisionada/interativa . . . . . . 33
2.4 T´ecnicas de avalia¸ao da qualidade dos segmentos . . . . 35
2.4.1 Cruzamento de pares . . . . . . . . . . . . . . . . 37
2.4.2 Correspondˆencia de clusters . . . . . . . . . . . . 38
3 A equa¸ao da energia funcional de Mumford-Shah 40
3.1 Modelos variacionais . . . . . . . . . . . . . . . . . . . . 40
3.2 O modelo de Mumford-Shah . . . . . . . . . . . . . . . . 41
3.2.1 O modelo simplificado de Mumford-Shah . . . . 42
vii
3.2.2 Conjecturas e interpreta¸oes do modelo de Mumford-
Shah . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3 Implementa¸ao do modelo de Mumford-Shah . . . . . . 46
3.3.1 Modelo variacional em multi-escala . . . . . . . . 47
4 etodo supervisionado de segmenta¸ao de imagens 52
4.1 Princ´ıpio geral . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Aprendizado da m´etrica de disancia . . . . . . . . . . . 55
4.2.1 Distˆancia polinomial de Mahalanobis . . . . . . . 55
4.2.2 Treinamento do padr˜ao multivariado . . . . . . . 57
4.2.3 Mapas topol´ogicos . . . . . . . . . . . . . . . . . 59
4.3 Especializa¸ao da fun¸ao de aproxima¸ao . . . . . . . . 66
4.3.1 Similaridade na topologia de M . . . . . . . . . . 69
4.3.2 M´etodo de equivalˆencia de fronteira . . . . . . . 73
4.3.3 Algoritmo e implementa¸ao . . . . . . . . . . . . 76
5 Resultados 80
5.1 Metodologia utilizada nos experimentos . . . . . . . . . 80
5.2 Experimento 1 - evolu¸ao agrupamento de regi˜oes . . . . 94
5.3 Experimento 2 - compara¸ao algoritmos de segmenta¸ao 112
5.3.1 Compara¸ao visual dos resultados . . . . . . . . 113
5.3.2 An´alise dos ´ındices de avalia¸ao de segmentos . . 131
5.4 Experimento 3 - compara¸ao S-MS e MS no mesmo u-
mero de regi˜oes . . . . . . . . . . . . . . . . . . . . . . . 140
6 Conclus˜ao 149
6.1 Contribui¸oes . . . . . . . . . . . . . . . . . . . . . . . . 149
6.2 Discuss˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . 151
6.3 Limita¸oes e trabalhos futuros . . . . . . . . . . . . . . . 152
A Anexos 154
A.1 Varia¸oes de γ em um mapa topol´ogico. . . . . . . . . . 154
A.2 Funcionalidades da interface do usu´ario . . . . . . . . . 155
A.3 Header em C++ do Polynomial Mahalanobis . . . . . . 156
A.4 Exemplo de arquivo correspondente ao conjunto de trei-
namento para a imagem 207056 . . . . . . . . . . . . . . 158
A.5 Parˆametros de execu¸ao utilizados nas imagens do expe-
rimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
A.6 Conjuntos de treinamento utilizados na se¸ao 5.3 . . . . 162
A.7 An´alise dos ´ındices de avalia¸ao de segmentos . . . . . . 164
Referˆencias Bibliogr´aficas 168
Lista de Figuras
1.1 Imagens de entrada e a composi¸ao de diferentes segmen-
ta¸oes realizadas por observadores humanos. . . . . . . . 3
2.1 Espectro vis´ıvel de cores. . . . . . . . . . . . . . . . . . 13
2.2 Ilustra¸ao de alguns espa¸cos de cores. . . . . . . . . . . 14
2.3 Distribui¸ao de frequˆencia da imagem em (a) em diferen-
tes espa¸cos de cores (RGB, HSV e HSL) – Color Inspector
3D [BAR 09]. . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Distribui¸ao de frequˆencia da imagem em (a) em dife-
rentes espa¸cos de cores (XYZ, LAB, LUV, xyY) Color
Inspector 3D [BAR 09]. . . . . . . . . . . . . . . . . . . 16
2.5 Mapas topol´ogicos produzidos pelas m´etrias L
1
, L
2
e L
-
norm. Em (a) d(p
1
, p
2
) > (p
1
, p
3
). Em (b) d(p
1
, p
2
) =
(p
1
, p
3
). Em (c) d(p
1
, p
2
) < (p
1
, p
3
) . . . . . . . . . . . . 20
2.6 Compara¸ao m´etricas L
1
, L
2
, L
-norm e Mahalanobis
em rela¸ao ao dado de entrada S multivariado em (a).
Para (b), (c) e (d) d(p
1
, p
2
) < d(p
1
, p
3
). Para (e) d(p
1
, p
2
) >
d(p
1
, p
3
). . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7 Mapas topol´ogicos produzidos pela transformada da dis-
ancia Euclideana (a) e Mahalanobis (b). . . . . . . . . 22
2.8 Resultados de componentes conexos fator 8-conexos, com
pixel adaptativo. . . . . . . . . . . . . . . . . . . . . . . 24
2.9 Resultado da segmenta¸ao por crescimento de regi˜oes em
diferentes estruturas. . . . . . . . . . . . . . . . . . . . . 27
2.10 Modelo de segmenta¸ao por splitting and merging. . . . 28
3.1 Exemplo de agrupamento de regi˜oes pela funcional de
Mumford-Shah. . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Evolu¸ao de λ para o modelo de Morel (equa¸ao 3.5). . 50
4.1 Princ´ıpio geral da metodologia proposta. Em (a), ima-
gem de entrada e inferˆencia do observador (linhas em
branco). Em (b), Mumford-Shah convencional. Em (c),
metodologia proposta. . . . . . . . . . . . . . . . . . . . 53
4.2 Diagrama geral da metodologia proposta. . . . . . . . . 54
4.3 Imagem de entrada e conjunto de treinamento S em (a).
Em (b), distribui¸ao de S, e decomposi¸ao em (c), (d) e
(e). Em (f), (g) e (h), distribui¸ao da frequˆencia de (a). 58
4.4 Mapa topol´ogico gerado a partir de S da figura 4.3. . . . 61
ix
4.5 Diferentes mapas topol´ogicos e ordens polinomiais se-
le¸ao figura 4.3(a). De (a) para (f): padr˜ao de entrada,
Mahalanobis, 2
a
, 4
a
, 8
a
e 16
a
ordens. . . . . . . . . . . . 62
4.6 Distribui¸ao da frequˆencia de cores no espa¸co e conjunto
de treinamento (imagem 124084). . . . . . . . . . . . . . 64
4.7 Diferentes mapas topol´ogicos e ordens polinomiais se-
le¸ao figura 4.6(a). De (a) para (f): padr˜ao de entrada,
Mahalanobis, 2
a
, 4
a
, 8
a
e 16
a
ordens. . . . . . . . . . . . 65
4.8 Comportamento exponencial de β com o agrupamento de
regi˜oes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.9 Topologias dos mapas em diferentes ordens polinomiais:
1
a
, 2
a
, 4
a
e 16
a
ordens respectivamente. . . . . . . . . . 71
4.10 Distˆancia para S (esquerda) e custo de deslocamento en-
tre coordenadas (direita). . . . . . . . . . . . . . . . . . 72
4.11 Exemplo de regi˜oes adjacentes com diferentes tamanho
de fronteira K. . . . . . . . . . . . . . . . . . . . . . . . 74
4.12 Representa¸ao do etodo de equivalˆencia de fronteira. . 75
4.13 Diagrama geral do funcionamento do algoritmo. . . . . . 77
4.14 Interface de usu´ario desenvolvida para utiliza¸ao da me-
todologia proposta. . . . . . . . . . . . . . . . . . . . . . 78
5.1 Imagem 207056 e o conjunto de treinamento em (a). Em
(b) resultado obtido pela metodologia proposta. Em (c)-
(g) os respectivos ground-truths para a imagem 207056
segundo Berkeley. . . . . . . . . . . . . . . . . . . . . . . 82
5.2 An´alise da imagem 207056. Em (a) evolu¸ao do agrupa-
mento de regi˜oes considerando o ´ındice edio das avalia-
¸oes. Em (b), an´alise individual do melhor ´ındice obtido
em (a) segundo as ecnicas de avalia¸ao de segmentos,
ordenados por ID do observador. . . . . . . . . . . . . . 83
5.3 Imagem 3096 e o conjunto de treinamento em (a). Em (b)
resultado obtido pela metodologia proposta. Em (c)-(g)
os respectivos ground-truths para a imagem 3096 segundo
Berkeley. . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.4 An´alise da imagem 3096. Em (a) evolu¸ao do agrupa-
mento de regi˜oes considerando o ´ındice edio das avalia-
¸oes. Em (b), an´alise individual do melhor ´ındice obtido
em (a) segundo as ecnicas de avalia¸ao de segmentos,
ordenados por ID do observador. . . . . . . . . . . . . . 86
x
5.5 Imagem 304034 e o conjunto de treinamento em (a). Em
(b) resultado obtido pela metodologia proposta. Em (c)-
(g) os respectivos ground-truths para a imagem 304034
segundo Berkeley. . . . . . . . . . . . . . . . . . . . . . . 88
5.6 An´alise da imagem 304034. Em (a) evolu¸ao do agrupa-
mento de regi˜oes considerando o ´ındice edio das avalia-
¸oes. Em (b), an´alise individual do melhor ´ındice obtido
em (a) segundo as ecnicas de avalia¸ao de segmentos,
ordenados por ID do observador. . . . . . . . . . . . . . 89
5.7 Imagem 69015 e o conjunto de treinamento em (a). Em
(b) resultado obtido pela metodologia proposta. Em (c)-
(i) os respectivos ground-truths para a imagem 69015 se-
gundo Berkeley. . . . . . . . . . . . . . . . . . . . . . . . 91
5.8 An´alise da imagem 69015. Em (a) evolu¸ao do agrupa-
mento de regi˜oes considerando o ´ındice m´edio das avali-
oes. Em (b), an´alise individual do ´ındice contendo 20
regi˜oes obtido em (a) segundo as t´ecnicas de avalia¸ao de
segmentos, ordenados por ID do observador. . . . . . . . 92
5.9 Imagem 124084 e redu¸ao do n´umero de regi˜oes (experi-
mento 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.10 Imagem 124084 e redu¸ao do n´umero de regi˜oes (experi-
mento 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.11 Imagem 124084 e redu¸ao do n´umero de regi˜oes (experi-
mento 3) . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.12 Imagem 247085 e redu¸ao do n´umero de regi˜oes . . . . . 99
5.13 Imagem 16052 e redu¸ao do n´umero de regi˜oes (experi-
mento 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.14 Imagem 16052 e redu¸ao do n´umero de regi˜oes (experi-
mento 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.15 Imagem 300091 e redu¸ao do n´umero de regi˜oes . . . . . 102
5.16 Imagem 295087 e redu¸ao do n´umero de regi˜oes . . . . . 103
5.17 Imagem 249061 e redu¸ao do n´umero de regi˜oes . . . . . 104
5.18 Imagem 24063 e redu¸ao do n´umero de regi˜oes . . . . . 105
5.19 Imagem 94079 e redu¸ao do n´umero de regi˜oes . . . . . 106
5.20 Imagem 196073 e redu¸ao do n´umero de regi˜oes . . . . . 107
5.21 Imagem 100080 e redu¸ao do n´umero de regi˜oes . . . . . 108
5.22 Imagem 208001 e redu¸ao do n´umero de regi˜oes . . . . . 109
5.23 Imagem 388016 e redu¸ao do n´umero de regi˜oes . . . . . 110
5.24 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 118035. . . . . . . . . . . . . . . . . . . . . . . . 115
xi
5.25 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 143090. . . . . . . . . . . . . . . . . . . . . . . . 116
5.26 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 15088. . . . . . . . . . . . . . . . . . . . . . . . 117
5.27 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 196073. . . . . . . . . . . . . . . . . . . . . . . . 118
5.28 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 2092. . . . . . . . . . . . . . . . . . . . . . . . . 119
5.29 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 22090. . . . . . . . . . . . . . . . . . . . . . . . 120
5.30 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 24004. . . . . . . . . . . . . . . . . . . . . . . . 121
5.31 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 253036. . . . . . . . . . . . . . . . . . . . . . . . 122
5.32 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 310007. . . . . . . . . . . . . . . . . . . . . . . . 123
5.33 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 368078. . . . . . . . . . . . . . . . . . . . . . . . 124
5.34 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 42049. . . . . . . . . . . . . . . . . . . . . . . . 125
5.35 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 46076. . . . . . . . . . . . . . . . . . . . . . . . 126
5.36 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 48055. . . . . . . . . . . . . . . . . . . . . . . . 127
5.37 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 60079. . . . . . . . . . . . . . . . . . . . . . . . 128
Lista de Tabelas
5.1 M´edia ponderada geral entre ´ındices de avalia¸ao e m´edia
aritm´etica final. . . . . . . . . . . . . . . . . . . . . . . . 138
A.1 Parˆametros de execu¸ao para as imagens utilizadas no
experimento (parte 1). . . . . . . . . . . . . . . . . . . . 159
A.2 Parˆametros de execu¸ao para as imagens utilizadas no
experimento (parte 2). . . . . . . . . . . . . . . . . . . . 160
A.3 Parˆametros de execu¸ao para as imagens utilizadas no
experimento (parte 3). . . . . . . . . . . . . . . . . . . . 161
A.4 Ranking da ocorrˆencia dos algoritmos nas posi¸oes de 1
a
11
a
, de acordo com o ´ındice Rand (contagem dos pontos
pretos indicados nos otulos das figuras 5.41 e 5.43). . . 164
A.5 Ranking da ocorrˆencia dos algoritmos nas posi¸oes de 1
a
11
a
, de acordo com o ´ındice Fowlkes Mallows (contagem
dos pontos pretos indicados nos otulos das figuras 5.41
e 5.43). . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
A.6 Ranking da ocorrˆencia dos algoritmos nas posi¸oes de 1
a
11
a
, de acordo com o ´ındice Jacard (contagem dos pontos
pretos indicados nos otulos das figuras 5.41 e 5.43). . . 165
A.7 Ranking da ocorrˆencia dos algoritmos nas posi¸oes de 1
a
11
a
, de acordo com o´ındice Dongen (contagem dos pontos
pretos indicados nos otulos das figuras 5.41 e 5.43). . . 166
A.8 Ranking da ocorrˆencia dos algoritmos nas posi¸oes de 1
a
11
a
, considerando a contagem das posi¸oes pela m´edia
geral dos 4 ´ındices (gr´aficos das figuras 5.41 e 5.43). . . 166
xii
5.38 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 68077. . . . . . . . . . . . . . . . . . . . . . . . 129
5.39 S-MS comparado a outros m´etodos de segmenta¸ao e n´u-
mero de regi˜oes (r.) produzidos por cada algoritmo
imagem 80099. . . . . . . . . . . . . . . . . . . . . . . . 130
5.40 Gr´aficos de an´alise dos ´ındices de avalia¸ao de segmentos
(parte 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
5.41 Gr´aficos de an´alise dos ´ındices de avalia¸ao de segmentos
(parte 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.42 Gr´aficos de an´alise dos ´ındices de avalia¸ao de segmentos
(parte 3) . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.43 Gr´aficos de an´alise dos ´ındices de avalia¸ao de segmentos
(parte 4) . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.44 edia individual dos ´ındices de avalia¸ao de segmentos. 139
5.45 edia geral dos ´ındices de avalia¸ao de segmentos. . . . 140
5.46 Compara¸ao entre os algoritmos S-MS e MS para as 29
imagens, em cada t´ecnica de avalia¸ao de segmentos. . . 141
5.47 Imagens 100075 113016 113044 12003 126007 e conjunto
de treinamento, GTs e segmentos obtidos . . . . . . . . 142
5.48 Imagens 135069 151087 159091 161062 167062 e conjunto
de treinamento, GTs e segmentos obtidos . . . . . . . . 143
5.49 Imagens 183055 216053 238011 260058 291000 e conjunto
de treinamento, GTs e segmentos obtidos . . . . . . . . 144
5.50 Imagens 299091 35070 61060 62096 67079 e conjunto de
treinamento, GTs e segmentos obtidos . . . . . . . . . . 145
5.51 Imagens 97017 97033 e conjunto de treinamento, GTs e
segmentos obtidos . . . . . . . . . . . . . . . . . . . . . 146
5.52 Imagens 113009 163014 167083 225017 e conjunto de trei-
namento, GTs e segmentos obtidos . . . . . . . . . . . . 147
5.53 Imagens 227092 374067 66075 e conjunto de treinamento,
GTs e segmentos obtidos . . . . . . . . . . . . . . . . . . 148
A.1 Variabilidade no parˆametro γ na equa¸ao (4.2), na gera-
¸ao de mapas topol´ogicos de 8
a
ordem (L = 4). . . . . . 154
A.2 Funcionalidades da interface do usu´ario. Em (a), otimiza-
¸ao das compara¸oes pelo histograma, e em (b), obten¸ao
de resultados de segmenta¸ao parciais. . . . . . . . . . . 155
A.3 Source em C++ para utiliza¸ao do polynomial Mahala-
nobis polyMahalanobis.h parte 1. . . . . . . . . . . . 156
xiii
A.4 Source em C++ para utiliza¸ao do polynomial Mahala-
nobis polyMahalanobis.h partes 2 e 3. . . . . . . . . 157
A.5 Conjunto de treinamento utilizados na se¸ao 5.3 – (parte
1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
A.6 Conjunto de treinamento utilizados na se¸ao 5.3 – (parte
2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
ABREVIA ¸C
˜
OES E NOTA¸C
˜
OES
PDI processamento digital de imagens
VC vis˜ao computacional
PDE equa¸ao diferencial parcial
RGB canais/componentes de cores de uma imagem de entrada
I = (r, g, b)
I imagem de entrada m-dimensional
g(x, y) imagem resultado de alguma opera¸ao sobre I
m dimens˜ao de um espa¸co.
x coordenada vetorial m-dimensional ou conjunto
S em m´etricas de distˆancia, S = (x
1
,x
2
, ...,x
n
) indica o con-
junto de treinamento
ou um conjunto de pontos similares m-dimensionais
¬S complemento do conjunto S
d(x, y) alguma etrica de distˆancia sobre as coordenadas
m-dimensionais x e y
M espa¸co etrico ou mapa topol´ogico m-dimensional
n valor num´erico pertinente ao tamanho de uma amostragem
E equa¸ao de energia funcional
A conjunto de suposi¸oes que comp˜oem um modelo de
energia funcional
dom´ınio retangular de uma imagem bidimensional, onde
2
i
segmento ou parti¸ao de Ω,
onde
i
(Ω
i
,
j
) arco de borda / fronteira dividindo segmentos adjacentes
i
e
j
φ coeficiente de equivalˆencia de fronteira
µ valor edio qualquer
σ desvio padr˜ao
alguma constante positiva de pequeno valor
RESUMO
A segmenta¸ao de imagens coloridas ´e uma etapa fundamental
para a ´area de processamento digital de imagens (PDI) e vis˜ao com-
putacional (VC). Consiste na codifica¸ao de uma imagem de entrada
em segmentos representativos, com o objetivo de simplificar e tornar
esta pass´ıvel de interpreta¸ao computacionalmente. Um modelo inte-
ressante de segmenta¸ao de imagens ´e a equa¸ao da energia funcional
de Mumford-Shah. Esta equa¸ao ´e genial pela sua simplicidade, e define
algumas suposi¸oes de como devem ser as regi˜oes e as fronteiras que
dividem estas regi˜oes. A otimiza¸ao desta equa¸ao possibilita a obten-
¸ao de uma aproxima¸ao para os segmentos que ao representativos na
imagem. No entanto, a quest˜ao chave ´e como otimizar na pr´atica os
termos penalizadores, de modo que tal aproxima¸ao seja obtida. Este
trabalho prop˜oe a utiliza¸ao de uma nova fun¸ao de discrimina¸ao para
esta funcional, de modo que etricas de distˆancia ao-lineares podem
ser modeladas atrav´es da inferˆencia de um observador externo. Atrav´es
disto, ´e poss´ıvel orientar o processo de segmenta¸ao pela pr´opria fun-
cional de Mumford-Shah, e consequentemente melhorar o resultado das
segmenta¸oes obtidas. Para verificar a qualidade dos resultados foram
utilizadas ecnicas de an´alise de segmentos, as quais qualitativamente
demonstram uma melhor aproxima¸ao do modelo proposto em rela¸ao
aos m´etodos comparados e ao modelo convencional de Mumford-Shah.
Palavras-chave: segmenta¸ao de imagens, segmenta¸ao super-
visionada, equa¸ao da energia de Mumford-Shah, etricas de distˆancia
ao-lineares, aprendizado de m´etricas de distˆancia.
ABSTRACT
Color image segmentation is a fundamental step in the fields of
digital image processing (DIP) and computer vision (CV). It is a pro-
cess where by an input image is encoded into representative segments,
in order to enable its interpretation by other computational methods.
One interesting segmentation model is the Mumford-Shah energy func-
tional. This equation is genial in its simplicity, defining suppositions
about the behavior and relationship of regions and boundaries. The
optimization of this equation allows us to obtain an approximation for
the segments that are representative of the image. However, the key
question is how the penalizer terms of this functional can be optimized
in the practice to obtain this approximation. This work proposes the
use of a new discrimination function for this energy functional, where
a non-linear distance metric is modeled by human expertise. With our
new discrimination function this energy functional can be oriented, con-
sequently improving the segmentation results. To evaluate the quality
of the obtained results special techniques based on objective-evaluate
indexes were used, showing a better correlation when compared against
other state-of-the-art segmentation methods.
Key-words: color image segmentation, supervised segmenta-
tion, Mumford-Shah energy equation, non-linear distance metrics, dis-
tance metric learning.
1. Introdu¸ao
Nos ´ultimos anos a ´area de processamento digital de imagens
(PDI) e vis˜ao computacional (VC) vem pondo em pr´atica muitas das te-
orias e conjecturas anteriomente restritas pela limita¸ao computacional.
Um pequeno avan¸co, por´em significativo, foi a possibilidade de exten-
ao do processamento em imagens de tons de cinza para coloridas, onde
inicialmente os algoritmos eram projetados. Hoje em dia arios pro-
cessos operam diretamente em imagens coloridas e tamem em bandas
multi-espectrais viabilizando o desenvolvimento de arias aplica¸oes.
Dentre os diversos m´etodos e algoritmos que atuam sobre ima-
gens, um dos processos mais relevantes em PDI e VC ´e a segmenta¸ao de
imagens. A segmenta¸ao consiste tipicamente em simplificar a imagem
de entrada em parti¸oes ou segmentos, onde cada segmento corresponde
na totalidade ou parcialidade a uma regi˜ao homogˆenea na imagem (em
cor, intensidade, textura e continuidade). Atrav´es destes segmentos ´e
poss´ıvel identificar os objetos constituintes na imagem para posterior
aplica¸ao em alguma ´area de conhecimento, tal como ind´ustria edica,
aeroespacial, rob´otica, dentre outros.
O cen´ario atual em segmentao de imagens ´e que uma s´erie de al-
goritmos foram projetados para trabalhar em dom´ınios muito espec´ıficos
de aplica¸ao, ao havendo ainda uma solu¸ao geral. Uma grande parte
destes algoritmos ao meras adapta¸oes de modelos unidimensionais que
outrora foram desenvolvidos (em tons de cinza) e extendidos para operar
em uma maior ordem de dimensionalidade no espa¸co. Outros modelos
ao fundamentados em teorias de grafos e modelos probabil´ısticos que
procuram agrupar pixels/segmentos similares na imagem sob algum cri-
t´erio de similaridade. Tem-se ainda o agrupamento de cores no espa¸co,
tamem conhecida por clusteriza¸ao ou quantiza¸ao de cores, que atri-
bui um valor m´edio para o agrupamento para posterior substitui¸ao na
imagem de entrada, caracterizando uma forma de pseudo-segmenta¸ao.
Enfim, v´arias s˜ao as metodologias computacionais que podem ser
empregadas de forma isoladas ou combinadas para se gerar segmentos
representativos a partir de uma imagem. A quest˜ao chave em um pro-
cesso de segmenta¸ao ´e como os sinais podem ser transformados em
observoes geometricamente comportadas e fi´eis a uma imagem inicial
I, uma vez que I ´e um sinal n˜ao estruturado e sem qualquer informa¸ao
geom´etrica e semˆantica [PET 03].
1.1 Contextualiza¸ao
A segmenta¸ao de imagens ainda ´e um campo de aplica¸ao onde
algoritmos ao desenvolvidos para tarefas muito espec´ıficas. Quando
2
utilizados para contextos gerais (ex.segmentao de cenas outdoor, ca-
sos amb´ıguos ou mesmo “ambiciosos”), estes m´etodos permitem variar
muito seus parˆametros de execu¸ao na tentativa de controlar ao mesmo
tempo continuidade, luminosidade e cromaticidade. De uma forma ge-
ral, bons resultados podem ser obtidos atraes da tentativa de ajuste
desses parˆametros. Entretanto, justificativas acerca da rela¸ao existente
entre os resultados obtidos e os parˆametros utilizados para produz´ı-los
nem sempre podem ser respondidas `a priori, bem como estimar os parˆa-
metros para a produ¸ao de novos resultados. Desta forma, quanto maior
a generalidade objetivada em um etodo de segmenta¸ao de imagens,
menor ´e a sua especificidade.
Uma das maiores dificuldades em se projetar algoritmos de seg-
menta¸ao deve-se ao fato de que a qualidade dos resultados produzidos
´e diretamente dependente de um contexto de aplica¸ao. Muito prova-
velmente observadores humanos possuem um mecanismo “contextual”
de segmenta¸ao e reconhecimento de padr˜oes, e o que se sabe ´e que este
mecanismo ´e puramente psicol´ogico [FU 81], e a sua simula¸ao anal´ıtica
´e considerada muito complexa.
O que se verifica ´e que observadores humanos tendem a reduzir
ao aximo o n´umero de objetos na cena, focando somente nas repre-
senta¸oes mais significativas `a percep¸ao humana. Embora o n´ıvel de
detalhamento encontrado em diferentes observoes difere de indiv´ıduo
para indiv´ıduo, os objetos de interesse tendem a estar evidenciados em
meta-regi˜oes ´unicas na cena. Exemplo disso ´e demonstrado na figura 1.1
adquirida do banco de imagens de Berkeley
1
. No primeiro exemplo - (a),
o objeto de interesse (c˜ao) ´e composto de diferentes regi˜oes homogˆeneas
(ex. partes do pˆelo marrom e branco), mas que pertencem ao mesmo
objeto se analisadas hierarquicamente. Na figura demonstrada em (b)
ao apresentados os cruzamentos das “segmenta¸oes manuais” realizadas
por 6 observadores humanos, onde a maioria define como objeto repre-
sentativo na cena o ao (em um ´unico segmento) e outras estruturas tais
como grama, tronco e o horizonte. Tamb´em ´e poss´ıvel observar nesta
imagem alguns tra¸cados mais enues, como por exemplo no interior do
ao, onde as diferentes tonalidades de pelo apresentam-se delimitadas.
Isso deve-se ao fato de que algum observador dentre os 6 que avaliaram
esta imagem, julgou relevante a presen¸ca de tais segmentos separada-
mente na cena. Estas avalia¸oes podem ser verificadas individualmente
em cada observador, no banco de Berkeley (imagem 247085).
Situa¸ao similar pode ser constatada na figura 1.1-(c) atrav´es
das segmenta¸oes manuais apresentadas em (d). Neste exemplo, o back-
1
http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/segbench.
3
(a) Imagem original (b) 6 avaliadores
(c) Imagem original (d) 5 avaliadores
Figura 1.1: Imagens de entrada e a composi¸ao de diferentes segmen-
ta¸oes realizadas por observadores humanos.
ground e as p´etalas das flores tamb´em apresentam algumas linhas tˆenues
pertinentes aos subsegmentos, demonstrando novamente que algum ob-
servador mais detalhista julgou tais segmentos relevantes para a cena em
quest˜ao. O que ao cabe `a discuss˜ao s˜ao as raz˜oes que levaram um deter-
minado observador a detalhar tanto a sua avalia¸ao. No entanto, casos
divergentes ou amb´ıguos tendem a aumentar o desvio padr˜ao consensual
para um determinado caso, dificultando em uma avalia¸ao qualitativa
dos resultados obtidos computacionalmente.
Pode-se aparentar um tanto abstrato que observadores humanos
gerem segmentos a partir de imagens com o objetivo de avaliar a quali-
dade dos resultados de segmenta¸ao produzidos pelos etodos compu-
tacionais. Sabe-se que o processo de segmenta¸ao biol´ogico ´e puramente
psicol´ogico e de dif´ıcil reprodutibilidade por um m´etodo computacional,
que tem o seu comportamento determin´ıstico. A quest˜ao a ser apre-
sentada ´e como produzir resultados de segmenta¸ao que sejam similares
aos produzidos por observadores humanos, sem a exaustiva tarefa de es-
colha de parˆametros de execu¸ao requerida em alguns m´etodos “estado-
da-arte”. De que forma este processo cognitivo poderia ser simulado e
flexibilizado para contemplar diferentes observoes qualitativas ? Po-
deria o processo de agrupamento de regi˜oes ser orientado por algum
4
conhecimento pr´evio de um objeto “alvo” na cena, de modo a modificar
os crit´erios de similaridade e continuidade ?
1.2 Motivao e hip´otese
Os exemplos mencionados na figura 1.1 demonstram quais tipos
de estruturas um observador humano espera encontrar em uma ima-
gem de entrada atraes dos segmentos identificados. O que se busca em
PDI e VC ´e o desenvolvimento de algoritmos eficientes de segmenta¸ao
que atinjam um resultado semelhante aos produzidos por observado-
res humanos, diretamente a partir do n´ıvel de pixel de uma imagem
I de entrada. Muitos modelos de segmenta¸ao de imagens ao conjec-
turas baseadas em m´etodos variacionais e equa¸oes diferenciais parciais
(PDE). etodos variacionais s˜ao modelos gen´ericos onde se pode formu-
lar problemas complexos nos mais diversos campos de aplica¸ao. Uma
an´alise explorat´oria destes etodos ´e apresentada por [BRO 05] com
foco em PDI, cuja tese entitulada “from pixel to regions: partial dif-
ferential equations in image analysis” demonstra que muitos modelos
variacionais podem ser explorados para as mais diversas situa¸oes, tais
como a segmenta¸ao, filtragem de imagens, simula¸ao de transporte de
massa, dentre outros. Modelos variacionais tamem podem ser aplica-
dos para tarefas complexas de maior n´ıvel de abstra¸ao, onde muitas
outras t´ecnicas de PDI ao ao adequadas para a resolu¸ao destes tipos
de problemas [BRO 05]-p.33.
Um modelo variacional interessante ´e a equa¸ao da energia fun-
cional de Mumford-Shah [MUM 89], a qual apresenta as suposi¸oes ma-
tem´aticas que expressam um processo de segmenta¸ao. Tais suposi¸oes
definem como deve ser realizado o agrupamento entre pixels/regi˜oes ad-
jacentes e ao mesmo tempo separados por fronteiras qualitativas. Este
processo pode ser comparado `a fus˜ao de part´ıculas: part´ıculas seme-
lhantes “liberam” pequenas taxas de energia quando ao fundidas entre
si, enquanto que em particulas diferentes a energia liberada ´e alta de-
vido ao processo de compensa¸ao de massa. Esta energia, por sua vez,
´e computada por meio de uma equa¸ao de energia funcional, baseada
nas suposi¸oes de similaridade, intensidade e continuidade em imagens.
A partir deste modelo, m´etodos de segmenta¸ao por agrupamento
de regi˜oes foram propostos, buscando particionar uma imagem inicial I
em segmentos
i
, onde o sinal de I ´e homogˆeneo e delimitado por um
sistema de descontinuidades K
i
(fronteiras). Outros etodos oriundos
do modelo da energia funcional foram os contornos ativos (levelsets)
[CAS 97][CHA 02], que computam a evolu¸ao da curva correspondente
5
a um segmento com base em um campo de gradientes de dire¸ao. Con-
tornos ativos em sua formula¸ao asica ao restritos `a extra¸ao de um
´unico objeto na cena, enquanto que a funcional de Mumford-Shah pos-
sibilita a identifica¸ao de m´ultiplas regi˜oes.
O modelo de Mumford-Shah alcan¸cou a completa formula¸ao ge-
ral matem´atica sobre a segmenta¸ao de imagens na forma de um pro-
blema de otimiza¸ao [BRO 05]. A forma em como se minimizar a ener-
gia, entretanto, tem sido deixado em aberto desde ent˜ao [BRO 05]. O
modelo de Mumford-Shah pode ser visto como um framework para o
agrupamento de regi˜oes adjacentes, segundo uma fun¸ao de discrimi-
na¸ao, onde certos crit´erios de homogeneidade e continuidade ao res-
peitados. Homogeneidade e continuidade ao conceitos abstratos, que
podem ser dependentes e complementares entre si. Desta forma, eles
podem ser computados de diferentes maneiras, abrindo margens tam-
b´em `a diferentes interpreta¸oes para o modelo de Mumford-Shah. Estas
“interpreta¸oes” s˜ao aqui denominadas de variantes, e algumas destas
possibilitam se obter resultados ao bons quanto (se ao superiores)
a muitos algoritmos do “estado-da-arte” em segmenta¸ao de imagens
sob certa combina¸ao de parˆametros de execu¸ao. Entretanto, efici-
entes meios para se minimizar os termos penalizadores da equa¸ao de
Mumford-Shah ´e objeto de estudo em PDI e VC [BRO 09]. O modelo
apresenta uma grande lacuna entre a sua formula¸ao te´orica e eficientes
meios para se minimizar na pr´atica os termos penalizadores [POC 09].
Uma forma de se explorar a expressividade das fun¸oes de dis-
crimina¸ao e por consequˆencia otimizar
2
a funcional de Mumford-Shah
´e pelo uso de t´ecnicas da ´area de aprendizado de aquina (machine
learning), mais especificamente em etricas de distˆancia. O modelo
de Mumford-Shah ´e um modelo intuitivo onde pequenas regi˜oes pos-
suem uma tendˆencia natural de serem absorvidas por regi˜oes adjacentes
maiores, e isso pode ser motivo de falha para a maioria dos casos de seg-
menta¸ao quando este modelo ´e utilizado. Entretanto, quando a pr´opria
inferˆencia do observador pode ser modelada juntamente como uma fun-
¸ao de discrimina¸ao, o processo de agrupamento de regi˜oes pode ser
orientado adaptativamente, alcan¸cando assim uma otimiza¸ao para o
modelo.
O termo inferˆencia por parte observador refere-se `a uma etapa de
supervis˜ao, que ´e `a priori, realizada por ele. Caracter´ısticas relevantes
2
neste trabalho, otimizar a funcional caracteriza-se modelar eficientemente a fun-
¸ao de discrimina¸ao de modo a se obter resultados de segmenta¸ao similares aos
providos por observadores humanos, com um conjunto m´ınimo de parˆametros de
execu¸ao.
6
apresentadas na cena podem ser caracterizadas e codificadas em modelos
de similaridade, que descrevem rela¸oes de aproxima¸ao. Neste contexto
que ao inseridas as ecnicas de aprendizado de m´etricas de distˆancia,
possibilitando “simular cogni¸oes” sob a forma de modelos bayesianos.
A motivao inserida neste trabalho ´e demonstrar que o problema
da segmenta¸ao pode em parte ao residir na elabora¸ao de completa-
mente novos modelos sofisticados de segmenta¸ao. Para tal, existe todo
um aparato de equa¸oes diferenciais parciais e modelos variacionais que
descrevem as suposi¸oes para muitos problemas de simula¸ao, inclusive
o problema da segmenta¸ao [BRO 09]. A quest˜ao chave a ser abordada
´e como otimizar estes modelos atrav´es da modelagem de conceitos de
homogeneidade e continuidade, de forma a simular o processo biologica-
mente realizado por observadores humanos. Embora “uma imagem vale
mais que mil palavras”, o objetivo da segmenta¸ao de imagens ´e simpli-
ficar: poucos segmentos representativos que correlacionem `a percep¸ao
humana.
1.3 Objetivos
1.3.1 Objetivo geral
Propor um modelo supervisionado de segmenta¸ao de imagens
com base na equa¸ao da energia funcional de Mumford-Shah, sendo que
a supervis˜ao no modelo proposto consiste na especializa¸ao de uma fun-
¸ao de discrimina¸ao, utilizando t´ecnicas de aprendizado de etricas de
distˆancia.
1.3.2 Objetivos espec´ıficos
1 Propor um modelo supervisionado de segmenta¸ao de imagens por
crescimento de regi˜oes com base na funcional de Mumford-Shah,
de modo que o usu´ario possa inferir no processo de agrupamento
das regi˜oes;
2 Modelar atrav´es de t´ecnicas de aprendizado de etricas de dis-
ancia mecanismos de discrimina¸ao que possibilitem acurar as
diferentes caracter´ısticas multivariadas entre objetos de interesse
e demais estruturas presentes na cena;
3 Integrar as novas fun¸oes discriminantes nas suposi¸oes penaliza-
doras no modelo de Mumford-Shah;
7
4 Adapta¸ao e implementa¸ao de uma vers˜ao supervisionada para a
segmenta¸ao de imagens em cores para modelo de Mumford-Shah,
de modo que a segmenta¸ao produza regi˜oes significativas de modo
parametriz´avel;
5 Avaliar qualitativamente os resultados obtidos por meio de ´ındices
de avalia¸ao da qualidade da segmenta¸ao em rela¸ao `a modelos
padr˜oes-ouro;
6 Comparar os resultados obtidos pela metodologia proposta em re-
la¸ao ao modelo convencional de Mumford-Shah, quando um u-
mero fixado de regi˜oes ´e determinado;
7 Avaliar qualitativamente os resultados obtidos em rela¸ao `a outros
m´etodos de segmenta¸ao do “estado da arte”.
1.4 Materiais e etodos
O presente trabalho ´e baseado na equa¸ao da energia funcional
de Mumford-Shah [MUM 89], sendo este um modelo variacional que
determina como uma imagem pode ser particionada em segmentos ho-
mogˆeneos separados por fronteiras qualitativas. O modelo utilizado por
base na metodologia proposta e nas compara¸oes ´e descrito na equa¸ao
(3.5), tamb´em dispon´ıvel em [MEG 10].
As imagens utilizadas neste trabalho pertencem ao banco de ima-
gens de Berkeley [MAR 02], um dataset exemplar de imagens dos mais
diferentes contextos de aplica¸oes. A justificativa da escolha deste data-
set ´e a possibilidade de avalia¸ao qualitativa dos resultados de segmen-
ta¸ao, frente `a segmenta¸oes manuais que foram realizadas por obser-
vadores humanos ground-truths.
O m´etodo para a constru¸ao dos mapas topol´ogicos ´e baseado na
distˆancia polinomial de Mahalanobis, descrita em [GRU 06].
Os etodos de avalia¸ao da qualidade dos resultados obtidos de
segmenta¸ao est˜ao descritos na se¸ao 2.4.
As ferramentas computacionais que suportaram o desenvolvolvi-
mento do presente trabalho foram: Matlab (prototipagem, modelagem
dos mapas topol´ogicos e avalia¸ao de qualidade dos resultados de seg-
menta¸ao) e C/C++ para a adapta¸ao do modelo de Mumford-Shah e
a nova fun¸ao de discrimina¸ao proposta. Interfaces gr´aficas para de-
terminar os padr˜oes qualitativos pela inferˆencia do observador foram
desenvolvidas com a biblioteca wxWidgets.
Todos os resultados obtidos pela metodologia proposta podem ser
visualizados no site do m´etodo (www.lapix.ufsc.br/sms).
8
1.5 Estrutura da disserta¸ao
Cap´ıtulo 1 - Introdu¸ao: defini¸ao do problema envolvido na
segmenta¸ao, motivoes e hip´oteses na elabora¸ao de algoritmos
de segmenta¸ao de imagens. Neste cap´ıtulo tamb´em ao apresen-
tados os objetivos previstos a serem atingidos com este trabalho,
bem como os materiais e m´etodos utilizados na sua concep¸ao;
Cap´ıtulo 2 - Fundamenta¸ao te´orica em processamento
digital de imagens: aborda as premissas asicas em segmenta-
¸ao de imagens e t´ecnicas de verifica¸ao de similaridade em cores e
distribui¸oes multivariadas. ao apresentadas as t´ecnicas “estado-
da-arte” em segmentao de imagens, focando em segmenta¸ao
cl´assica e meios de intera¸ao e supervis˜ao;
Cap´ıtulo 3 - O modelo de Mumford-Shah: apresenta uma
breve introdu¸ao em modelos variacionais e a descri¸ao da equa¸ao
da energia funcional de Mumford-Shah. As diferentes interpreta-
¸oes deste estimado modelo variacional tamb´em ao descritas neste
cap´ıtulo, bem como as recentes pesquisas na tentativa da otimi-
za¸ao dos termos penalizadores;
Cap´ıtulo 4 - etodo supervisionado de segmenta¸ao de
imagens: neste cap´ıtulo ´e apresentado o modelo supervisionado
proposto, com base na energia funcional de Mumford-Shah. Al´em
da modelagem dos mapas topol´ogicos atrav´es do aprendizado da
m´etrica de distˆancia, dois aspectos importantes ao abordados:
(a) a fun¸ao de discrimina¸ao considerando os novos crit´erios de
similaridade e continuidade, e (b), a verifica¸ao das fronteiras di-
tas “reais” de acordo com o mapa topol´ogico. O principal objetivo
destes termos ´e a tentativa da minimiza¸ao de energia, para gera-
¸ao de segmentos representativos;
Cap´ıtulo 5 - Resultados: apresenta os resultados obtidos pela
metodologia proposta. Tes diferentes experimentos ao apresen-
tados: (a) verifica¸ao da inferˆencia no processo de agrupamento de
regi˜oes; (b) compara¸ao em rela¸ao `a outros etodos “estado-da-
arte”; (c) verifica¸ao da correspondˆencia da abordagem proposta
em rela¸ao ao modelo convencional de Mumford-Shah, quando um
n´umero fixado de regi˜oes ´e determinado. Para todos os experi-
mentos realizados, uma an´alise qualitativa em rela¸ao aos ground-
truths foi realizada;
9
Cap´ıtulo 6 - Conclus˜ao: apresenta por fim as conclus˜oes, dis-
cuss˜oes, contribui¸oes e trabalhos futuros acerca da abordagem
apresentada.
2. Segmenta¸ao de imagens
2.1 Princ´ıpio Geral
A segmenta¸ao de imagens ´e um processo de suma importˆancia
para o processamento digital de imagens (PDI) e vis˜ao computacional
(VC). Seu uso extende-se aos mais diversos campos de aplica¸ao, tais
como ind´ustria m´edica, aeroespacial, rob´otica, dentre outras.
A segmenta¸ao consiste na subdivis˜ao de uma imagem de entrada
I em regi˜oes constituintes ou parti¸oes, sendo que o n´ıvel em que esta
subdivis˜ao deve ser efetuada depende do contexto do problema a ser
tratado [GON 01]. O processo de segmenta¸ao preza pelo agrupamento
de pixels em regi˜oes salientes na imagem, tornando-a mais simples de ser
analisada computacionalmente [SHA 01]. Outra analogia ao processo
de segmenta¸ao ´e a atribui¸ao de um determinado label a cada pixel
na imagem. Pixels com caracter´ısticas similares tendem a apresentar o
mesmo label, e que coletivamente cobrem toda a imagem identificando
as regi˜oes e distinguindo entre objetos e as bordas de objetos [SHA 01].
Os crit´erios que regem um processo de segmenta¸ao geralmente
ao fundamentados em homogeneidade do sinal e continuidade. Por ho-
mogeidade subentende-se as caracter´ısticas em comum que um grupo de
pixels compartilham entre si (tais como mesmos n´ıveis de intensidade,
textura ou cor), e continuidade ´e a combina¸ao de padr˜oes de homogenei-
dade ao longo do dom´ınio espacial da imagem. Estes crit´erios quando
analisados localmente na imagem permitem a identifica¸ao de regi˜oes
homogˆeneas bem como as fronteiras (bordas) que ao compartilhadas
entre regi˜oes adjacentes [GON 01].
Os primeiros avan¸cos em segmenta¸ao de imagens eram focados
em imagens de tons de cinza devido a grande complexidade computaci-
onal e pelas limita¸oes de hardware existentes na ´epoca. Com o ganho
de capacidade de processamento e motivados pela limita¸ao que as ima-
gens em tons de cinza apresentavam, impulsionou-se o desenvolvimento
de algoritmos aptos a trabalharem com imagens coloridas de alta resolu-
¸ao. Um dos primeiros algoritmos desenvolvidos envolvendo os conceitos
de homogeneidade e continuidade somente surgiu em meados de 1991,
hoje, o tradicional etodo de Watershed [VIN 91]. De fato, muitos
dos algoritmos de PDI hoje existentes s˜ao meras adapta¸oes de modelos
unidimensionais, que foram extendidos para uma ordem maior de di-
mensionalidade. Exemplos destes algoritmos ao a limiariza¸ao por his-
tograma, clusteriza¸ao, detec¸ao de bordas, filtros de redu¸ao de ru´ıdo,
algoritmos de segmenta¸ao e outras rotinas de PDI e VC [GON 01].
11
Embora o processamento de imagens coloridas possa ser trivial-
mente entendido como uma abordagem de ordem de dimensionalidade
superior, a busca por solu¸oes gerais pode apresentar-se de forma com-
plexa. Um dos principais fatores pertinentes em qualquer etodo de
PDI para imagens coloridas ´e a forma com que as cores ao representa-
das de sinais cont´ınuos para espa¸cos discretos. A utiliza¸ao do espa¸co
de cores RGB popularizou-se nos m´etodos de PDI e VC por ser uma
representa¸ao simples, regularmente distribu´ıda e ordenada em compo-
nentes vetoriais de cores de mesma significˆancia e amplitude. A id´eia
de indexar cores por combina¸oes de 8 bits permitiu a representa¸ao de
pouco mais de 16 milh˜oes de cores (24 bits), o que a era fant´astico em
representatividade. Entretanto, o espa¸co de cores RGB apresenta uma
defini¸ao qualitativa muito pobre na forma com que as cores est˜ao orde-
nadas neste espa¸co: a luminosidade s´o pode ser obtida pela combina¸ao
equivalente das 3 componentes RGB. Consequˆencia disto: cenas com
consider´aveis varia¸oes de luminosidade ao complexas para serem seg-
mentadas quando simples t´ecnicas de similaridade s˜ao utilizadas, devido
ao deslocamento das cores “perceptuais” quando a luz infere. Algumas
dificuldades foram superadas em partes pela exigˆencia de modelos de co-
res baseados em luminosidade ou na percep¸ao humana. Tais modelos
permitem uma melhor representa¸ao das rela¸oes existentes entre cores e
luminosidade, influenciando essencialmente na qualidade dos resultados
obtidos em imagens coloridas.
Entretanto, cor ao ´e tudo em PDI e VC. A utiliza¸ao de mo-
delos f´ısicos foi empregada com grande interesse em imagens coloridas.
Processos de transporte de massa e flu´ıdos foram simulados em modelos
de difus˜ao anisotr´opica, resultando em interessantes algoritmos de filtra-
gem por anisotropia [WEI 98][WEI 01] e ainda recentemente explorados
em arias outras aplica¸oes [WEL 06][BRE 07][SCH 09]. Outra impor-
tante colabora¸ao nos atuais modelos de segmenta¸ao ao os m´etodos
variacionais [BRO 05]. Estes etodos ao modelos matem´aticos gen´e-
ricos e permitem simular uma erie de fenˆomenos f´ısicos naturais, tais
como problemas de ofuscamento [KLI 90] e sombreamento de objetos
em imagens [TSA 96]. Tipicamente, o grande desafio na elabora¸ao de
um modelo f´ısico ou biol´ogico est´a “associado ao fato de que a segmen-
ta¸ao humana das imagens ´e um processo de percep¸ao psicol´ogico”,
e dificilmente suscept´ıvel a uma an´alise puramente anal´ıtica [FU 81].
Este processo de interpreta¸ao vai al´em de somente visualiza¸ao, mas
sim na aplica¸ao de conhecimento acito, o que ´e dif´ıcil de expressar.
ao obstante, o processo de segmenta¸ao de imagens n˜ao triviais ´e uma
das mais complexas tarefas de serem executadas em processamento de
12
imagens [GON 01].
Neste cap´ıtulo ser˜ao abordados alguns conceitos fundamentais na
segmenta¸ao de imagens. Inicialmente, a teoria das cores demonstra a
relevˆancia inserida na forma com que as cores podem ser organizadas
em espa¸cos discretos. Cores, para poderem serem computadas e quanti-
ficadas em rela¸ao `a alguma ordem (similaridade) necessitam de fun¸oes
apropriadas que podem ser extendidas desde simples modelos da ´alge-
bra linear `a complexos mapas topol´ogicos. Os princ´ıpios de conexidade
e continuidade ser˜ao discutidos juntamente com o fundamento base em
crescimento de regi˜oes. Por fim, alguns modelos tradicionais e ecnicas
do “estado-da-arte” em segmenta¸ao de imagens ser˜ao fundamentadas
neste cap´ıtulo.
2.1.1 Teoria das cores
A cor ´e um fenˆomeno de percep¸ao presente no sistema visual,
e ocorre atrav´es de uma resposta psicol´ogica em rela¸ao ao espectro
de luz. Consiste tipicamente em uma rea¸ao f´ısica do sistema visual e
da interpreta¸ao das caracter´ısticas de intensidade de luz realizada pelo
c´erebro.
As primeiras conjecturas para a compreens˜ao do que as cores sig-
nificavam foram regidas por Arist´oteles, que afirmava que as cores eram
raios enviados dos c´eus por Deus. Outras id´eias surgiram no per´ıodo da
renascen¸ca atraes de observoes das diferentes varia¸oes de luminosi-
dade no eu entre os per´ıodos do amanhacer e entardecer. No entanto,
os primeiros estudos cient´ıficos foram conduzidos por Isaac Newton em
1666, atraes da famosa experimenta¸ao da decomposi¸ao da luz branca
(luz solar) em um prisma de vidro, produzindo assim todas as cores
vis´ıveis do espectro de luz de forma dispersa. Newton ao somente
decompˆos a luz branca em cores (como a se havia produzido alguns
anos antes), mas tamb´em reconstituiu o agrupamento das cores na luz
branca atrav´es de um segundo prisma. A conclus˜ao foi extraordin´aria:
a cor est´a totalmente presente na luz, e quanto mais branca for a luz,
maior ´e a composi¸ao de todas as cores vis´ıveis do espectro. A partir
destas descobertas a palavra “espectro” (ou densidade espectral) foi en-
ao introduzida nos conceitos da ´optica, referindo-se a faixa de cores
observadas quando a luz branca ´e dispersa atrav´es do prisma. Na figura
2.1 ao ilustradas as cores vis´ıveis no espectro de luz e suas respectivas
faixas de frequˆencia e comprimentos de onda correspondentes.
Os pr´oximos estudos sobre o espectro de luz foram focados na
organiza¸ao das cores em espa¸cos discretos. Surge enao o conceito
de modelo de cor (ou espa¸co de cor), que ´e um modelo matem´atico
13
Figura 2.1: Espectro vis´ıvel de cores.
abstrato que descreve a forma em que as cores podem ser representadas
e referenciadas numericamente em componentes vetoriais. Desde muito
tempo sabia-se que a combina¸ao de algumas cores prim´arias de modo
proporcional ao suficientemente r´ıgidas para a cria¸ao da maioria das
cores do espectro de luz vis´ıvel. Tais cores prim´arias quando organizadas
em 3 ou 4 componentes vetoriais (e.g.RGB e CMYK) e combinadas entre
si por adi¸ao (ou mesmo subtra¸ao), possibilitam modelar um espa¸co
de cores, e representar muitas unidades de cores.
Johanes Wolfgang em meados de 1800 utilizou as id´eias de New-
ton, que eram tipicamente cient´ıficas, e desenvolveu seu pr´oprio sistema
de cores baseado em efeitos psicol´ogicos. Este modelo serviu de inspira-
¸ao para muitos outros modelos atualmente utilizados, pois organizava
as cores no eixo equatorial de uma esfera (matiz) enquanto que as varia-
¸oes de luminosidade (branco e preto) eram contidas nas regi˜oes polares.
Durante esse per´ıodo muitos outros estudos foram realizados, e dentre
estes, destaca-se o experimento de Albert H. Munsell em 1915, que de-
senvolveu com base na esfera de Runge as bases para os espa¸cos de cores
HSV e HSL, muito utilizados nos dias atuais.
Como v´arios outros modelos eram propostos e cada vez variavam
em diferentes componentes e geometria, em meados de 1920 iniciou-se
um comitˆe para o estudo e padroniza¸ao das cores e seus modelos de
cor. Um dos primeiros relat´orios t´ecnicos a desvinculava muitas id´eias
sobre a substancialidade da cor: a cor ´e “somente um nome geral para
todas as sensa¸oes vindas da atividade da retina e do sistema ocular hu-
mano, que quando atinge o sistema nervoso essa atividade torna-se uma
resposta espec´ıfica para uma energia radiante de certos comprimentos
de ondas e intensidades” [TRO 22]. Embora a teoria das cores tenha
mudado ao longo do tempo, atualmente ´e aceit´avel que cores s˜ao muito
mais sensa¸oes de respostas providas pelo sistema visual do observador
do que substancial [FRI 47][ICP 84]. Isso relata ao fato de que diferen-
tes pessoas podem observar as cores de modo diferentemente tamb´em
[FU 81].
14
Figura 2.2: Ilustra¸ao de alguns espa¸cos de cores.
Muito tempo depois uma nova tentativa para determina¸ao de
um padr˜ao mundial para a defini¸ao do padr˜ao das cores foi organizada
pela Comiss˜ao Internacional de “l’Eclairage” (CIE). O intuito inicial era
estabelecer um acordo internacional sobre as especifica¸oes de colori-
metria, e produzir um espa¸co de cores baseado na percep¸ao humana
(denominado de CIE XYZ). Este modelo de cor foi ent˜ao a base para a
maior parte dos demais espa¸cos de cores desenvolvidos [WRI 81], bem
como as varia¸oes do modelo CIE XYZ que incluem CIELUV, CIEUVW
e CIELAB.
Apesar de arios espa¸cos de cores terem sido definidos at´e enao,
apenas com o advento dos displays coloridos ´e que emerge a utiliza-
¸ao do espa¸co de cores RGB (tomando como base as primeiras id´eias
de combina¸ao de cores). Este modelo foi rapidamente adotado como
padr˜ao da ind´ustria visual devido `a sua simplicidade e capacidade de
representa¸ao de um grande range de cores do espectro.
Atualmente arios espa¸cos de cores ao estabelecidos, sendo que
alguns destes acabaram caindo em desuso. Na figura 2.2 ao ilustrados
alguns modelos de espa¸cos de cores classificados quanto a sua geome-
tria
1
. A geometria de um espa¸co de cores est´a diretamente relacionada
a uma fun¸ao de mapeamento que permite a localiza¸ao e a compara¸ao
de similaridade entre cores.
Espa¸cos de cores podem ser considerados como distribui¸oes de
cores alocadas espacialmente de acordo com algum senso organizacio-
nal. Nas figuras 2.3 e 2.4 ao demonstradas como as cores da figura
em (a) est˜ao dispersas ao longo da geometria destes espa¸cos de cores.
Para o primeiro caso ao demonstradas as representa¸oes das cores se-
1
http://www.cs.brown.edu/courses/cs092/VA10/HTML/
15
(a) Imagem original (b) RGB (c) HSV
(d) HSB (e) HSL (f) HSI
Figura 2.3: Distribui¸ao de frequˆencia da imagem em (a) em diferentes
espa¸cos de cores (RGB, HSV e HSL) Color Inspector 3D [BAR 09].
gundo uma organiza¸ao linear, tal como apresentado nos espa¸cos RGB,
HSV/HSB, e HSL/HSI. Distribui¸oes n˜ao-lineares ao demonstradas no
segundo caso, pelos modelos baseados no padr˜ao CIE e designados para
aproximar a organiza¸ao das cores de acordo com a percep¸ao humana.
Uma descri¸ao mais formal destes espa¸cos de cores ´e dada a seguir:
RGB: (red, green, blue) ´e o espa¸co de cores mais comumente uti-
lizado nos padr˜oes de displays coloridos e em algoritmos de PDI.
Todas as componentes de cores neste espa¸co s˜ao regularmente dis-
tribu´ıdas e com mesmo valor de contribui¸ao na cor. As cores ao
produzidas pela adi¸ao entre as componentes de cores que possuem
dimensionalidade igual a m = 3, enquanto que a luminosidade ´e
mantida na diagonal principal do espa¸co tridimensional. Outras
varia¸oes do espa¸co RGB utilizam maior range de bits e compo-
nentes adicionais, tais como o sRGB e RGBA, que usa um canal
alfa para indicar a transparˆencia da cor no pixel;
CMYK: Diferentemente do RGB, CMYK (ciano, magenta, ama-
relo e preto, logo m = 4) ´e um modelo que utiliza a cor de forma
subtrativa, uma vez que este espa¸co descreve a forma em que as
16
(a) Imagem original (b) XYZ (c) LAB
(d) LUV (e) xyY
Figura 2.4: Distribui¸ao de frequˆencia da imagem em (a) em dife-
rentes espa¸cos de cores (XYZ, LAB, LUV, xyY) Color Inspector 3D
[BAR 09].
tintas devem ser aplicadas com base na reflex˜ao da luz. Tipica-
mente, como no experimento de Newton demostrou-se que todas as
cores compostas formam a luz branca. No espa¸co de cores CMYK
a intensidade das cores ao formadas pela redu¸ao da intensidade
de luz;
HSV / HSB: (hue, saturation, value or brightness) ´e tradicional-
mente conhecido no meio art´ıstico devido `as cores deste espa¸co
estarem organizadas diretamente na matiz (H), e a luz situada
separadamente em uma componente ´unica (V ou B). Este tipo de
espa¸co de cores pode ser eficientemente obtido a partir espa¸co de
cores RGB atrav´es de convers˜oes lineares;
HSL / HSI: (hue, saturation, luminance or intensity) ´e um espa¸co
de cores muito similar ao HSV, diferindo apenas na substitui¸ao da
luz por brilho. Por consequˆencia, o brilho das cores puras ´e igual
ao brilho da cor branca, enquanto que a luminosidade de uma cor
pura ´e igual a luminosidade dos valores m´edios de intensidade em
tons de cinza.
17
CIE: O modelo CIE 1931 foi a primeira tentativa de produzir um
espa¸co de cores baseado na forma em que a percep¸ao humana
diferencia as cores. Outras varia¸oes deste espa¸co de cores ao
CIELUV, CIELAB, CIEUVW.
Um dos focos deste trabalho ´e investigar mecanismos eficientes
de homogeneidade e continuidade. Para isto, o conceito de similaridade
envolve fortemente um espa¸co de cores e uma fun¸ao de mapeamento,
que interage neste espa¸co. Alguns destes conceitos ser˜ao apresentados
na pr´oxima subse¸ao.
2.1.2 Fun¸oes de similaridade
Similaridade ´e a nota¸ao utilizada para indicar quando existe al-
gum grau de simetria ou semelhan¸ca entre duas ou mais entidades. Este
conceito encontra-se presente nas mais diversas ´areas de conhecimento
aplicado, tais como redes neurais artificiais, sistemas de racioc´ıcio base-
ado em casos e em m´etodos estat´ısticos.
Para as ´areas de PDI e VC, uma fun¸ao de similaridade influ-
encia diretamente na qualidade dos resultados obtidos. Em algoritmos
de segmenta¸ao, dados dois pixels/regi˜oes adjacentes
i
e
j
somente
poder˜ao ser considerados similares quando uma fun¸ao identificar que
exista simetria entre dadas entidades.
Geralmente as fun¸oes de similaridade computam a proximidade
entre dois ou mais vetores de ordem m-dimensional em um plano Eucli-
deano. Para tal, a distˆancia Euclideana ´e utilizada assumindo que cada
componente vetorial possui igual relevˆancia e independˆencia das outras.
Sabe-se, no entanto, que distˆancia Euclideana nem sempre pode ser sa-
tisfeita em aplica¸oes reais, especialmente quando utilizadas altas ordens
dimensionais (m > 3) [GRU 06][XIA 08]. Outras fun¸oes ao baseadas
na geometria espacial produzida por alguma for¸ca de distor¸ao com o
objetivo de ponderar o resultado da similaridade, e outras ainda fazem
uso de algum tipo de conhecimento pr´evio para a contra¸ao/repuls˜ao da
distˆancia calculada entre as coordenadas no espa¸co.
Uma fun¸ao de similaridade ´e analogamente uma m´etrica de dis-
ancia, e que para se obter uma boa qualidade esta deve identificar carac-
ter´ısticas importantes e ao mesmo tempo discriminar as caracter´ısticas
irrelevantes ao contexto da aplica¸ao empregado [XIA 08]. Provˆer uma
boa m´etrica de distˆancia implica em dependˆencia com algum contexto
de aplica¸ao, determinando o pleno sucesso ou falha de um sistema de
vis˜ao computacional [WU 05]. As m´etricas de distˆancia possuem uma
rela¸ao muito forte com espa¸cos etricos e espa¸cos discretos, conceitos
estes apresentados na pr´oxima subse¸ao.
18
2.1.2.1 Espa¸co etrico e distˆancia
Espa¸co m´etrico M ´e um conjunto finito ou infinito onde a no¸ao
de distˆancia entre os elementos ao longo das componentes vetoriais ´e
definida. Um espa¸co m´etrico ´e dado por componentes a-dimensionais
[ZEZ 05], embora a no¸ao mais intuitiva acerca de um espa¸co seja um
espa¸co Euclideano tridimensional a que tudo est´a inserido, onde a no¸ao
de tempo ´e uma quarta dimens˜ao descrita pela teoria geral da relativi-
dade.
Em um espa¸co Euclideano tridimensional o meio mais comum de
se quantificar uma distˆancia entre dados dois vetores x e y ´e atrav´es da
menor poss´ıvel distˆancia entre estes pontos. Uma distˆancia mensur´avel
em um espa¸co etrico ´e definida por uma etrica d, onde componentes
m-dimensionais arbitr´arias x e y apresentam:
1. d(x, y) 0, propriedade de ao-negatividade (uma distˆancia
sempre ´e um valor positivo).
2. d(x, y) = 0, se e apenas se x = y propriedade de identidade.
3. d(x, y) = d(y, x), propriedade de simetria.
4. d(x, y) d(x, y) + d(y, z), onde z ´e outra coordenada arbi-
tr´aria qualquer, satisfazendo a propriedadde de desigualdade do
triˆangulo.
As condi¸oes acima especificadas valem para todo x,y,z contidos
no espa¸co etrico, e para qualquer dimens˜ao m.
Tipicamente, todo espa¸co m´etrico ´e um espa¸co topol´ogico de uma
forma natural, e os teoremas sobre espa¸cos topol´ogicos podem ser empre-
gados em espa¸cos etricos. Isto pode ser demonstrado se considerando
uma dada coordenada x em um espa¸co M, onde sobre x ´e aplicado um
valor positivo de raio r, tal que: B(x, r) = y M : d(x, y) r onde B
´e um conjunto aberto que possibilita a gera¸ao de uma topologia em
M, logo, um espa¸co topol´ogico. Variando d, ´e poss´ıvel a obten¸ao de
topologias ao Euclideanas e direcionadas a solu¸ao do problema em
quest˜ao.
Entretanto, nem sempre o menor caminho em um espa¸co m´etrico
pode ser descrito por uma linha reta entre dois pontos. Em termos de
qualidade de “caminho”, ´e s´abido que nem sempre o caminho mais curto
´e o caminho de menor custo. Uma categoria de espa¸cos m´etricos que
consideram muito mais que somente a informa¸ao espacial ao descritos
por espa¸cos topol´ogicos.
19
Espa¸cos topol´ogicos ou mapas topol´ogicos ao estruturas mate-
aticas que permitem uma defini¸ao formal de conceitos de convergˆen-
cia, continuidade e conectividade. Estes espa¸cos consideram que sub-
conjuntos podem estar inseridos no espa¸co, alterando a sua topologia
de acordo com crit´erios de localiza¸ao, agrupamento ou relevˆancia de
cada conjunto. As distˆancias computadas neste tipo de espa¸co podem
ser alteradas de acordo com a topologia, permitindo uma descri¸ao mais
precisa de similaridade.
2.1.2.2 Distˆancia entre coordenadas no espa¸co
Em PDI e VC frequentemente ´e utilizada algebra linear para a
representa¸ao de cores em espa¸cos discretos. As fun¸oes de similaridade
geralmente computam a similaridade entre duas coordenadas x e y,
que ao ou coordenadas reais ou coordenadas edias de popula¸oes
multivariadas dispersas no espa¸co.
A norma vetorial ´e a forma mais simples de quantificar a simila-
ridade entre componentes vetoriais m-dimensionais. A norma vetorial
verifica a distˆancia entre pontos atrav´es de uma reta, e pode ser pro-
vada repetidamente pela aplica¸ao do teorema de Pit´agoras. Outras
m´etricas variantes da distˆancia Euclideana tamb´em podem ser aplica-
das em um espa¸co Euclideano obtendo-se diferentes resultados. Em
um espa¸co Euclideano
m
, a distˆancia ou similaridade entre duas co-
ordenadas x(x
1
, x
2
, ..., x
m
) e y(y
1
, y
2
, ..., y
m
) m-dimensionais podem ser
computadas por:
|x y| =
m
i=1
|x
i
y
i
|, L
1
-norm ou distˆancia de Manhattan,
uma vez que utilizando somente valores absolutos a distˆancia ´e
quantificada unitariamente para cada coordenada em 4 conexos
(n˜ao diagonais);
x y =
m
i=1
|x
i
y
i
|
2
1/2
, L
2
-norm, ou distˆancia Euclideana
propriamente dita, a menor distˆancia entre 2 pontos em uma linha
reta, conforme nota¸ao do teorema de Pit´agoras;
m
i=1
|x
i
y
i
|
2
2
i
1/2
, distˆancia Euclidiana escalada em rela¸ao
a uma componente vetorial σ
i
;
m
i=1
|x
i
y
i
|
p
1/p
, p-norm, similar `a norma vetorial, onde p
geralmente ´e determinado pela dimens˜ao m;
20
lim
k→∞
m
i=1
|x
i
y
i
|
p
1/p
, denominada de L
-norm e popu-
larmente conhecida como distˆancia no tabuleiro de xadrez, devido
`a similaridade de n´umero de movimentos que um rei deve fazer
para percorrer as casas. Tamb´em pode ser analogamente represen-
tada pela distˆancia de Manhattan utilizando 8 conexos (4 conexos
+ diagonais).
(a) L1-norm (b) L2-norm (c) L
-norm
Figura 2.5: Mapas topol´ogicos produzidos pelas etrias L
1
, L
2
e L
-
norm. Em (a) d(p
1
, p
2
) > (p
1
, p
3
). Em (b) d(p
1
, p
2
) = (p
1
, p
3
). Em (c)
d(p
1
, p
2
) < (p
1
, p
3
)
Na figura 2.5 ao demostradas diferentes topologias produzidas
por algumas das etricas de distˆancia anteriormente descritas. Os pre-
sentes mapas ao representa¸oes bidimensionais no plano Euclideano,
onde pixels com maior valor de intensidade demonstram um maior grau
de similaridade em rela¸ao ao ponto de proje¸ao P
1
.
2.1.2.3 Distˆancia em distribui¸oes multivariadas
Em espa¸cos etricos, subconjuntos vetoriais podem ser inseri-
dos para alterar a topologia de um espa¸co etrico. Estes subconjuntos
podem ser na forma de distribui¸oes multivariadas que devem estar in-
seridas nas dimens˜oes do espa¸co para a modelagem de uma topologia.
As formas de modelagem destes mapas podem ser efetuadas de diversas
maneiras, tanto por m´etricas globais como locais. Exemplo de uma e-
trica global ´e a distˆancia de Mahalanobis [DUD 01], tamb´em conhecida
por distˆancia estat´ıstica.
A distˆancia de Mahalanobis ´e uma etrica de distˆancia baseada
na correla¸ao estat´ıstica entre as componentes vetoriais. Por ser baseada
na covariˆancia de um dado conjunto de entrada, ´e invariante `a escala e
21
tamanho n do conjunto de entrada S. Dadas duas coordenadas vetoriais
x e y, e um conjunto de entrada S correspondendo a uma distribui¸ao
multivariada no espa¸co, a distˆancia de Mahalanobis ´e computada por:
(x y)
T
A
1
(x y)
1/2
= x y
A
(2.1)
A
1
´e a inversa da matriz de covariˆancia, a qual ´e obtida de S. Como
pode ser observado, a distˆancia de Mahalanobis ´e uma etrica dual:
se A ´e uma matriz identidade, a distˆancia de Mahalanobis reduz-se `a
norma L
2
.
(a) Distribui¸ao multivari-
ada
(b) L
1
-norm (c) L
2
-norm
(d) L
-norm (e) Mahalanobis
Figura 2.6: Compara¸ao m´etricas L
1
, L
2
, L
-norm e Mahalanobis em
rela¸ao ao dado de entrada S multivariado em (a). Para (b), (c) e (d)
d(p
1
, p
2
) < d(p
1
, p
3
). Para (e) d(p
1
, p
2
) > d(p
1
, p
3
).
Uma das vantagens da distˆancia de Mahalanobis em rela¸ao `as
m´etricas Euclideanas ´e a descri¸ao de uma topologia el´ıptica em rela-
¸ao ao padr˜ao de entrada S. Na figura 2.6 ao demostrados os mapas
topol´ogicos gerados por esta etrica, e uma breve compara¸ao em re-
la¸ao `as outras m´etricas apresentadas tamb´em utilizando a edia da
distribui¸ao S como ponto de proje¸ao. Os pontos destacados em azul
denotam o conjunto S correspondendo a um determinado padr˜ao no
espa¸co. Os pontos p
2
e p
3
ao coordenadas bidimensionais arbitr´arias,
22
e p
1
´e o centro da distribui¸ao S para todos os mapas topol´ogicos gera-
dos. A distˆancia d(p
1
, p
2
) resulta em um valor escalar correspondente `a
distˆancia entre os pontos especificados.
Mapas topol´ogicos tamb´em podem ter a sua constru¸ao dada lo-
calmente. Isso pode ser realizado atrav´es da an´alise da vizinhan¸ca da
distribui¸ao multivariada de S, verificando-se os k vizinhos mais pr´oxi-
mos do ponto a ser computado. A transformada da distˆancia Euclideana
´e uma destas etricas, que pode ser baseada no vizinho mais pr´oximo
ou na m´edia de k vizinhos, segundo a equa¸ao:
1
k
k
i=1
x x
i
(2.2)
onde . ´e a norma vetorial computada de um vetor arbitr´ario x em
rela¸ao aos k vizinhos mais pr´oximos (x
1
, x
2
, ..., x
k
).
A equa¸ao 2.2 pode substituir a norma vetorial por qualquer m´e-
trica das anteriormente descritas. Se a distˆancia de Mahalanobis for uti-
lizada, por exemplo, ´e possibilitada a inclus˜ao do alculo da covariˆancia
na gera¸ao da topologia. Exemplos de topologias geradas pela trans-
formada da distˆancia Euclideana e Mahalanobis considerando k = 5
vizinhos mais pr´oximos ao demonstrados na figura 2.7.
(a) Tranformada L2-norm (b) Tranformada Mahala-
nobis
Figura 2.7: Mapas topol´ogicos produzidos pela transformada da dis-
ancia Euclideana (a) e Mahalanobis (b).
´
E interessante observar que, embora o espa¸co topol´ogico destas
m´etricas possibilitem uma melhor discrimina¸ao de similaridade em re-
la¸ao `a distribui¸ao do padr˜ao, ainda existe a dependˆencia de um va-
lor escalar de threshold quando ´e necess´aria a classifica¸ao bimodal.
Observa-se que a transformada da distˆancia Euclideana apresenta uma
topologia local que varia de acordo com a vizinhan¸ca. Havendo regi˜oes
23
internas ao padr˜ao onde ao existam pontos de S, esta etrica colapsa
e penaliza tais regi˜oes. a na topologia transformada de Mahalanobis,
estas ausˆencias em S ao suavizadas de acordo com as covariˆancias do
padr˜ao, possibilitando uma melhor precis˜ao na discrimina¸ao dos pa-
dr˜oes.
Na se¸ao estado da arte ser˜ao descritas as ecnicas de aprendi-
zado de aquina baseadas em pairwise
2
, geralmente na forma de pares
ordenados. Os m´etodos descritos no artigo [XIA 08] ao classificado-
res muito semelhantes ao demonstrado pela transformada da distˆancia
utilizando por m´etrica a distˆancia de Mahalanobis. No entanto, a infor-
ma¸ao de entrada ´e do tipo pairwise, e a classifica¸ao final obtida ´e do
tipo bimodal (objeto de interesse, e background).
2.2 Segmenta¸ao em dom´ınio espacial
Define-se dom´ınio espacial todo o processo realizado em um plano
bidimensional
2
. Em processamento de imagem, mais especificamente
em segmenta¸ao de imagens, o dom´ınio espacial ´e definido por toda
a opera¸ao que envolva a vizinhan¸ca de um determinado pixel. Estas
opera¸oes necessitam dos conceitos apresentados a seguir: conexidade e
continuidade.
2.2.1 Conexidade e continuidade
A conexidade e continuidade ao conceitos fundamentais para a
segmenta¸ao de imagens. Por conexidade relata-se o fato de duas uni-
dades de pixels serem adjacentes, logo conexas entre si, e continuidade
ambas as unidades adjacentes possu´ırem valores similares de intensida-
des. Embora a id´eia demonstre-se simples, na pr´atica as imagens podem
apresentar estruturas complexas, variando em formato e cores.
Computacionalmente, a forma mais comum de verificar ao mesmo
tempo conexidade e continuidade ´e pela utiliza¸ao de uma t´ecnica deno-
minada de componentes conexos. Componentes conexos ou em alguns
contextos conhecido por labeling consiste na verifica¸ao de uma imagem
de entrada I de forma a buscar ao mesmo tempo similaridade e cone-
xidade [GON 01].
´
E uma extens˜ao da teoria de grafos, onde um dado
componente conexo cont´em sub-conjuntos de pixels que ao unicamente
rotulados com um identificador em comum.
ao se pode afirmar que componentes conexos ´e tipicamente uma
t´ecnica de segmenta¸ao de imagens. Um algoritmo de componentes
2
O observador determina quais tipos de pares de dados de entrada ao similares
(S) e dissimilares (D), na forma de S : (p
i
, p
j
) e D : (p
i
, p
j
).
24
conexos ´e composto por sub-grafos onde 2 ertices (pixels) est˜ao co-
nectados um ao outro atraes de uma aresta. Cada sub-grafo ´e dito
completo se completamente conectado entre seus pr´oprios ertices. Es-
tas conex˜oes podem ser de correspondˆencia com 4 vizinhos (horizontais
e verticais) ou 8 vizinhos (4 conexos mais as diagonais) a partir de um
pixel de origem.
(a) Imagem original (b) Imagem resultado th = 15
(c) Imagem original (d) Imagem resultado th = 15
(e) Imagem original (f) Imagem resultado th = 15
Figura 2.8: Resultados de componentes conexos fator 8-conexos, com
pixel adaptativo.
Originalmente, componentes conexos foram desenvolvidos para a
verifica¸ao e identifica¸ao de regi˜oes desconexas em imagens bin´arias.
Neste caso, a verifica¸ao de vizinhan¸ca verifica a conectividade para
somente componentes de mesmo valor [0-1]. Para casos de imagens de
25
entrada variando em tons de cinza [0-255] (r,g,b), o algoritmo pode ser
facilmente extendido a uma maior ordem de escala e verificar assim
a rela¸ao de conexidade em diferentes graus de luminosidade. Para
imagens coloridas o processo de verifica¸ao da conectividade ´e expandido
para uma maior dimensionalidade, e pode ser auxiliado por um valor
de threshold (th) acoplado ao algoritmo para controlar o agrupamento
dos pixels. Em imagens coloridas, assim como em outros etodos de
PDI, alguma etrica de distˆancia deve ser empregada com o objetivo
de restringir a inclus˜ao de pontos outliers
3
.
Tipicamente, existem 2 varia¸oes para o algoritmo de componen-
tes conexos: compara¸ao entre pontos de referˆencia est´aticos e dinˆami-
cos. Para os modelos de conectividade onde a verifica¸ao de similaridade
a-se de forma est´atica, o resultado do agrupamento ´e inferido devido
`as varia¸oes de luminosidade. Isso ocorre pelo valor de referˆencia estar
fixado no pixel de origem da busca, e a medida que se afasta em vari-
oes de gradiente tˆenues, a quebra do valor de threshold pode ocorrer
abruptamente. Os modelos dinˆamicos alteram o valor de referˆencia a
cada verifica¸ao, possibilitando agrupar regi˜oes que apresentem uma va-
ria¸ao suave de gradiente ao longo da imagem I. Entretanto, referˆencias
que se adaptam a cada pixel percorrido tendem a simplificar muito a
imagem, especialmente se existir na imagem algum caminho que conecte
diferentes objetos ao longo da cena.
Na figura 2.8 ao demonstrados os resultados do agrupamento de
regi˜oes por componentes conexas utilizando o modelo adaptativo. Em
(a) ´e demonstrado uma flor e seu background com v´arias sub-estruturas,
e em (b) o resultado do agrupamento utilizando um fator de conexidade
igual a 8 e um valor de th = 15. Como pode ser observado, embora exis-
tam varia¸oes nas diferentes tonalidades, o background e o objeto em
destaque na cena (flor) apresentam-se isolados em um segmento ´unico.
Na figura em (c) ´e ilustrado como pode ocorrer a perda de objetos em
(d) pela existˆencia de caminhos com varia¸oes tˆenues ao longo de
2
(conexidade entre o eu e o sol). Tamb´em em (d) ´e poss´ıvel observar
a presen¸ca de ´areas saturadas devido `a reflex˜ao da luminosidade que
´e projetada no oceano, problema frequentemente apresentado em algo-
ritmos de segmenta¸ao baseados em grafos. Em (e) ´e poss´ıvel verificar
uma leve varia¸ao na luminosidade seguindo em dire¸ao ao centro da
imagem. Quando uma varia¸ao abrupta ocorre, o algoritmo de compo-
nentes conexas considera outro objeto, conforme demonstrado em (f).
3
Termo comum na estat´ıstica para referenciar pontos que possuem comporta-
mento fora do padr˜ao em rela¸ao aos demais pontos de entrada da amostragem.
26
2.2.2 Segmenta¸ao baseada em regi˜oes
O conceito de segmenta¸ao de imagens baseada em regi˜oes apre-
senta ecnicas de segmenta¸ao que atuam no dom´ınio espacial da ima-
gem (
2
). O objetivo ´e encontrar as regi˜oes diretamente atrav´es das
rela¸oes de homogeneidade dos pixels que a comp˜oem, e agrupando e/ou
separando as regi˜oes se necess´ario.
Segundo [GON 01], a formula¸ao asica para segmenta¸ao base-
ada em regi˜oes ´e o particionamento da imagem de entrada I em seg-
mentos ou regi˜oes Ω, compostas por n sub-regi˜oes
1
,
2
, , ...,
n
. As
condi¸oes estabelecidas ao:
n
i=1
i
= . A segmenta¸ao deve ser completa, onde cada pi-
xel na imagem I deve estar situado em somente uma regi˜ao, e a
uni˜ao das regi˜oes ´e igual `a imagem segmentada com as mesmas
dimens˜oes de I.
Cada regi˜ao
i
´e uma regi˜ao conexa internamente, ou seja, to-
dos os pixels ao conectados sob algum senso de similaridade ou
homogeneidade.
i
j
= para todo i e j onde i = j, sendo que as regi˜oes devem
ser disjuntas, e um pixel ou sub-regi˜ao nunca deve estar situado
em mais de uma regi˜ao.
P (Ω
i
) = T RUE para todo i = 1, 2, ..., n, indicando as proprieda-
des que devem ser satisfeitas pelos pixels da regi˜ao
i
no senso de
homogeneidade (todos os pixels do segmento possuem o mesmo
valor de intensidade ou cor, ou satisfazendo algum crit´erio de si-
milaridade).
P (Ω
i
j
) = F ALSE para i = j mostra que duas regi˜oes adja-
centes sejam diferentes.
Os modelos cl´assicos de segmenta¸ao baseados em regi˜oes ao:
crescimento de regi˜oes e splitting and merging.
2.2.2.1 Crescimento de regi˜oes
Crescimento de regi˜oes, como o pr´oprio nome sugere ´e um m´etodo
de segmenta¸ao de imagens que agrupa pixels ou regi˜oes em meta-regi˜oes
com base em algum crit´erio de similaridade. Para tal, o crescimento de
regi˜oes inicia em rela¸ao `as coordenadas de entrada sobre a image I(x, y)
ou em rela¸ao a um ou mais valores de intensidade ou cor. Este tipo
27
de inicializa¸ao ´e tamb´em chamada de seed points, onde a partir destes
pixels/regi˜oes que o crescimento de regi˜oes agrupa regi˜oes adjacentes
semelhantes em novas meta-regi˜oes.
Algumas varia¸oes deste algoritmo podem ser inicializadas sem
os seed points, onde cada pixel ´e submetido a verifica¸ao individual de
similaridade, para posterior agrupamento em meta-regi˜oes.
(a) Imagem original 1 (b) Resultado 1
(c) Imagem original 2 (d) Resultado 2
Figura 2.9: Resultado da segmenta¸ao por crescimento de regi˜oes em
diferentes estruturas.
Algoritmos de crescimento de regi˜oes ao muito dependentes do
contexto de aplica¸ao e da etrica de similaridade utilizada durante o
agrupamento das regi˜oes. Geralmente a similaridade ´e acoplada a um
valor de threshold e a verifica¸ao de vizinhan¸ca ´e similar `a id´eia de com-
ponentes conexos, sendo estes verificados em 4 ou 8 conexos. O crit´erio
de parada do algoritmo pode variar de acordo com a ´area da regi˜ao ou
at´e que ao existam mais pixels adjacentes que possam ser inclu´ıdos na
meta-regi˜ao. Exemplos da aplica¸ao da segmenta¸ao por crescimento
de regi˜oes ao demonstrados na figura 2.9, onde diferentes estruturas
foram utilizadas na inicializa¸ao do algoritmo de segmenta¸ao.
28
2.2.2.2 Splitting and merging
O algoritmo de splitting and merging subdivide uma imagem de
entrada I em um conjunto de regi˜oes disjuntas para ent˜ao mesclar ou
separar as regi˜oes com o objetivo de satisfazer os crit´erios estabelecidos
para os algoritmos baseados em regi˜oes.
O algoritmo de splitting and merging ´e uma analogia ao algoritmo
quadtrees, que ocorre no dom´ınio espacial da imagem. O algoritmo inicia
particionando a imagem em regi˜oes menores, conforme demonstrado na
ilustra¸ao da figura 2.10.
(a) Particionamento na
imagem
(b) Quadtree correspon-
dente
Figura 2.10: Modelo de segmenta¸ao por splitting and merging.
O algoritmo ´e baseado em 2 etapas:
Splitting: o algoritmo subdivide sucessivamente uma imagem de
entrada I em quadrantes menores satisfazendo a condi¸ao P (Ω
i
) =
T RUE. Cada quadrante onde P(Ω
i
) = F ALSE ´e novamente
subdividido em novos quatro quadrantes, e este processo se repete
at´e que P (Ω
i
) = T RUE;
Merging: se somente a etapa anterior for realizada, a parti¸ao final
da imagem pode conter quadrantes adjacentes i e j com proprie-
dades idˆenticas. Para contornar essa limita¸ao natural dos algorit-
mos baseados em quadtrees, um processo de merging ´e realizado
a posteriori utilizando por crit´erio P (Ω
i
i
) = T RUE.
O processo acima especificado ´e repetido enquanto nenhum mer-
ging ou splitting for poss´ıvel.
2.2.3 Segmenta¸ao por watersheds
A segmentao por watersheds (tamb´em conhecida por waterseds
morfol´ogicos) [VIN 91] foi um dos primeiros avan¸cos computacionais em
29
segmenta¸ao de imagens. O algoritmo ´e baseado nos conceitos anterior-
mente descritos tais como continuidade, threshold e processamento de
regi˜oes, que frequentemente tende a produzir resultados mais est´aveis
em rela¸ao aos etodos que foram descritos at´e o momento.
O conceito asico do algoritmo de watershed ´e considerar a ima-
gem em topografia (como bacias topogr´aficas), onde I possui coorde-
nadas espaciais bidimensionais (x, y) enquanto que a altitude do relevo
´e determinada por um valor de intensidade (tons de cinza ou cores)
[GON 01]. Para toda a representa¸ao topogr´afica, ao localizados os
m´ınimos locais em cada regi˜ao, que ser˜ao os pontos de referˆencia de
onde a ´agua come¸car´a a escoar. A representa¸ao ´e inundar todas as
bacias hidrogr´aficas uniformemente, at´e que sejam localizadas as linhas
que dividem as bacias, denominados de linhas de watershed.
Uma vez que as linhas de watershed ao localizadas, diques ao
colocados para impedir que diferentes represas se fundam com o au-
mento gradual do n´ıvel da ´agua. A localiza¸ao dos diques geralmente
´e realizada por operadores morfol´ogicos tais como dilata¸ao e eros˜ao.
Este processo ´e repetido at´e que por fim a inunda¸ao atinga um es-
agio onde somente os diques permanecam vis´ıveis sobre as linhas de
watershed. Esta representa¸ao das linhas de watersheds corrrespondem
`as fronteiras entre as regi˜oes localizadas na imagem.
Comumente o algoritmo de watershed ´e muito mais aplicado ao
gradiente da imagem, do que na pr´opria imagem em si. Umas das
principais aplica¸oes do algoritmo de watershed ´e na extra¸ao de objetos
proximamente uniformes em rela¸ao ao seu background.
2.3 O estado-da-arte em segmenta¸ao de imagens
Nesta se¸ao ser˜ao apresentados alguns dos recentes avan¸cos em
segmenta¸ao de imagens coloridas. Os m´etodos aqui descritos est˜ao clas-
sificados em duas categorias: segmenta¸ao cl´assica e segmenta¸ao super-
visionada (em alguns contextos interativa). Para a segmenta¸ao cl´assica
est˜ao considerados os algoritmos de segmenta¸ao que preocupam-se na
obten¸ao dos segmentos a partir de uma imagem de entrada sem senso
semˆantico ou informa¸ao adicional. Segmenta¸ao supervisionada aborda
os recentes avan¸cos da utiliza¸ao combinada de t´ecnicas de segmenta¸ao
e inferˆencia humana.
Algoritmos supervisionados podem adaptar-se dinamicamente `a
diferentes contextos de aplica¸ao, e seus resultados tendem a ser mais
precisos e com um menor esfor¸co de parametriza¸ao. Segmenta¸ao cl´as-
sica ao necessita de inferˆencia humana, e pode automatizar processos
de dom´ınio espec´ıfico onde o conjunto de parˆametros ´e delimitado. Um
30
certo n´ıvel de generalidade tamb´em pode ser alcan¸cado por algoritmos
convencionais de segmenta¸ao atrav´es da varia¸ao dos parˆametros de
execu¸ao. Ambas as abordagens podem ser complementares entre si, e
envolvem diversos conceitos de grafos e continuidade.
2.3.1 Segmenta¸ao cl´assica
Um dos primeiros modelos de segmenta¸ao desenvolvidos foi a
segmenta¸ao por watershed [VIN 91], sendo posteriormente descrito por
[GON 01], onde diferentes interpreta¸oes ao apresentadas. A id´eia da
segmenta¸ao por watershed, apesar de simples, ainda ´e foco de pes-
quisa na otimiza¸ao e redu¸ao em opera¸oes de vizinhan¸cas [OR 07], e
mesmo na integra¸ao de informa¸oes geom´etricas previamente definidas
[HAM 09].
Outro modelo genial pela sua simplicidade ´e o modelo de Mumford-
Shah, proposto em 1989. Entretanto, uma efetiva implementa¸ao (in-
terpreta¸ao) deste modelo somente foi realizada em meados de 1994
por [KOE 94][MOR 95]. O que ´e interessante ressaltar ´e a importˆancia
deste modelo nos dias atuais nos trabalhos bases de [BRO 05], [POC 09],
[KOL 09] e [BRO 09], que ao muito al´em somente de modelos de seg-
menta¸ao, aplicando em modelos geoesicos, estimativas de oclus˜ao de
objetos, movimenta¸ao em cenas de v´ıdeos, reconstru¸ao de objetos em
3D, dentre outros. A grande vantagem da equa¸ao de Mumford-Shah
´e a sua base variacional em equa¸oes diferenciais parciais, permitindo
atingir certo n´ıvel de generaliza¸ao para a descri¸ao de qualquer fenˆo-
meno [BRO 05]. A dificuldade da utiliza¸ao da energia funcional de
Mumford-Shah, no entanto, ´e o desconhecimento da fun¸ao u que tenta
aproximar-se `a imagem I, e da possibilidade da existˆencia de m´ınimos
locais na pr´opria funcional. Este modelo variacional e seus recentes
trabalhos correlatos ser˜ao descritos no cap´ıtulo 3.
Um algoritmo interessante para a segmenta¸ao de imagens colo-
ridas ´e o CSC (Color Structure Code) [REH 98]. O prop´osito inicial
deste algoritmo ´e a execu¸ao paraleliz´avel, tanto que ´e um dos algorit-
mos de segmenta¸ao mais eficientes em tempo de execu¸ao. Trata-se
de uma ecnica de crescimento de regi˜oes onde os pixels ao organiza-
dos em ilhas, que agrupam-se hierarquicamente atrav´es da verifica¸ao
estat´ıstica das regi˜oes. Quando uma regi˜ao variar mais que um dado
escalar de threshold, a ilha mantˆem-se isolada e n˜ao se agrupa aos n´ıveis
hier´arquicos superiores a partir deste ponto. As ilhas neste modelo de
segmenta¸ao s˜ao estruturas hexagonais, e os pixels das extremidades do
hex´agono sempre estar˜ao ligados a outra ilha vizinha adjacente. Isso
relata ao fato de que um pixel ´e compartilhado por duas ilhas, e esta
31
´e uma das limita¸oes do algoritmo: pequenos pontos pretos surgem na
imagem de segmentos dependendo dos parˆametros utilizados, principal-
mente quando varia¸oes de gradientes ao consider´aveis. Estes pixels
manem-se isolados at´e o final do processo de segmentao, e ao ao
atrelados a nenhum n´ıvel hier´arquico superior. De uma forma geral, o
algoritmo ´e muito interessante de ser aplicado na pr´atica, viabilizando
rotinas que demandam performance do sistema.
Um algoritmo desenvolvido para a segmenta¸ao de objetos com
grandes varia¸oes de texturas e prolongadas varia¸oes de cores ´e o al-
goritmo Meanshift [COM 02]. O m´etodo utiliza uma t´ecnica baseada
em gradientes adaptativos, tamb´em conhecida por deslocamento edio
(assim como o nome sugere), e prioriza agrupamentos de pixels cuja
similaridade esteja de acordo com uma certa fun¸ao de densidade. Esta
fun¸ao de densidade ´e criada estatisticamente a partir da imagem de
entrada. O m´etodo Meanshift produz interessantes resultados quando
a varia¸ao dos gradientes ´e enue.
Outro algoritmo que preza pela identifica¸ao de texturas ´e o al-
goritmo JSEG [DEN 01]. O algoritmo JSEG incorpora uma ecnica de
clusteriza¸ao ou quantiza¸ao de cores, para posterior aplica¸ao de um
algoritmo de crescimento de regi˜oes sobre os agrupamentos identifica-
dos. O c´alculo da similaridade ´e efetuado de acordo com o valor de erro
acumulado da quantiza¸ao, e quanto menor esse valor de erro, melhor
´e a defini¸ao do agrupamento de cores em rela¸ao `a homogeneidade do
segmento na imagem. A quantiza¸ao de cores ´e realizada no espa¸co
de cores CIELUV, e de modo iterativo o crescimento de regi˜oes ´e apli-
cado sobre os otulos do processo de clusteriza¸ao. Entretanto, apesar
de robusto para a identifica¸ao de texturas organizadas na imagem, o
algoritmo ´e limitado a grandes varia¸oes de luminosidade na cena.
Um bom exemplo da combina¸ao de diferentes caracter´ısticas e
funcionalidades para a segmenta¸ao de imagens ´e o algoritmo popular-
mente conhecido por EDISON (Edge Detection and Image Segmentation
System) [RIU 09]. Este algoritmo ´e basicamente categorizado como um
sistema para a extra¸ao de caracter´ısticas em baixo n´ıvel, que integra
dois algoritmos: detec¸ao de borda baseado em confian¸ca [MEE 01] e o
algoritmo de segmenta¸ao Meanshift [COM 02]. A borda atua como um
identificador e controle de agrupamento entre as regi˜oes, penalizando a
fun¸ao de densidade do algoritmo Meanshift. O algoritmo possibilita a
segmenta¸ao de varia¸oes suaves de gradientes ao longo da cena, per-
mitindo a obten¸ao de interessantes resultados pela combina¸ao destes
dois m´etodos.
De uma forma geral, os algoritmos de segmenta¸ao de imagens
32
evolu´ıram muito nos ´ultimos 15 anos, desde que as primeiras aborda-
gens foram propostas. Espa¸cos de cores que possibilitam diferenciar
luminosidade e cromaticidade tem-se tornado muito populares, e o que
se constata ´e que muitos algoritmos de segmenta¸ao tendem `a utilizar
espa¸cos de cores baseados na percep¸ao humana. Trabalhos correlatos
realizam uma avalia¸ao dos espa¸cos de cores mais frequentemente uti-
lizados em [CHE 01]. Neste trabalho alguns algoritmos de crescimento
de regi˜oes e baseados em histogramas automatizados ao comparados
em diferentes espa¸cos de cores, demonstrando a efetividade dos mode-
los baseados em cromaticidade. Uma nova representa¸ao tensorial de
imagens coloridas foi proposta em [RIT 07], onde propriedades da ´alge-
bra tensorial ao aplicadas sobre o espa¸co de cores HSI para se obter
uma nova representa¸ao de cores em imagens. Um outro trabalho efe-
tua uma avalia¸ao dos espa¸cos de cores perceptivos, demonstrando os
efeitos da luminosidade e da cromaticidade em diferentes fatores e con-
di¸oes [ANG 07]. Outra abordagem interessante ´e o algoritmo RHSEG
[TIL 06], cujos parˆametros podem ser combinados com um grau m´edio
de entropia em um sistema hier´arquico.
Outros trabalhos correlatos focam na interpreta¸ao ou os pro-
cessamento a partir de imagens super-segmentadas, tais como apresen-
tado em [WAN 07][WAN 09b]. Neste trabalho um m´etodo de redes de
gradientes (GNM) ´e definido sobre resultados parciais de segmenta¸ao
de algoritmos tais como Mumford-Shah, watershed e CSC, com o obje-
tivo de agrupar segmentos similares de acordo com leves varia¸oes de
gradiente na cena (ex.varia¸oes de luminosidade do horizonte para o
c´eu). Outros etodos realizam a inferˆencia por observadores humano,
onde segmentos s˜ao agrupados de acordo com crit´erios de similaridade e
homogeneidade [DUP 06], e outros trabalhos mais recentes focam tam-
b´em na integra¸ao de informa¸ao de textura em imagens, tais como em
[KAT 06], onde campos randˆomicos de Markov ao utilizados para a
segmenta¸ao das texturas em imagens.
Um trabalho interessante com foco em os-processamento de ima-
gens ´e descrito por [LIN 08]. Neste trabalho, o termo pixon ´e apresen-
tado como uma representa¸ao de regi˜oes desconexas variando em forma
e tamanho. Estas regi˜oes podem ser providas de qualquer algoritmo de
segmenta¸ao de imagens, e um grafo preza pela organiza¸ao dos pixons
utilizando cadeias de Markov e modelos bayesianos. Por fim, as repre-
senta¸oes de pixons em regi˜oes ´e realizada por um algoritmo baseado
em Quadtree’s.
33
2.3.2 Segmenta¸ao supervisionada/interativa
Uma outra categoria de trabalhos correlatos abordam aspectos
de aprendizado de aquina para a resolu¸ao de problemas complexos.
Atrav´es desse aprendizado, ocorre a especializa¸ao do algoritmo com
foco em problemas espec´ıficos, possibilitando a redu¸ao da quantidade
de parˆametros de execu¸ao dos atuais etodos existentes. Trata-se de
uma categoria de etricas de distˆancia capazes de descrever os comple-
xos padr˜oes que um objeto pode assumir com as suas distribui¸oes de
cores ou frequˆencias.
Esse processo ocorre atrav´es da especializa¸ao de uma m´etrica
de distˆancia a partir de algum conhecimento pr´evio da cena a ser pro-
cessada. Este conhecimento pode ser considerado um tipo de side in-
formation [XIN 03], e geralmente este pode ocorrer na forma de pares
ordenados (pairwise), onde o observador define o conjunto de pontos
similares e dissimilares. Estas informa¸oes ao ent˜ao utilizadas em clas-
sificadores baseados em Knn (K-nearest neighbor), com o objetivo de
modelar uma fun¸ao de discrimina¸ao.
Dentre os diversos etodos existentes para a especializa¸ao de
m´etricas de distˆancia, os mais relevantes est˜ao descritos no survey apre-
sentado por Yang [YAN 06]. Yang classifica os m´etodos em duas catego-
rias: ao supervisionados e supervisionados. M´etodos n˜ao supervisiona-
dos s˜ao uma fam´ılia de algoritmos desenvolvidos e fundamentados sob a
teoria da quantiza¸ao vetorial. Consistem tipicamente em um problema
de otimiza¸ao, onde a informa¸ao ´e espacialmente distribu´ıda e que de
alguma maneira procuram encontrar aglomerados de dados. Exemplos
de m´etodos n˜ao supervionados s˜ao aqueles baseados em k-m´edias e suas
diversas varia¸oes, que minimizam um erro quadr´atico entre clusters de
popula¸oes.
M´etodos supervisionados utilizam-se de alguma informa¸ao ex-
tra (da´ı o termo supervisionado), geralmente na forma de um conjunto
de entrada ou treinamento (S). Com base nessa informa¸ao extra, estes
m´etodos prezam por particionar e delimitar de alguma forma um espa¸co
discreto onde as frequˆencias se distribuem. Esta categoria de m´etodos
ao fundamentados principalmente na an´alise local de vizinhan¸ca, regi-
dos sob alguma etrica de similaridade. Podem tamb´em incluir uma
quantidade indeterminada de conjuntos de treinamento no mesmo dom´ı-
nio/espa¸co, buscando por diferentes parti¸oes atrav´es de classificadores
Knn.
Existe uma outra categoria intermedi´aria de m´etodos machine
learning que ao ditos semi-supervisionados (muitas vezes classificados
como supervisionados), que ao capazes de reduzir a inferˆencia humana
34
no processo de aprendizado, conforme survey [ZHU 08]. Uma vantagem
dos etodos supervisionados ou semi-supervisionados ´e a habilidade de
descrever padr˜oes mais complexos em rela¸ao a um determinado con-
junto de entrada S.
Um trabalho interessante em aprendizado de etricas de distˆan-
cia ´e apresentado por Xiang em [XIA 08]. Neste trabalho, Xiang ao
somente apresenta o seu classificador pairwise, mas compara seu e-
todo em rela¸ao aos mais relevantes ilustrados em [YAN 06]. O clas-
sificador de Xiang modela a distˆancia de Mahalanobis a partir dos
pairwise’s, objetivando a clusteriza¸ao de dados e reconhecimento de
padr˜oes. Para tal, o classificador utiliza um vetor 5-dimensional em um
classificador Knn, combinando informa¸ao de cor e localiza¸ao espa-
cial (x
p
= [r, g, b, x, y]
T
). Os resultados obtidos por Xiang demonstram
uma melhor delimita¸ao do objeto de interesse em rela¸ao aos etodos
de an´alise de componentes relevantes (RCA) [BH 05], an´alise de com-
ponente discriminativa (DCA) [HOI 06] e o m´etodo de Xing [XIN 03].
Entretanto, esta categoria de classificadores resultam em segmenta¸oes
bi- ou multi-modais, dependendo do conjunto de entrada inserido. Para
esta categoria de segmenta¸ao, a-se o nome de segmenta¸ao interativa,
pois apenas particionam o espa¸co compreendido pela distribui¸ao da
frequˆencia de cores das imagens.
Existem outros algoritmos de segmenta¸ao que englobam o con-
ceito de supervis˜ao onde grafos ao utilizados. Estes etodos ao fra-
meworks especialmente desenvolvidos para reduzir a complexidade dos
atuais etodos de segmenta¸ao de imagens [BOY 01][LI 04][KOH 05]
[JUA 06]. Estes frameworks computam os valores vizinhos para cada
pixel sobre algum crit´erio de similaridade, e enao agrupam as regi˜oes
similares. Uma conex˜ao entre os m´etodos baseados em grafos e o apren-
dizado de etricas de distˆancia tamb´em podem ser encontrados na lite-
ratura: Em [WAN 06] um etodo de aprendizado semi-supervisionado
baseado em grafos ´e adaptado para a segmenta¸ao de imagens, denomi-
nado de propaga¸ao linear de vizinhan¸ca (Linear Neighbor Propagation);
Em [JIA 08] o aprendizado de uma m´etrica de distˆancia ´e introduzido
em um etodo baseado em grafos utilizando um etodo de descida
em gradiente para encontrar uma solu¸ao local ´otima. Sapiro [PRO 07]
apresenta um algoritmo de segmenta¸ao interativa para cenas naturais,
onde o usu´ario seleciona diferentes regi˜oes de interesse, e enao pesos
adaptativos ao diretamente obtidos por filtros de Gabor.
Um recente trabalho demonstrado em [NIN 10] utiliza conjuntos
de dados similares e dissimilares (objeto e background). A identifica-
¸ao da regi˜ao de interesse ´e guiada por um algoritmo de crescimento de
35
regi˜oes denominado de similaridade axima. O usu´ario realiza as mar-
ca¸oes sobre uma imagem super-segmentada realizada pelo algoritmo
Meanshift, e o algoritmo agrupa as regi˜oes similares com base na fun¸ao
de similaridade axima.
Trabalhos recentemente publicados e obtidos como resultados
preliminares da pesquisa apresentada nesta disserta¸ao s˜ao descritos em
[SOB 09a]. Neste artigo foram apresentados os resultados da utiliza¸ao
pr´evia da distˆancia estat´ıstica (Mahalanobis) para o alculo da simila-
ridade entre os vetores de cores na minimiza¸ao da energia funcional
de Mumford-Shah. Diferentemente das abordagens pairwise, o obser-
vador define somente partes do objeto de interesse, com o objetivo da
cria¸ao de mapas topol´ogicos adaptativos. Estes mapas ao utilizados
enao para orientar o processo da minimiza¸ao da energia funcional de
Mumford-Shah, possibilitando se obter resultados de segmenta¸ao supe-
riores quando comparados `a norma vetorial. Outra verifica¸ao obtida ´e
a possibilidade da generaliza¸ao dos mapas, constru´ıdos a partir de in-
forma¸oes de diferentes imagens de entrada. O m´etodo de segmenta¸ao
foi ent˜ao aplicado nas imagens do pr´oprio conjunto de treinamento (S),
e em outras imagens com “zero bias”.
Outro trabalho publicado envolve essencialmente o aprendizado
de m´etricas de distˆancia para a identifica¸ao de express˜oes de Imunois-
toqu´ımica em processos histopatol´ogicos [SOB 09b]. Trata-se de uma
t´ecnica de identifica¸ao de anomalias em tecidos utilizando marca¸oes
com biomarcadores. Estas marca¸oes, no entanto, apresentam um com-
plexo padr˜ao no espa¸co de cores, dificultando a precisa delimita¸ao das
´areas para quantifica¸ao da intensidade da rea¸ao. Atrav´es de mapas to-
pol´ogicos constru´ıdos ao linearmente, o especialista em patologia amos-
tra algumas areas da rea¸ao correspondentes ao biomarcador, e todas
as demais regi˜oes da(s) imagem(s) ao correlacionadas ao padr˜ao de
entrada.
2.4 ecnicas de avalia¸ao da qualidade dos segmentos
Nos ´ultimos anos tem-se notado uma grande necessidade de se
avaliar a qualidade da resposta dos algoritmos desenvolvidos para as
´areas de PDI e VC. Essencialmente, em segmenta¸ao de imagens, julgar
que um resultado obtido seja adequado ou apropriado consiste em veri-
ficar a correspondˆencia deste em rela¸ao `a aspectos reais da cena. Pro-
jetar uma adequada medida que possibilite verificar a qualidade de re-
sultados de segmenta¸ao, no entanto, ´e uma complexa tarefa [ZHA 08].
Em observadores humanos, cada indiv´ıduo possui seu pr´oprio padr˜ao
36
distinto de uma “boa segmenta¸ao”, al´em de existir a dependˆencia de
contexto e dom´ınio de aplica¸ao.
Em geral, os m´etodos existentes podem ser classificados em m´eto-
dos anal´ıticos e emp´ıricos [POL 09]. etodos anal´ıticos ao levam muito
em considera¸ao o resultado de segmenta¸ao atingido, mas sim aspectos
de modelagem, estrat´egia de processamento, complexidade e resolu¸ao
da segmenta¸ao como um processo de otimiza¸ao. a os m´etodos de
avalia¸ao emp´ıricos necessitam correlacionar informa¸ao, e podem ser
classificados em duas categorias: ao-supervisionados e supervisiona-
dos. Para os ao-supervisionados, uma erie de caracter´ısticas da ima-
gem s˜ao levadas em considera¸ao, tais como a uniformidade interna dos
segmentos, contraste inter-regi˜oes, forma geom´etrica de segmentos, den-
tre outras. Alguns destes crit´erios se assemelham `aqueles especificados
para a parti¸ao de uma imagem em regi˜oes [ZHA 08]:
Regi˜oes devem ser uniformes e homogˆeneas com respeito a alguma
caracter´ıstica (cor, intensidade, textura...);
Regi˜oes adjacentes devem apresentar diferen¸cas significantes com
respeito `a uniformidade;
Regi˜oes internas devem ser simples e ao apresentar sub-segmenta¸oes
ou fragmentos;
Fronteiras devem ser simples, regulares e espacialmente precisas
em rela¸ao `as atenuidades da imagem original.
No entanto, etodos n˜ao-supervisionados sem a utiliza¸ao de um
“padr˜ao ouro”podem perder a objetividade na avalia¸ao da qualidade da
segmenta¸ao [POL 09]. M´etodos supervisionados, tamb´em conhecidos
por etodos de avalia¸ao objetiva supervisionada, buscam por algum
tipo de discrepˆancia na imagem em rela¸ao a uma imagem de referˆen-
cia [JIA 00]. Esta categoria de m´etodos explicitamente calculam um
erro entre a imagem segmentada e a imagem referˆencia ground-truth
(GT). A imagem de referˆencia frequentemente ´e obtida manualmente
produzida por um observador humano, que delimita os segmentos per-
cept´ıveis e relevantes segundo sua observao e opini˜ao. Desta forma,
GT’s realizados por observadores humanos tendem `a representar os ob-
jetos de maior percep¸ao na cena, ao mesmo tempo em que os objetos de
pouca relevˆancia sejam abstra´ıdos. Em contra-partida, podem ocorrer
ambiguidades entre avalia¸oes de observadores humanos (GT’s), essen-
cialmente em casos onde ao existe um objetivo contextual na cena em
quest˜ao.
37
Para a presente metodologia, a avalia¸ao dos segmentos obtidos
ser´a realizada por meio objetivo-supervisionado. Uma das principais
raz˜oes para esta escolha ´e a disponibilidade de um dataset contendo
imagens dos mais diversos contextos, juntamente com seus respectivos
ground-truth’s dataset de Berkeley
4
. Para cada imagem de ground-
truth, diferentes t´ecnicas de avalia¸ao de correla¸ao podem ser utili-
zadas, e estas t´ecnicas podem ser baseadas em diferentes crit´erios tais
como n´umero total de pixels de correspondˆencia ao GT, posicionamento
global das regi˜oes, informa¸oes geom´etricas area, per´ımetro, excentri-
cidade), dentre outras. Uma categoria de m´etodos muito bem estabe-
lecida ao os etodos de avalia¸ao baseados em cruzamento espacial
de pares [JIA 05][MEI 07] (Rand, Fowlkes-Mallows e Jacard). Outras
variantes do ´ındice Rand ao apresentadas em [UNN 07], onde sua efi-
ciˆencia ´e demonstrada atraes da an´alise de arias imagens do banco
de Berkeley. Estes m´etodos apresentam uma ´otima resposta em rela¸ao
`a padr˜oes ouro, sendo extensivamente utilizados na avalia¸ao da quali-
dade de resultados de segmenta¸ao [JIA 06][MEI 07]. Outra categoria
ao baseados em correspondˆencia de clusters, tal como apresentado pelo
m´etodo Van Dongen [JIA 05]. Os m´etodos de avalia¸ao de qualidade de
segmentos utilizados neste trabalho ao descritos `a seguir.
2.4.1 Cruzamento de pares
Os ´ındices Rand [RAN 71], Fowlkes-Mallows [FOW 83] e Jacard
[BH 02] ao medidas de similaridade utilizadas em clusteriza¸ao de da-
dos para quantificar a similaridade entre dados dois agrupamentos de
dados. No contexto de segmenta¸ao de imagens, estas medidas de simi-
laridade possibilitam quantificar a similaridade global de uma imagem
de segmentos em rela¸ao a segmentos padr˜ao-ouro sob a forma de com-
para¸ao de conjunto de clusters [JIA 06][UNN 07].
A compara¸ao entre dois conjuntos de clusters ´e representada
por C
1
= {c
11
, c
12
, ..., c
1N
} e C
2
= {c
21
, c
22
, ..., c
2M
} sobre uma mesma
imagem P = {p
1
, p
2
, ..., p
K
}, onde cada elemento de C
1
ou C
2
´e um
subconjunto de P e c
1j
= {p
1j
, p
2j
, ..., p
lj
}. Para C
1
e C
2
as seguintes
suposi¸oes podem ser generalizadas:
N
11
: o n´umero de pixels contidos no mesmo cluster em ambos C
1
e C
2
;
N
00
: o n´umero de pixels em diferentes clusters em ambos C
1
e C
2
;
4
http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/segbench.
38
N
01
: o n´umero de pixels contidos no mesmo cluster em C
2
, dife-
rentes em C
1
;
N
10
: o n´umero de pixels contidos no mesmo cluster em C
1
, dife-
rentes em C
2
;
e como pode ser observado, N
11
+ N
00
+ N
01
+ N
10
= n(n 1)/2, sendo
que n ´e a cardinalidade do conjunto P .
A partir das suposi¸oes de pertinˆencia acima descritas, os seguin-
tes ´ındices de avalia¸ao de segmentos destacam-se [JIA 05]:
Rand:
R(C
1
, C
2
) =
N
11
+ N
00
n(n1)
2
(2.3)
Fowlkes-Mallows:
F (C
1
, C
2
) =
N
11
(N
11
+ N
10
)(N
11
+ N
01
)
(2.4)
Jacard:
J(C
1
, C
2
) =
N
11
N
11
+ N
10
+ N
01
(2.5)
Estes trˆes ´ındices ao quantificadores de similaridade e resul-
tam em escalares variando entre [0,1]. Uma transforma¸ao direta de
1 Index(C
1
, C
2
) torna as m´etricas medidas de dissimilaridade, onde
valores iguais a 0 implicam em um correlacionamento perfeito, ou seja,
os clusters C
1
e C
2
ao idˆenticos, conforme utilizados nas se¸oes seguin-
tes deste trabalho.
De um ponto de vista computacional, a computa¸ao dos valores
N
00
, N
01
, N
10
, N
11
´e muito custosa [JIA 05][JIA 06]. No pior caso, a
computa¸ao de tais escalares teria complexidade de O(N
4
) quando re-
alizando opera¸oes sobre imagens de N N. Jiang [JIA 05] prop˜oe a
utiliza¸ao de uma matriz de confus˜ao (tabela de contingˆencia) de C
1
e
C
2
, tornando-os pass´ıvel de computa¸ao para problemas de clusteriza¸ao
em larga escala.
2.4.2 Correspondˆencia de clusters
A segunda classe de compara¸ao tem por crierio verificar a cardi-
nalidade do conjunto utilizando a intersec¸ao entre os clusters na forma
de:
a(C
1
, C
2
) =
c
i
C
1
max
c
j
C2
|c
j
c
j
|. (2.6)
39
Van Dongen [DON 00] prop˜oe uma m´etrica para calcular o ´ındice
da correspondˆencia da equa¸ao acima utilizando:
D(C
1
, C
2
) = 2n a(C
1
, C
2
) a(C
2
, C
1
). (2.7)
Este etodo ´e rigoroso na quest˜ao de que os segmentos possuam
correla¸ao geom´etrica uns com os outros. Para um menor n´umero de
segmentos, este ´ındice tende a fornecer uma melhor resposta se a cor-
respondˆencia ´e mantida. Os quatro ´ındices apresentados neste cap´ıtulo
foram utilizados na se¸ao 5 para avaliar a qualidade dos resultados ob-
tidos pela metodologia proposta.
3. A equa¸ao da energia funcional de Mumford-Shah
3.1 Modelos variacionais
Abordagens variacionais ao t´ecnicas baseadas em equa¸oes dife-
renciais parciais (PDE) que permitem modelar as propriedades A
1
, ..., A
n
de um modelo (ex.f´ısico) atrav´es de uma funcional de energia E, sob a
forma de
E (u
1
(x), ..., u
n
(x)) =
(A
1
+ ... + A
n
) dx (3.1)
A energia funcional E tenta encontrar as fun¸oes u
1
, ..., u
n
que
consigam minimizar a energia final gerada pela adi¸ao de condi¸oes espe-
ciais [BRO 05], chamadas simplesmente de“suposi¸oes”. Cada suposi¸ao
A ´e da mesma forma definida atrav´es de termos de penaliza¸ao, que con-
tribuem para o valor final da energia funcional. Individualmente, cada
termo de penaliza¸ao produz grandes valores de energia quando alguma
propriedade da suposi¸ao A ao for satisfeita, e baixos valores para os
casos contr´arios. Pela soma dos valores de energia de cada suposi¸ao
(energias parciais, do termo PDE), tem-se o valor da energia funcional:
quanto menor o valor de E, melhor ´e a aproxima¸ao das fun¸oes u em
rela¸ao `as suposi¸oes A, e consequentemente, melhor ´e a formaliza¸ao
do modelo com base na equa¸ao funcional definida.
De uma forma superficial, os etodos variacionais baseados em
PDE ao bastante gen´ericos. Em termos de uma energia funcional pode-
se reformular problemas bastante complexos, e as formas de modelagem
dos termos penalizadores possibilitam se alcan¸car uma ampla flexibili-
dade para a formaliza¸ao de um modelo. Entretanto, devido `a necessi-
dade de se computar tais suposi¸oes, ao necesss´arias defini¸oes claras
sobre quais suposi¸oes ser˜ao inclu´ıdas em um modelo [BRO 05]. Defi-
ni¸oes claras dispensam o uso de suposi¸oes “n˜ao-´obvias”, permitindo a
acil leitura de todo o problema a ser tratado em uma simples equa¸ao
de energia funcional.
A base dos modelos variacionais ´e constru´ıda sobre modelos ma-
tem´aticos e num´ericos bem fundamentados, onde a teoria do alculo
variacional provˆe maneiras para se minimizar a energia funcional. Mais
especificamente, equa¸oes de Euler-Lagrange, que ao PDE’s, direcio-
nam a um sistema linear de equa¸oes que necessitam ser minimamente
satisfeitas, enao mostrando a liga¸ao entre modelos de energia funcional
e alculo variacional.
Entretanto, o processo de modelagem das suposi¸oes necessita
ser otimizado para se obter uma melhor correspondˆencia da funcional
41
para com o modelo f´ısico. Em geral, em segmenta¸ao de imagem os
penalizadores ao baseados na seguinte equa¸ao funcional
E (u) =
(u I)
2
+ α|∇u|
2
dx (3.2)
onde o primeiro termo ´e chamado de data term, que penaliza as diferen-
¸cas do resultado u em rela¸ao a imagem I. O segundo termo, chamado
de smoothness term penaliza por sua vez diferen¸cas de suavidade na
regi˜ao ou segmento. A interpreta¸ao das suposi¸oes definidas para a
funcional acima para o primeiro e segundo termo ao: (a) o resultado
u deve ser semelhante ao dado I; (b) o resultado (regi˜oes) deve ser su-
ave, e n˜ao variar muito. A constante α controla a importˆancia do termo
smoothness em rela¸ao ao data term. Por fim, a minimiza¸ao da energia
funcional E ´e um compromisso entre ambos os termos penalizadores.
3.2 O modelo de Mumford-Shah
O modelo de Mumford-Shah [MUM 85][MUM 89] ´e um modelo
variacional que otimiza a maneira com que uma imagem I pode ser parti-
cionada em regi˜oes homogˆeneas. A id´eia foi combinar redu¸ao de ru´ıdo e
segmenta¸ao de imagens atrav´es de uma funcional que simultaneamente
preza pela suave aproxima¸ao dos segmentos Ω, ao mesmo tempo sepa-
rados por um conjunto m´ınimo de fronteiras qualitativas K para os
segmentos ao-suaves [BRO 09]. A integra¸ao do agrupamento de par-
ti¸oes/regi˜oes com fronteiras qualitativas K equivale a Ω = K +
i
i
,
e a formaliza¸ao desde modelo ´e a energia funcional E(u, K) composta
de trˆes termos (ou suposi¸oes):
E(u, K) = β
(u I)
2
+
/K
|∇u|
2
dx + λ
K
(3.3)
sendo que u ´e uma fun¸ao piecewise
1
(desconhecida). A decomposi¸ao
dos termos da equa¸ao (3.3) acima definida pode ser dada por:
O primeiro termo for¸ca a aproxima¸ao do resultado u para a ima-
gem I;
O segundo termo computa e controla a suavidade interna de u em
sub-conjuntos disjuntos abertos e conectados
i
de /K (Ω sem
as fronteiras K) em um dom´ınio planar. Este termo ao permite
que
i
tenha muita varia¸ao;
1
fun¸ao aplic´avel em cada pca
i
, mas ao aplic´avel a todo o dom´ınio.
42
O terceiro termo controla o comprimento, a suavidade, a loca¸ao
e a parsimˆonia das fronteiras K.
Os coeficientes β e λ ao valores positivos que fazem do modelo
de Mumford-Shah um modelo multi-escala. β controla a aproxima¸ao
de I por u, referindo-se `a escala. λ ´e um parˆametro de regulariza¸ao
de contraste que controla o comprimento das fronteiras, limitando o
tamanho total do arco de borda da segmenta¸ao Ω. Quando λ possui
um baixo valor, a minimiza¸ao for¸ca u a ter muitas fronteiras resultando
em super-segmenta¸ao, e valores altos tendem a reduzir o comprimento
total das fronteiras de u, e o resultado ser´a de sub-segmenta¸ao.
3.2.1 O modelo simplificado de Mumford-Shah
Um caso interessante ´e apresentado quando λ , requerindo
que u seja piecewise constante
2
em cada fun¸ao deriv´avel em
i
de Ω.
Logo, |∇u|
2
= 0, sendo um problema de parti¸ao m´ınima, conforme de-
monstrado em [MUM 89] e denominado de limite de cartoon. A equa¸ao
simplificada ´e ent˜ao denotada por:
E(u, K) = β
i
(u
i
I)
2
+ λ
K
(3.4)
resultando em uma aproxima¸ao constante em u e das fronteiras K.
Neste caso, devido `a penaliza¸ao quadr´atica que uma regi˜ao
i
´e sub-
metida, u
i
colapsa simplesmente em valores escalares de intensidade (ou
cor, para imagens coloridas). Em um piecewise constante, u
i
´e definido
pela m´edia da regi˜ao
i
em I.
Embora simplificada, a equa¸ao da energia funcional demons-
trada em (3.4) mant´em-se em pleno acordo com as suposi¸oes originais
da equa¸ao (3.3), para o contexto de segmenta¸ao de imagens [BRO 05]:
pixels vizinhos similares ao atribu´ıdos para uma mesma regi˜ao
i
;
regi˜oes
i
e
j
vizinhas entre si e dissimilares ao separadas por
uma fronteira K;
o comprimento total de arco de borda K ´e minimizado. Quanto
menor o comprimento final do arco, menor o n´umero de regi˜oes
definidas na imagem.
Adicionalmente, o modelo simplificado pode assumir `a priori um
n´umero fixo N de regi˜oes esperadas, uma vez que u
i
´e diferenci´avel em
cada regi˜ao.
2
a fun¸ao ´e constante localmente nas sub-regi˜oes conectadas em Ω.
43
3.2.2 Conjecturas e interpreta¸oes do modelo de Mumford-
Shah
O modelo de Mumford-Shah alcan¸cou uma completa formula¸ao
geral sobre o problema de segmenta¸ao de imagens, mostrando se tratar
de um problema de otimiza¸ao [POC 09]. Embora genial pela sua sim-
plicidade, o modelo apresenta uma grande lacuna entre a sua formula¸ao
te´orica e eficientes meios para se minimizar na pr´atica os termos penali-
zadores [BRO 05][POC 09]. Tais meios tem sido deixados em aberto em
como se minimizar a energia com a fun¸ao u. O artigo de Mumford-Shah
[MUM 89] ´e extensivamente fundamentado e no entanto ao se fazem
“sugest˜oes” de como implementar tal mecanismo para a segmenta¸ao de
imagens [BRO 09].
A quest˜ao chave ´e como uma imagem pode ser transformada em
uma boa segmenta¸ao perceptualmente morfol´ogica, e como ´e esse “me-
canismo geom´etrico”para prover tal estrutura morfol´ogica [PET 03]. As
principais dificuldades frente ao modelo da equa¸ao (3.3) relatam-se ao
fato de que:
u ´e uma fun¸ao desconhecida e diferenci´avel em cada regi˜ao (no
modelo geral);
u deve aproximar-se a I, e tal suposi¸ao deve ser satisfeita com
base em crit´erios de similaridade;
As entidades de regi˜oes (2D) e as fronteiras (1D) que competem
entre si ao entidades geom´etricas diferentes, e interagem entre si
de uma maneira muito s´ubita [BRO 05];
O modelo de Mumford-Shah transforma o problema da segmen-
ta¸ao em um caso particular denominado na f´ısica de problema
de fronteira livre (“free boundary problem”), o que ´e de solu¸ao
complexa e atualmente ao solucionado na totalidade [PET 03].
Os primeiros trabalhos completamente dedicados ao modelo de
Mumford-Shah foram conduzidos principalmente por pesquisadores ita-
lianos e franceses. Outros, no entanto, tamb´em ao referenciados:
Ennio de Giorgi [DEG 89], demonstrou a existˆencia de um teorema
para o problema da minimiza¸ao para conjuntos livres de discon-
tinuidade, provendo a primeira resposta positiva para o problema
bidimensional da segmenta¸ao de imagens;
44
Luigi Ambrosio and Tortorelli [AMB 90], propuseram uma vers˜ao
regularizada da equa¸ao (3.3) onde as fronteiras K apresentam
tamanho finito. Isto possibilitou para um etodo de descida em
gradiente minimizar a funcional de energia. Outras comprovoes
constatadas atrav´es desta vers˜ao regularizada foi a posterior re-
la¸ao existente entre a energia funcional e processos de difus˜ao
ao-linear;
Sergio Solimini and Jean-Michel Morel [KOE 94][MOR 95] pro-
puseram uma estrat´egia para a minimiza¸ao da energia funcional
para o modelo simplificado (cartoon): O etodo ´e baseado na re-
gulariza¸ao proposta por Luigi Ambrosio and Tortorelli [AMB 90],
onde o agrupamento de regi˜oes inicia em cada pixel (low-level
cues) na imagem, sendo que cada pixel ´e uma simples regi˜ao (Ω
i
).
Um “stack” correspondendo `as energias funcionais de todos os pro-
aveis agrupamentos de pixels ´e constru´ıdo. O algoritmo agrupa
sucessivamente as regi˜oes que direcionam ao menor decr´escimo de
energia. Para cada merging, o stack ´e atualizado, atingindo-se
assim uma excelente heur´ıstica para a busca da minimiza¸ao da
energia funcional;
Massimo Gobbino [GOB 99] estudou a convergˆencia de frontei-
ras de uma fam´ılia de funcionais ao-locais para funcionais locais
que possuem dependˆencia com o gradiente de u. Este tipo de re-
sultado foi utilizado para aproximar o problema introduzido por
Mumford-Shah no estudo de deten¸ao de bordas. Outros estu-
dos direcionados na utiliza¸ao de gradiente para a penaliza¸ao da
energia funcional foram desenvolvidos por [LUS 07];
Outras varia¸oes do modelo de Mumford-Shah baseados em in-
forma¸oes geoesicas ao os contornos ativos. Estas ecnicas ao
baseadas em levelsets, popularmente conhecidos por snakes, e ao
usualmente utilizados para segmenta¸oes bimodais, onde objetiva-
se extrair o objeto de interesse do seu background. Outros modelos
utilizam arios levelsets concorrentes para a segmenta¸ao multi-
modal. A grande dificuldade e objeto de estudo em contornos
ativos ´e a dependˆencia de inicializa¸ao dos seed points, embora
existam trabalhos focados especialmente na inicializa¸ao dos le-
velsets. Outros trabalhos relevantes nesta ´area ao descritos em
[CAS 97], [WEI 01], [CHA 02], [CRE 02], [BRO 05] e [WAN 09a];
Em [YU 08] um novo piecewise discreto baseado em malhas ´e pro-
posto. Neste trabalho, ao somente a nova funcional ´e demons-
45
trada, mas tamb´em como se encontrar a solu¸ao ´otima. O m´etodo
utiliza duas simples e determin´ısticas t´ecnicas de otimiza¸ao, que
simplificam e viabilizam o paralelismo do modelo de Mumford-
Shah;
Em [NI 09] ´e proposto um algoritmo multi-fase para a minimiza-
¸ao da energia funcional, baseado em minimiza¸ao global e um
piecewise constante em duas fases: uma regi˜ao ´e particionada re-
cursivamente em duas sub-regi˜oes, iniciando do maior valor de
escala. O processo de segmenta¸ao automaticamente termina e
detecta quando as regi˜oes ao podem mais ser particionadas recur-
sivamente. Como resultado final, o n´umero de regi˜oes ´e arbitr´ario,
mas a representa¸ao da segmenta¸ao ´e hier´arquica em rela¸ao `a
representa¸ao da imagem;
Um novo m´etodo de otimiza¸ao global ´e proposto por [KOL 09]
para o campo de multi-vis˜ao e reconstru¸ao 3D. A t´ecnica de mul-
tivis˜ao em 3D consiste em reconstruir o objeto de interesse captu-
rado a partir de uma cole¸ao de imagens ou ameras. O etodo
´e principalmente baseado em um esquema de relaxa¸ao convexa
cont´ınua, possibilitando descrever numericamente as propriedades
geom´etricas de fronteiras e superf´ıcies;
Daniel Cremers [BRO 09] introduziu a sua interpreta¸ao do mo-
delo de Mumford-Shah utilizando uma fun¸ao de aproxima¸ao es-
tat´ıstica em conjun¸ao com levelsets de inicializa¸ao em array ho-
rizontal. O m´etodo apresentado possibilita a segmenta¸ao de ima-
gens texturizadas atrav´es do aux´ılio desses levelsets.
Devido `a sua eficiˆencia e simplicidade, algoritmos de segmenta¸ao
de agrupamento de regi˜oes podem ser empregados para o acoplamento
de uma funcional de energia. Estes algoritmos tornaram-se muito popu-
lares, e por um longo per´ıodo apresentam-se como umas das melhores
t´ecnicas de segmenta¸ao dispon´ıveis. As principais lacunas encontra-
das nestes modelos ao decorrentes da tentativa de tentar ao mesmo
tempo reduzir o n´umero de segmentos que correlacionem com a imagem
original. Existe uma comum rela¸ao entre se obter ou (a) resultados
super-segmentatos com match nas fronteiras K em rela¸ao a I, ou (b)
sub-segmenta¸ao com fronteiras de regi˜oes K que apenas correlacionam
com I se o interior da regi˜ao ´e muito homogˆeneo e claramente definido
do seu background.
Outras limita¸oes encontradas ao somente nos modelos variaci-
onais mas em qualquer outro algoritmo de segmenta¸ao decorrem da
46
pr´opria natureza da imagem:
objetos com grande varia¸ao de texturas em regi˜oes perceptivel-
mente homogˆeneas, apresentando grande quantidade de disconti-
nuidade e intensidade;
sombras ao ao necessariamente discontinuidades reais;
objetos parcialmente transparentes;
ru´ıdos que apresentem varia¸oes de gradiente.
O que se constata comumente ´e que algoritmos de segmenta¸ao
por regi˜oes ao combinados em algum tipo de os-processamento para
resolu¸ao de problemas de matching. De uma forma geral, isso pode
ser obtido por um modelo variacional, quando ou u ou algum “meca-
nismo morfol´ogico” que descreva adequadamente homogeneidade e con-
tinuidade for utilizado. Nas se¸oes seguintes a estrat´egia apresentada
por Solimini e Morel [KOE 94][MOR 95] para a minimiza¸ao da energia
funcional ´e detalhada. Esta estrat´egia ´e referˆencia em muitos modelos
baseados na funcional de Mumford-Shah, e partir desta estrat´egia ser˜ao
apresentados os novos conceitos de homogeneidade e continuidade para
orientar o processo de segmenta¸ao pela energia funcional de Mumford-
Shah, propostos neste trabalho.
3.3 Implementa¸ao do modelo de Mumford-Shah
De um ponto de vista computacional, o modelo de Mumford-Shah
´e considerado complexo para ser implementado [PET 03], uma vez que
as regi˜oes ao entidades bidimensionais e as fronteiras unidimensionais.
Das conjecturas idealizadas e anteriormente descritas para o modelo de
Mumford-Shah, a estrat´egia proposta por [KOE 94][MOR 95] ´e a mais
utilizada, embora a otimiza¸ao exata desta funcional seja extremamente
dif´ıcil [BRO 05]-p58.
Esta estrat´egia ´e baseada na regulariza¸ao proposta por [AMB 90],
que considera todas as fronteiras K de tamanho finito em rela¸ao a fun-
¸ao piecewise constante demonstrada na equa¸ao (3.4). Este modelo
´e denominado de multi-escala, e apresenta-se como um framework do
modelo de Mumford-Shah onde regi˜oes adjacentes ao agrupadas sob
determinado crit´erio de similaridade. Este modelo variacional multi-
escala ´e embarcado como “mecanismo morfol´ogico” em um m´etodo de
crescimento de regi˜oes, conforme detalhado na pr´oxima subse¸ao.
47
3.3.1 Modelo variacional em multi-escala
Modelos de crescimento de regi˜oes particionam uma imagem de
entrada I em segmentos ou regi˜oes Ω, compostos por n sub-regi˜oes
1
,
2
, , ...,
n
[GON 01] de modo que:
n
i=1
i
= . a segmenta¸ao deve ser completa, onde cada pixel
na imagem I deve estar exclusivamente situado em somente uma
regi˜ao, e a uni˜ao de todas as regi˜oes obtidas ´e igual a imagem total
segmentada com as mesmas dimens˜oes de I.
cada regi˜ao
i
´e uma regi˜ao conexa internamente, ou seja, to-
dos os pixels ao conectados sob algum senso de similaridade ou
homogeneidade.
i
j
= para todo i e j onde i = j, sendo que as regi˜oes devem
ser disjuntas, e um pixel ou sub-regi˜ao nunca deve estar situado
em mais de uma regi˜ao.
P (Ω
i
) = T RUE para todo i = 1, 2, ..., n, indicando as proprieda-
des que devem ser satisfeitas pelos pixels da regi˜ao
i
no senso de
homogeneidade e continuidade.
P (Ω
i
j
) = F ALSE para i = j , onde duas regi˜oes adjacentes
ao diferentes.
Enquanto que a formula¸ao para a segmenta¸ao de regi˜oes em es-
cala ´e claramente definida, a quest˜ao chave a ser verificada ´e como defi-
nir regi˜oes e como quantificar seus tamanhos. A estrat´egia demonstrada
por Morel ´e um modelo cl´assico de crescimento de regi˜oes utilizando a
energia funcional de Mumford-Shah e uma fun¸ao piecewise constante
(limite de cartoon). O processo de minimiza¸ao da energia funcional
inicia em n´ıvel de pixel da imagem I, onde cada pixel ´e uma regi˜ao
i
.
Pixels adjacentes ao enao agrupados de modo que a energia final seja
minimizada.
Em sua estrat´egia, Morel [KOE 94][MOR 95] demonstrou atra-
v´es da vers˜ao regularizada de [AMB 90] que as fronteiras podem ser
bidimensionais se duas regi˜oes adjacentes
i
e
j
apresentam uma
fronteira comum K entre elas de comprimento L = (Ω
i
,
j
). En-
ao E(u, K) E(u, K \ (Ω
i
,
j
)), e a energia pode ser expressa pela
inequa¸ao
λ (Ω
i
,
j
)
|
i
|.|
j
|
|
i
| + |
j
|
|u
i
u
j
|
2
(3.5)
48
onde |.| denota a computa¸ao de superf´ıcie da regi˜ao
3
, e as vari´aveis
u
i
e u
j
ao os valores edios das regi˜oes
i
,
j
em I. O produto das
superf´ıcies das regi˜oes em rela¸ao `a soma de suas ´areas correspondem
ao que ´e conhecido por normaliza¸ao de grandezas, sendo o coeficiente
β da equa¸ao (3.4). β atua como um coeficiente de ´area na computa¸ao
da energia resultante entre duas regi˜oes: regi˜oes pequenas e adjacentes
entre si produzem menores valores de escala para β, favorecendo a con-
tribui¸ao do termo para a energia funcional; regi˜oes grandes em ´area e
adjacentes entre si aumentam o valor de β, dificultando a fus˜ao entre es-
tas regi˜oes. A condi¸ao necess´aria para a fus˜ao entre estas duas regi˜oes
´e de que λ seja maior que o valor da energia funcional. Esta restri¸ao
garante a estabilidade do modelo entre o crit´erio de parada λ e o coe-
ficiente de normaliza¸ao de grandezas |.|, eliminando regi˜oes pequenas
em ´area (mesmo que muito dissimilares entre si em intensidade).
Com base na equa¸ao (3.5), a estrat´egia de minimiza¸ao proposta
por Morel pode ser expressa da seguinte forma:
Figura 3.1: Exemplo de agrupamento de regi˜oes pela funcional de
Mumford-Shah.
3
neste contexto ´area em pixels da regi˜ao
49
1. A imagem I ´e inicialmente particionada em regi˜oes, onde cada
pixel na imagem ´e considerado uma regi˜ao
i
. Para uma imagem
de dimens˜oes h e w o particionamento ser´a Ω = Ω
1
,
2
, ...,
hw
;
2. Inicializa¸ao das estruturas simb´olicas correspondendo `as re-
gi˜oes que ser˜ao constru´ıdas e minimizadas na imagem (superf´ıcie,
intensidade, fronteiras). Na figura 3.1 esse procedimento ´e de-
monstrado: cada pixel/regi˜ao |
i
| ´e inicializada com ´area igual a
1, e cada fronteira (Ω
i
,
j
) com comprimento igual a 1. A re-
gi˜ao (a) possui 4 fronteiras, cada uma em rela¸ao aos seus vizinhos
adjacentes (b),(c),(d) e (e);
3. Estimativa da energia total e custos de armazenamento em
mem´oria necess´arias para a segmenta¸ao da imagem de entrada;
4. Cada fronteira dividindo pixels/regi˜oes ajdacentes ao atuali-
zadas com um valor escalar de energia. Esse valor ´e computado
pela simula¸ao de fus˜ao entre (a) e todos os seus adjacentes (b)–
(e). Supondo que (a) seja u
i
= {134, 156, 154} e (b),(c),(d) e
(e) sejam respectivamente u
j
= {116, 138, 136}, u
j
= {60, 78, 78},
u
j
= {140, 162, 160} e u
j
= {144, 175, 170}. Simula-se a energia
resultante da fus˜ao de (a) com cada vizinho adjacente (vizinhos
de 4 conexos) atrav´es da equa¸ao (3.5):
λ 1
|1|.|1|
|1| + |1|
|u
i
u
j
|
2
obtendo-se como resultado:
E(Ω
a
+
b
) = λ 15, 588
E(Ω
a
+
c
) = λ 65, 833
E(Ω
a
+
d
) = λ 5, 196
E(Ω
a
+
e
) = λ 13, 388
Supondo que λ = 2
10
, todos os vizinhos poderiam ser mesclados
em (a); entretanto, nesta etapa o menor valor da simula¸ao ´e arma-
zenado, neste caso, o menor decr´escimo ´e obtido em E(Ω
a
+
d
).
Este procedimento ocorre para cada pixel da imagem, e os menores
valores ao armazenados para todas fronteiras;
5. Cada simula¸ao efetuada no passo 4 ´e armazenada em um stack
de fronteiras, em ordem crescente de energia;
6. Ap´os a inicializa¸ao, o processo de merging inicia utilizando
sempre o primeiro elemento do stack de fronteiras. A fronteira ´e
50
(a) Imagem original (b) λ = 2
9
, 1790 regi˜oes
(c) λ = 2
10
, 605 regi˜oes (d) λ = 2
11
, 214 regi˜oes
(e) λ = 2
12
, 70 regi˜oes (f) λ = 2
13
, 21 regi˜oes
(g) λ = 2
14
, 10 regi˜oes (h) λ = 2
15
, 4 regi˜oes
Figura 3.2: Evolu¸ao de λ para o modelo de Morel (equa¸ao 3.5).
51
referˆencia para duas regi˜oes adjacentes; a fronteira ´e eliminada e
as regi˜oes ao fundidas;
7. A nova regi˜ao ´e produzida da fus˜ao ocorrida no passo 6; as fron-
teiras e as novas energias em rela¸ao aos adjacentes remanescentes
ao recalculadas;
8. O stack de fronteiras ´e novamente atualizado pelos novos va-
lores de energia simulados. Para o exemplo apresentado entre as
regi˜oes (a) e (d), a nova regi˜ao resultante possui ´area igual a 2
(1+1), e o processo reinicia a partir do item 6;
9. Os crit´erios de parada do algoritmo ao: n´umero de regi˜oes
esperadas foi atingido; ou; n˜ao exitem mais regi˜oes que possam ser
fundidas para o valor de escala λ. Estes valores s˜ao incompat´ıveis,
o primeiro que for atingido termina a execu¸ao do algoritmo.
Seguindo o exemplo construtivo acima descrito, suponha o caso
da figura 3.1 composta pelas 2 regi˜oes (a) e (b) com os seguintes valo-
res arbitr´arios: u
i
= {131, 166, 164} e u
j
= {58, 75, 79}; |
i
| = 760 e
|
j
| = 350; (Ω
i
,
j
) = 33, e crit´erio de parada λ = 2
10
. Tais represen-
ta¸oes correspondem ao background (c´eu) e tronco como duas regi˜oes
adjacentes. A energia funcional necess´aria para a fus˜ao destas 2 regi˜oes
´e:
λ 35
|760| |350|
|760| + |350|
|(131, 166, 164) (58, 75, 79)|
2
λ 988, 25
2
10
988, 25
Logo, o valor especificado de λ ´e suficiente para possibilitar a fus˜ao
entre as regi˜oes (a) e (b). Na figura 3.2 a minimiza¸ao da energia fun-
cional de Mumford-Shah ´e demonstrada pela evolu¸ao do parˆametro λ.
Conforme pode ser observado, quando λ ´e pequeno o resultado ´e de su-
per segmenta¸ao, e conforme seu valor incrementa exponencialmente o
n´umero total de regi˜oes na imagem tamem decresce.
4. M´etodo supervisionado de segmenta¸ao de
imagens
4.1 Princ´ıpio geral
A metodologia proposta ´e baseada em uma abordagem de seg-
menta¸ao por crescimento de regi˜oes, utilizando a equa¸ao da energia
funcional de Mumford-Shah [MUM 89]. Verificar a possibilidade de ori-
entar um processo de segmenta¸ao de imagens baseado nesta equa¸ao, e
propor uma metodologia de segmenta¸ao supervisionada ´e o foco deste
trabalho.
De uma maneira geral, a metodologia proposta ser´a apresentada
sobre dois pontos de vista diferentes. O primeiro ´e o fundamento base
e a justifiva acerca do termo “supervisionado” at´e aqui utilizado. Ser´a
demonstrado como esta supervis˜ao inicial pelo observador pode induzir
`a posteriori um processo de agrupamento de regi˜oes. Para que isto seja
poss´ıvel em termos de uma funcional de energia, ser´a apresentado o
segundo aspecto: a descri¸ao e a an´alise sistem´atica de uma fun¸ao de
discrimina¸ao para a funcional de Mumford-Shah que utilize por base
os crit´erios de similaridade e continuidade descritos pelo observador na
etapa inicial.
Na figura 4.1 ´e apresentada uma vis˜ao geral da metodologia pro-
posta: em (a), ´e ilustrada a imagem de entrada e a inferˆencia do obser-
vador sobre uma regi˜ao de interesse na cena (tra¸cados em branco). Esta
regi˜ao de interesse corresponde ao padr˜ao capturado do objeto, com o
objetivo de indicar o que “deveria” ser agrupado em um segmento ´unico
na cena. Em (b) ´e demonstrado o resultado da segmentao obtido pelo
algoritmo convencional
1
com parˆametro final de regi˜oes igual `a 4. No-
toriamente, foram obtidas 4 regi˜oes que ao correspondem ao que um
observador humano esperaria encontrar na cena, inclusive perdendo o
objeto supostamente de interesse para a regi˜ao de background. Em (c),
´e demonstrado o resultado obtido pela metodologia proposta novamente
utilizando como parˆametro 4 regi˜oes finais, utilizando o conhecimento
pr´evio determinado pelo observador na etapa inicial.
O exemplo demonstrado na figura 4.1 ´e um caso t´ıpico de orienta-
¸ao que pode ser empregado quando existe um objeto de interesse e todo
um universo restante, que ´e, portanto, irrelevante na cena em quest˜ao.
O modelo de Mumford-Shah, embora genial em simplicidade, acaba fa-
lhando em alguns aspectos prim´arios de continuidade e homogeneidade,
sendo estes destacados nas pr´oximas subse¸oes. A exemplificar, uma
1
vers˜ao multi-escala descrito pela equa¸ao 3.5.
53
(a) Imagem de entrada (b) Segmenta¸ao Convencional
(c) Segmenta¸ao Supervisionada
Figura 4.1: Princ´ıpio geral da metodologia proposta. Em (a), imagem
de entrada e inferˆencia do observador (linhas em branco). Em (b),
Mumford-Shah convencional. Em (c), metodologia proposta.
destas limita¸oes ´e percebida em (b) pr´oximo `a extremidade inferior da
“estrela do mar”, onde o background subdivide-se em 2 regi˜oes. Se com-
parado com o resultado obtido em (c), o background foi unificado em
continuidade em uma regi˜ao ´unica. Qualquer parˆametro menor que
4 regi˜oes para esta imagem exigiria em (c) o agrupamento do segmento
em rela¸ao ao seu adjacente imediato, da´ı sim perdendo o objeto de
interesse. A justificativa do resultado obtido em (b) pode ser facilmente
expressa matematicamente: o comprimento do arco de borda entre tais
regi˜oes adjacentes ´e pequeno, penalizando a energia estimada necess´aria
para agrup´a-las em um ´unico segmento, segundo a equa¸ao 3.5 (quanto
maior o arco, menor a energia estimada aumentando a probabilidade de
fus˜ao).
No entanto, o que se percebe em (c) ´e que mesmo pequenos arcos
de bordas entre adjacˆencias ao ao suficientes para penalizar a energia
funcional e manter estas regi˜oes separadas. Na metodologia proposta
novos crit´erios de homogeneidade e continuidade s˜ao utilizados, obtidos
como informa¸ao de entrada em um processo de inferˆencia por parte do
observador.
Este tipo de informa¸ao de entrada ´e o que denomina-se inferˆencia
54
Figura 4.2: Diagrama geral da metodologia proposta.
acerca de um objeto de interesse na cena. Em outras palavras, este tipo
de informa¸ao capturada de “quem infere” ´e tamb´em denominada de
side information [XIN 03]. Uma vez que este tipo de conhecimento
pode ser modelado explicitamente em uma fun¸ao de discrimina¸ao, o
processo de agrupamento das regi˜oes pela funcional de Mumford-Shah
pode ocorrer de forma orientada e adaptativa.
Este novo mecanismo morfol´ogico ´e abordado conforme demons-
trado no diagrama da figura 4.2:
Aprendizado da etrica: o observador infere sobre a cena, de-
terminando o conjunto de treinamento (denominado de S). O
conjunto S ´e utilizado para representar um mapa topol´ogico M,
gerado a partir de uma t´ecnica de aprendizado de aquina;
Fun¸ao de aproxima¸ao: a fun¸ao de discrimina¸ao do modelo
de Mumford-Shah ´e readequada de modo a comportar as novas
suposi¸oes do modelo supervisionado proposto. Estas suposi¸oes
ao modeladas de acordo com o mapa topol´ogico obtido na etapa
anterior;
Agrupamento de regi˜oes pela funcional E com o objetivo de acurar
o resultado final da segmenta¸ao em segmentos representativos (ou
55
esperados).
As etapas anteriormente descritas da metodologia proposta ser˜ao
detalhadas nos pr´oximos cap´ıtulos. Detalhes da implementa¸ao e funci-
onalidades utilizadas para a elabora¸ao da metodologia proposta ser˜ao
descritas na se¸ao 4.3.3.
4.2 Aprendizado da etrica de distˆancia
A etapa de aprendizado da etrica de distˆancia envolve desde a
inferˆencia realizada pelo observador humano, na determina¸ao subjetiva
dos padr˜oes qualitativos, at´e a obten¸ao dos mapas topol´ogicos que ser˜ao
utilizados na funcional de energia final.
Esta etapa de aprendizado da etrica de distˆancia foi utilizada
como trabalho preliminar em uma metodologia bayesiana descrita em
[SOB 09b]. Neste trabalho foi demonstrado uma generaliza¸ao da m´e-
trica de distˆancia em rela¸ao `a arias amostras (imagens) de mesma
natureza. No contexto de segmenta¸ao de imagens e em conjun¸ao com
o modelo de Mumford-Shah, um novo problema ´e apresentado: cada
caso apresenta caracter´ısticas particulares de padr˜oes e em diferentes
n´ıveis de complexidade, o que dificulta se propor uma generaliza¸ao sob
as mesmas condi¸oes de parˆametros.
Inicialmente, a distˆancia polinomial de Mahalanobis ser´a intro-
duzida como alternativa na modelagem de mapas topol´ogicos. Esta
m´etrica de distˆancia possibilita definir o comportamento de padr˜oes de
entrada de forma robusta e principalmente n˜ao-linearmente. O restante
desta se¸ao fundamenta-se no treinamento dos padr˜oes multivariados,
para por fim descrever os mapas topol´ogicos que ser˜ao utilizados na
funcional de energia.
4.2.1 Distˆancia polinomial de Mahalanobis
A distˆancia polinomial de Mahalanobis, como o pr´oprio nome
sugere, ´e a combina¸ao polinomial dos vetores de entrada e a proje-
¸ao destes vetores sob uma perspectiva dimensional superior. O con-
ceito principal ´e a computa¸ao da distˆancia de Mahalanobis em uma
ordem dimensional maior, permitindo assim capturar as caracter´ısticas
ao-lineares de maior complexidade das distribui¸oes multivariadas dos
padr˜oes de entrada.
A distˆancia polinomial de Mahalanobis pode ser obtida a par-
tir da equa¸ao (2.1), que tamb´em ´e a primeira ordem de q-ordens em
uma sequˆencia polinomial. Considere S : p
1
, p
2
, p
3
, ..., p
N
sendo um
conjunto de vetores m-dimensionais, onde p
i
m
corresponde a um
56
vetor de entrada do conjunto de treinamento, e N ´e a cardinalidade
de S. O primeiro passo ´e computar a distˆancia de Mahalanobis en-
tre dois vetores de cores x e y conforme demonstrado na se¸ao (2.1),
e ent˜ao utilizar o conjunto de entrada S no alculo da covariˆancia (1
a
-
ordem, ou a distˆancia de Mahalanobis entre x e y). O segundo passo
´e calcular a segunda proje¸ao polinomial (2
a
-ordem) atrav´es do ma-
peamento de todos os vetores m-dimensionais p
k
= {p
k
1
, p
k
2
, ..., p
k
m
}
de S, para cada base k = 1, ..., N , em todos os termos polinomiais de
ordem q ou menor. Por exemplo, considerando um vetor bidimensio-
nal p
k
= {p
k
1
, p
k
2
}, o mapeamento deste vetor em sua segunda ordem
polinomial ´e (p
k
1
, p
k
2
, p
2
k
1
, p
2
k
2
, p
k
1
p
k
2
).
Uma forma simples de se obter a distˆancia polinomial de Maha-
lanobis ´e pelo mapeamento direto de todos os dados de entrada de S
em seus respectivos termos polinomiais em uma determinada q-ordem,
e us´a-los diretamente na equa¸ao (2.1). Entretanto, do ponto de vista
computacional, para altas ordens dimensionais m e polinomiais q, esta
m´etrica de distˆancia rapidamente se torna infact´ıvel. Isto ocorre de-
vido ao grande n´umero de combina¸oes vetoriais obtidas de diferentes
termos polinomiais. Uma forma de possibilitar a computa¸ao de altos
termos polinomiais ´e pela utiliza¸ao do seguinte framework proposto
por [GRU 06]:
d
PM
(x, y) = d
M
σ
2
(x, y) +
L1
l=1
d
M
σ
2
g
i
l
, g
j
l
, (4.1)
onde d
M
σ
2
(x, y) ´e a distˆancia de Mahalanobis computada com um pe-
queno escalar positivo σ
2
usado para anular limita¸oes de invers˜ao de
matrizes se algum valor singular for zero, L > 0 ´e o n´umero aximo
de termos polinomiais de q-ordem (q = 2
L
), e os argumentos g
i
l
e g
j
l
ao as pr´oximas proje¸oes dos vetores x e y em seus termos polinomiais
conforme segue:
A decomposi¸ao do valor singular (SVD) do padr˜ao S ´e obtida
e ent˜ao x e y ao projetados em k vetores dimensionais, sendo
{(x
1
, ..., x
k
), (y
1
, ..., y
k
)}, em espa¸cos polinomiais de segunda or-
dem:
g
i
l
= (x
1
, ..., x
k
, x
2
1
, ..., x
2
k
, x
1
x
2
, x
1
x
3
, ...),
g
j
l
= (y
1
, ..., y
k
, y
2
1
, ..., y
2
k
, y
1
y
2
, y
1
y
3
, ...);
Da mesma forma, os pontos p
k
= {p
k
1
, p
k
2
, ..., p
k
m
} em S, para
k = 1, ..., N ao projetados neste espa¸co polinomial g
k
1
, onde a
57
matriz de covariˆancia ´e calculada de g
1
1
, g
2
1
, ..., g
k
1
. Logo, os va-
lores singulares denotados por w
1
, w
2
, ..., w
m
de g
k
1
ao obtidos,
e d
M
σ
2
g
i
l
, g
j
l
pode ent˜ao ser calculada para a segunda ordem
polinomial.
As pr´oximas ordens polinomiais s˜ao da mesma forma constru´ıdas
pela reproje¸ao destes termos g
i
l
e g
j
l
em uma nova 2
a
ordem polinomial.
De maneira projetiva reprojeta-se a 2
a
ordem polinomial na sua pr´opria
2
a
ordem para se obter a 4
a
ordem. Da reproje¸ao da 4
a
ordem, se obt´em
a 8
a
ordem, e assim sucessivamente. Este mapeamento progressivo em
espa¸cos polinomiais de ordem superior continua at´e que a q-ordem seja
igual a 2
(L1)
.
4.2.2 Treinamento do padr˜ao multivariado
O aprendizado da etrica de distˆancia, assim como em modelos
bayesianos [DUD 01], ´e composto de duas partes: defini¸ao do conjunto
de treinamento e calibra¸ao do modelo.
A defini¸ao do conjunto de treinamento ´e um processo realizado
pelo observador, onde algumas caracter´ısticas ao selecionadas da ima-
gem de entrada I. Os dados de entrada s˜ao compostos pela distribui¸ao
multivariada das regi˜oes selecionadas, que de alguma forma apresentam-
se cont´ınuas sob o ponto de vista do observador, e portanto necessitam
ser similares segundo alguma fun¸ao de discrimina¸ao.
Na figura 4.3(a) ´e ilustrado como este processo ´e realizado atra-
v´es da imagem de exemplo “estrela do mar”, selecionada do banco de
imagens de Berkeley [MAR 02]. Os pontos em branco identificados pelo
observador representam o conjunto de entrada S, onde diferentes ti-
pos de estruturas foram selecionadas variando das extremidades para
o centro do objeto de interesse. As distribui¸oes multivariadas tridi-
mensionais destas cores tamem ao demonstradas em (b), ilustrando
a ao-linearidade que o padr˜ao apresenta no espa¸co de cores. Em (c),
(d) e (e) ao demonstradas as decomposi¸oes de S (b) nas facetas RG,
RB e GB, para uma melhor visualiza¸ao do padr˜ao de entrada. Em
(f), (g) e (h) ´e demonstrado o histograma real da imagem em (a) no
espa¸co de cores, nas mesmas decomposi¸oes RG, RB e GB utilizadas
anteriormente. Neste exemplo, ao analisar as cores do histograma que
correspondem ao objeto de interesse ´e poss´ıvel verificar a correspondˆen-
cia existente em rela¸ao `a S, conforme demonstrado em (c)–(f), (d)–(g)
e (e)–(h). Esta correspondˆencia relata o fato de que a amostragem S
definida em (a) poderia ser considerada representativa na representa¸ao
do objeto de interesse (“estrela do mar”) atrav´es de uma distribui¸ao
58
(a) Imagem de entrada (b) Distribui¸ao de S
(c) Dist.RG (d) Dist.RB (e) Dist.GB
(f) Freq.RG (g) Freq.RB (h) Freq.GB
Figura 4.3: Imagem de entrada e conjunto de treinamento S em (a).
Em (b), distribui¸ao de S, e decomposi¸ao em (c), (d) e (e). Em (f),
(g) e (h), distribui¸ao da frequˆencia de (a).
multivariada, mesmo sem a completa sele¸ao do objeto na cena (S va-
ria de uma extremidade, passando pelo centro, e finalizando em outra
extremidade).
Uma vez que o conjunto de treinamento ´e definido pelo observa-
dor, a segunda parte do treinamento do padr˜ao ´e a calibra¸ao do mo-
delo. Nesta etapa, a etrica de distˆancia ´e efetivamente estabelecida
conforme demonstrado a seguir:
O conjunto correspondendo aos pontos de entrada definidos na
figura 4.3 ´e utilizado no polinˆomio de Mahalanobis (equa¸ao 4.1)
como S (conjunto de treinamento);
O parˆametro L da equa¸ao (4.1) necessita ser definido pelo usu´a-
59
rio. Este parˆametro controla o n´umero de proje¸oes polinomiais
que ser˜ao geradas correspondendo aos mapas topol´ogicos M. Dis-
tribui¸oes de padr˜oes mais complexas podem ocasionalmente re-
querer uma discrimina¸ao mais acurada, e consequentemente mai-
ores valores de q podem ser utilizados para um melhor “fecha-
mento” da superf´ıcie de M;
Atrav´es da modelagem da m´etrica de distˆancia s˜ao obtidos os ma-
pas topol´ogicos (descritos mais adiante), um para cada q-ordem,
iniciando de 2
0
at´e 2
(L1)
. Como a distˆancia polinomial de Maha-
lanobis ´e um m´etodo projetivo, todas as ordens inferiores ante-
riormente constru´ıdas q (L 1) est˜ao dispon´ıveis para serem
utilizadas, dispensando uma nova etapa de treinamento caso a
ordem polinomial utilizada produza resultados insatisfat´orios;
O n´umero total de mapas topol´ogicos dispon´ıveis em cada sequˆen-
cia de treinamento ser´a de L (um para a distˆancia de Mahalanobis,
e os demais para os polinˆomios). Ap´os gerados, esses mapas ser˜ao
utilizados na fun¸ao de aproxima¸ao do modelo de Mumford-Shah.
4.2.3 Mapas topol´ogicos
Pela aplica¸ao da distˆancia polinomial de Mahalanobis em um
espa¸co etrico m-dimensional, ´e poss´ıvel se obter os mapas topol´ogicos
utilizados para representar as fun¸oes de discrimina¸ao. A fun¸ao de
discrimina¸ao ´e guiada por um grau polinomial (q-ordem), a qual de-
termina o qu˜ao rigorosa deve ser a resposta da fun¸ao de similaridade
em rela¸ao `a distribui¸ao do padr˜ao. Altas ordens polinomiais proem
uma melhor elimina¸ao de pontos outliers, no entanto, tornam-se tam-
b´em mais restritivas na classifica¸ao dos padr˜oes e exigem uma maior
complexidade computacional na sua obten¸ao.
A constru¸ao dos mapas topol´ogicos ocorrem da seguinte ma-
neira:
considere um subconjunto S de pontos de entrada contidos neste
espa¸co, e definidos como exemplificado na figura 4.3; e um espa¸co
m´etrico de dimens˜ao 3 variando de [0-255] para cada uma de suas
componentes vetorias;
para cada coordenada de cor no espa¸co, um escalar correspondente
ao valor de similaridade ´e computado. Dependendo da ordem
utilizada para o polinˆomio, os valores resultantes tendem a serem
os mais pr´oximos poss´ıveis de 0 para vetores similares, e o qu˜ao
grande o poss´ıvel para os vetores dissimilares;
60
normaliza-se cada escalar em uma equa¸ao de transforma¸ao va-
riando em um range de [0-dissimilar, 1-similar]:
M(x, µ) = e
(γ·d
PM
(x,µ,q))
, (4.2)
onde x ´e cada coordenada m-dimensional do espa¸co m´etrico, µ ´e o vetor
de referˆencia ou centro do espa¸co onde os vetores ser˜ao computados, γ
´e um parˆametro de contraste utilizado para controlar o n´ıvel de com-
pacta¸ao do mapa topol´ogico M , e q (L 1) ´e o grau do polinˆomio
utilizado para a constru¸ao do mapa. Diferentes valores de γ aplica-
dos em um mapa topol´ogico de 8
a
ordem (L = 4) ao demonstrados no
anexo A.1.
Exemplificando este processo, considere o mapa topol´ogico M de-
monstrado na figura 4.4 decomposto nas facetas RG, RB e GB. Este
mapa foi gerado utilizando o conjunto de treinamento S especificado
na figura 4.3(a), considerando a 8
a
ordem polinomial da distˆancia de
Mahalanobis.
´
Areas destacadas na cor preta possuem valores pr´oximos
de 0 (segundo a equa¸ao 4.2) e ser˜ao denominadas desta etapa em diante
como ¬S. Da mesma forma, ´areas similares `a S possuem seu valor ten-
dendo `a 1, sendo representadas pela cor branca. Os diferentes graus de
cinza correspondem `as varia¸oes existentes de ¬S para S (ou vice-versa),
e representam a transi¸ao entre estes conjuntos, e variam de acordo com
o grau polinomial empregado para a constru¸ao de M. Pontos internos
em cada decomposi¸ao correspondem ao centro de proje¸ao do mapa
topol´ogico µ, conforme descritos na se¸ao 4.2.1.
Considerando que em um espa¸co topol´ogico, assim como em espa-
¸cos m´etricos, seja poss´ıvel realizar o deslocamento de um ponto ao outro
nesse espa¸co. Deslocamentos entre as coordenadas p
i
e p
j
localizadas em
¬S na figura 4.4 apresentariam um custo total muito alto, invibializando
a “viagem” caso esta fosse necess´aria. Isto pode ser considerado como
uma zona de penaliza¸ao, onde qualquer deslocamento seria invavel por
menor que fosse. Deslocamentos de pontos localizados em diferentes zo-
nas (¬S e S) tamb´em apresentariam custos invi´aveis, dependendo das
distˆancias percorridas. A contra-parte, no entanto, corresponderia a p
i
e
p
j
pertencentes `a S, onde qualquer deslocamento, por maior que fosse,
apresentaria um custo total m´ınimo (mas ao zero). Para efeitos de
compara¸ao, deslocamentos em um espa¸co Euclideano apresentariam as
distˆancias proporcionalmente distribu´ıdas em todas as dire¸oes, sendo
estes deslocamentos equivalentes `a ||p
i
p
j
||.
Obviamente, este ´e um exemplo correspondente a um mapa po-
linomial M de alta ordem. O que se pode verificar ´e a existˆencia de
zonas que poderiam ser ditas de “super-similaridade”, representadas pe-
61
(a) RG (b) RB (c) BG
Figura 4.4: Mapa topol´ogico gerado a partir de S da figura 4.3.
las ´areas delimitadas em vermelho na figura 4.4.
´
E interessante ob-
servar a ao-linearidade apresentada pelo padr˜ao: transi¸oes de ¬S
para S apresentam superf´ıcies ao-lineares, assim como as zonas de
super-similaridade ao desconexas dependendo da decomposi¸ao que
est´a sendo analisada, mas que podem ser conexas internamente no plano
tridimensional.
No exemplo apresentado pela figura 4.4 foi apresentada a id´eia
das iso-topologias geradas pela distˆancia polinomial de Mahalanobis em
uma alta ordem dimensional. Na figura 4.5 ao demonstradas as pro-
je¸oes progressivas deste mesmo conjunto de treinamento S em outras
ordens polinomiais. As colunas 1, 2 e 3 demonstram as topologias nas
decomposi¸oes do espa¸co RGB (RG, RB, e GB). Novamente as diferen-
tes tonalidades de cinza correspondem aos diferentes graus de simila-
ridade utilizados para representar as transi¸oes (mais claro melhor ´e a
similaridade em rela¸ao `a S).
Na primeira linha da figura 4.5 em (a), a distribui¸ao dos pontos
de entrada ´e apresentada. Os diferentes n´ıveis de cinza representam as
faixas de similaridade iniciando de µ. De (b) para (f) ao demonstradas
as diferentes proje¸oes de mapas topol´ogicos gerados pela equa¸ao (4.2).
Uma faixa adicional de similaridade foi inclu´ıda sendo esta representada
pela cor verde, correspondendo a um valor imediatamente inferior `a faixa
vermelha anteriormente descrita
2
.
Em (b) ´e demonstrado o mapa topol´ogico obtido com a distˆancia
de Mahalanobis descrita pela equa¸ao (2.1) onde as distˆancias ao
ponderadas de acordo com a varia¸ao estat´ıstica em cada componente
vetorial de S. As superf´ıcies topol´ogicas indicam topologias el´ıpticas,
2
Similaridade total = 1, e dissimilaridade total = 0. Cada faixa gradual cor-
responde a uma transi¸ao de 0.1. A regi˜ao em branco ´e 0.9. A faixa em verde
corresponde `a 0.95, e em vermelho `a 0.995.
62
Figura 4.5: Diferentes mapas topol´ogicos e ordens polinomiais sele-
¸ao figura 4.3(a). De (a) para (f): padr˜ao de entrada, Mahalanobis, 2
a
,
4
a
, 8
a
e 16
a
ordens.
63
provendo uma boa discrimina¸ao entre os vetores de cores neste espa¸co
quando comparados com L
2
-norma (que teria uma topologia circular
em rela¸ao `a µ). Exemplos da aplica¸ao deste tipo de topologia ao
apresentados como resultados preliminares em [SOB 09a]. Entretanto,
a otimiza¸ao deste tipo de fun¸ao de discrimina¸ao pode ser ainda com-
plexa, uma vez que existe a dependˆencia de um valor de corte (threshold)
para casos de classifica¸ao bimodal.
Nas figuras demonstradas em (c)–(f) ao demonstradas as ite-
ra¸oes dos mapas polinomiais, ilustradas pela 2
a
, 4
a
, 8
a
e 16
a
ordens
polinomiais. A 2
a
ordem demonstrada em (c) pode ser diretamente ob-
tida atrav´es da proje¸ao da pr´opria distˆancia de Mahalanobis de (b),
que ´e tamb´em a 1
a
ordem em uma sequˆencia polinomial. Realizando
uma compara¸ao visual de (c) com (b), ´e poss´ıvel verificar um melhor
fechamento em rela¸ao `a S. A ´area de transi¸ao entre ¬S e S torna-se
mais compacta, permitindo inclusive visualizar a zona de dissimilari-
dade total, ocultada em (b). Tamb´em de forma discreta esta ordem
polinomial descreve topologias ao-lineares, conforme pode ser verifi-
cado pelas zonas de super-similaridade (faixas vermelha e verde), cujas
topologias tendem a circular as irregularidades de S.
A pr´oxima reproje¸ao polinomial ´e a obten¸ao do mapa topol´o-
gico de 4
a
ordem (L = 3) demonstrado em (d). Nesta ordem de proje¸ao
torna-se evidente a ao-linearidade que o mapa topol´ogico assume em
torno de S, descrevendo tamb´em um melhor fechamento das faixas de
transi¸ao de ¬S e S. Conforme as ordens polinomiais ao incrementa-
das em (e) e (f), mais restritivos tornam-se os mapas topol´ogicos em
rela¸ao `a S, bem como a descri¸ao ao-linear da superf´ıcie topol´ogica.
´
E poss´ıvel tamb´em verificar a estagna¸ao da compacta¸ao quando altas
ordens polinomiais ao obtidas: regi˜oes correspondendo `a similaridade
0.9 diferem modestamente da quarta ordem em diante, tendo a sua
modifica¸ao concentrada nas zonas de super-similaridade. No entanto,
isto depende da complexidade apresentada por S ao longo do espa¸co de
cores.
Na figura 4.6 um exemplo de maior complexidade e dispers˜ao do
padr˜ao de treinamento ´e demonstrado. Em (a) ´e ilustrado o conjunto
de treinamento S definido pelo observador, onde diferentes ´areas de
interesse foram selecionadas. Em (b) ´e demonstrado o histograma tri-
dimensional da distribui¸ao das cores presentes na imagem de entrada.
Em (c), (d) e (e) ao ilustradas as decomposi¸oes das distribui¸oes do
histograma de frequˆencia.
Os mapas topol´ogicos selecionados anteriormente em (a) ao de-
monstrados na figura 4.7. Em (a) o conjunto de treinamento ´e apresen-
64
(a) Imagem de entrada e conjunto de
treinamento
(b) Histograma 3D
(c) RG (d) RB (e) GB
Figura 4.6: Distribui¸ao da frequˆencia de cores no espa¸co e conjunto
de treinamento (imagem 124084).
tado em sua decomposi¸ao RGB. Em (b) a distˆancia de Mahalanobis ´e
ilustrada, estando aberta `a inclus˜ao de muitos pontos outliers devido `a
alta variabilidade de S. Isto pode ser verificado pelas zonas de super-
similaridade, que tendem `a procurar por um“fechamento” em rela¸ao ao
conjunto de treinamento. Em (c) ´e apresentada a 2
a
ordem polinomial,
apresentando uma melhora significativa em rela¸ao (b), e de maneira
mais n´ıtida ao demonstradas as discrimina¸oes ao-lineares entre as
diferentes zonas de transi¸ao. Com o incremento da ordem polinomial
os mapas tornam-se mais restritivos em rela¸ao ao padr˜ao de entrada,
conforme pode ser observado em (d), (e) e (f).
Os exemplos das figuras 4.7 foram obtidos utilizando L = 5, e
modelados utilizando toda a informa¸ao de dimensionalidade apresen-
tada em S. Novamente ´e importante ressaltar que as decomposi¸oes do
cubo RGB apresentadas nos exemplos anteriores s˜ao utilizadas somente
para car´ater de visualiza¸ao. Nesta metodologia foram experimentados
mapas topol´ogicos at´e a 4
a
(L3), nas se¸oes 5.2, 5.3 e 5.4. Alguns experi-
mentos da se¸ao 5.2 demonstram a utiliza¸ao da 8
a
em alguns contextos
de aplica¸ao.
A pr´oxima se¸ao fundamenta-se na descri¸ao e a an´alise siste-
atica da fun¸ao de aproxima¸ao para a funcional de Mumford-Shah,
65
Figura 4.7: Diferentes mapas topol´ogicos e ordens polinomiais sele-
¸ao figura 4.6(a). De (a) para (f): padr˜ao de entrada, Mahalanobis, 2
a
,
4
a
, 8
a
e 16
a
ordens.
66
utilizando por base os novos crit´erios de similaridade modelados nos
mapa topol´ogicos descritos anteriormente.
4.3 Especializa¸ao da fun¸ao de aproxima¸ao
Esta se¸ao inicialmente apresenta uma an´alise da equa¸ao da
energia funcional de Mumford-Shah segundo a regulariza¸ao apresen-
tada pela equa¸ao (3.5), utilizada como base da metodologia proposta.
O intuito ´e verificar as limita¸oes apresentadas no modelo convencional,
e explorar as caracter´ısticas apresentadas pelos mapas topol´ogicos no
sentido de orientar o processo de segmenta¸ao por meio desta funcional.
O modelo de Mumford-Shah demonstrado no cap´ıtulo 3 alcan¸cou
a completa formula¸ao matem´atica para o problema da segmenta¸ao de
imagens, quando tratado como um problema de otimiza¸ao. No entanto,
ao demonstradas lacunas entre a sua formula¸ao te´orica e encontrar
eficientes meios para se minimizar na pr´atica os termos penalizadores
[BRO 05][POC 09]. Os principais desafios relatam o fato da fun¸ao u
ser desconhecida e da possibilidade da existˆencia de m´ınimos locais na
pr´opria funcional.
A discretiza¸ao descrita na equa¸ao (3.5) demonstra como via-
bilizar a intera¸ao existente entre regi˜oes adjacentes bidimensionais e
fronteiras unidimensionais, mas no entanto a exata otimiza¸ao deste
tipo de funcional ´e muito dif´ıcil [BRO 05]. Esta inequa¸ao ´e dada por
λ (Ω
i
,
j
)
|
i
| · |
j
|
|
i
| + |
j
|
· |u
i
u
j
|
2
de modo que esta pode ser reformulada e analisada conforme abaixo:
λ parˆametro de escala que controla a quantidade de agrupa-
mento que uma imagem de entrada I ser´a submetida. Exemplo
de sua utiliza¸ao ´e demonstrado na figura 3.2. Outro parˆametro
que pode ser calculado analogamente ao valor de λ ´e o umero de
regi˜oes obtidas, que ser´a demonstrado no pr´oximo cap´ıtulo como
parˆametro final do algoritmo;
(Ω
i
,
j
) ´e um escalar correspondendo ao comprimento K do
arco de borda que subdivide duas regi˜oes adjacentes
j
e
j
.
´
E
demonstrado na figura 4.8 como divis˜ao entre as regi˜oes que esta-
ao sendo comparadas a seguir;
|
i
|·|
j
|
|
i
|+|
j
|
equivale ao parˆametro β descrito na equa¸ao 3.3, onde
|
i
| equivale `a ´area em pixels da regi˜ao
i
na imagem. Esta re-
la¸ao comporta-se como um coeficiente de ´area com o objetivo
67
Figura 4.8: Comportamento exponencial de β com o agrupamento de
regi˜oes.
de regularizar o valor da escala de acordo com o agrupamento
das regi˜oes. Regi˜oes pequenas nas etapas iniciais do algoritmo
apresentam pouca resistˆencia `a fus˜ao, e muito provavelmente se-
ao agrupadas com suas adjacentes. Conforme a ´area das regi˜oes
aumenta atrav´es dos agrupamentos realizados anteriormente, sua
resistˆencia aumenta, dificultando novos agrupamentos. Uma de-
monstra¸ao do crescimento exponencial que este termo representa
na equa¸ao de Mumford-Shah ´e apresentado na figura 4.8, su-
pondo que o termo de similaridade |u
i
u
j
| seja 1. Prosseguindo
este exemplo construtivo de modo que 2 regi˜oes adjacentes com
´area de 256 pixels em cada uma e compartilhando uma fronteira
K = 16, o valor da energia resultante seria de 8; para 1024 pixels
de ´area e com fronteira igual a k = 32, resultaria em 16, e assim
sucessivamente.
|u
i
u
j
| mede a similaridade entre as regi˜oes
i
e
j
, sendo
que u
i
corresponde ao valor m´edio de intensidade/cor da regi˜ao
analisada. Se Ω
i
e Ω
j
ao similares em intensidade, a contribui¸ao
deste termo para a energia funcional ser´a pequeno, caso contr´ario,
ocorre a penaliza¸ao do termo para o alculo da energia, dificul-
tando a fus˜ao entre estas regi˜oes.
68
A inequa¸ao descrita em (3.5) consiste em um compromisso entre
similaridade e comprimento de fronteira que duas regi˜oes dividem na
cena. O coeficiente de ´area β atua apenas como termo regularizador
controlando o agrupamento das regi˜oes. Esta inequa¸ao ´e equivalente `a
λ
|
i
| · |
j
|
|
i
| + |
j
|
·
|u
i
u
j
|
2
K
e quando aplicada para imagens coloridas, a segmenta¸ao ´e tratada como
um problema de ordem dimensional maior e a norma L
2
´e utilizada,
colapsando nas fronteiras K, conforme demonstrado anteriormente na
figura 4.1. Para objetos com ´area pequena na cena, o termo regulari-
zador β faz com que estas regi˜oes sejam perdidas na cena por insufi-
ciˆencia de ´area, mesmo que haja discrepˆancia da similaridade entre as
regi˜oes imediatas que compartilham fronteira. Estas principais limita-
¸oes tornam-se ligeiramente n´ıtidas na compara¸ao demostrada na se¸ao
5.4, onde o etodo supervisionado proposto ´e diretamente confrontado
com a equa¸ao (3.5) acima descrita quando um n´umero fixado de regi˜oes
´e estipulado.
A metodologia supervisionada proposta neste trabalho fundamenta-
se nas seguintes suposi¸oes:
1 um observador externo pode inferir no processo de agrupamento
das regi˜oes atraes da modelagem de um mecanismo de discri-
mina¸ao na cena. Este mecanismo ´e determinado em um mapa
topol´ogico M;
2 regi˜oes ou parti¸oes ser˜ao formadas onde o sinal de I for homo-
gˆeneo segundo M , o qual quantifica o n´ıvel de similaridade entre
duas regi˜oes adjacentes
i
e
j
;
3 adjacˆencias ser˜ao delimitadas por um sistema regular de descon-
tinuidades K, de modo que a equa¸ao seja penalizada em fun¸ao
de fronteiras equivalentes que ao determinadas em raz˜ao de ¬S e
S;
Com base na equa¸ao 3.5, o modelo supervisionado proposto ´e
descrito pela seguinte energia funcional E(u, K):
λ
|
i
| · |
j
|
|
i
| + |
j
|
·
δ(u
i
, u
j
)
K
· φ, (4.3)
onde:
69
|
i
|·|
j
|
|
i
|+|
j
|
´e o termo β regularizador de ´area descrito na equa¸ao
inicial de Mumford-Shah (3.3). Este termo ´e importante pois man-
tˆem a estabilidade do modelo conforme o agrupamento aumenta.
Sua caracter´ıstica de crescimento exponencial faz com que regi˜oes
grandes mantenham a caracter´ıstica de absorver regi˜oes pequenas,
dependendo do crit´erio de similaridade entre vetores de cores;
δ(u
i
, u
j
) verifica a similaridade entre os vetores u
i
e u
j
m´edios das
regi˜oes
i
e
j
no polinˆomio de Mahalanobis sob uma ordem q.
Como este termo ´e baseado no mapa topol´ogico M, mesmo regi˜oes
que apresentem resistˆencia `a fus˜ao devido `a grandes escalares de
β tendem a serem agrupadas caso exista similaridade no mapa;
φ ´e um escalar 0 que penaliza a equa¸ao segundo um etodo de
equivalˆencia de fronteira, que objetiva mensurar a divergˆencia en-
tre duas distribui¸oes multivariadas no mapa topol´ogico M . Este
termo atua penalizando a equa¸ao, tentando equilibrar o agrupa-
mento das regi˜oes no sentido de convergir para S.
As suposi¸oes acima descritas substituem a discretiza¸ao da equa-
¸ao de Mumford-Shah apresentada em 3.5, possibilitando tornar a ener-
gia funcional de Mumford-Shah adaptativa, ou orientada em rela¸ao `a
M. As pr´oximas subse¸oes descrevem a utiliza¸ao de M como parte da
pr´opria fun¸ao de discrimina¸ao do modelo.
4.3.1 Similaridade na topologia de M
Dadas duas regi˜oes adjacentes
i
e
j
, e u
i
e u
j
sendo a e-
dia interna do valor de intensidade/cor em cada regi˜ao. A qualidade
de aproxima¸ao ou a similaridade entre os vetores m´edios u
i
e u
j
pode
ser realizada pela simples consulta na topologia de M para cada ve-
tor m-dimensional de entrada. Isto poderia ser realizado por meio de
Pit´agoras, utilizando-se de cada valor de intensidade que intercepta a
equa¸ao da reta sobre M. No entanto, a seguinte equa¸ao pode ser
utilizada para computar diretamente a distˆancia na topologia de M
δ(u
i
, u
j
) = u
i
u
j
·
1 e
(γ·d
PM
(u
i
,u
j
,q))
. (4.4)
onde a distˆancia ´e atribu´ıda sobre a covariˆancia dos termos polinomi-
ais definidos na etapa de treinamento. Da mesma forma, a vari´avel
q (L 1) ´e a ordem do polinˆomio, γ > 0 ´e o parˆametro de contraste
do mapa, e d
PM
´e a distˆancia polinomial de Mahalanobis descrita na
70
equa¸ao (4.1).
´
E interessante tamb´em observar que a distˆancia ´e dire-
tamente computada de u
i
e u
j
, e ao em rela¸ao ao centro de proje¸ao.
O centro de proje¸ao est´a diretamente computado na covariˆancia de S,
e a distˆancia obtida mant´em as propriedades descritas na se¸ao 2.1.2.1:
ao-negatividade, identidade, simetria, desigualdade do triˆangulo e m-
dimensionalidade [GRU 06]. Um fator interessante ´e em rela¸ao a pro-
priedade de simetria (d(x, y) = 0), de modo que vetores pr´oximos `a x
ou y apresentam valores t˜ao pr´oximos o quanto poss´ıveis de 0 para altas
ordens dimensionais, caso sejam similares em S.
Ambos os etodos de quantifica¸ao de distˆancia foram imple-
mentados (conforme anexo A.3), e retornam valores em ponto flutuante
(reais) para as compara¸oes:
Distˆancia de um ponto em rela¸ao `a µ: rotina evaluate, descrita
logo mais adiante, que possui como argumento o array de double
im data. Todos os elementos de im data ser˜ao computados em
rela¸ao ao centro aritm´etico µ. Rotina utilizada na gera¸ao do
mapa topol´ogico para plotagem. No entanto, apresenta elevada
complexidade computacional;
Distˆancia entre os vetores m-dimensionais arbitr´arios U e G: ava-
lia a similaridade em rela¸ao `a M diretamente entre 2 vetores
m-dimensionais quaisquer, pela rotina evaluateP2P.
Tamb´em na equa¸ao 4.4 pode ser observado que (1) ´e subtra´ıdo
do escalar de resposta do mapa M. O motivo desta invers˜ao ´e obter um
´ındice de dissimilaridade quando u
i
e u
j
forem similares em M, ou seja,
para valores tendendo `a 0 nesta compara¸ao deve-se inibir a energia fun-
cional, limitando o valor de β e aproximando estes segmentos. Vetores
de cores ao-similares entre s´ı tendenciam seus valores de resposta para
1, possibilitando potencializar a equa¸ao em fun¸ao de β e restringindo
o agrupamento. A equa¸ao 4.4 ´e an´aloga ao mapa topol´ogico (inverso de
M), e estes ao equivalentes entre si na topologia de um espa¸co m´etrico
tridimensional, onde todas as suas combina¸oes vetoriais ao submetidas
ao polinˆomio de Mahalanobis.
Na figura 4.9 ao demonstradas as topologias descritas pelos ma-
pas topol´ogicos em um subespa¸co vetorial l, definido por [y = 40, x :
0 255]. Na coluna `a esquerda ao demonstrados os mapas topol´ogicos
gerados da figura 4.3, sendo que em cada mapa l ´e definido conforme
demonstrado pela linha horizontal que atravessa o espa¸co no eixo x.
Nas figuras `a direita ao demonstrados os custos de cada topologia uti-
lizando a pondera¸ao em M na equa¸ao 4.4, dadas pela 1
a
, 2
a
, 4
a
e 16
a
ordens polinomiais, respectivamente.
71
(a) Mahalanobis (b) Topologia
(c) 2
a
ordem (d) Topologia
(e) 4
a
ordem (f) Topologia
(g) 32
a
ordem (h) Topologia
Figura 4.9: Topologias dos mapas em diferentes ordens polinomiais:
1
a
, 2
a
, 4
a
e 16
a
ordens respectivamente.
72
(a) Distˆancia no mapa (b) Deslocamento na linha
Figura 4.10: Distˆancia para S (esquerda) e custo de deslocamento
entre coordenadas (direita).
Outras caracter´ısticas interessantes podem ser observadas pela
utiliza¸ao de M, onde tal topologia s´o ´e poss´ıvel devido aos reais valores
de distˆancias produzidos pela distˆancia polinomial, conforme ilustrado
na figura 4.10-(a), ao demonstradas as reais distˆancias em escala lo-
gar´ıtmica em rela¸ao ao padr˜ao S, nas mesmas ordens polinomiais da
figura anterior. A coordenada x : 150 ´e o ponto de m´ınimo local para
todas as ordens polinomiais apresentadas.
´
E interessante observar a dis-
crimina¸ao atribu´ıda aos vetores dissimilares `a S: na coordenada 0 o
valor da distˆancia em rela¸ao ao padr˜ao equivale a 10
3
para a 4
a
ordem
e 10
6
para a 32
a
, e conforme pode ser observado pela sequˆencia da pro-
je¸ao, esse valor continua aumentando.
`
A medida em que x desloca-se
`a direita, essa distˆancia ´e reduzida, sendo que somente muito pr´oximo
`a S seus valores de similaridade poderiam ser vi´aveis na pr´atica.
Na figura 4.10-(b) ao demonstrados os custos de deslocamento ao
longo da superf´ıcie l. Da mesma forma, altas ordens polinomiais penali-
zam o menor deslocamento para vetores dissimilares. Vetores similares,
em determinado ponto do espa¸co podem apresentar deslocamento muito
pr´oximo de zero – coordenada x : 150. De fato, coordenadas em escala-
res na faixa de 10
1
apresenta um excelente n´ıvel de similaridade para
o contexto de segmentao de imagens.
A equa¸ao (4.4) normaliza uma distˆancia polinomial em M em
valores ao bin´arios variando entre [0-similar 1-n˜ao similar]. Uma vez
obtidos, esses escalares s˜ao utilizados para a regulariza¸ao da norma ve-
torial u
i
u
j
: regi˜oes dissimilares no mapa topol´ogico s˜ao computadas
em rela¸ao a norma L
2
, enquanto que regi˜oes adjacentes similares ao
aproximadas pela minimizando da fun¸ao de discrimina¸ao do modelo
de Mumford-Shah.
A contribui¸ao deste termo penalizador para a equa¸ao da energia
73
funcional de Mumford-Shah ´e a distin¸ao do limite perceptual das cores
que comp˜oem um objeto de interesse no espa¸co. Se ambos os vetores
de cores entre duas regi˜oes adjacentes estiverem proximamente situados
(em S), a distˆancia computada entre eles deve ser minimizada para
garantir o agrupamento destes segmentos. Caso contr´ario, os segmentos
devem ser mantidos separados e seu agrupamento, sendo determinados
em fun¸ao do coeficiente de ´area.
4.3.2 etodo de equivalˆencia de fronteira
Um outro problema anteriormente abordado na energia funcional
de Mumford-Shah ´e a forma com que regi˜oes adjacentes interagem entre
si. O grande desafio apresentado ao as diferentes unidades dimensionais
apresentadas entre regi˜oes (estruturas bidimensionais) e suas fronteiras
(unidimensionais), frequentemente ocasionando na perda dos segmentos
representativos na cena.
Estes problemas ao melhor ilustrados atrav´es da figura 4.11,
sendo que:
em (a), a fronteira K que divide as regi˜oes
i
e
j
apresenta
um comprimento K significativo. O processo de minimiza¸ao pela
equa¸ao (3.5) faz com que fronteiras de maior comprimento con-
tribuam para a fus˜ao entre regi˜oes adjacentes, mesmo quando a
similaridade ao seja muito expressiva;
em (b), um caso contr´ario ´e apresentado, onde a fus˜ao entre as
regi˜oes tende a ser inibida devido ao baixo valor de K. Exemplo
disso foi apresentado na figura 4.1, onde grandes parti¸oes ao
divididas por pequenas fronteiras, dificultando a sua uni˜ao.
Esta tendˆencia natural do algoritmo deve ser mantida, pois ga-
rante a estabilidade do modelo como um todo. No entanto, um termo
penalizador adicional poderia indicar quando pequenas ou grandes fron-
teiras necessitam minimizar a energia objetivando o agrupamento de
determinados pares de segmentos.
Nesta abordagem, como o pr´oprio observador faz parte do pro-
cesso de segmenta¸ao com uma inferˆencia inicial, ´e poss´ıvel utilizar al-
guma informa¸ao adicional sobre a imagem em quest˜ao. Para tal, a
seguinte verifica¸ao no mapa topol´ogico ´e realizada em fun¸ao das com-
ponentes internas de cada regi˜ao:
duas regi˜oes adjacentes
i
e
j
podem ser ditas “equivalentes en-
tre si” se e somente se suas distribui¸oes multivariadas estiverem
ambas em S, ou ambas em ¬S;
74
(a) fronteira K maior (b) fronteira K menor
Figura 4.11: Exemplo de regi˜oes adjacentes com diferentes tamanho
de fronteira K.
regi˜oes adjacentes que estiverem em classes diferentes (uma em
S e outra em ¬S), ser˜ao penalizadas, potencializando a energia
funcional.
Estas verifica¸oes podem ser melhor descritas atrav´es da figura
4.12, a qual exemplifica as situa¸oes poss´ıveis entre duas regi˜oes que s˜ao
adjacentes no plano bidimensional em Ω. Para cada caso apresentado,
os seguintes valores para o termo φ podem ser atribu´ıdos:
φ =
0, (Ω
i
,
j
) S
0, (Ω
i
,
j
) / S
1,
i
S,
j
/ S
1,
i
/ S,
j
S
, (4.5)
onde os valores ao obtidos por uma fun¸ao de densidade que computa
a divergˆencia entre as distribui¸oes multivariadas no mapa topol´ogico,
dada por
φ = |P (Ω
i
) P (Ω
j
) |, (4.6)
onde P = 1/n
n
x=1
M(Ω
x
) verifica a intensidade de cada componente
vetorial da regi˜ao no mapa topol´ogico M. Os valores ao ent˜ao acumu-
lados pela fun¸ao, e normalizados pelo n´umero de pontos (ou a ´area) da
respectiva regi˜ao. Como resultado, P (Ω
i
) equivale `a intensidade edia
de todas as suas componentes vetoriais dispersas em M . Isto pode ser
tamem demonstrado atrav´es da figura 4.12, representado pelo mapa
de 8
a
ordem:
em (a), ambas as regi˜oes est˜ao internas `a S, logo suas probabi-
lidades P (Ω
i
) e P (Ω
j
) tender˜ao `a 0. Aplicando φ = |0 0|
resultar´a em escalares pr´oximos a 0;
75
(a) Regi˜oes em S (b) Regi˜oes em ¬S (c) Regi˜oes em classes di-
ferentes
Figura 4.12: Representa¸ao do etodo de equivalˆencia de fronteira.
em (b), ambas as probabilidades tendem `a 1 pois direcionam-se
`a ¬S. Aplicando φ = |1 1| resultar´a em 0, demonstrando
tamem para este caso equivalˆencia entre as distribui¸oes;
em (c), as distribui¸oes multivariadas das regi˜oes se encontram em
diferentes classes de M. Uma delas tender´a `a 0 e outra `a 1.
Aplicando a equa¸ao φ = |0 1|, resultar´a em 1, indicando
divergˆencia entre ambas as distribui¸oes.
Para os casos (a) e (b) ocorre a tentativa de minimiza¸ao da
energia funcional, com o objetivo de aproximar estas regi˜oes adjacentes.
Em (c) a energia funcional tende a ser potencializada, com o objetivo
de rejeitar o agrupamento entre ambas as regi˜oes. Estas restri¸oes no
entanto, ao garantem que um caso semelhante ao apresentado em (c)
jamais agrupem-se entre si. O que ocorre ´e a prioriza¸ao de outras
regi˜oes adjacentes que sejam ditas equivalentes, segundo a sua densi-
dade probabil´ıstica. Outro fator ´e que com o decr´escimo do n´umero
de regi˜oes, mesmo regi˜oes que apresentem rejei¸ao pela equivalˆencia de
fronteira podem estar situadas em um alto grau de prioridade na lista de
ordem de agrupamento (demonstrada a seguir) principalmente quando
se tem um pequeno umero de regi˜oes remanescentes
3
.
De uma maneira geral, os escalares obtidos em φ tender˜ao `a variar
de acordo com a ordem utilizada pelo mapa topol´ogico, ao se tratando
de uma classifica¸ao bimodal. Por exemplo, ao utilizar uma topolo-
gia de ordem 1 (L = 1) as faixas graduais dos valores de intensidade
ao determinadas pela discrimina¸ao el´ıptica de uma fun¸ao t´ıpica de
Mahalanobis. Para uma segunda ordem, esta restri¸ao aumenta, mas
3
Exemplo disto ´e o que justifica na pr´oxima se¸ao a imagem 12003 e algumas
outras estarem limitadas a um determinado n´umero m´ınimo de regi˜oes finais > 2.
76
os valores continuam mensur´aveis em escalas graduais. Muito frequen-
temente os valores n˜ao sejam t˜ao pr´oximos de 0 ou 1, especialmente que
as regi˜oes a sejam formadas por subregi˜oes com variabilidade de cores,
que acabaram sendo absorvidas por insuficiˆencia de ´area.
No entanto, nos experimentos demonstrados na pr´oxima se¸ao ´e
poss´ıvel verificar uma melhor correspondˆencia quando na cena existe
um contexto bimodal, possibilitando aproximar o resultado obtido com
a sele¸ao do observador. Para imagens de contextos gerais, onde mui-
tas regi˜oes ao presentes na cena, ´e poss´ıvel verificar uma tendˆencia de
aproxima¸ao inicial da regi˜ao selecionada nos segmentos representativos.
Embora este etodo seja custoso na verifica¸ao de cada componente na
topologia de S, algumas estrat´egias foram utilizadas no sentido de rea-
lizar esta verifica¸ao somente quando uma nova regi˜ao ´e formada.
4.3.3 Algoritmo e implementa¸ao
A metodologia proposta utiliza por base a estrat´egia de regulari-
za¸ao descrita na equa¸ao 3.5, para a equa¸ao da energia funcional de
Mumford-Shah. Esta estrat´egia ´e apresentada como um completo fra-
mework para o agrupamento de regi˜oes, que ´e regido por uma fun¸ao de
discrimina¸ao. Detalhes desta estrat´egia est˜ao descritos no cap´ıtulo 3.3.
De uma maneira geral, esta estrat´egia pode ser sumarizada conforme o
diagrama apresentado na figura 4.13.
A primeira etapa a ser realizada pelo algoritmo ´e a inicializa¸ao
das estruturas simb´olicas, tais como valor de intensidade em cada re-
gi˜ao, adjacˆencias e estimativas de custo entre fronteiras adjacentes. O
resultado desta inicializa¸ao ´e a constru¸ao de uma lista de regi˜oes que ´e
ordenada crescentemente pelas menores energias estimadas entre todas
as regi˜oes (neste caso, pixels) adjacentes.
Uma vez que todas as estruturas estejam inicializadas, o algo-
ritmo entra em loop at´e que o valor de λ ou n´umero final de regi˜oes seja
atingido. Embora este processo seja determin´ıstico e o algoritmo sempre
produz o mesmo resultado a cada execu¸ao, a complexidade de execu¸ao
´e dependente das estruturas que est˜ao presentes na imagem (ex. ima-
gens com diferentes varia¸oes de gradiente s˜ao mais complexas de serem
segmentadas, uma vez que as regi˜oes apresentam maior resistˆencia ao
agrupamento). O processo de codifica¸ao de uma imagem de entrada
I em segmentos, no entanto, sempre inicia com um umero de regi˜oes
igual `a w h, onde w e h ao as dimens˜oes da imagem bidimensional em
altura e largura.
Enquanto o crit´erio de parada do algoritmo ao for atingido, ocor-
rer´a a fus˜ao sempre entre as regi˜oes
i
e
j
que apresentam o melhor
77
Figura 4.13: Diagrama geral do funcionamento do algoritmo.
(menor) descr´escimo de energia segundo a funcional, ou seja, o topo da
lista de regi˜oes, conforme representado pelo diagrama.
Para que a fus˜ao entre duas regi˜oes adjacentes ocorra, ´e necess´ario
remover o arco de borda que as divide, e agrup´a-las em uma ´unica
estrutura. Isto implica na re-atualiza¸ao da lista de regi˜oes, uma vez
que uma regi˜ao foi formada pelo agrupamento de outras duas, e todos
os seus adjacentes imediatos necessitam ser verificados e recomputadas
as energias estimadas. Novamente, a lista ´e reordenada cujo topo da
estrutura dever´a conter o arco de borda onde energia estimada seja a
menor dentre todos os demais arcos. At´e este momento foi reduzida em
1 regi˜ao o n´umero total de w h regi˜oes, e o processo recome¸ca.
Uma vez que o parˆametro de parada do algoritmo seja atingido,
ocorre a reconstru¸ao das estruturas simolicas em regi˜oes em um plano
bidimensional (imagem resultante).
A representa¸ao demonstrada no diagrama da figura 4.13, con-
forme pode ser verificado, ´e a mesma fundamenta¸ao inserida nos e-
todos de crescimento de regi˜oes. De alguma forma as regi˜oes dever˜ao
ser agrupadas, e quem determina a ordem de agrupamento ´e alguma
fun¸ao de discrimina¸ao, que julga similaridade entre adjacˆencias. No-
toriamente percebe-se que em um processo tal como apresentado ante-
riormente a fun¸ao de discrimina¸ao ´e fator chave em um algoritmo de
78
(a) tela inicial e a sele¸ao do conjunto
de treinamento
(b) resultado final do processo
Figura 4.14: Interface de usu´ario desenvolvida para utiliza¸ao da me-
todologia proposta.
segmenta¸ao de imagens.
O algoritmo convencional de Mumford-Shah, por sua vez, apre-
senta a estrutura definida no diagrama da figura 4.13 utilizando a norma
vetorial entre suas componentes de cor.
Na metodologia proposta a fun¸ao de discrimina¸ao que ordena
a lista das regi˜oes ´e definida conforme a equa¸ao (4.3). Como pode ser
percebido, nenhuma outra heur´ıstica ´e necess´aria quando a fun¸ao de
discrimina¸ao ´e especializada atrav´es do conhecimento pr´evio do objeto
em quest˜ao na cena. Isso possibilita orientar o processo de redu¸ao do
n´umero de regi˜oes, e obter o resultado ilustrado ao final do processo na
figura 4.13.
No entanto, outras etapas adicionais foram necess´arias na me-
todologia proposta al´em da modifica¸ao da fun¸ao de discrimina¸ao do
modelo. Como a proposta da metodologia ´e a supervis˜ao do observador,
uma interface de usu´ario foi acoplada sobre o framework da figura 4.13,
de modo que o observador possa inferir na cena definindo o conjunto
de treinamento. Outra funcionalidade ´e a apida gera¸ao de padr˜oes
qualitativos S, bem como o seu armazenamento e a reprodutibilidade
dos resultados obtidos. Na figura 4.14 esta interface ´e ilustrada: em (a),
a tela inicial do processo de sele¸ao de pontos e escolha dos parˆametros
de execu¸ao. Em (b), o resultado final obtido atrav´es da escolha das 4
regi˜oes mais significativas na cena.
Ap´os a sele¸ao ser realizada pelo observador, ocorre a gera¸ao
do mapa topol´ogico M (Make P.Space) em (a), selecionando a ordem
axima desejada L = 3, e a ordem para ser utilizada na segmenta¸ao
79
(order to show) em (b). A segmenta¸ao ´e realizada pela sele¸ao do
n´umero de regi˜oes esperadas para o processo de segmenta¸ao. Como
etapas intermedi´arias deste processo ainda ao destacadas a gera¸ao
inicial de um histograma sobre a imagem de entrada com o objetivo de
eliminar vetores de cores repetidos na imagem. Atraes desta redu¸ao
otimiza-se o processo de gera¸ao do mapa topol´ogico.
Outra funcionalidade implementada ´e a gera¸ao parcial de re-
sultados de segmenta¸ao. Como o processo de gera¸ao de segmentos
consiste em um processo redutivo, este sempre tender´a de w h para
1, que ´e o n´umero m´ınimo de segmentos em uma imagem (retˆangulo
Ω, com a cor edia de todos os pixels da imagem). Neste trabalho ´e
necess´aria a gera¸ao de resultados de segmenta¸ao intermedi´arios, para
a verifica¸ao da efetividade da equa¸ao proposta, descrita em (4.3). Na
pr´oxima se¸ao, a metodologia utilizada na gera¸ao dos resultados ´e de-
monstrada. Nesta se¸ao justifica-se a necessidade de resultados parciais
contendo 250, 225, 200... regi˜oes, e decrescendo at´e que um n´umero
m´ınimo de regi˜oes na cena sejam encontradas.
Quanto ao processo de gera¸ao do mapa topol´ogico e consulta
de seus vetores de cores, outro procedimento foi adotado. Inicialmente,
a distˆancia polynomial de Mahalanobis se encontrava inteiramente em
Matlab, e um wrapper foi constru´ıdo para possibilitar a sua utiliza¸ao em
outras linguagens de programa¸ao de maior desempenho computacional.
Atualmente, a gera¸ao dos mapas topol´ogicos se encontra dispon´ıvel
em Matlab (rotina makeSpace), e a consulta ao mapa topol´ogico foi
codificado para a linguagem C++ por quest˜oes de performance (rotinas
evaluate e evaluateP2P). Os prot´otipos destas rotinas em C++ podem
ser visualizados no anexo A.3.
5. Resultados
Neste cap´ıtulo ser˜ao apresentados os resultados obtidos pela me-
todologia proposta, bem como a avalia¸ao de qualidade destes resultados
frente `a outros algoritmos de segmenta¸ao comumente referenciados na
literatura.
As imagens utilizadas nos experimentos foram coletadas do banco
de imagens de Berkeley
1
, um dataset exemplar onde cada imagem apre-
senta de 5 a 8 segmenta¸oes manuais realizadas por observadores huma-
nos. Estas segmenta¸oes manuais ao denominadas de ground-truth’s
(GT’s), e podem ser correlacionadas com resultados obtidos computa-
cionalmente para verifica¸ao da qualidade da segmenta¸ao destes algo-
ritmos.
Embora para um consider´avel n´umero de casos o banco de Berke-
ley apresenta-se amb´ıguo entre as avalia¸oes de ground truth’s, diferen-
tes experimentos puderam ser realizados para corroborar a metodologia
proposta, conforme descritos na pr´oxima se¸ao.
5.1 Metodologia utilizada nos experimentos
A metodologia proposta foi aplicada sobre 60 imagens do banco
de Berkeley. Em alguns casos, os experimentos variam de acordo com
contexto (justificados mais adiante) e algumas imagens foram utilizadas
mais de uma vez
2
, totalizando em 63 imagens processadas.
Para cada imagem, um conjunto de treinamento caracter´ıstico S
foi definido buscando-se alguma caracter´ıstica de similaridade ou dissi-
milaridade presente na cena. As informa¸oes armazenadas neste con-
junto de treinamento podem ser verificadas atraes do anexo A.4. Neste
exemplo, informa¸oes do n´umero de pontos capturados e suas respecti-
vas coordenadas espaciais e cores ao demonstradas. Este modelo pos-
sibilita a recupera¸ao dos dados e a reprodutibilidade dos resultados
de segmenta¸ao. A quantidade de pontos em S ´e arbitr´aria e varia de
imagem para imagem. Os resultados de segmenta¸ao foram alterados
de modo a evidenciar as adjacˆencias existente entre os segmentos e fa-
cilitar a visualiza¸ao dos segmentos nas imagens (bordas brancas foram
inclu´ıdas entre os segmentos).
1
http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/segbench.
2
A imagem 124084 foi reprocessada mais duas vezes e a imagem 16052 mais uma
vez se¸ao 5.2. A imagem 196073 foi processada uma vez e reutilizada nas se¸oes
5.2 e 5.3.
81
Os parˆametros de execu¸ao do algoritmo em cada imagem ´e o
arquivo correspondente ao conjunto de treinamento anteriormente des-
crito, um valor de contraste do mapa topol´ogico definido por λ, e o n´u-
mero esperado de regi˜oes resultantes do processo de segmenta¸ao (anexo
A.5). Como o processo de segmenta¸ao ´e progressivamente determinado
pelo n´umero de regi˜oes, todas as imagens foram segmentadas com n´u-
mero final de regi˜oes igual a 2. Os resultados intermedi´arios do processo
de segmenta¸ao foram armazenados quando atingiam os seguintes u-
meros de regi˜oes (ou imediatamente menores que): 250, 225, 200, 180,
150, 120, 100, 80, 60, 50, 40, 30, 20, 10, 9, 8, 7, 6, 5, 4, 3. Por fim, para
cada imagem de entrada, obteve-se 22 resultados de segmenta¸ao, tota-
lizando em 1.386 imagens para as 63 imagens de entrada selecionadas.
A id´eia base do processo de avalia¸ao ´e encontrar dentre a sequˆen-
cia progressiva das 22 imagens um resultado que melhor se aproxime `a
imagem de referˆencia (ground-truth) correspondente. Para tal, em cada
resultado de segmenta¸ao obtido o seguinte procedimento foi executado:
cada imagem do banco de Berkeley cont´em entre 5 a 8 avalia¸oes
3
(segmenta¸oes manuais), denominados aqui de ground-truth’s par-
ciais. Cada resultado de segmenta¸ao ´e correlacionado com todos
os ground-truth’s parciais;
a correla¸ao entre cada segmentao e cada ground-truth’s parcial
´e regida por um ´ındice m´edio, obtido a partir dos quatro ´ındices de
avalia¸ao descritos na se¸ao 2.4: Rand, Fowlkes-Mallows, Jacard
e Dongen;
o melhor ´ındice m´edio (com menor valor m´edio de dissimilaridade)
determina o resultado de segmenta¸ao que melhor se aproxima ao
padr˜ao ouro especificado para a imagem.
O procedimento acima descrito obt´em para cada resultado de
segmenta¸ao entre 20 a 32 ´ındices (1 imagem x 5-8 GT’s x 4 ´ındices
de avalia¸ao), e toda a sequˆencia progressiva (das 22 segmenta¸oes)
possui de 440 a 704 ´ındices (para 5 a 8 GT’s, respectivamente). Para
as 63 imagens utilizadas na metodologia proposta foram obtidos 30.404
´ındices de avalia¸ao.
Na figura 5.1 ´e demonstrado o resultado final deste procedimento
utilizando como exemplo a imagem 207056. Em (a) ´e apresentada a ima-
gem original e o respectivo conjunto de treinamento S definido sobre essa
imagem (tra¸cados em branco). Em (b) um dos resultados de segmenta-
¸ao obtidos pela metodologia proposta, eleita como melhor aproxima¸ao
3
Uma m´edia de 5,4841 avalia¸oes (ground-truth) por imagem das 60 selecionadas.
82
(a) Imagem 207056 e conjunto de trei-
namento S
(b) Resultado da segmenta¸ao em 4
regi˜oes
(c) GT-1105, 4 r. (d) GT-1109, 4 r. (e) GT-1114, 5 r.
(f) GT-1115, 5 r. (g) GT-1119, 10 r.
Figura 5.1: Imagem 207056 e o conjunto de treinamento em (a). Em
(b) resultado obtido pela metodologia proposta. Em (c)-(g) os respec-
tivos ground-truths para a imagem 207056 segundo Berkeley.
83
(a) An´alise por redu¸ao do n´umero de regi˜oes
(b) An´alise de observadores humanos do melhor ´ındice obtido em (a)
Figura 5.2: An´alise da imagem 207056. Em (a) evolu¸ao do agrupa-
mento de regi˜oes considerando o ´ındice edio das avalia¸oes. Em (b),
an´alise individual do melhor ´ındice obtido em (a) segundo as t´ecnicas
de avalia¸ao de segmentos, ordenados por ID do observador.
84
em rela¸ao `as imagens de ground-truth’s (c)–(g). Como pode ser ob-
servado, o n´umero de regi˜oes em (b) equivale `a 4 segmentos, enquanto
que os ground-truth’s especificados pelos avaliadores humanos cont´em
de 4 `a 10 regi˜oes.
O gr´afico da figura 5.2(a) demonstra o resultado final da avalia¸ao
da imagem 207056, para cada uma das 22 segmenta¸oes produzidas.
Os ´ındices demonstrados ao longo da linha do gr´afico correspondem
aos ´ındices m´edios de dissimilaridade em cada resultado, gerados da
combina¸ao dos diferentes ground-truth’s em rela¸ao `as quatro ecnicas
de avalia¸ao de segmentos. Comprova-se que o “melhor” resultado de
segmenta¸ao para imagem em quest˜ao (207056) seja o ´ındice cujo valor
seja o menor ao longo da linha, justificando a sele¸ao apresentada pela
figura 5.1-(b) ´ındice m´edio equivale `a 0.032.
Realizando uma outra an´alise do ´ındice sugerido pelo gr´afico da
figura 5.2(a), ´e poss´ıvel decompor este ´ındice de modo a observar as va-
ria¸oes existentes entre os ground-truth’s e as t´ecnicas de avalia¸ao utili-
zadas. Esta an´alise ´e demonstrada na figura (b), onde pode-se observar
uma baixa varia¸ao entre avaliadores humanos (consenso geral para a
imagem 207056) e tamb´em entre os 4 ´ındices de avalia¸ao de segmentos.
Estes ´ındices indicam uma excelente correla¸ao entre o resultado de seg-
menta¸ao obtido e o que os observadores humanos esperam encontrar na
cena. Os valores amostrados acima de cada gr´afico correspondem aos
´ındices m´edios obtidos das 4 t´ecnicas de avalia¸ao de segmentos para
cada observador. Os desvios padr˜oes dos ´ındices de avalia¸ao computa-
dos entre cada observador equivalem `a 0.0047, 0.0042, 0.0080 e 0.0081
(Rand, FowlkesMallows, Jacard e Dongen, respectivamente). Da mesma
forma, existe conformidade entre os ´ındices de avalia¸ao em cada obser-
vador, cujos desvios padr˜oes equivalem `a 0.0092, 0.0088, 0.0073, 0.0115
e 0.0119 (observadores 1105, 1109, 1114, 1115 e 1119, respectivamente).
O exemplo apresentado na figura 5.1 apresenta um caso excelente
para a avalia¸ao da qualidade dos algoritmos de segmenta¸ao em rela-
¸ao aos ground-truth’s. O decr´escimo da similaridade inicia a partir do
n´umero aximo de segmentos (250) at´e o n´umero m´ınimo (2), e a re-
du¸ao do ´ındice edio ´e not´oria e cont´ınua, possibilitando identificar
um ponto de m´ınimo global que supostamente corresponde ao melhor
resultado de segmenta¸ao. Este tipo de consenso geral entre avaliadores
possibilita a avalia¸ao da qualidade dos resultados e escolha de melhores
algoritmos de segmenta¸ao. O desvio padr˜ao final entre observadores
para a imagem 207056 equivale `a 0.0062.
No entanto, nem todos os casos dispon´ıveis no banco de imagens
de Berkeley apresentam-se como exemplificado na imagem 207056. Para
85
(a) Imagem 3096 e conjunto de treina-
mento S
(b) Resultado da segmenta¸ao em 2
regi˜oes
(c) GT-1105, 3 r. (d) GT-1107, 11 r. (e) GT-1121, 6 r.
(f) GT-1123, 6 r. (g) GT-1132, 6 r.
Figura 5.3: Imagem 3096 e o conjunto de treinamento em (a). Em (b)
resultado obtido pela metodologia proposta. Em (c)-(g) os respectivos
ground-truths para a imagem 3096 segundo Berkeley.
86
(a) An´alise por redu¸ao do n´umero de regi˜oes
(b) An´alise de observadores humanos do melhor ´ındice obtido em (a)
Figura 5.4: An´alise da imagem 3096. Em (a) evolu¸ao do agrupa-
mento de regi˜oes considerando o ´ındice edio das avalia¸oes. Em (b),
an´alise individual do melhor ´ındice obtido em (a) segundo as t´ecnicas
de avalia¸ao de segmentos, ordenados por ID do observador.
87
a imagem demonstrada na figura 5.3, divergˆencias podem penalizar os
´ındices gerais dos resultados de segmenta¸ao. Isto ´e exemplificado em
(a) atrav´es da imagem 3096 e seu respectivo conjunto de treinamento
S definido na regi˜ao do background. Em (b) ´e demonstrado o resul-
tado de segmenta¸ao obtido atrav´es do maior decr´escimo do valor de
dissimilaridade m´edio, e em (c)–(g) os ground-truth’s gerados para a
imagem 3096. As regi˜oes definidas pelos observadores variam de 3 `a 11
regi˜oes, sendo que a divergˆencia mais not´avel pode ser identificada no
ground-truth–(e) realizada pelo observador 1121. De forma mais dis-
creta o observador 1107 delimitou em (d) pequenos fragmentos (regi˜oes
nas n´uvens), que foram ignorados nas observoes de outros avaliadores.
Na figura 5.4(a) ´e apresentado o gr´afico da redu¸ao do n´umero de
segmentos indicando por menor ´ındice o resultado de segmenta¸ao con-
tendo 2 regi˜oes (´ındice = 0.112).
´
E poss´ıvel tamb´em observar a existˆen-
cia de m´ınimos locais no gr´afico (em 20 e 30 regi˜oes), produzidos devido
`a divergˆencias entre os ground-truth’s. Novamente, realizando a an´alise
detalhada do menor ´ındice, ´e poss´ıvel concluir uma divergˆencia promo-
vida pelo observador 1121, e de maneira mais discreta pelo observador
1107. Os desvios padr˜oes entre as t´ecnicas de avalia¸ao de segmentos
equivalem `a 0.2305, 0.1592, 0.2581 e 0.1867 (Rand, FowlkesMallows,
Jacard e Dongen, respectivamente). Os ´ındices obtidos em cada obser-
vador equivalem `a 0.0029, 0.0152, 0.1031, 0.0024 e 0.0039 (observadores
1105, 1107, 1121, 1123 e 1132, respectivamente). O desvio padr˜ao geral
entre observadores equivale `a 0.2086, um aumento consider´avel em re-
la¸ao ao ´ındice apresentado pelo exemplo anterior. De maneira geral, o
´ındice final atribu´ıdo `a imagem 3096 foi prejudicado pelo ground-truth
divergente, sendo este (0.0109 + 0.0470 + 0.4840 + 0.0087 + 0.0092)/5 =
0.1119.
Um caso de maior divergˆencia ´e demonstrado na figura 5.5. Neste
exemplo, foi priorizado o isolamento completo do objeto de interesse, en-
quanto que os ground-truth’s de somente 2 observadores delimitam vi-
sivelmente o objeto desta forma. Os demais ground-truth’s selecionam
outras sub-estruturas no background da cena, cuja ´area ´e significativa-
mente representativa (ground-truth’s d, f e g). Nos gr´aficos da figura
5.6, em (a) tem-se novamente a ilustra¸ao dos ´ındices edios ao longo
da redu¸ao do n´umero de regi˜oes, onde o melhor resultado de segmen-
ta¸ao ´e o indicado por 2 regi˜oes (´ındice = 0.136). Decompondo este
´ındice nas ecnicas de avalia¸ao e varia¸oes entre observadores, tem-se
em (b) os pontos convergentes (observadores 1107 e 1124) e os diver-
gentes (observadores 1119, 1126 e 1130). O desvio padr˜ao geral entre
observadores apresentado para a imagem 304034 corresponde `a 0.099.
88
(a) Imagem 304034 e conjunto de trei-
namento S
(b) Resultado da segmenta¸ao em 2
regi˜oes
(c) GT-1107, 3 r. (d) GT-1119, 7 r. (e) GT-1124, 6 r.
(f) GT-1126, 10 r. (g) GT-1130, 12 r.
Figura 5.5: Imagem 304034 e o conjunto de treinamento em (a). Em
(b) resultado obtido pela metodologia proposta. Em (c)-(g) os respec-
tivos ground-truths para a imagem 304034 segundo Berkeley.
89
(a) An´alise por redu¸ao do n´umero de regi˜oes
(b) An´alise de observadores humanos do melhor ´ındice obtido em (a)
Figura 5.6: An´alise da imagem 304034. Em (a) evolu¸ao do agrupa-
mento de regi˜oes considerando o ´ındice edio das avalia¸oes. Em (b),
an´alise individual do melhor ´ındice obtido em (a) segundo as t´ecnicas
de avalia¸ao de segmentos, ordenados por ID do observador.
90
Outro caso de maior complexidade ´e demonstrado na figura 5.7.
Neste caso os 7 ground-truth’s variam entre 13 e 47 segmentos, e os
mesmos delimitam desde pequenas estruturas `a grandes ´areas ao longo
da imagem. De fato, trata-se de um caso que est´a aberto `a diferen-
tes interpreta¸oes por parte dos observadores, e se um contexto n˜ao for
explicitado, os ground-truth’s tendem a apresentar ambiguidade. Nova-
mente, para este caso a segmenta¸ao foi orientada no sentido de manter
o objeto de interesse isolado ao longo do processo de agrupamento das
regi˜oes, ao importando-se com as demais estruturas na cena. Anali-
sando o gr´afico dos ´ındices m´edios ao longo da evolu¸ao da segmenta¸ao
percebe-se que reduzindo de 30 `a 5 segmentos os ´ındices ao variam
significativamente, dificultando na identifica¸ao do melhor resultado de
segmenta¸ao. De modo visual, a imagem selecionada dentre esta faixa
foi o resultado cujo umero de regi˜oes equivale `a 20 – segundo o melhor
´ındice Rand. Os desvios padr˜oes dos ´ındices de avalia¸ao computa-
dos entre cada observador equivalem `a 0.0393, 0.1220, 0.1509 e 0.1353
(Rand, FowlkesMallows, Jacard e Dongen, respectivamente). Os ´ındices
obtidos em cada observador equivalem `a 0.0824, 0.1239, 0.0922, 0.1083,
0.2306, 0.1412 e 0.1093 (observadores 1103, 1105, 1114, 1115, 1119, 1123
e 1130, respectivamente). O desvio padr˜ao edio geral entre observa-
dores ´e de 0.1104. Entretanto, ao ´e poss´ıvel afirmar de que exista
convergˆencia entre o resultado da segmenta¸ao selecionado em rela¸ao `a
algum ground-truth. No entanto, a an´alise individual dos ´ındices sugere
a convergˆencia para o ´ındice Rand nos ground-truth’s 1103, 1114, 1115.
O exemplo anteriormente apresentado geralmente ´e evitado de
ser experimentado quando se busca a avalia¸ao de algoritmos de seg-
menta¸ao de imagens. Uma sele¸ao puramente aleat´oria das imagens
do banco de Berkeley, no entanto, ao poderia ser considerada alida
na tentativa da realizar um experimento de segmenta¸ao devido a estes
problemas. Um estudo `a posteriori poderia auxiliar na identifica¸ao de
todas as imagens cujos desvios padr˜oes entre observadores sejam bai-
xos. Com isso, um subconjunto de imagens poderia ser determinado, e
utilizados para efeitos estat´ısticos.
De uma forma geral, imagens onde o consenso pode ser observado
atraes do baixo desvio padr˜ao possibilitam direcionar na identifica¸ao
do melhor resultado de segmenta¸ao, mesmo quando diferentes ´ındices
ao utilizados. Para os casos onde as varia¸oes ao restringidas sob um
dado limiar, ´e poss´ıvel identificar dentre um conjunto de resultados de
segmenta¸ao o que melhor se aproxima `a um ground-truth geral.
Para efeitos experimentais a presente metodologia foi aplicada
91
(a) Imagem 69015 e con-
junto de treinamento S
(b) Resultado da segmen-
ta¸ao em 20 regi˜oes
(c) GT-1103,
35 r.
(d) GT-1105,
13 r.
(e) GT-1114,
45 r.
(f) GT-1115,
47 r.
(g) GT-1119,
39 r.
(h) GT-1123,
29 r.
(i) GT-1130,
14 r.
Figura 5.7: Imagem 69015 e o conjunto de treinamento em (a). Em (b)
resultado obtido pela metodologia proposta. Em (c)-(i) os respectivos
ground-truths para a imagem 69015 segundo Berkeley.
92
(a) An´alise por redu¸ao do n´umero de regi˜oes
(b) An´alise de observadores humanos do melhor ´ındice obtido em (a)
Figura 5.8: An´alise da imagem 69015. Em (a) evolu¸ao do agrupa-
mento de regi˜oes considerando o ´ındice edio das avalia¸oes. Em (b),
an´alise individual do ´ındice contendo 20 regi˜oes obtido em (a) segundo
as t´ecnicas de avalia¸ao de segmentos, ordenados por ID do observador.
93
sobre 63 imagens
4
. As imagens e os dados obtidos ser˜ao analisados da
seguinte forma:
Experimento 1 – evolu¸ao do agrupamento ao longo da redu¸ao do
n´umero de regi˜oes: verificar ao longo do processo de agrupamento
de regi˜oes a influˆencia dos mapas topol´ogicos na convergˆencia para
o ground-truth especificado, e/ou na extra¸ao de uma dada regi˜ao
de interesse. Para este experimento foram utilizadas 15 imagens
(196073 repete-se na se¸ao 5.3) que apresentem algum contexto
de similaridade ou dissimilaridade, buscando demonstrar a efeti-
vidade dos mapas topol´ogicos na aproxima¸ao das regi˜oes. Em
alguns casos ocorre o reprocessamento da mesma imagem utili-
zando conjuntos de treinamento selecionados de diferentes partes
da imagem;
Experimento 2 compara¸ao em rela¸ao `a outros m´etodos comu-
mente utilizados em segmenta¸ao de imagens: utiliza¸ao de um
dataset conhecido e previamente publicado em [BER 08], onde
16 imagens com baixo ´ındice de divergˆencia entre observadores
humanos foram utilizadas. O etodo supervisionado proposto
foi comparado em rela¸ao `a algoritmos cl´assicos de segmenta¸ao
descritos na se¸ao 2.3, cujos ´ındices de avalia¸ao tamb´em foram
obtidos. Com este experimento mais 160 imagens foram geradas
correspondendo aos resultados dos outros algoritmos de segmenta-
¸ao utilizadas nesta se¸ao, onde adicionalmente cada uma destas
tamem foi avaliada pelos ´ındices de avalia¸ao.
Experimento 3 an´alise da qualidade da segmenta¸ao em restan-
tes 29 imagens de contexto geral. O objetivo deste experimento
´e somente comparar a metodologia proposta em rela¸ao ao algo-
ritmo tradicional de Mumford-Shah, ambos os m´etodos utilizando
como parˆametro um n´umero fixo de regi˜oes finais. Para este expe-
rimento, mais 29 imagens resultantes foram produzidas e avaliadas
pelos ´ındices de qualidade.
Somando-se `as imagens geradas pela metodologia proposta den-
tro da faixas especificadas com as demais utilizadas, foram utilizadas
ao todo 1.388+160+29=1.577 resultados de segmenta¸ao. Da mesma
forma, o n´umero total de´ındices de avalia¸ao obtidos foi de 30.404+3.520
+636=34.560. Todos os ´ındices obtidos neste trabalho podem ser veri-
ficados nas tabelas localizadas no site do etodo
5
.
4
4 destas imagens a foram demonstradas nesta se¸ao.
5
www.lapix.ufsc.br/sms/results/tables/
94
5.2 Experimento 1 - evolu¸ao agrupamento de regi˜oes
Neste experimento o objetivo ´e demonstrar a viabilidade da meto-
dologia proposta na indu¸ao do processo de agrupamento de regi˜oes com
base na funcional de Mumford-Shah. Para este prop´osito foram seleci-
onadas imagens do banco de Berlekey que apresentassem determinado
contexto que justifique a aproxima¸ao de cores mesmo que geometrica-
mente dispersas no espa¸co. Um processo estabelecido durante o agrupa-
mento de regi˜oes ´e a minimiza¸ao de um coeficiente global de energia
segundo a equa¸ao da energia funcional – que consequentemente agrupa
as regi˜oes como em um processo de fus˜ao. Na metodologia proposta
esta energia funcional ´e computada em raz˜ao de um mapa topol´ogico,
o qual define quais ao os novos crit´erios de homogeneidade e continui-
dade. Por fim, espera-se obter a indu¸ao no agrupamento de regi˜oes, o
qual tende a convergir em rela¸ao ao conjunto de treinamento S.
O presente experimento considera alguns casos cl´assicos comu-
mente referenciados em etodos interativos. Nestes m´etodos somente
´e realizada uma classifica¸ao bimodal de um objeto de interesse em
rela¸ao ao seu background, atrav´es de informa¸ao do tipo pairwise (pon-
tos da regi˜ao de interesse e pontos do background), conforme demons-
trado em [XIA 08]. Na metodologia proposta neste trabalho ocorre
o agrupamento de regi˜oes atrav´es do modelo de energia funcional de
Mumford-Shah, e diferentes conjuntos de treinamento podem ser uti-
lizados. Exemplo disto ´e demonstrado na figura 5.9, com a imagem
original e o conjunto de treinamento S em (a), o ground-truth’s corres-
pondentes em (b), e de (h) decrescendo para (c) o processo de redu¸ao
do umero de regi˜oes partindo de 80 regi˜oes para somente 2, respec-
tivamente. Em (h) ´e demonstrado o resultado do agrupamento das
primeiras 80 regi˜oes mais significativas, e como pode ser observado, as
regi˜oes constituintes em amarelo e vermelho a est˜ao agrupadas quase
na sua totalidade. Conforme o processo de agrupamento de regi˜oes evo-
lui, com 40 regi˜oes o objeto de interesse em S apresenta-se unificado em
uma regi˜ao, enquanto que as demais estruturas da imagem contidas em
¬S
6
apresentam-se sub-segmentadas. Reduzindo de 40 para 2 regi˜oes, o
objeto de interesse ´e mantido isolado, enquanto que as regi˜oes restantes
ao agrupadas em uma regi˜ao ´unica.
Para o exemplo apresentado na figura 5.9 n˜ao somente a similari-
dade influencia na aproxima¸ao das regi˜oes, mas tamb´em a equivalˆencia
da fronteira computada entre duas diferentes classes (S e ¬S). A ga-
rantia de que ambas as classes mantenham-se separadas at´e o final do
6
complemento de S.
95
processo pode ser observado para as 2 regi˜oes mais significativas do
processo de agrupamento. Na figura 5.10 prioriza-se o agrupamento de
somente regi˜oes constituintes em vermelho. Com 80 regi˜oes a maioria
dos segmentos constituintes em S apresentam-se unificados, enquanto
que as demais estruturas apresentam-se sub-segmentadas. Com 40 re-
gi˜oes o objeto de interesse ´e unificado, e conforme o n´umero de regi˜oes
decresce, regi˜oes menores s˜ao perdidas e agrupadas aos objetos adjacen-
tes de maior ´area. Por fim, quando o agrupamento de regi˜oes resulta
em 2 segmentos, obtem-se a regi˜ao de interesse absorvendo duas regi˜oes
ao delimitadas em S (n´ucleos das flores), e o background em regi˜oes
´unicas.
Na figura 5.11 partes do background da imagem ao utilizados
para o conjunto de treinamento S. Com um total de 80 regi˜oes o back-
ground apresenta-se unificado em um segmento, enquanto que as demais
estruturas apresentam-se sub-segmentadas. De acordo com a evolu¸ao
do agrupamento das regi˜oes, segmentos menores ao agrupados aos adja-
centes, e por fim com 2 regi˜oes s˜ao obtidos os segmentos correspondentes
`a S e ¬S.
´
E interessante observar que para os 3 casos apresentados para
a imagem 124084 segmentos similares foram obtidos quando o n´umero
de segmentos foi igual a 2, conforme pode ser observado nas figuras 5.9,
5.10 e 5.11.
O pr´oximo exemplo demonstrado ´e a aproxima¸ao entre as re-
gi˜oes compreendidas por diferentes tonalidades de marrom claro e cores
pr´oximas ao branco figura 5.12. O conjunto de treinamento S neste
caso acaba sendo muito abrangente devido `as diferentes varia¸oes de to-
nalidades no objeto. O agrupamento do objeto de interesse, por sua vez,
´e atingido quando as 40 regi˜oes mais significativas na cena ao obtidas.
No entanto, ao se torna percept´ıvel que a figura 5.12-(g) contenha de
fato 40 regi˜oes, o que se encontra distribu´ıdo ao longo de regi˜oes com
grandes varia¸oes de gradiente tal como apresentado pelo objeto “gra-
mado”. Conforme o n´umero total de regi˜oes decresce, pequenas regi˜oes
ao agrupadas com as regi˜oes adjacentes de maior ´area. O n´umero m´ı-
nimo de regi˜oes sugerido pelo ´ındice edio de valida¸ao corresponde `as
8 regi˜oes mais significativas, e qualquer decr´escimo a partir deste ponto
faria com que os ´ındices m´edios de avalia¸ao se tornassem divergentes
em rela¸ao ao ground-truth.
Outro exemplo do mapeamento do conjunto de treinamento S so-
bre a regi˜ao de interesse e posteriormente em rela¸ao ao seu background
´e demonstrado para a imagem 16052 figuras 5.13 e 5.14, respectiva-
mente. Em (a) ocorre primeiramente o agrupamento da regi˜ao de in-
teresse, e o background ´e mantido subsegmentado at´e as 3 regi˜oes mais
96
(a) Imagem 124084 e S (b) GT
(c) 2 r. (d) 3 r.
(e) 4 r. (f) 5 r.
(g) 40 r. (h) 80 r.
Figura 5.9: Imagem 124084 e redu¸ao do n´umero de regi˜oes (experi-
mento 1)
97
(a) Imagem 124084 e S (b) GT
(c) 2 r. (d) 3 r.
(e) 4 r. (f) 5 r.
(g) 40 r. (h) 80 r.
Figura 5.10: Imagem 124084 e redu¸ao do n´umero de regi˜oes (experi-
mento 2)
98
(a) Imagem 124084 e S (b) GT
(c) 2 r. (d) 3 r.
(e) 4 r. (f) 5 r.
(g) 40 r. (h) 80 r.
Figura 5.11: Imagem 124084 e redu¸ao do n´umero de regi˜oes (experi-
mento 3)
99
(a) Imagem 247085 e S (b) GT
(c) 8 r. (d) 9 r.
(e) 10 r. (f) 20 r.
(g) 40 r. (h) 80 r.
Figura 5.12: Imagem 247085 e redu¸ao do n´umero de regi˜oes
100
(a) Imagem 16052 e S (b) GT
(c) 2 r. (d) 3 r.
(e) 4 r. (f) 5 r.
(g) 40 r. (h) 80 r.
Figura 5.13: Imagem 16052 e redu¸ao do n´umero de regi˜oes (experi-
mento 1)
101
(a) Imagem 16052 e S (b) GT
(c) 2 r. (d) 3 r.
(e) 4 r. (f) 5 r.
(g) 40 r. (h) 80 r.
Figura 5.14: Imagem 16052 e redu¸ao do n´umero de regi˜oes (experi-
mento 2)
102
(a) Imagem 300091 e S (b) GT
(c) 2 r. (d) 3 r.
(e) 4 r. (f) 5 r.
(g) 40 r. (h) 80 r.
Figura 5.15: Imagem 300091 e redu¸ao do n´umero de regi˜oes
103
(a) Imagem 295087 e S (b) GT
(c) 3 r. (d) 4 r.
(e) 5 r. (f) 6 r.
(g) 40 r. (h) 80 r.
Figura 5.16: Imagem 295087 e redu¸ao do n´umero de regi˜oes
104
(a) Imagem 249061 e S (b) GT
(c) 2 r. (d) 5 r.
(e) 6 r. (f) 7 r.
(g) 40 r. (h) 80 r.
Figura 5.17: Imagem 249061 e redu¸ao do n´umero de regi˜oes
105
(a) Imagem 24063 e S (b) GT
(c) 3 r. (d) 4 r.
(e) 5 r. (f) 6 r.
(g) 40 r. (h) 80 r.
Figura 5.18: Imagem 24063 e redu¸ao do n´umero de regi˜oes
106
(a) Imagem 94079 e S (b) GT
(c) 2 r. (d) 3 r.
(e) 4 r. (f) 5 r.
(g) 40 r. (h) 80 r.
Figura 5.19: Imagem 94079 e redu¸ao do n´umero de regi˜oes
107
(a) Imagem 196073 e S (b) GT
(c) 2 r. (d) 4 r.
(e) 6 r. (f) 8 r.
(g) 40 r. (h) 80 r.
Figura 5.20: Imagem 196073 e redu¸ao do n´umero de regi˜oes
108
(a) Im.100080 e S (b) GT (c) 3 r.
(d) 4 r. (e) 5 r. (f) 6 r.
(g) 40 r. (h) 80 r.
Figura 5.21: Imagem 100080 e redu¸ao do n´umero de regi˜oes
109
(a) Im.208001 e S (b) GT (c) 2 r.
(d) 3 r. (e) 4 r. (f) 5 r.
(g) 40 r. (h) 80 r.
Figura 5.22: Imagem 208001 e redu¸ao do n´umero de regi˜oes
110
(a) Im.388016 e S (b) GT (c) 2 r.
(d) 4 r. (e) 6 r. (f) 8 r.
(g) 40 r. (h) 80 r.
Figura 5.23: Imagem 388016 e redu¸ao do n´umero de regi˜oes
111
significativas serem obtidas. Em (b), uma tendˆencia do background pri-
orizar o agrupamento ´e demonstrada. Tamb´em em (b) verifica-se que
¬S ´e agrupada com 40 regi˜oes, devido `a grandes varia¸oes de gradi-
ente em S. Novamente, para um n´umero m´ınimo de regi˜oes resultados
semelhantes ao obtidos.
Para o experimento de evolu¸ao do agrupamento de regi˜oes outras
imagens de contexto multi-modal
7
foram utilizadas. Estas imagens ao
casos interessantes onde diferentes varia¸oes de luminosidade est˜ao pre-
sentes no mesmo objeto, tais como demonstrado pelas figuras de ´ındices
300091, 295087, 249061, 24063. Para todos estes casos um objeto de in-
teresse foi priorizado na cena. Por exemplo: imagem 300091 o conjunto
de treinamento cont´em varia¸oes de azul/verde escuros, tendendo para
branco; em 295087, diferentes varia¸oes de c´eu iniciando de tonalidades
escuras para claro no horizonte; em 249061 diferentes tonalidade de azul
do mar, e em 24063, azul claro para branco. Para os 4 casos apresen-
tados, as 80 regi˜oes mais significativas a apresentavam o agrupamento
completo (ou quase na sua totalidade) destas varia¸oes de luminosidade.
Para a imagem 295087 ´e poss´ıvel verificar a ao continuidade na linha
do padr˜ao de interesse, com o objetivo de capturar somente as varia¸oes
de luminosidade do “c´eu”.
Outros casos ao apresentados nas imagens de ´ındice 196073,
94079, 100080, 208001 e 388016. Em 196073 foi utilizado como con-
junto de treinamento o background, o qual apresenta leves varia¸oes de
gradiente. Em 80 regi˜oes praticamente todo o objeto se encontra unifi-
cado, e conforme o n´umero de regi˜oes decresce, isola-se ¬S do restante
da cena quando 2 regi˜oes ao obtidas. Em 208001 um exemplo alta-
mente divergente em rela¸ao aos ground-truth’s ´e apresentado, onde o
conjunto de treinamento foi definido sobre um objeto da cena com o
objetivo de discrimin´a-lo em rela¸ao aos demais objetos. Para a ima-
gem 388016 ao aproximadas as tonalidades de pele em rela¸ao `a cores
pr´oximas de preto. Com o decr´escimo do umero de regi˜oes tem-se o
objeto de interesse segmentado em uma ´unica regi˜ao, sendo necess´a-
rio para tal uma variabilidade dos parˆametros de execu¸ao (ver λ da
imagem correspondente em anexo A.5).
Para estes casos, os experimentos foram conduzidos no sentido de
possibilitar a descri¸ao do objeto de interesse e a sua correspondˆencia
final durante o processo de agrupamento das regi˜oes. De uma forma
geral, os resultados atingidos para este experimento possibilitam con-
cluir a influˆencia da metodologia supervisionada proposta na indu¸ao
7
imagens cujo resultado de segmenta¸ao idealmente seria composto por mais de
2 regi˜oes.
112
do agrupamento de regi˜oes.
5.3 Experimento 2 - compara¸ao algoritmos de segmenta¸ao
O presente experimento realiza uma compara¸ao qualitativa da
metodologia proposta em rela¸ao `a outros etodos de segmenta¸ao, com
base nas imagens de ground-truth’s atrav´es dos ´ındices de avalia¸ao de
segmentos. Uma compara¸ao semelhante ´e demonstrada em [BER 08],
onde 16 imagens do banco de Berkeley foram selecionadas e comparadas
em rela¸ao aos respectivos ground-truth’s utilizando os ´ındices Rand e
BGM [XIA 08]. O experimento apresentado nesta subse¸ao compara o
m´etodo supervisionado proposto em rela¸ao aos algoritmos de segmen-
ta¸ao abaixo descritos. Para a an´alise qualitativa, no entanto, foram
utilizados os seguintes ´ındices de avalia¸ao: Rand, Fowlkes-Mallows,
Jacard e Dongen (conforme demonstrados na se¸ao 2.4).
Os algoritmos comparados neste experimento est˜ao descritos na
se¸ao 2.3, onde as seguintes siglas ao utilizadas:
(CSC) Color Structure Code;
(MS) – Mumford-Shah convencional conforme descrito na se¸ao 3,
utilizando o modelo variacional multi-escala;
(Edison) (Edge Detection and Image Segmentation System), in-
corporando detec¸ao de borda baseado em confian¸ca e o algoritmo
de segmenta¸ao Mean-shift;
(JSEG) identifica¸ao de texturas;
(WS) segmenta¸ao por Watershed;
(RHSEG) segmenta¸ao hier´arquica por entropia de cor;
(GNM e GNM2) Gradient Network Method, ecnicas de os-
processamento para o agrupamento de regi˜oes cujo gradiente ´e
vari´avel, que ao combinadas com MS e CSC (4 algoritmos em
diferentes combina¸oes);
(S-MS) – Supervised Mumford-Shah, a metodologia proposta neste
trabalho.
Para cada algoritmo comparado neste experimento a sele¸ao dos
resultados ocorreu pela varia¸ao dos parˆametros de execu¸ao nos seguin-
tes intervalos:
113
CSC: 20 limiar 100, com um passo de incremento igual a 10;
MS: 1000 lambda 15000, com incremento igual a 500;
Edison: 3 SS 30, com incremento de 1, e SR = 8;
WS: condutˆancia igual a 2, umero de itera¸oes igual a 10 e 0
limiar 0.5;
JSEG: algoritmo ao-supervisionado, ao requerendo parametri-
za¸ao;
RHSEG: hier´arquico e ao requer uma parametriza¸ao r´ıgida, va-
riando somente um fator de convergˆencia igual 1.75 e com uma
importˆancia de 0.1.
Watershed: condutˆancia igual a 2, n´umero de itera¸oes igual a 10
e limiar igual a 0.01.
GNM e GNM2: pr´e-segmenta¸ao para gera¸ao de segmentos com
Color Structured Code: limiar igual a 30; Mumford-Shah: lambda
igual a 600. Ap´os isso os parˆametros utilizados no GNM foram
Percep¸ao clara: = (S > 0.1) (0.2 < L < 0.95) e Percep¸ao
prejudicada: = (S 0.1) (L 0.2) (L 0.95). Para o
algoritmo GNM2, os parˆametros de execu¸ao e imagens resultados
est˜ao descritos no site do algoritmo
8
;
S-MS: parˆametros de execu¸ao e conjunto de treinamento descritos
em Anexos A.5 e A.6, respectivamente.
5.3.1 Compara¸ao visual dos resultados
Nas figuras seguintes s˜ao demonstrados os resultados obtidos pe-
los algoritmos de segmenta¸ao e pela metodologia proposta. Para todas
as 16 imagens, em (a) ´e apresentada a imagem original, em (b) o ground-
truth correspondente
9
, em (c) a metodologia supervisionada proposta
(S-MS), em (d, e, g, h) os etodos de os-processamento *GNM, em
(f) o algoritmo de Mumford-Shah convencional (MS), em (i)-Edison, em
(j)-CSC, em (k)-JSEG, em (l)-WS e em (m)-RHSEG. Para cada resul-
tado produzido tamb´em ´e demonstrado o umero total de segmentos
8
http://www.lapix.ufsc.br/gnm/
9
Todos os ground-truth’s parciais podem ser visualizados no site
http://www.eecs.berkeley.edu/Research/Projects/CS/vision/bsds/BSDS300/html/
dataset/images/color/118035.html, substituindo-se 118035 pelo respectivo ´ındice da
imagem desejada.
114
produzidos por cada algoritmo, sendo especificados por (* r.) junta-
mente com o otulo de cada algoritmo.
Para efeitos de visualiza¸ao, em cada resultado de segmenta¸ao
uma evidˆencia de borda foi inclu´ıda entre os segmentos, objetivando
tornar percept´ıvel as adjacˆencias existentes entre regi˜oes, bem como
a identifica¸ao de regi˜oes super-segmentadas e saturadas. Em alguns
casos de segmenta¸ao estas caracter´ısticas tornam-se impercept´ıveis de-
vido `a: (a) ´area da regi˜ao ´e muito pequena e/ou; (b) a diferen¸ca das
cores/intensidade da regi˜ao em rela¸ao aos seus vizinhos adjacentes ´e
muito pequena. Exemplos destas caracter´ısticas ao exemplificadas na
figura 5.27, nos algoritmos CSC, WS e RHSEG, onde alguns segmentos
apresentam arias parti¸oes.
A comparao visual de resultados de segmenta¸ao ainda nos dias
atuais pode ser considerada alida. Uma an´alise superficial de cada re-
sultado de segmenta¸ao em rela¸ao `as imagens de ground-truth’s pode-
riam indicar quais resultados apresentam uma melhor aproxima¸ao em
rela¸ao a um modelo desejado. Uma an´alise subjetiva da figura 5.25
indica que todos os algoritmos acabam falhando na tentativa de isolar
a ilha como um objeto ´unico de seu reflexo no lago. No entanto, alguns
resultados interessantes foram atingidos em segmentar o lago em um
objeto ´unico, conforme demonstrado pelos algoritmos S-MS, variantes
de *gnm, Edison e WS. A an´alise do umero de segmentos demonstra
que S-MS necessitou de 50 regi˜oes para atingir tal resultado, enquanto
que as varia¸oes de GNM
2
conseguiram em 12 e 24 (por´em com menor
correla¸ao ao GT), GNM
1
em 302 e 695 (correla¸ao ao GT, mas super-
segmenta¸ao), Edison 71 e WS 926 regi˜oes, respectivamente. Logo,
´e dif´ıcil se chegar a uma conclus˜ao que qual segmenta¸ao ´e a melhor
aproxima¸ao para o ground-truth meramente por an´alise visual, frente
a tantas vari´aveis e subje¸ao.
Para alguns exemplos de segmenta¸ao a an´alise visual notoria-
mente possibilita encontrar o melhor resultado. Isto ´e demonstrado por
exemplo pelas imagens 5.27, 5.26 ou 5.39, onde o algoritmo S-MS apre-
sentou um melhor resultado de segmenta¸ao em rela¸ao aos ground-
truth’s das respectivas imagens, e tamb´em no n´umero de segmentos
necess´ario para represena-las.
No entanto, uma an´alise meramente visual dos resultados de seg-
menta¸ao demonstra-se um tanto inconclusiva e aberta a uma an´alise
subjetiva por parte de diferentes observadores, principalmente no exem-
plo demonstrado pela figura 5.25. Com o objetivo de quantificar os re-
sultados de segmenta¸ao obtidos, na pr´oxima subse¸ao ´e demonstrado
o experimento onde as t´ecnicas de avalia¸ao de segmentos foram execu-
115
(a) Original (b) Ground Gruth
(c) S-MS(60 r.) (d) MS+gnm2(40 r.) (e) CSC+gnm2(34 r.)
(f) MS(28 r.) (g) MS+gnm(867 r.) (h) CSC+gnm(1239 r.)
(i) Edison(87 r.) (j) CSC(669 r.) (k) JSEG(33 r.)
(l) WS(640 r.) (m) RHSEG(382 r.)
Figura 5.24: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo – imagem 118035.
116
(a) Original (b) Ground Gruth
(c) S-MS(50 r.) (d) MS+gnm2(12 r.) (e) CSC+gnm2(24 r.)
(f) MS(17 r.) (g) MS+gnm(302 r.) (h) CSC+gnm(695 r.)
(i) Edison(71 r.) (j) CSC(83 r.) (k) JSEG(27 r.)
(l) WS(926 r.) (m) RHSEG(1099 r.)
Figura 5.25: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo – imagem 143090.
117
(a) Original (b) Ground
Gruth
(c) S-MS(2 r.) (d) MS+gnm2
(18 r.)
(e) CSC+gnm2
(17 r.)
(f) MS(11 r.)
(g) MS+gnm
(388 r.)
(h) CSC+gnm
(339 r.)
(i) Edison(86 r.) (j) CSC(279 r.)
(k) JSEG(18 r.) (l) WS(1109 r.) (m) RHSEG
(266 r.)
Figura 5.26: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo imagem 15088.
118
(a) Original (b) Ground Gruth
(c) S-MS(2 r.) (d) MS+gnm2(16 r.) (e) CSC+gnm2(34 r.)
(f) MS(19 r.) (g) MS+gnm(44 r.) (h) CSC+gnm(105 r.)
(i) Edison(165 r.) (j) CSC(740 r.) (k) JSEG(5 r.)
(l) WS(1204 r.) (m) RHSEG(643 r.)
Figura 5.27: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo – imagem 196073.
119
(a) Original (b) Ground Gruth
(c) S-MS(250 r.) (d) MS+gnm2(39 r.) (e) CSC+gnm2(79 r.)
(f) MS(9 r.) (g) MS+gnm(640 r.) (h) CSC+gnm(1726 r.)
(i) Edison(80 r.) (j) CSC(248 r.) (k) JSEG(16 r.)
(l) WS(969 r.) (m) RHSEG(1406 r.)
Figura 5.28: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo imagem 2092.
120
(a) Original (b) Ground Gruth
(c) S-MS(150 r.) (d) MS+gnm2(41 r.) (e) CSC+gnm2(65 r.)
(f) MS(23 r.) (g) MS+gnm(856 r.) (h) CSC+gnm(1302 r.)
(i) Edison(244 r.) (j) CSC(1111 r.) (k) JSEG(27 r.)
(l) WS(903 r.) (m) RHSEG(1499 r.)
Figura 5.29: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo imagem 22090.
121
(a) Original (b) Ground
Gruth
(c) S-MS(150 r.) (d) MS+gnm2
(65 r.)
(e) CSC+gnm2
(237 r.)
(f) MS(45 r.)
(g) MS+gnm
(3258 r.)
(h) CSC+gnm
(4485 r.)
(i) Edison (628
r.)
(j) CSC(3649 r.)
(k) JSEG(51 r.) (l) WS(2666 r.) (m) RHSEG
(8410 r.)
Figura 5.30: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo imagem 24004.
122
(a) Original (b) Ground Gruth
(c) S-MS(160 r.) (d) MS+gnm2(35 r.) (e) CSC+gnm2(24 r.)
(f) MS(21 r.) (g) MS+gnm(31 r.) (h) CSC+gnm(45 r.)
(i) Edison(31 r.) (j) CSC(378 r.) (k) JSEG(14 r.)
(l) WS(240 r.) (m) RHSEG(64 r.)
Figura 5.31: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo – imagem 253036.
123
(a) Original (b) Ground Gruth
(c) S-MS(20 r.) (d) MS+gnm2(14 r.) (e) CSC+gnm2(50 r.)
(f) MS(26 r.) (g) MS+gnm(771 r.) (h) CSC+gnm(1759 r.)
(i) Edison(45 r.) (j) CSC(447 r.) (k) JSEG(27 r.)
(l) WS(1975 r.) (m) RHSEG(10090 r.)
Figura 5.32: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo – imagem 310007.
124
(a) Original (b) Ground
Gruth
(c) S-MS(100 r.) (d) MS+gnm2
(93 r.)
(e) CSC+gnm2
(214 r.)
(f) MS(88 r.)
(g) MS+gnm
(2840 r.)
(h) CSC+gnm
(3889 r.)
(i) Edison(406
r.)
(j) CSC(1087 r.)
(k) JSEG(39 r.) (l) WS(2291 r.) (m) RHSEG
(3712 r.)
Figura 5.33: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo – imagem 368078.
125
(a) Original (b) Ground Gruth
(c) S-MS(30 r.) (d) MS+gnm2(57 r.) (e) CSC+gnm2(47 r.)
(f) MS(24 r.) (g) MS+gnm(55 r.) (h) CSC+gnm(114 r.)
(i) Edison(29 r.) (j) CSC(173 r.) (k) JSEG(25 r.)
(l) WS(714 r.) (m) RHSEG(238 r.)
Figura 5.34: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo imagem 42049.
126
(a) Original (b) Ground
Gruth
(c) S-MS(30 r.) (d) MS+gnm2
(18 r.)
(e) CSC+gnm2
(68 r.)
(f) MS(29 r.)
(g) MS+gnm
(659 r.)
(h) CSC+gnm
(1382 r.)
(i) Edison(83 r.) (j) CSC(235 r.)
(k) JSEG(34 r.) (l) WS(828 r.) (m) RHSEG
(1534 r.)
Figura 5.35: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo imagem 46076.
127
(a) Original (b) Ground
Gruth
(c) S-MS(20 r.) (d) MS+gnm2
(20 r.)
(e) CSC+gnm2
(96 r.)
(f) MS(19 r.)
(g) MS+gnm
(1485 r.)
(h) CSC+gnm
(3268 r.)
(i) Edison(117
r.)
(j) CSC(838 r.)
(k) JSEG(32 r.) (l) WS(2488 r.) (m) RHSEG
(5665 r.)
Figura 5.36: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo imagem 48055.
128
(a) Original (b) Ground
Gruth
(c) S-MS(9 r.) (d) MS+gnm2
(11 r.)
(e) CSC+gnm2
(13 r.)
(f) MS(3 r.)
(g) MS+gnm (20
r.)
(h) CSC+gnm
(30 r.)
(i) Edison(39 r.) (j) CSC(39 r.)
(k) JSEG(13 r.) (l) WS(422 r.) (m) RHSEG
(1713 r.)
Figura 5.37: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo imagem 60079.
129
(a) Original (b) Ground Gruth
(c) S-MS(120 r.) (d) MS+gnm2(33 r.) (e) CSC+gnm2(51 r.)
(f) MS(32 r.) (g) MS+gnm(120 r.) (h) CSC+gnm(179 r.)
(i) Edison(73 r.) (j) CSC(215 r.) (k) JSEG(54 r.)
(l) WS(3707 r.) (m) RHSEG(4307 r.)
Figura 5.38: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo imagem 68077.
130
(a) Original (b) Ground Gruth
(c) S-MS(2 r.) (d) MS+gnm2(4 r.) (e) CSC+gnm2(8 r.)
(f) MS(3 r.) (g) MS+gnm(30 r.) (h) CSC+gnm(39 r.)
(i) Edison(10 r.) (j) CSC(281 r.) (k) JSEG(5 r.)
(l) WS(886 r.) (m) RHSEG(176 r.)
Figura 5.39: S-MS comparado a outros etodos de segmenta¸ao e
n´umero de regi˜oes (r.) produzidos por cada algoritmo imagem 80099.
131
tadas para a obten¸ao dos ´ındices de similaridade.
5.3.2 An´alise dos ´ındices de avalia¸ao de segmentos
Foi demonstrado na se¸ao anterior que a an´alise visual impos-
sibilita uma conclus˜ao objetiva acerca dos resultados obtidos. Neste
experimento foi realizada a an´alise da qualidade dos resultados atrav´es
dos ´ındices descritos na se¸ao 2.4.
Foram comparados 11 algoritmos ao todo, considerando a meto-
dologia proposta mais as 4 variantes de os-segmenta¸ao. Para cada
resultado de segmenta¸ao obtido novamente ocorre a compara¸ao em
rela¸ao aos ground-truth’s parciais, utilizando os 4 ´ındices de avalia¸ao
de segmentos descritos anteriormente. O total de ´ındices de avalia¸ao
obtidos para este experimento foi de 3.872 em um total de 176 imagens
de segmentos e edia de 5.5 ground-truth’s por imagem.
Os gr´aficos das figuras 5.41 e 5.43 sumarizam a an´alise da qua-
lidade realizada sobre todo o conjunto das 16 imagens, aplicando-se os
11 algoritmos de segmenta¸ao e utilizando 4 ´ındices de avalia¸ao. Cada
gr´afico est´a organizado da seguinte forma:
4 barras verticais, representando os 4 ´ındices de avalia¸ao para um
determinado algoritmo;
sobre as 4 barras, ´e calculado o valor m´edio dos 4 ´ındices para o
algoritmo especificado;
os algoritmos est˜ao ordenados em ordem crescente em rela¸ao ao
´ındice edio obtido;
sobre os otulos ´e poss´ıvel verificar 4 pontos em preto, cada um
localizado abaixo de uma das barras de cada ´ındice de avalia-
¸ao. Estes marcadores sinalizam o algoritmo que atingiu o menor
decr´escimo de cada ´ındice de avalia¸ao. Como est˜ao sendo utili-
zados 4 ´ındices de avalia¸ao, uma outra an´alise a ser realizada ´e
o n´umero de vezes em que cada algoritmo se destacou para uma
determinada imagem, e em qual ´ındice isso ocorreu. Em termos
gerais, utiliza-se a m´edia para ordenar a s´erie.
Utilizando novamente por base o exemplo da figura 5.25 descrito
anteriormente (imagem 143090), ter´ıamos como melhor resultado de
segmenta¸ao por ´ındice m´edio o algoritmo S-MS, cujo valor equivale `a
0.1914. Como pode-se verificar, o ´ındice sugere que este exemplo apre-
senta certa divergˆencia entre os ´ındices de avalia¸ao. Desconsiderando
132
aspectos de filosofia e prop´osito da ecnica de avalia¸ao de segmen-
tos utilizada, tem-se que Rand=0.0957, Fowlkes-Mallows=0.1666, Ja-
card=0.2843 e Dongen=0.2187 (m´edia 0.1914). No entanto, pela an´alise
individual de cada ´ındice, os marcadores (pontos em preto) indicam que
os melhores ´ındices est˜ao distribu´ıdos da seguinte forma: Rand=WS,
Fowlkes-Mallows=WS, Jacard=WS e Dongen=S-MS. Analisando in-
dividualmente o algoritmo WS conclui-se que Rand=0.0859, Fowlkes-
Mallows=0.1562, Jacard=0.2664 e Dongen=0.2599 (m´edia 0.1921). Logo,
uma diferen¸ca desconsider´avel em rela¸ao `a edia dos ´ındices que indi-
cam S-MS como melhor resultado geral, mas sendo que WS foi o melhor
em 3 ´ındices de avalia¸ao.
Casos com menor divergˆencia apresentam baixa varia¸ao entre
os ´ındices de avalia¸ao de segmentos, consequentemente a metodologia
de avalia¸ao coincide com o ´ındice m´edio. Ser˜ao utilizados as seguintes
figuras para demonstrar tal efeito, sendo a figura 5.26, 5.27 e 5.37:
o primeiro exemplo (15088) a demonstra uma maior varia¸ao
entre os resultados de segmenta¸ao. Diferente do caso anterior,
neste exemplo ´e percept´ıvel a observao de que os algoritmos
MS, JSEG e WS apresentam o background (lago) segmentado em
regi˜oes de ´area consider´avel, sendo estes resultados confirmados
pelo gr´afico da figura 5.26. Todos os algoritmos que consegui-
ram unificar ao aximo esta regi˜ao na imagem obtiveram os me-
lhores ´ındices de avalia¸ao. Por fim, o melhor ´ındice m´edio foi
atingido pelo algoritmo S-MS (em 2 regi˜oes). Os ´ındices obtidos
foram: Rand=0.1033, Fowlkes-Mallows=0.0623, Jacard=0.1184 e
Dongen=0.1098 (m´edia 0.0985);
para o segundo exemplo (196073) pode-se perceber que todos os
´ındices apresentam valores semelhantes, e isso tamem ´e verificado
entre os algoritmos de segmenta¸ao utilizados. Isto ´e justificado
pela natureza da pr´opria imagem analisada, onde o fundo apesar
de saturado ´e homogˆeneo, e os algoritmos de segmenta¸ao tendem
a minimizar o n´umero de regi˜oes grandes na imagem. O ´ındice m´e-
dio sugere como melhor aproxima¸ao em rela¸ao ao ground-truth
o algoritmo S-MS (em 2 regi˜oes), e os marcadores de melhor ´ın-
dice individual correlacionam ao ´ındice edio. Os ´ındices obtidos
foram: Rand=0.0257, Fowlkes-Mallows=0.0138, Jacard=0.0274 e
Dongen=0.0234 (m´edia 0.0226);
o terceiro caso apresenta certa divergˆencia entre observadores, mas
com objetos finais bem befinidos. Para os algoritmos MS, JSEG
e RHSEG novamente existe uma consider´avel divergˆencia entre o
133
(a) Imagem 118035
(b) Imagem 143090
(c) Imagem 15088
(d) Imagem 196073
Figura 5.40: Gr´aficos de an´alise dos ´ındices de avalia¸ao de segmentos
(parte 1)
134
(a) Imagem 2092
(b) Imagem 22090
(c) Imagem 24004
(d) Imagem 253036
Figura 5.41: Gr´aficos de an´alise dos ´ındices de avalia¸ao de segmentos
(parte 2)
135
(a) Imagem 310007
(b) Imagem 368078
(c) Imagem 42049
(d) Imagem 46076
Figura 5.42: Gr´aficos de an´alise dos ´ındices de avalia¸ao de segmentos
(parte 3)
136
(a) Imagem 48055
(b) Imagem 60079
(c) Imagem 68077
(d) Imagem 80099
Figura 5.43: Gr´aficos de an´alise dos ´ındices de avalia¸ao de segmentos
(parte 4)
137
background e o que seria um segmento idealmente ´unico, sendo
estes diretamente penalizados pelos 4 ´ındices de avalia¸ao. No
entanto, por an´alise visual ao arios os algoritmos canditatos
ao melhor ´ındice (S-MS, CSC-gnm2, CSC-gnm, Edison, CSC e
WS). Analisando o gr´afico dos ´ındices m´edios, confirma-se que
estes 6 algoritmos apresentam ´ındices edios muito semelhantes.
O menor ´ındice edio, no entanto foi obtido pelo algoritmo S-
MS, sendo tamb´em confirmado pelos marcadores individuais em
Rand=0.0343, Fowlkes-Mallows=0.0315, Jacard=0.0613 e Don-
gen=0.0499 (m´edia 0.0443);
Um outro caso interessante ´e demonstrado pela figura 5.31
253036. Trata-se de um caso de divergˆencia em apenas 1 observador, que
pode ser verificado em (b) atrav´es de uma delimita¸ao enue no back-
ground (c´eu). De uma forma geral MS e JSEG s˜ao penalizados conforme
o gr´afico, sendo que todos os demais algoritmos s˜ao candidatos `a melhor
aproxima¸ao em rela¸ao ao ground-truth. Identificando os resultados que
falharam na segmenta¸ao dos “elefantes”, descartam-se MS+gnm, CSC
e RHSEG, mantendo sequencialmente a correspondˆencia ao gr´afico. Por
fim, o algoritmo que produziu o melhor resultado para a imagem 253036
foi o WS, segundo os ´ındices Rand=0.0484, Fowlkes-Mallows=0.0490,
Jacard=0.0865 e Dongen=0.0769 (m´edia 0.0652). O segundo colocado
neste tipo de compara¸ao foi o Edison, com Rand=0.0520, Fowlkes-
Mallows=0.0520, Jacard=0.0923 e Dongen=0.0739 (m´edia 0.0676). Os
melhores ´ındices individuais ao Rand=WS, Fowlkes-Mallows=WS, Ja-
card=WS e Dongen=Edison.
O que se pode verificar ´e um alto grau de correspondˆencia em rela-
¸ao aos ground-truth’s e as ecnicas de avalia¸ao de segmentos. Regi˜oes
bem definidas na imagem de ground-truth exigem correspondˆencia na
imagem segmentada. Regi˜oes grandes quando particionadas em outros
segmentos maiores penalizam o ´ındice final, possibilitando descartar re-
sultados que sejam considerados n˜ao ao bons. No entanto, uma an´alise
geral e conclusiva dos ´ındices obtidos nos gr´aficos das figuras 5.41 e 5.43
permitem se obter interessantes ´ındices gerais.
A primeira an´alise a ser realizada ´e a edia geral obtida em
cada ´ındice de avalia¸ao. Esta an´alise consiste simplesmente em verifi-
car para cada t´ecnica de avalia¸ao de segmentos a correspondˆencia de
cada algoritmo de segmenta¸ao. Nos gr´aficos da figura 5.44 estes dados
ao demonstrados, ordenados por menor decr´escimo edio geral. Em
(a) ´e demonstrada a edia de todos os ´ındices Rand obtidos em cada
algoritmo, onde os valores obtidos sugerem uma melhor aproxima¸ao
geral do algoritmo proposto S-MS em rela¸ao aos demais algoritmos de
138
Tabela 5.1: edia ponderada geral entre ´ındices de avalia¸ao e edia
aritm´etica final.
Algoritmo Rand Fowl.Mall. Jacard Dongen edia
S MS 0.0720 0.1223 0.2086 0.2014 0.1511
MS + gnm2 0.0869 0.1444 0.2396 0.2376 0.1771
Edison 0.1082 0.1534 0.2590 0.2354 0.1890
MS + gnm 0.0886 0.1517 0.2594 0.2566 0.1891
CSC + gnm 0.0883 0.1555 0.2622 0.2549 0.1902
CSC + gnm2 0.1120 0.1686 0.2705 0.2590 0.2025
W S 0.1267 0.1993 0.3185 0.3138 0.2396
CSC 0.1571 0.2113 0.3350 0.3110 0.2536
MS 0.1666 0.2902 0.4483 0.3863 0.3229
JSEG 0.1740 0.2887 0.4479 0.3893 0.3250
RHSEG 0.2328 0.3504 0.5013 0.5287 0.4033
segmenta¸ao. Isso repete-se para as m´edias gerais dos demais ´ındices
m´edios: em (b) Fowlkes-Mallows, (c) Jacard e em (d) Dongen.
Todos os ´ındices demonstrados no gr´afico tamb´em podem ser ve-
rificados na tabela 5.1. Os valores gerais para cada algoritmo tamb´em
ao demonstrados no gr´afico da figura 5.45, cujos valores correspondem
`a m´edia aritm´etica do gr´afico da figura 5.44.
Uma segunda an´alise muito interessante que pode ser realizada ´e
em rela¸ao aos marcadores indicados nas figuras 5.41 e 5.43, que dizem
respeito `a melhor aproxima¸ao em rela¸ao ao ground-truth, segundo os
´ındices Rand, Fowlkes-Mallows, Jacard e Dongen. Esta an´alise consiste
em contar para cada algoritmo, em cada ´ındice, o n´umero de vezes
em que este produziu o primeiro (melhor resultado), segundo, terceiro,
e assim por diante, at´e a posi¸ao do d´ecimo primeiro. Esta an´alise
por exemplo, embora decisiva e r´ıgida, ao efetua edia acumulada de
´ındices ao longo do processo.
Esta an´alise ´e demonstrada na se¸ao Anexos A.7. Para o ´ındice
Rand (tabela A.4) tem-se por exemplo que o algoritmo S-MS produziu
por 7 vezes o melhor resultado, por 2 vezes o segundo, e assim por diante,
totalizando as 16 imagens. O algoritmo WS, por exemplo, produziu por
3 vezes o melhor resultado, 2 vezes o segundo melhor, e assim por diante.
Os demais ´ındices podem ser verificados nas tabelas subsequentes, sendo
Fowlkes-Mallows (tabela A.5), Jacard (tabela A.6) e Dongen (tabela
A.7).
Considerando as m´edias gerais como fator determinante, ´e de-
monstrado na tabela A.8 os posicionamentos de cada algoritmo, o que
139
(a) M´edia Geral
´
Indice Rand
(b) M´edia Geral
´
Indice Fowlkes&Mallows
(c) M´edia Geral
´
Indice Jacard
(d) M´edia Geral
´
Indice Dongen
Figura 5.44: edia individual dos ´ındices de avalia¸ao de segmentos.
140
Figura 5.45: edia geral dos ´ındices de avalia¸ao de segmentos.
espelha diretamente aos gr´aficos apresentados nas figuras 5.41 e 5.43.
Todas as compara¸oes realizadas demonstradas neste experimento po-
dem ser visualizadas em detalhes no site do m´etodo
10
.
5.4 Experimento 3 - compara¸ao S-MS e MS no mesmo n´u-
mero de regi˜oes
O experimento descrito nesta subse¸ao apresenta uma compara-
¸ao qualitativa entre o modelo supervisionado de Mumford-Shah (S-MS)
e o algoritmo utilizando o modelo convencional (MS). Foram utilizadas
as 29 imagens restantes dos experimentos anteriores para esta compa-
ra¸ao, onde novos 29 resultados de segmenta¸ao foram obtidos.
Neste experimento um umero fixado de regi˜oes para cada ima-
gem de entrada foi utilizado, definido com base no melhor ´ındice edio
de segmenta¸ao do algoritmo S-MS. A id´eia base deste experimento ´e
verificar a correspondˆencia do algoritmos em rela¸ao aos ground-truth’s
quando um n´umero esperado de regi˜oes ´e apresentado. Atraes deste
tipo de experimento ´e not´orio quando ocorre a perda de regi˜oes para
´areas adjacentes, uma vez que as mesmas condi¸oes finais ao emprega-
das nos algoritmos de segmenta¸ao. Nas figuras seguintes ao apresen-
tados os resultados desta compara¸ao, onde
primeira coluna, a imagem de entrada para ambos os algoritmos,
e o conjunto de treinamento S utilizado no algoritmo S-MS;
segunda coluna, o ground-truth correspondente;
terceira coluna, o algoritmo de Mumford-Shah (MS) utilizando a
norma vetorial no agrupamento entre as regi˜oes adjacentes;
10
www.lapix.ufsc.br/sms/results/tables/table2-comparisonFinal.xls.
141
Figura 5.46: Compara¸ao entre os algoritmos S-MS e MS para as 29
imagens, em cada t´ecnica de avalia¸ao de segmentos.
quarta coluna, a metodologia supervisionada proposta (S-MS) uti-
lizando os mapas topol´ogicos com os parˆametros descritos na se¸ao
A.5.
Assim como nos demais experimentos, as imagens obtidas neste
experimento foram submetidas `as ecnicas de avalia¸ao de segmentos,
gerando mais 636 ´ındices de qualidade. Estes ´ındices podem ser visuali-
zados individualmente para cada imagem no site do m´etodo proposto
11
.
Uma an´alise geral considerando as 29 imagens apresentadas pode ser
visualizada no gr´afico da figura 5.46, onde a m´edia geral de todas as
imagens decomposta em ecnicas de avalia¸ao dos segmentos ´e apresen-
tada.
Os´ındices demonstrados no gr´afico anterior refletem o que as ima-
gens correspondem visualmente. A compara¸ao S-MS x SM demonstra
nitidamente uma aproxima¸ao do algoritmo S-MS quando o n´umero de
regi˜oes ´e fixado. Para a grande maioria dos casos, os segmentos de
interesse est˜ao mantidos em regi˜oes separadas, enquanto que no algo-
ritmo convencional ocorre a inconsistˆencia na tentativa de aproximar as
regi˜oes com o mesmo n´umero de segmentos.
Embora os ´ındices demonstrem uma consider´avel divergˆencia en-
tre os ground-truth’s dos observadores humanos, estes ´ındices gerais
aplicados sob a mesma condi¸ao inicial e final possibilitam demonstrar
a suficiˆencia do etodo proposto no controle do agrupamento das re-
gi˜oes.
11
www.lapix.ufsc.br/sms/results/tables/table3-S-MSxMS.xls.
142
(a) Imagem 100075 (b) Ground Truth (c) MS 8 r. (d) S-MS 8 r.
(e) Imagem 113016 (f) Ground Truth (g) MS 3 r. (h) S-MS 3 r.
(i) Imagem 113044 (j) Ground Truth (k) MS 3 r. (l) S-MS 3 r.
(m) Imagem 12003 (n) Ground Truth (o) MS 4 r. (p) S-MS 4 r.
(q) Imagem 126007 (r) Ground Truth (s) MS 50 r. (t) S-MS 50 r.
Figura 5.47: Imagens 100075 113016 113044 12003 126007 e conjunto
de treinamento, GTs e segmentos obtidos
143
(a) Imagem 135069 (b) Ground Truth (c) MS 2 r. (d) S-MS 2 r.
(e) Imagem 151087 (f) Ground Truth (g) MS 50 r. (h) S-MS 50 r.
(i) Imagem 159091 (j) Ground Truth (k) MS 4 r. (l) S-MS 4 r.
(m) Imagem 161062 (n) Ground Truth (o) MS 2 r. (p) S-MS 2 r.
(q) Imagem 167062 (r) Ground Truth (s) MS 3 r. (t) S-MS 3 r.
Figura 5.48: Imagens 135069 151087 159091 161062 167062 e conjunto
de treinamento, GTs e segmentos obtidos
144
(a) Imagem 183055 (b) Ground Truth (c) MS 20 r. (d) S-MS 20 r.
(e) Imagem 216053 (f) Ground Truth (g) MS 150 r. (h) S-MS 150 r.
(i) Imagem 238011 (j) Ground Truth (k) MS 3 r. (l) S-MS 3 r.
(m) Imagem 260058 (n) Ground Truth (o) MS 3 r. (p) S-MS 3 r.
(q) Imagem 291000 (r) Ground Truth (s) MS 3 r. (t) S-MS 3 r.
Figura 5.49: Imagens 183055 216053 238011 260058 291000 e conjunto
de treinamento, GTs e segmentos obtidos
145
(a) Imagem 299091 (b) Ground Truth (c) MS 2 r. (d) S-MS 2 r.
(e) Imagem 35070 (f) Ground Truth (g) MS 6 r. (h) S-MS 6 r.
(i) Imagem 61060 (j) Ground Truth (k) MS 30 r. (l) S-MS 30 r.
(m) Imagem 62096 (n) Ground Truth (o) MS 40 r. (p) S-MS 40 r.
(q) Imagem 67079 (r) Ground Truth (s) MS 2 r. (t) S-MS 2 r.
Figura 5.50: Imagens 299091 35070 61060 62096 67079 e conjunto de
treinamento, GTs e segmentos obtidos
146
(a) Imagem 97017 (b) Ground Truth (c) MS 250 r. (d) S-MS 250 r.
(e) Imagem 97033 (f) Ground Truth (g) MS 40 r. (h) S-MS 40 r.
Figura 5.51: Imagens 97017 97033 e conjunto de treinamento, GTs e
segmentos obtidos
147
(a) Imagem
113009
(b) Ground Truth (c) MS 100 r. (d) S-MS 100 r.
(e) Imagem
163014
(f) Ground Truth (g) MS 40 r. (h) S-MS 40 r.
(i) Imagem
167083
(j) Ground Truth (k) MS 5 r. (l) S-MS 5 r.
(m) Imagem
225017
(n) Ground Truth (o) MS 20 r. (p) S-MS 20 r.
Figura 5.52: Imagens 113009 163014 167083 225017 e conjunto de
treinamento, GTs e segmentos obtidos
148
(a) Imagem
227092
(b) Ground Truth (c) MS 7 r. (d) S-MS 7 r.
(e) Imagem
374067
(f) Ground Truth (g) MS 40 r. (h) S-MS 40 r.
(i) Imagem 66075 (j) Ground Truth (k) MS 2 r. (l) S-MS 2 r.
Figura 5.53: Imagens 227092 374067 66075 e conjunto de treinamento,
GTs e segmentos obtidos
6. Conclus˜ao
O modelo de Mumford-Shah, dito genial pela sua simplicidade,
indica continuar sendo um foco de pesquisa por um longo per´ıodo de
tempo. Sua base em modelos variacionais possibilita modelar as mais va-
riadas suposi¸oes para os mais diferentes contextos de aplica¸ao. Buscou-
se nesta proposta aliar a modelagem de um conhecimento pr´evio acerca
de objetos na cena, construindo um mecanismo de discrimina¸ao para
o modelo de Mumford-Shah. Os ´ındices de avalia¸ao da qualidade das
segmenta¸oes obtidas demonstram que o m´etodo proposto possibilita
uma melhor qualidade de aproxima¸ao em rela¸ao aos padr˜oes ouro
ground-truths.
Neste cap´ıtulo final ser˜ao sumarizadas as contribui¸oes da me-
todologia supervisionada proposta, seguida pela discuss˜ao acerca dos
resultados obtidos atrav´es dos experimentos realizados. Por fim, as li-
mita¸oes da pesquisa realizada e as futuras etapas para melhoria ser˜ao
apresentadas.
6.1 Contribui¸oes
A especializa¸ao de uma fun¸ao de discrimina¸ao, realizada pre-
viamente com a inferˆencia do observador, possibilita melhorar signifi-
cativamente a resposta da similaridade na funcional de Mumford-Shah.
A´ı o termo supervisionado pode ser empregado, uma vez que ocorre
a indu¸ao `a priori por parte de um agente externo que seleciona na
cena os padr˜oes qualitativos. Na literatura existem m´etodos interativos
que realizam a extra¸ao bi-modal ou multi-modal dos objetos na cena.
Para que isto seja poss´ıvel, estes m´etodos necessitam de informa¸oes de
cada objeto de interesse, realizando posteriormente a parti¸ao do es-
pa¸co de cores. Estes m´etodos, no entanto, ao possibilitam a redu¸ao
do n´umero de regi˜oes, fazendo com que muitos objetos sejam perdidos
ao longo deste processo. Neste trabalho foi focado em um modelo de
crescimento de regi˜oes onde o processo de codifica¸ao de uma imagem
de entrada para segmentos seja especializado na importˆancia dos crit´e-
rios de homogeneidade e continuidade. Atraes disto, foi proposto um
m´etodo supervisionado onde segmentos s˜ao gerados em fun¸ao da indu-
¸ao do pr´oprio usu´ario, tendo como parˆametros um umero de regi˜oes
esperadas.
Os resultados obtidos demonstram nitidamente os efeitos deste
tipo de supervis˜ao:
na se¸ao 5.2 foram demonstrados os efeitos da indu¸ao atraes
do decr´escimo do n´umero de regi˜oes da imagem em rela¸ao `a um
n´umero m´ınimo de regi˜oes na cena;
150
na se¸ao 5.3 foi realizada a compara¸ao em rela¸ao `a outras ecni-
cas de segmenta¸ao de imagens do “estado-da-arte”, onde os ´ındi-
ces de qualidade demonstram uma melhora nos resultados obtidos
pela metodologia proposta;
e na se¸ao 5.4 um experimento onde ambas as vers˜oes dos m´etodos
de Mumford-Shah (convencional e proposta) foram confrontadas
em rela¸ao `a um n´umero fixado de regi˜oes. Este experimento
demonstrou a eficiˆencia do etodo no controle do agrupamento
das regi˜oes, preservando segmentos representativos.
Outras contribui¸oes cient´ıficas deste trabalho foram os resulta-
dos preliminares obtidos ao longo desta pesquisa. A primeira contribui-
¸ao ´e multidisciplinar, e surgiu da necessidade de verificar a representa-
tividade da etrica de distˆancia na identifica¸ao de estruturas em ima-
gens histopatol´ogicas [SOB 09b]. Neste m´etodo, da mesma forma como
na metodologia proposta, ocorre a supervis˜ao de um especialista em his-
topatologia na identifica¸ao dos padr˜oes qualitativos correspondente `as
c´elulas cancer´ıgenas. Para casos de histopatologia, foi demonstrado a
viabilidade da m´etrica na identifica¸ao das estruturas em arias imagens
de mesma natureza, demonstrando a generaliza¸ao do modelo. Outra
contribui¸ao foi acerca de estudos iniciais sobre a metodologia proposta,
onde a funcional de Mumford-Shah foi especializada com o aprendizado
de m´etricas de distˆancia [SOB 09a]. Neste trabalho houve a necessidade
de avaliar a qualidade dos resultados obtidos por meio de ecnicas de
avalia¸ao de segmentos, sendo aplicados para um pequeno conjunto de
imagens. Ae alguns anos atr´as a id´eia de avaliar visualmente os resul-
tados de segmenta¸ao era alida, mas atualmente ´ındices qualitativos de
segmenta¸ao vem se difundindo rapidamente na ´area de processamento
digital de imagens, e tendem `a se estabelecer como unidade padr˜ao de
avalia¸ao de resultados.
Esta importˆancia destes ´ındices de avalia¸ao foram levadas em
considera¸ao neste trabalho, onde mais de 60 imagens foram processadas
e avaliadas por meio destes ´ındices de qualidade. o para a metodolo-
gia proposta foram realizadas 7.601 compara¸oes em rela¸ao `a imagens
padr˜ao-ouro, obtendo-se 30.404 ´ındices de avalia¸ao de qualidade de
segmentos. Os resultados de outros etodos de segmenta¸ao tamb´em
foram avaliados qualitativamente, e todas as informa¸oes de avalia¸ao
podem ser utilizadas para a an´alise de novas ecnicas de segmenta¸ao
de imagens, conforme apresentados no site
1
do etodo proposto. Da
mesma forma, todos os parˆametros de configura¸ao do m´etodo proposto,
1
www.lapix.ufsc.br/sms
151
imagens resultados deste e outros m´etodos, tabelas de avalia¸ao e os al-
goritmos de avalia¸ao de qualidade (Rand, Fowlkes-Mallows, Jacard e
Dongen) est˜ao dispon´ıveis para serem utilizados pela comunidade cien-
t´ıfica.
6.2 Discuss˜ao
Foi demonstrado que a especializa¸ao da fun¸ao de discrimina-
¸ao do modelo de Mumford-Shah possibilita a indu¸ao do processo de
segmenta¸ao na obten¸ao de segmentos representativos na cena. No
entanto, a maneira como isto ´e realizado (inferˆencia do usu´ario) tam-
b´em poderia ser considerado como um parˆametro de execu¸ao, sendo
que a pr´opria fun¸ao u da equa¸ao de Mumford-Shah ´e desconhecida.
No cap´ıtulo 5.4 foi ilustrada a insuficiˆencia do modelo convencional de
Mumford-Shah demonstrado na equa¸ao (3.5), na tentativa de contro-
lar o agrupamento das regi˜oes em rela¸ao `as suas fronteiras. Atrav´es da
fun¸ao de discrimina¸ao proposta, ´e not´oria a melhora dos resultados
de segmenta¸ao para um mesmo n´umero de regi˜oes.
Embora a id´eia de inferˆencia do observador seja amplamente sub-
jetiva, os resultados obtidos refletem esta melhora na aproxima¸ao dos
segmentos representativos, tanto quando contextos de similaridade ou
dissimilaridade ao definidos. Um estudo futuro, no entanto, se faz ne-
cess´ario para avaliar a qualidade de resposta da supervis˜ao em diferentes
usu´arios, e os parˆametros de execu¸ao necess´arios para a obten¸ao dos
resultados.
Quanto `a metodologia utilizada nos experimentos, esta possibi-
litou ao somente a identifica¸ao do melhor resultado de segmenta¸ao
para casos de pouca divergˆencia, mas tamb´em avaliar a qualidade das
m´etricas de avalia¸ao de segmentos, e os pr´oprios ground-truths defi-
nidos pelos avaliadores de Berkeley. Das 3 categorias de experimentos
realizados, duas delas realizam compara¸oes qualitativas em rela¸ao a
m´etodos “estado-da-arte”. Para a segunda categoria, no entanto, a difi-
culdade de encontrar imagens com ground-truths com baixos ´ındices de
ambiguidade limitou esta pesquisa `as 16 imagens conhecidas e previa-
mente utilizadas nos trabalhos de [BER 08], justificando a pouca varia-
bilidade dos parˆametros destes algoritmos frente ao m´etodo proposto.
No entanto, a generaliza¸ao do etodo ainda ´e necess´aria, uma
vez que os experimentos demonstrados neste trabalho ao limitados para
contextos muito espec´ıficos de aplica¸ao. A ausˆencia de uma base de
imagens de um mesmo contexto dificulta tal experimenta¸ao.
152
6.3 Limita¸oes e trabalhos futuros
Embora os resultados obtidos reflitam uma melhora significativa
em rela¸ao aos etodos comparados, a metodologia proposta ´e depen-
dente de parˆametros de execu¸ao para produzir resultados diversifica-
dos. Como pode ser verificado na tabela A.5, existe variabilidade dos
parˆametros de execu¸ao, sendo que foram utilizadas imagens de dife-
rentes contextos de aplica¸ao. Entretanto, ´e interessante observar que
aproximadamente em 40% dos casos o parˆametro γ do mapa topol´ogico
concentra-se no valor 1, indicando uma redu¸ao da variabilidade dos
parˆametros na obten¸ao dos resultados descritos na se¸ao 5. Quanto ao
parˆametro L e o n´umero final de regi˜oes esperadas, estes ao comple-
tamente dependentes de contexto ao podendo ser facilmente generali-
zados. Faz-se necess´aria uma an´alise da influˆencia do grau polinomial
utilizado ao longo do processo de segmenta¸ao na obten¸ao dos resulta-
dos, embora resultados similares possam ser encontrados em diferentes
ordens polinomiais.
Um estudo efetivo a ser realizado para verificar a influˆencia de S
na redu¸ao do n´umero de parˆametros seria um teste aleat´orio:
Define-se um n´umero m´aximo de segmenta¸oes que ser˜ao produzi-
das por cada algoritmo de segmenta¸ao, atrav´es da sua varia¸ao de
parˆametros. Algoritmos que: permitem variar muito os seus parˆa-
metros de execu¸ao; e/ou possuem muitos parˆametros de entrada
tenderiam a ser penalizados gerando muitos resultados incosisten-
tes;
Cada resultado obtido ´e confrontado com as imagens de ground-
truths;
Avalia-se atrav´es da m´edia global ou em rela¸ao ao umero de
resultados aceit´aveis os algoritmos que na maioria das vezes pro-
duzem um resultado de segmenta¸ao aceit´avel.
O teste acima descrito trata-se de um teste pareado, onde poderia-
se avaliar a qualidade dos algoritmos de segmenta¸ao quanto `a sensibi-
lidade e especificidade dos seus parˆametros de execu¸ao. Obviamente,
uma compara¸ao desta natureza deve ser realizada entre algoritmos de
mesma categoria e finalidade. Por exemplo, algoritmos interativos que
utilizam parti¸ao do espa¸co em sua essˆencia ao podem ser caracteriza-
dos como algoritmos de crescimento de regi˜oes. Algoritmos que utilizam
algum tipo de conhecimento pr´evio geralmente ao fundamentados em
informa¸ao do tipo pairwise e teoria de grafos, conforme demonstrados
153
na se¸ao 2.3. No entanto, esta ´e uma ´area que ainda pode-se considerar
em desenvolvimento, e novas metodologias est˜ao sendo desenvolvidas
neste contexto.
Em rela¸ao ao etodo apresentado neste trabalho, outras infor-
ma¸oes acerca dos objetos na imagem poderiam ser conjugadas na ge-
ra¸ao dos mapas topol´ogicos. A distˆancia polynomial de Mahalanobis
possibilita conjugar informa¸oes em altas ordens dimensionais, e infor-
ma¸oes tais como textura, gradientes, combina¸oes entre outras bases
vetoriais de espa¸cos de cores, podem possibilitar a obten¸ao de novos
resultados.
Uma an´alise futura interessante a ser realizada ´e a compara¸ao
entre diferentes conjecturas da funcional de Mumford-Shah. No entanto,
um teste ideal seria aquele onde algoritmos de segmenta¸ao de mesmo
prop´osito sejam utilizados, embora at´e o presente momento n˜ao se tenha
encontrado na literatura um etodo de segmenta¸ao supervisionada
tomando por base uma energia funcional de Mumford-Shah.
Com rela¸ao `a metodologia de avalia¸ao da qualidade dos resulta-
dos, outras m´etricas de compara¸ao segmentos X ground-truths podem
ainda ser utilizadas, embora comumente em trabalhos correlatos va-
riantes da t´ecnica Rand tem se popularizado. No entanto, embora o
prop´osito do banco de imagens de Berkeley ´e apresentar-se como um
benchmark para a segmenta¸ao de imagens, este vem sendo extensa-
mente utilizado na compara¸ao entre algoritmos de detec¸ao de bordas
e continuidades. Ainda existe a necessidade de um benchmark para a
segmenta¸ao de imagens coloridas, onde as varia¸oes entre observadores
ao seja amb´ıgua.
Por fim, neste trabalho a quest˜ao de performance na execu¸ao do
algoritmo n˜ao foi levada em considera¸ao. Devido `as complexidades das
compara¸oes nos mapas topol´ogicos ou na gera¸ao destes, por exemplo,
a imagem 12003 utilizada na se¸ao 4 levou aproximadamente 2 minutos
e 4 segundos para ser codificada em 4 segmentos, utilizando um AMD
Athlon(tm) 64 X2 Dual Core Processor 4400+, 2 GB mem´oria RAM e
sistema operacional SUSE Linux version 2.6.27.29, com compilador
gcc version 4.3.2. Se comparado ao algoritmo convencional, que leva
aproximadamente 6 segundos para a mesma imagem, ´e um aumento
consider´avel. Para estas quest˜oes, implementa¸oes em alta performance
utilizando a tecnologia GPGPU (processamento em placas gr´aficas) po-
dem ser utilizadas para aplica¸oes que demandam um tempo de resposta
menor.
A. Anexos
A.1 Varia¸oes de γ em um mapa topol´ogico.
(a) γ = 10 (b) γ = 5 (c) γ = 2
(d) γ = 1 (e) γ = 0.5 (f) γ = 0.05
Figura A.1: Variabilidade no parˆametro γ na equa¸ao (4.2), na gera¸ao
de mapas topol´ogicos de 8
a
ordem (L = 4).
155
A.2 Funcionalidades da interface do usu´ario
(a) compacta¸ao do umero de compara¸oes pelo histograma
da imagem.
(b) gera¸ao progressiva iniciando de 250 regi˜oes.
Figura A.2: Funcionalidades da interface do usu´ario. Em (a), otimiza-
¸ao das compara¸oes pelo histograma, e em (b), obten¸ao de resultados
de segmenta¸ao parciais.
156
A.3 Header em C++ do Polynomial Mahalanobis
(a) parte 1
Figura A.3: Source em C++ para utiliza¸ao do polynomial Mahala-
nobis polyMahalanobis.h parte 1.
157
(a) parte 2
(b) parte 3
Figura A.4: Source em C++ para utiliza¸ao do polynomial Mahala-
nobis polyMahalanobis.h partes 2 e 3.
158
A.4 Exemplo de arquivo correspondente ao conjunto de trei-
namento para a imagem 207056
-
#Number of patterns
450
#X Y Red Green Blue
383 193 41 61 2
383 194 40 59 3
382 195 44 63 8
382 196 45 63 11
382 197 41 58 6
381 198 41 55 4
...
...
...
6 4 42 56 3
5 4 42 56 3
4 3 42 56 7
3 3 41 54 8
2 2 42 54 14
2 2 42 54 14
159
A.5 Parˆametros de execu¸ao utilizados nas imagens do expe-
rimento
Tabela A.1: Parˆametros de execu¸ao para as imagens utilizadas no
experimento (parte 1).
Imagem Categoria Size S Ordem(L) Contr.(γ) Regi˜oes
207056 Se¸ao 5.1 450 1 -50 4
3096 Se¸ao 5.1 539 2 -1 2
304034 Se¸ao 5.1 331 1 -5 2
69015 Se¸ao 5.1 355 4 -2 20
124084-a) Se¸ao 5.2 412 2 -5 2-80
124084-b) Se¸ao 5.2 459 3 -1 2-80
124084-c) Se¸ao 5.2 573 2 -1 2-80
247085 Se¸ao 5.2 344 2 -10 8-80
16052-a) Se¸ao 5.2 269 3 -1 2-80
16052-b) Se¸ao 5.2 795 3 -50 2-80
300091 Se¸ao 5.2 289 3 -1 2-80
295087 Se¸ao 5.2 416 2 -5 3-80
249061 Se¸ao 5.2 313 2 -0.5 2-80
24063 Se¸ao 5.2 400 1 -1 3-80
94079 Se¸ao 5.2 303 2 -3 2-80
196073 Se¸ao 5.2 378 2 -1 2-80
100080 Se¸ao 5.2 221 2 -1 3-80
208001 Se¸ao 5.2 213 3 -0.1 2-80
388016 Se¸ao 5.2 324 1 -150 2-80
160
Tabela A.2: Parˆametros de execu¸ao para as imagens utilizadas no
experimento (parte 2).
Imagem Categoria Size S Ordem(L) Contr.(γ) Regi˜oes
118035 Se¸ao 5.3 165 1 -5 60
143090 Se¸ao 5.3 289 2 -1 50
15088 Se¸ao 5.3 162 2 -1 2
196073 Se¸ao 5.3 378 2 -1 2
2092 Se¸ao 5.3 248 1 -1 250
22090 Se¸ao 5.3 373 3 -25 150
24004 Se¸ao 5.3 179 1 -5 150
253036 Se¸ao 5.3 322 2 -0.1 160
310007 Se¸ao 5.3 139 1 -50 20
368078 Se¸ao 5.3 277 3 -0.5 100
42049 Se¸ao 5.3 318 2 -0.5 30
46076 Se¸ao 5.3 382 3 -1 30
48055 Se¸ao 5.3 384 1 -50 20
60079 Se¸ao 5.3 277 1 -0.5 9
68077 Se¸ao 5.3 311 3 -0.1 120
80099 Se¸ao 5.3 383 1 -10 2
100075 Se¸ao 5.4 773 3 -10 8
113016 Se¸ao 5.4 339 1 -1 3
113044 Se¸ao 5.4 594 2 -1 3
12003 Se¸ao 5.4 633 2 -2 4
126007 Se¸ao 5.4 310 3 -5 50
135069 Se¸ao 5.4 178 2 -1 2
151087 Se¸ao 5.4 283 2 -50 50
159091 Se¸ao 5.4 498 1 -75 4
161062 Se¸ao 5.4 274 2 -1 2
167062 Se¸ao 5.4 77 3 -1 3
183055 Se¸ao 5.4 297 2 -1 20
216053 Se¸ao 5.4 200 1 -1 150
161
Tabela A.3: Parˆametros de execu¸ao para as imagens utilizadas no
experimento (parte 3).
Imagem Categoria Size S Ordem(L) Contr.(γ) Regi˜oes
238011 Se¸ao 5.4 260 1 -0.5 3
260058 Se¸ao 5.4 633 1 -50 3
291000 Se¸ao 5.4 234 1 -150 3
299091 Se¸ao 5.4 208 2 -1 2
35070 Se¸ao 5.4 290 2 -0.5 6
61060 Se¸ao 5.4 424 1 -25 30
62096 Se¸ao 5.4 368 2 -1 40
67079 Se¸ao 5.4 338 2 -1 2
97017 Se¸ao 5.4 286 1 -10 250
97033 Se¸ao 5.4 401 3 -0.05 40
113009 Se¸ao 5.4 205 1 -5 100
163014 Se¸ao 5.4 320 1 -5 40
167083 Se¸ao 5.4 372 3 -50 5
225017 Se¸ao 5.4 291 1 -50 20
227092 Se¸ao 5.4 322 1 -0.5 7
374067 Se¸ao 5.4 282 2 -0.5 40
66075 Se¸ao 5.4 329 2 -1 2
162
A.6 Conjuntos de treinamento utilizados na se¸ao 5.3
(a) 2092 (b) 22090 (c) 42049
(d) 68077 (e) 80099 (f) 118035
(g) 143090 (h) 196073 (i) 253036
(j) 310007
Figura A.5: Conjunto de treinamento utilizados na se¸ao 5.3 (parte
1).
163
(a) 15088 (b) 24004 (c) 46076
(d) 48055 (e) 60079 (f) 368078
Figura A.6: Conjunto de treinamento utilizados na se¸ao 5.3 (parte
2).
164
A.7 An´alise dos ´ındices de avalia¸ao de segmentos
Tabela A.4: Ranking da ocorrˆencia dos algoritmos nas posi¸oes de 1
a
11
a
, de acordo com o ´ındice Rand (contagem dos pontos pretos indicados
nos otulos das figuras 5.41 e 5.43).
Algoritmo 1
a
2
a
3
a
4
a
5
a
6
a
7
a
8
a
9
a
10
a
11
a
S MS 7 2 - 2 4 - 1 - - - -
MS 1 - - - 1 2 2 1 4 4 1
MS + gnm2 2 3 2 4 1 2 - 1 1 - -
MS + gnm 1 4 - 4 3 - 3 - 1 - -
CSC - - 2 - 1 1 3 1 3 3 2
CSC + gnm - 1 6 3 1 4 - 1 - - -
CSC + gnm2 - 2 1 - 2 4 4 2 - - 1
Edison 2 1 4 1 2 1 - 2 1 2 -
W S 3 2 - 1 1 2 - 5 1 - 1
JSEG - 1 1 1 - - 3 1 3 5 1
RHSEG - - - - - - - 2 2 2 10
165
Tabela A.5: Ranking da ocorrˆencia dos algoritmos nas posi¸oes de
1
a
–11
a
, de acordo com o ´ındice Fowlkes Mallows (contagem dos pontos
pretos indicados nos otulos das figuras 5.41 e 5.43).
Algoritmo 1
a
2
a
3
a
4
a
5
a
6
a
7
a
8
a
9
a
10
a
11
a
S MS 7 2 - 4 1 1 - 1 - - -
MS 1 - - - 1 1 - 3 5 3 2
MS + gnm2 2 3 3 2 3 2 - 1 - - -
MS + gnm 1 3 - 4 3 - 4 - 1 - -
CSC - - 1 1 1 2 4 2 3 2 -
CSC + gnm - 2 6 2 1 3 1 - - 1 -
CSC + gnm2 - 2 1 - 2 4 5 1 - 1 -
Edison 2 1 5 1 2 1 1 2 1 - -
W S 3 2 - 1 1 2 1 3 1 - 2
JSEG - 1 - 1 1 - - 2 3 8 -
RHSEG - - - - - - - 1 2 1 12
Tabela A.6: Ranking da ocorrˆencia dos algoritmos nas posi¸oes de
1
a
–11
a
, de acordo com o ´ındice Jacard (contagem dos pontos pretos
indicados nos otulos das figuras 5.41 e 5.43).
Algoritmo 1
a
2
a
3
a
4
a
5
a
6
a
7
a
8
a
9
a
10
a
11
a
S MS 6 3 - 4 2 - - 1 - - -
MS 1 - - - 1 1 - 3 4 4 2
MS + gnm2 3 3 2 3 2 2 - 1 - - -
MS + gnm 1 3 - 1 3 3 4 - 1 - -
CSC - - 3 - - 2 2 4 2 3 -
CSC + gnm - 1 5 5 1 1 2 - - 1 -
CSC + gnm2 - 2 1 - 4 2 5 1 - - 1
Edison 2 1 5 1 2 1 - 3 1 - -
W S 3 2 - 1 - 4 2 1 1 - 2
JSEG - 1 - 1 1 - 1 1 2 8 1
RHSEG - - - - - - - 1 5 - 10
166
Tabela A.7: Ranking da ocorrˆencia dos algoritmos nas posi¸oes de
1
a
–11
a
, de acordo com o ´ındice Dongen (contagem dos pontos pretos
indicados nos otulos das figuras 5.41 e 5.43).
Algoritmo 1
a
2
a
3
a
4
a
5
a
6
a
7
a
8
a
9
a
10
a
11
a
S MS 7 3 - 2 - 1 1 1 1 - -
MS - 1 - - 1 2 - 2 5 4 1
MS + gnm2 1 3 3 3 2 2 1 1 - - -
MS + gnm - 1 2 3 3 1 3 1 1 - 1
CSC - 2 1 - 1 3 2 3 3 1 -
CSC + gnm - - 3 3 2 3 3 1 1 - -
CSC + gnm2 4 2 3 1 3 - 1 1 - 1 -
Edison 3 2 4 1 - 1 2 3 - - -
W S 1 2 - 2 2 2 2 1 - 1 3
JSEG - - - 1 2 1 1 1 4 6 -
RHSEG - - - - - - - 1 1 3 11
Tabela A.8: Ranking da ocorrˆencia dos algoritmos nas posi¸oes de
1
a
–11
a
, considerando a contagem das posi¸oes pela edia geral dos 4
´ındices (gr´aficos das figuras 5.41 e 5.43).
Algoritmo 1
a
2
a
3
a
4
a
5
a
6
a
7
a
8
a
9
a
10
a
11
a
S MS 8 - 1 3 1 1 2 - - - -
MS - 1 - - 1 - 1 3 5 3 2
MS + gnm2 2 2 6 2 - 3 - 1 - - -
MS + gnm 1 2 - 3 4 1 3 1 1 - -
CSC 1 - 1 1 1 1 3 3 3 2 -
CSC + gnm - 1 5 3 3 1 2 - - 1 -
CSC + gnm2 - 4 - 1 4 4 2 - - - 1
Edison 2 4 3 1 - 1 1 2 2 - -
W S 2 2 - - 1 4 1 3 - 1 2
JSEG - - - 2 1 - 1 1 3 8 -
RHSEG - - - - - - - 2 2 1 11
167
Referˆencias Bibliogr´aficas
[AMB 90] AMBROSIO, L.; TORTORELLI, V. M. Approximation of functional
depending on jumps by elliptic functional via t-convergence.
Communications on Pure and Applied Mathematics, [S.l.],
1990.
[ANG 07] ANGULO, J.; SERRA, J. Modelling and segmentation of colour
images in polar representations. Image and Vision Computing,
[S.l.], v.25, n.4, p.475–495, 2007.
[BAR 09] BARTHEL, K. U. 3D Color Inspector/Color Histogram. 2009.
Relat´orio ecnico.
[BER 08] BERTOLDI, R. F. etodo de Rede de Gradientes: um novo
algoritmo de segmenta¸ao de imagens coloridas. UFSC -
Universidade Federal de Santa Catarina, 2008. Disserta¸ao de
Mestrado.
[BH 02] BEN-HUR, A.; ELISSEEFF, A.; GUYON, I. A stability based method
for discovering structure in clustered data. In: PACIFIC
SYMPOSIUM ON BIOCOMPUTING, 2002. [s.n.], 2002. p.6–17.
[BH 05] BAR-HILLEL, A. et al. Learning distance functions using equivalence
relations. J. Mach. Learn. Res. (2005), [S.l.], 2005.
[BOY 01] BOYKOV, Y.; JOLLY, M. Interactive graph cuts for optimal
boundary and region segmentation of objects in N-D images. In:
International Conference on Computer Vision, [S.l.], 2001.
[BRE 07] BREUSS, M.; BURGETH, B.; WEICKERT, J. Anisotropic
continuous-scale morphology. In: IBPRIA (2), 2007. [s.n.], 2007.
p.515–522.
[BRO 05] BROX, T. From pixels to regions: partial differential
equations in image analysis. Germany: Faculty of Mathematics
and Computer Science, Saarland University, April, 2005. Tese de
Doutorado.
[BRO 09] BROX, T.; CREMERS, D. On local region models and a statistical
interpretation of the piecewise smooth mumford-shah functional. Int.
J. Comput. Vision, Hingham, MA, USA, v.84, n.2, p.184–193, 2009.
[CAS 97] CASELLES, V.; KIMMEL, R.; SAPIRO, G. Geodesic active contours.
Int. J. Comput. Vision, Hingham, MA, USA, v.22, n.1, p.61–79,
1997.
[CHA 02] CHAN, T.; VESE, L. A multiphase level set framework for image
segmentation using mumford and shah model. International
Journal of Computer Vision, [S.l.], v.50, p.271–293, 2002.
[CHE 01] CHENG, H. et al. Color image segmentation: advances and prospects.
Pattern Recognition, [S.l.], v.34, p.2259–2281, 2001.
[COM 02] COMANICIU, D.; MEER, P. Mean shift: A robust approach toward
feature space analysis. IEEE Transactions on Pattern Analysis
and Machine Intelligence, [S.l.], v.24, n.5, p.603–619, 2002.
[CRE 02] CREMERS, D. et al. Diffusion snakes: Introducing statistical shape
knowledge into the mumford-shah functional. [S.l.], v.50, n.3,
p.295–313, December, 2002.
169
[DEG 89] DEGIORGI, E.; CARRIERO, M.; LEACI, A. Existence theorem for a
minimum problem with free discontinuity set. Archive for Rational
Mechanics and Analysis, [S.l.], v.108, p.195–218, Novembro, 1989.
[DEN 01] DENG, Y.; MANJUNATH, B. Unsupervised segmentation of
color-texture regions in images and video. IEEE Transactions on
Pattern Analysis and Machine Intelligence, [S.l.], v.23, n.8,
p.800–810, 2001.
[DON 00] DONGEN, S. Performance criteria for graph clustering and markov
cluster experiments. Amsterdam, The Netherlands, The Netherlands,
2000. Relat´orio ecnico.
[DUD 01] DUDA, R.; STORK, D. Pattern Classification (2nd ed.). John
Wiley and Sons, 2001.
[DUP 06] DUPUIS, A.; VASSEUR, P. Image segmentation by cue selection and
integration. Image and Vision Computing, [S.l.], v.24, n.10,
p.1053–1064, October, 2006.
[FOW 83] FOWLKES, E. B.; MALLOWS, C. L. A method for comparing two
hierarchical clusterings. Journal of the American Statistical
Association, [S.l.], v.78, n.383, p.553–569, 1983.
[FRI 47] FRIEDMAN, J. S. History of color photography. The American
Photographic Publishing Comp., [S.l.], 1947.
[FU 81] FU, K.; MUI, J. A survey of image segmentation. A survey of
image segmentation, [S.l.], v.13, p.3–16, 1981.
[GOB 99] GOBBINO, M.; MORA, M. G. Finite difference approximation of free
discontinuity problems. [S.l.], 1999.
[GON 01] GONZALEZ, R. C.; WOODS, R. E. Digital Image Processing.
Boston, MA, USA: Addison-Wesley Longman Publishing Co., Inc.,
2001.
[GRU 06] GRUDIC, G. Z.; MULLIGAN, J. Outdoor path labeling using
polynomial mahalanobis distance. In: ROBOTICS: SCIENCE AND
SYSTEMS, 2006. [s.n.], 2006.
[HAM 09] HAMARNEH, G.; LI, X. Watershed segmentation using prior shape
and appearance knowledge. Image Vision Comput., Newton, MA,
USA, v.27, n.1-2, p.59–68, 2009.
[HOI 06] HOI, S. et al. Learning Distance Metrics with Contextual Constraints
for Image Retrieval. Proceedings of the 2006 IEEE Computer
Society Conference on Computer Vision and Pattern
Recognition, [S.l.], 2006.
[ICP 84] ICP International Center of Photography. Encyclopedia of
photography / ICP, International Center of Photography.
Crown, New York :, 1984. 607 p. : p.
[JIA 00] JIANG, X. et al. Some further results of experimental comparison of
range image segmentation algorithms. Pattern Recognition,
International Conference on, Los Alamitos, CA, USA, v.4, p.4877,
2000.
[JIA 05] JIANG, X. et al. Image segmentation evaluation by techniques of
comparing clusterings. In: ICIAP’05”, 2005. [s.n.], 2005. p.344–351.
170
[JIA 06] JIANG, X. et al. Distance measures for image segmentation
evaluation. EURASIP J. Appl. Signal Process., New York, NY,
United States, v.January, p.209–209, 2006.
[JIA 08] JIA, Y.; ZHANG, C. Learning distance metric for semi-supervised
image segmentation. In: ICIP 2008: 2008 IEEE INTERNATIONAL
CONFERENCE ON IMAGE PROCESSING, 2008. Proceedings...
San Diego, California, USA: IEEE Computer Society, 2008.
p.2304–2307.
[JUA 06] JUAN, O.; BOYKOV, Y. Active graph cuts. In: CVPR ’06:
PROCEEDINGS OF THE 2006 IEEE COMPUTER SOCIETY
CONFERENCE ON COMPUTER VISION AND PATTERN
RECOGNITION, 2006. Proceedings... Washington, DC, USA: IEEE
Comp.Society, 2006. p.1023–1029.
[KAT 06] KATO, Z.; PONG, T. A markov random field image segmentation
model for color textured images. Image and Vision Computing,
[S.l.], v.24, n.10, p.1103–1114, October, 2006.
[KLI 90] KLINKER, G.; SHAFER, S. A.; KANADE, T. A physical approach to
color image understanding. International Journal of Computer
Vision, [S.l.], v.4, p.7–38, 1990.
[KOE 94] KOEPFLER, G.; LOPEZ, C.; MOREL, J. M. A multiscale algorithm
for image segmentation by variational method. SIAM J. Numer.
Anal., Philadelphia, PA, USA, v.31, n.1, p.282–299, 1994.
[KOH 05] KOHLI, P.; TORR, P. H. S. Efficiently solving dynamic markov
random fields using graph cuts. In: ICCV ’05: PROCEEDINGS OF
THE TENTH IEEE INTERNATIONAL CONFERENCE ON
COMPUTER VISION, 2005. Proceedings... Washington, DC, USA:
IEEE Computer Society, 2005. p.922–929.
[KOL 09] KOLEV, K. et al. Continuous global optimization in multiview 3d
reconstruction. International Journal of Computer Vision,
[S.l.], v.84, n.1, p.80–96, August, 2009.
[LI 04] LI, Y. et al. Lazy snapping. ACM Trans. Graph., New York, NY,
USA, v.23, n.3, p.303–308, 2004.
[LIN 08] LIN, L. et al. A novel pixon-representation for image segmentation
based on markov random field. Image Vision Comput., Newton,
MA, USA, v.26, n.11, p.1507–1514, 2008.
[LUS 07] LUSSARDI, L. An approximation for the mumford-shah functional.
Int. J. Contemp. Math. Sciences, [S.l.], 2007.
[MAR 02] MARTIN, D. R. et al. A database of human segmented natural images
and its application to. Berkeley, CA, USA, 2002. Relat´orio ecnico.
[MEE 01] MEER, P.; GEORGESCU, B. Edge detection with embedded
confidence. IEEE Trans. Pattern Anal. Mach. Intell.,
Washington, DC, USA, v.23, n.12, p.1351–1365, 2001.
[MEG 10] MEGAWAVE.
[MEI 07] MEILA, M. Comparing clusterings—an information based distance.
J. Multivar. Anal., Orlando, FL, USA, v.98, n.5, p.873–895, 2007.
[MOR 95] MOREL, J. M.; SOLIMINI, S. Variational methods in image
segmentation. Cambridge, MA, USA: Birkhauser Boston Inc., 1995.
171
[MUM 85] MUMFORD, D.; SHAH, J. Boundary detection by minimizing
functionals. 1985. [s.n.], 1985. p.22–26.
[MUM 89] MUMFORD, D.; SHAH, J. Optimal approximations by piecewise
smooth functions and associated variational problems. Pure Appl.
Math., [S.l.], 1989.
[NI 09] NI, K. et al. Unsupervised multiphase segmentation: A recursive
approach. Comput. Vis. Image Underst., New York, NY, USA,
v.113, n.4, p.502–510, 2009.
[NIN 10] NING, J. et al. Interactive image segmentation by maximal similarity
based region merging. [S.l.], v.43, n.2, p.445–456
February, 2010.
[OR 07] OSMA-RUIZ, V. et al. An improved watershed algorithm based on
efficient computation of shortest paths. Pattern Recogn., New
York, NY, USA, v.40, n.3, p.1078–1090, 2007.
[PET 03] PETITOT, J. An introduction to the mumford-shah segmentation
model. Journal of Physiology-Paris, [S.l.], v.97, n.2-3, p.335
342, 2003.
[POC 09] POCK, T. et al. An algorithm for minimizing the piecewise smooth
mumford-shah functional. In: IEEE INTERNATIONAL
CONFERENCE ON COMPUTER VISION (ICCV), 2009.
Proceedings... Kyoto, Japan: [s.n.], 2009.
[POL 09] POLAK, M.; ZHANG, H.; PI, M. Short communication: An
evaluation metric for image segmentation of multiple objects. Image
Vision Comput., Newton, MA, USA, v.27, n.8, p.1223–1227, 2009.
[PRO 07] PROTIERE, A.; SAPIRO, G. Interactive image segmentation via
adaptive weighted distances. Image Processing, IEEE
Transactions on, [S.l.], v.16, n.4, p.1046–1057, 2007.
[RAN 71] RAND, W. M. Objective criteria for the evaluation of clustering
methods. Journal of American Statistical Association, [S.l.],
v.66, p.846–850, 1971.
[REH 98] REHRMANN, V.; PRIESE, L. Fast and robust segmentation of
natural color scenes. In: ACCV, 1998. [s.n.], 1998. v.1, p.598–606.
[RIT 07] RITTNER, L.; FLORES, F.; LOTUFO, R. New tensorial
representation of color images: Tensorial morphological gradient
applied to color image segmentation. In: SIBGRAPI ’07:
PROCEEDINGS OF THE XX BRAZILIAN SYMPOSIUM ON
COMPUTER GRAPHICS AND IMAGE PROCESSING, 2007.
Proceedings... Washington, DC, USA: IEEE Computer Society,
2007. p.45–52.
[RIU 09] RIUL. Edison image segmentation and edge detector. Rutgers
University - Busch Campus, New Brunswick, 2009. Relat´orio ecnico.
[SCH 09] SCHMALTZ, C.; WEICKERT, J.; BRUHN, A. Beating the quality of
jpeg 2000 with anisotropic diffusion. In: DAGM-SYMPOSIUM, 2009.
[s.n.], 2009. p.452–461.
[SHA 01] SHAPIRO, L. G.; STOCKMAN, G. C. Computer Vision. New
Jersey: Prentice-Hall, 2001. 279-325 p.
172
[SOB 09a] SOBIERANSKI, A. C. et al. Learning a color distance metric for
region-based image segmentation. Pattern Recognition Letters,
[S.l.], August, 2009.
[SOB 09b] SOBIERANSKI, A. C. et al. Learning a nonlinear color distance
metric for the identification of skin immunohistochemical staining.
IEEE Computer-based Medical Systems - CBMS 2009, [S.l.],
August, 2009.
[TIL 06] TILTON, J. D-dimensional formulation and implementation
of recursive hierarchical segmentation. Disclosure of Invention
and New Technology: NASA Case No. GSC 15199-1.
[TRO 22] TROLAND, L. Report of committee on colorimetry for 1920-21.
J.Opt.Soc.Am., [S.l.], 1922.
[TSA 96] TSANG, P.; TSANG, W. Edge detection on object color. In: IEEE
INTERNATIONAL CONFERENCE ON IMAGE PROCESSING,
1996. [s.n.], 1996. v.C, p.1049–1052.
[UNN 07] UNNIKRISHNAN, R.; PANTOFARU, C.; HEBERT, M. Toward
objective evaluation of image segmentation algorithms. IEEE Trans.
Pattern Anal. Mach. Intell., Washington, DC, USA, v.29, n.6,
p.929–944, 2007.
[VIN 91] VINCENT, L.; SOILLE, P. Watersheds in digital spaces: An eficient
algorithm based on immersion simulations. IEEE Trans. Pattern
Analysis and Machine Intell., [S.l.], 1991.
[WAN 06] WANG, F. et al. Semi-supervised classification using linear
neighborhood propagation. In: CVPR ’06: PROCEEDINGS OF THE
2006 IEEE COMPUTER SOCIETY CONFERENCE ON
COMPUTER VISION AND PATTERN RECOGNITION, 2006.
Proceedings... Washington, DC, USA: IEEE Computer Society,
2006. p.160–167.
[WAN 07] WANGENHEIM, A. et al. Color image segmentation guided by a color
gradient network. doi:10.1016/j.patrec.2007.05.009, 2007.
[WAN 09a] WANG, L. et al. Active contours driven by local gaussian distribution
fitting energy. Signal Process., Amsterdam, The Netherlands, The
Netherlands, v.89, n.12, p.2435–2447, 2009.
[WAN 09b] WANGENHEIM, A. V. et al. Color image segmentation using an
enhanced gradient network method. Pattern Recogn. Lett., New
York, NY, USA, v.30, n.15, p.1404–1412, 2009.
[WEI 98] WEICKERT, J. Anisotropic Diffusion in Image Processing.
Teubner-Verlag, 1998.
[WEI 01] WEICKERT, J. Applications of nonlinear diffusion in image
processing and computer vision. Acta Mathematica Universitatis
Comenianae, [S.l.], v.70, n.1, p.33–50, 2001.
[WEL 06] WELK, M.; WEICKERT, J.; STEIDL, G. From tensor-driven
diffusion to anisotropic wavelet shrinkage. In: ECCV (1), 2006. [s.n.],
2006. p.391–403.
[WRI 81] WRIGHT, W. 50 years of the 1931 cie standard observer for
colorimetry. AIC Color, [S.l.], 1981.
173
[WU 05] WU, G.; CHANG, E. Y.; PANDA, N. Formulating context-dependent
similarity functions. In: MULTIMEDIA ’05: PROCEEDINGS OF
THE 13TH ANNUAL ACM INTERNATIONAL CONFERENCE ON
MULTIMEDIA, 2005. Proceedings... New York, NY, USA: ACM,
2005. p.725–734.
[XIA 08] XIANG, S.; NIE, F.; ZHANG, C. Learning a Mahalanobis distance
metric for data clustering and classification. Pattern Recognition,
[S.l.], 2008.
[XIN 03] XING, E. et al. Distance metric learning with application to clustering
with side-information. Advances in NIPS, MIT Press,
Cambridge, Mam USA, [S.l.], p.505–512, 2003.
[YAN 06] YANG, L.; JIN, R. Distance metric learning: a comprehensive survey.
Michigan State University, 2006. Relat´orio ecnico.
[YU 08] YU, L. et al. A mumford-shah model on lattice. Image Vision
Comput., Newton, MA, USA, v.26, n.12, p.1663–1669, 2008.
[ZEZ 05] ZEZULA, P. et al. Similarity Search: The Metric Space
Approach (Advances in Database Systems). Springer,
November, 2005.
[ZHA 08] ZHANG, H.; FRITTS, J. E.; GOLDMAN, S. A. Image segmentation
evaluation: A survey of unsupervised methods. Comput. Vis.
Image Underst., New York, NY, USA, v.110, n.2, p.260–280, 2008.
[ZHU 08] ZHU, X. Semi-supervised learning literature survey. Computer
Sciences, University of Wisconsin-Madison, 2008. Relat´orio ecnico.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo