Download PDF
ads:
Fausto Neri da Silva Vanin
Caracteriza¸ao de N´ıveis de ao em
V´ıdeos Estruturados
Disserta¸ao apresentada ao Programa de
os-Gradua¸ao em Inform´atica Aplicada da
Pontif´ıcia Universidade Cat´olica do Paran´a
como requisito parcial para obten¸ao do
t´ıtulo de Mestre em Inform´atica Aplicada.
Curitiba
2005
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ads:
Fausto Neri da Silva Vanin
Caracteriza¸ao de N´ıveis de ao em
V´ıdeos Estruturados
Disserta¸ao apresentada ao Programa de
os-Gradua¸ao em Inform´atica Aplicada da
Pontif´ıcia Universidade Cat´olica do Paran´a
como requisito parcial para obten¸ao do
t´ıtulo de Mestre em Inform´atica Aplicada.
´
Area de Concentra¸ao: Inteligˆencia Artificial
Orientador: D´ıbio Leandro Borges
Curitiba
2005
Vanin, Fausto Neri da Silva
Caracteriza¸ao de N´ıveis de ao em V´ıdeos E struturados. Curitiba, 2005.
Disserta¸ao - Pontif´ıcia Universidade Cat´olica do Paran´a Programa de os-
Gradua¸ao em Inform´atica Aplicada.
1. Inteligˆencia Artificial 2. Reconhecimento de Padr˜oes 3.
I.Pontif´ıcia Universidade Cat´olica do Paran´a. Centro de Ciˆencias Exatas e
Tecnologia. Programa de os-Gradua¸ao em Inform´atica Aplicada II - t
`
A minha fam´ılia pelo apoio em todos os mo-
mentos. Aos colegas Paulo, Islenho e Eder-
son pelo trabalho em equipe e ao Prof. D´ıbio
pela orienta¸ao e amizade.
i
ii
Agradecimentos
Ao Colega David Menoti por acreditar no meu trabalho, ao colega Carlos Silla pelo
apoio t´ecnico. Ao Prof. Celso Kaestner pela presteza nas quest˜oes referentes ao curso.
Ao Prof. Alceu de Britto Jr. pelas orienta¸oes durante todo o curso. Ao suporte t´ecnico
e `a Secretaria do PPGIA pelo profissionalismo. Ao Prof. Carlos Maziero pela disponibili-
dade. Aos membros, efetivos e desligados do LUCI
2
A: Paulo Cavalin, Islenho de Almeida,
Ederson Sgarbi, Fernanda Ramos, Cristiane e Willian Ferreira e, especialmente ao Prof.
D´ıbio Borges pela oportunidade.
iii
iv
Sum´ario
Agradecimentos iii
Sum´ario v
Lista de Figuras vii
Lista de Tabelas ix
Lista de S´ımbolos xi
Lista de Abrevia¸oes xiii
Resumo xv
Abstract xvii
Cap´ıtulo 1
Introdu¸ao 1
Cap´ıtulo 2
Fundamenta¸ao Torica 3
2.1 Representa¸ao de v´ıdeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 V´ıdeos Estruturados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Cap´ıtulo 3
Estado da Arte 7
3.1 Discuss˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Cap´ıtulo 4
etodo Proposto 13
4.1 Especifica¸oes T´ecnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 Representa¸ao dos Quadros . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Histogramas HSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4 Caracteriza¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
v
Cap´ıtulo 5
Experimentos 25
5.1 Base de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.1.1 Detalhes ecnicos dos filmes . . . . . . . . . . . . . . . . . . . . . . 26
5.1.2 “Matrix Reloaded” . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1.3 “Cidade de Deus” . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2 Convers˜ao RGB para HSI . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.3 Compara¸ao de imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.4 Extra¸ao de Caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.4.1 Experimentos com o filme “Matrix Reloaded” . . . . . . . . . . . . 29
5.4.2 Experimentos com o filme “Cidade de Deus” . . . . . . . . . . . . . 29
5.5 Rotula¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.6 Discuss˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Cap´ıtulo 6
Conclus˜oes 47
6.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Referˆencias Bibliogr´aficas 51
vi
Lista de Figuras
4.1 Diagrama do sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2 Primeira Parte do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Exemplo imagem dividida em 20 partes filme ’Cidade de Deus’ . . . . . . . 16
4.4 Exemplo de Histograma do Canal H extra´ıdo da subparte 7 da Figura 4.3 . 17
4.5 Histograma do Canal extra´ıdo da subparte 7 da Figura 4.3 . . . . . . . . . 18
4.6 Histograma do Canal I extra´ıdo da subparte 7 da Figura 4.3 . . . . . . . . 19
4.7 Histograma Quantizado dos canais HSI extra´ıdo da subparte 7 da Figura 4.3 20
4.8 Segunda parte do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.9 Terceira parte do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.1 Exemplos de Imagens da base de dados. . . . . . . . . . . . . . . . . . . . 26
5.2 Exemplo de seq¨uˆencia “Matrix Reloaded” . . . . . . . . . . . . . . . . . . 27
5.3 Exemplo de seq¨uˆencia “Cidade de Deus” . . . . . . . . . . . . . . . . . . . 27
5.4 Gr´afico Cores e Movimento filme “Matrix Reloaded” quadros 1 a 5.000 . . 29
5.5 Gr´afico Cor e Movimento filme “Matrix Reloaded” quadros 5000 a 10000 . 30
5.6 Gr´afico Cor e Movimento filme “Cidade de Deus” quadros 1 a 5000 . . . . 31
5.7 Gr´afico Cor-Movimento filme “Cidade de Deus” quadros 5000 a 10000 . . . 32
5.8 Curva Recobrimento “Matrix Reloaded” primeiro grupo de 5.000 imagens . 34
5.9 Curva Precis˜ao “Matrix Reloaded” primeiro grupo de 5.000 imagens . . . . 35
5.10 Curva Precis˜ao “Matrix Reloaded” segundo grupo de 5000 imagens . . . . 36
5.11 Curva Recobrimento “Matrix Reloaded” segundo grupo de 5000 imagens . 37
5.12 Curva Recobrimento “Cidade de Deus” primeiro grupo de 5.000 imagens . 38
5.13 Curva Precis˜ao “Cidade de Deus” primeiro grup o de 5.000 imagens . . . . 39
5.14 Curva de Precis˜ao “Cidade de Deus” segundo grup o de 5.000 imagens . . . 40
5.15 Curva de Recobrimento “Cidade de Deus” segundo grupo de 5.000 imagens 41
vii
viii
Lista de Tabelas
5.1 Especifica¸oes t´ecnicas dos filmes . . . . . . . . . . . . . . . . . . . . . . . 26
5.2 Varia¸ao dos Limiares LC . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.3 Varia¸ao dos Limiares LM . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4 Dados de Recobrimento para “Matrix Reloaded” primeiro grupo de 5.000
imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.5 Dados de Precis˜ao para “Matrix Reloaded” primeiro grupo de 5.000 imagens 42
5.6 Dados de Precis˜ao para “Matrix Reloaded” segundo grupo de 5.000 imagens 42
5.7 Dados de Recobrimento para “Matrix Reloaded” segundo grupo de 5.000
imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.8 Dados de Precis˜ao para “Cidade de Deus” primeiro grupo de 5.000 imagens 43
5.9 Dados de Recobrimento para “Cidade de Deus” primeiro grupo de 5.000
imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.10 Dados de Precis˜ao para “Cidade de Deus” segundo grupo de 5.000 imagens 44
5.11 Dados de Recobrimento para “Cidade de Deus” segundo grupo de 5.000
imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.12 Porcentagem dos otulos na base ao rotulada . . . . . . . . . . . . . . . . 44
ix
x
Lista de S´ımbolos
SC Caracter´ıstica de Cor
SM Caracter´ıstica de Movimento
LC Limiares de interse¸ao de cores
LM Limiares de interse¸ao de movimento
λ Precis˜ao
ϕ Recobrimento
xi
xii
Lista de Abrevia¸oes
DVD Digital Versatile Disc
MPEG Moving Pictures Expert Group
MEM Modelo Escondido de Markov
KL Kullback-Liebler
HSI Matiz, Saturao, Intesidade
QPS Quadros por Segundo
xiii
xiv
Resumo
Este trabalho descreve um m´etodo de caracteriza¸ao de v´ıdeos estruturados do
tipo filmes. Estes v´ıdeos ser˜ao analisados atrav´es de caracter´ısticas de cor e movimento.
ao definidas 20 subregi˜oes para cada imagem e de cada subregi˜ao calcula-se a Interse¸ao
de Histogramas HSI quantizados (Cores) e a axima Verossimilhan¸ca (Movimento). Foi
criada uma base de dados com 20 mil imagens de dois filmes. O m´etodo foi aplicado a
esta base de dados e seus resultados ao avaliados atrav´es de Precis˜ao e Revoca¸ao.
xv
xvi
Abstract
This work describes a structured video characterization method. These videos
where analised through color and motion features. Twenty subregions are defined for
each image and for each subregion we extract the HSI Histograms Intersection (color
feature) and the Maximum Likelihood (motion feature). A 20,000 thousand images base
was created with images from 2 movies. The method was aplied to the image base and
the obtained results where evaluated over the criteria of Precision-Recall.
xvii
xviii
1
Cap´ıtulo 1
Introdu¸c˜ao
Este trabalho foi desenvolvido utilizando os conceitos de Inteligˆencia Artificial,
especificamente o Reconhecimento de Padr˜oes.
O uso de v´ıdeos digitais em ambientes dom´esticos ´e cada vez mais comum na vida
cotidiana. O advento de tecnologias como as que popularizaram o DVD (Digital Versatile
Disc) e a grande difus˜ao de v´ıdeos atraes da internet - este por causa do uso crescente
de conex˜oes que suportam grandes transferˆencias de dados - ao fatores que demonstram
a grande inser¸ao destes v´ıdeos no cotidiano. Essas novidades ao acompanhadas e/ou
originadas por evolu¸oes t´ecnicas como a compacta¸ao de v´ıdeo, caracterizada no desen-
volvimento de padr˜oes que reduzam o espa¸co consumido pelos arquivos, sem perda de
qualidade. Com tantos fatores - deixando de lado as quest˜oes comerciais -, compartilhar
ou adquirir v´ıdeos digitalizados tem se tornado uma atividade ao comum `a vida das
pessoas quanto o compartilhamento de imagens digitais.
Esse uso comum das novidades tecnol´ogicas traz c onsigo a necessidade de cria¸ao
de solu¸oes capazes de facilitar o uso e o acesso a estes produtos, ou at´e mesmo tratar
quest˜oes que o pr´oprio uso destas novidades pode trazer.
Justamente nas quest˜oes relacionadas `a manipula¸ao e an´alise dos v´ıdeos, tˆem sido
desenvolvidas diversas ferramentas computacionais. Entre essas ferramentas est˜ao siste-
mas de segmenta¸ao de v´ıdeo, rotula¸ao [GULER et al., 2003], [FAN and LUO, 2003],
detec¸ao de movimentos ao convencionais em v´ıdeos de seguran¸ca [STAUFFER, 2003],
[CHOWDURRY and CHELLAPA, 2003], sumariza¸ao de v´ıdeos esportivos [EKIN et al., 2003],
[EKIN and TEKALP, 2003], entre outros.
Uma quest˜ao que desperta interesse entre todas estas ferramentas computacionais
e solu¸oes matem´aticas para a an´alise de v´ıdeo, a caracteriza¸ao do conte´udo em v´ıdeos
estruturados ´e uma ´area que possui uma grande diversidade de aplica¸oes e de possibili-
dades de desenvolvimento.
2
Um v´ıdeo estruturado, como um filme por exemplo, possui caracter´ısticas estrutu-
rais nas suas imagens e na varia¸ao entre essas imagens que possibilitam o desenvolvimento
de t´ecnicas que permitam avaliar e caracterizar os dados contidos na seq¨encia.
As ecnicas de an´alise e caracteriza¸ao de v´ıdeo utilizam o v´ıdeo em duas principais
formas: 1) trabalhando diretamente com o arquivo de v´ıdeo em formato compactado; e
2) trabalhando com as imagens extra´ıdas do v´ıdeo.
Uma quest˜ao interessante que surge ´e a caracteriza¸ao de v´ıdeos estruturados de
forma autom´atica. Esta quest˜ao est´a relacionada a um m´etodo capaz de separar os dife-
rentes n´ıveis de ao contidos neste v´ıdeo.
Este trabalho descreve um etodo para caracteriza¸ao dos n´ıveis de ao contidos
em v´ıdeos estruturados do tipo filmes, atraes da combina¸ao de caracter´ısticas de cor e
movimento.
A estrutura deste documento est´a como segue: Cap´ıtulo de Fundamenta¸ao Torica
no Cap´ıtulo 2, em seguida, no Cap´ıtulo 3 o Estado da Arte. A pr´oxima se ¸ao ´e a descri¸ao
do etodo, e depois no Cap´ıtulo 5 os Experimentos Realizados, sendo que por fim as
Conclus˜oes.
3
Cap´ıtulo 2
Fundamenta¸ao Torica
Esta se¸ao descreve o detalhes sobre as formas de representa¸ao de v´ıdeos e tamb´em
conceitos relacionados `a cinegrafia de v´ıdeos estruturados.
2.1 Representa¸ao de v´ıdeo
Um v´ıdeo pode ser representado basicamente de duas formas: compactada e ao-
compactada.
Os v´ıdeos compactados ao formas de representa¸ao da seq¨encia de imagens base-
ada na elimina¸ao de redundˆancias. Uma das principais formas de compacta¸ao de v´ıdeo
´e o formato MPEG (Moving Pictures Expert Group). Este formato utiliza os coeficientes
resultantes da aplica¸ao da transformada cosseno para representac˜ao de cada imagem,
sendo que cada uma das imagens ´e dividida em uma s´erie de macroblocos
1
. Para cada
macrobloco k(i, j), onde i representa um ´ındice em linha e j em coluna, as diferen¸cas es-
paciais destes macroblocos atrav´es da seq¨uˆencia em uma regi˜ao de busca ao computadas
e de acordo com um n´ıvel de similaridade, assume-se que um determinado valor se repete
ou ao nos pr´oximos k(i + x, j + y) macroblocos.
Estas diferen¸cas ao computadas em posi¸oes relacionais `a cada quadro, definindo
dois tipos diferentes de quadros para codifica¸ao:
Quadros P: ao quadros que ao codificados utilizando como base de compara¸ao
as informa¸oes espaciais apenas dos quadros anteriores.
Quadros B: Estes quadros, diferentemente dos quadros P utilizam as informa¸oes
espaciais tanto dos quadros anteriores quanto posteriores para a codifica¸ao.
´
E o
1
Macrobloco: ao quadrados, geralmente de dimens˜oes 8X8, formados pelos p´ıxeis de uma imagem
4
tipo de quadro que proporciona uma maior compress˜ao do arquivo.
Quadros I: A representa¸ao dos quadros I ´e a que proporciona menor compress˜ao,
porque estes quadros fazem a compacta¸ao baseado apenas nas informa¸oes contidas
no pr´oprio quadro.
Desta forma, ao inv´es dos valores representativos de cada quadro, quando poss´ıvel, ape-
nas o macrobloco de referˆenc ia e sua posi¸ao ao armazenadas, reduzindo desta forma a
quantidade de dados representativos e conseq¨uentemente reduzindo o tamanho do arquivo.
Esta forma de armazenagem incide em uma perda de informa¸ao no momento da
codifica¸ao do arquivo. O grau de perda de informa¸ao ´e dado pela forma de codifica¸ao
escolhida. A maioria dos v´ıdeos utilizam uma estrutura que possui 1 quadro do tipo I a
cada 8 na seq¨uˆencia.
Os v´ıdeos em formato ao compactado ao representados de duas formas:85.958773.242Td[(tip)6(qua)1(Os)-3g0GΩ1001-56.693-744.961(Os)-3g0711.955Tf74.127744.961(Os)-3g17
5
No momento da edi¸ao ecnica e composi¸ao do v´ıdeo completo atrav´es das seq¨encias
distintas capturadas pelas ameras, arias formas de transi¸ao e agrupamento de tomadas
podem ser utilizadas:
Os cortes bruscos nas tomadas podem ser devidos a ocorrˆencia de um corte f´ıs ico,
que ´e quando a amera que estava captando a seq¨encia encerra a capta¸ao. Pode s er
t´ecnica quando a ferramenta de edi¸ao do v´ıdeo insere um final abrupto a transposi¸ao das
imagens da seq¨uˆencia captada para o v´ıdeo final e pode ser visual quando um elemento
alheio `a seq¨encia passa repentinamente a tomar parte significativa do quadro da tomada.
Al´em das transi¸oes bruscas, existem tamb´em as transi¸oes graduais entre tomadas.
Geralmente as transi¸oes graduais ao utilizadas para ao ferir a troca entre as “hist´orias”
do v´ıdeo ou para dar id´eia de continuidade. As transi¸oes graduais podem ser:
Fade-in: quando as imagens finais da tomada gradativamente tendem a um quadro
todo preto.
Fade-out : quando as imagens partem gradativamente de um quadro preto para o
come¸co da tomada seguinte.
Dissolu¸ao: ´e caracterizado pela troca gradual das imagens finais de uma tomada
com as imagens iniciais da tomada seguinte.
Outros: transi¸oes baseadas em efeitos visuais como elementos geom´etricos ou efeitos
de anima¸ao sint´eticos.
Em muitos casos as transi¸oes graduais entre tomadas podem ocorrer combinadas,
tornando a tarefa dos sistemas de detec¸ao de tomadas complicada devido ao seu aspecto
gradual de mudan¸ca.
Existem tamb´em caracter´ısticas cinem´aticas presentes na estrutura das imagens
dos v´ıdeos. As nuances de cor aplicadas `a seq¨encia est˜ao relacionadas `a comumente
chamada fotografia. Da mesma forma, a incidˆencia de ilumina¸ao artificial em est´udios
de gravao.
O posicionamento da amera em rela¸ao aos eventos capturados ´e controlada, sendo
que o objeto de aten¸ao est´a sendo bem acompanhado, em tomadas de longa, edia e
curta distˆancia.
Podem tamb´em existir efeitos ecnicos no v´ıdeo, como repeti¸oes (replays) e va-
ria¸oes sint´eticas de cor.
Outro fator bastante utilizado na estrutura de um determinado tipo de v´ıdeo ´e a
dura¸ao de cada tomada. Geralmente em seq¨encias mais introspectivas, como di´alogo
6
por exemplo, as tomadas ao mais duradouras e nos casos de maior ao o tamanho ´e
reduzido.
Existem diversos tipos de v´ıdeos es truturados. Entre eles podemos destacar como
exemplo os filmes e as transmiss˜oes televisivas.
As transmiss˜oes por televis˜ao, mesmo as transmitidas ao vivo, possuem uma es-
trutura definida que compele a demonstra¸ao da not´ıcia ou reportagem, auxiliada de
imagens, geralmente alternando entre a apresenta¸ao e a demonstra¸ao dos v´ıdeos.
Na classe dos filmes, encontram-se v´ıdeos como propagandas, curta-metragens e
longa-metragens. Cada um destes filmes, devido a sua dura¸ao possui caracter´ısticas
semˆanticas de dinˆamica diferentes. Diferentemente dos v´ıdeos televisivos os filmes pos-
suem uma maior liberdade de apresenta¸ao de cenas diferentes no decorrer da seq¨encia.
Essa liberdade de apresenta¸ao das imagens est´a diretamente ligada `a mensagem a ser
passada pelo v´ıdeo.
Neste caso a associa¸ao de caracter´ısticas como c or (fotografia) e dinˆamica das
cenas ao associadas para produzir o efeito desejado ao espectador. Geralmente as trocas
bruscas de cores, associadas a mudan¸cas apidas de tomadas, visam um estado de tens˜ao
maior no espectador, devido as constantes mudan¸cas.
Da mesma forma a estabilidade das cores e a maior dura¸ao das tomadas ou menor
movimenta¸ao da amera tencionam dar maior tranq¨uilidade ou suspense ao espectador.
O conjunto destas caracter´ısticas cinem´aticas ao p ode ser ignorado no momento de fazer
um sistema de an´alise autom´atica de um v´ıdeo estruturado, haja visto que as carac-
ter´ısticas semˆanticas neles contidas proporcionam um maior entendimento e uma poss´ıvel
caracteriza¸ao destes v´ıdeos baseado na verifica¸ao destas estruturas.
7
Cap´ıtulo 3
Estado da Arte
Entre os diversos estudos desenvolvidos para tratar de quest˜oes relacionadas ao
processamento de v´ıdeos estruturados podemos destacar alguns.
Em [IYENGAR, 2002] descreve-se uma ecnica de caracteriza¸ao de “trailers” de
filmes baseada em a estrutura semˆantica do filme e em heur´ısticas relacionadas `as formas
de edi¸ao dos filmes, baseada na rela¸ao entre a quantidade de ao e movimenta¸ao com
a predominˆancia das personagens do filme como centro das aten¸oes na tomada.
O m´etodo recai entre os que utilizam uma abordagem ao-compactada e toma
como caracter´ısticas a dura¸ao das tomadas e uma medida de ao, utilizando-as para
treinar um modelo escondido de Markov (MEM ).
O MEM (Modelo Escondido de Markov) foi treinado utilizando como caracter´ıstica
uma raz˜ao entre a energia contida entre as imagens da tomada e o tamanho da mesma.
Foi utilizada um caracter´ıstica visual que ´e a distˆancia KL (Kullback-Liebler ) para
histogramas RGB normalizados, dada por:
d =
k
log
2
p
k
q
k
(3.1)
onde p e q representam os histogramas e k representa o conjuntos dos canais de
cada histograma.
Da base de dados extraem-se alguns filmes para treinamento e baseado nas carac-
ter´ısticas visuais (KL) ao geradas duas fun¸oes de densidade-probabilidade para repre-
sentar ao e tomadas de maior atua¸ao das personagens.
Um ponto importante deste m´etodo ´e a combina¸ao de caracter´ısticas visuais ex-
tra´ıdas das rela¸oes das imagens da seq¨uˆencia e caracter´ısticas estruturais diretamente
relacionadas ao feitio e `a inten¸ao na concep¸ao da obra.
8
No trabalho [EKIN and TEKALP, 2003] Ahmet Ekin descreve um modelo para
detec¸ao probabil´ıstica de eventos em tempo real ou quase real em v´ıdeos de televis˜ao
utilizando caracter´ısticas cinem´aticas e classes de tomada em eventos esportivos. Ele ´e
aplicado em dois esportes: futebol e basquetebol. Os eventos de detectados ao agrupados
com o objetivo de compor um sum´ario do v´ıdeo.
A detec¸ao de tomadas ´e um passo importante em um detector geral de eventos.
Alguns algoritmos utilizam grandes transi¸oes entre histogramas como uma evidˆencia de
troca de tomada. Para melhorar o resultado do etodo ´e proposta como nova carac-
ter´ıstica a diferen¸ca absoluta da taxa de pixeis coloridos do campo entre dois quadros.
Estas duas caracter´ısticas ao combinadas para a detec¸ao de transi¸oes graduais e abrup-
tas.
Para a classifica¸ao as tomadas foram divididas em quatro tipos: tomadas dis-
tantes, edias no campo e close-up ou fora do campo. A maioria dos quadros de uma
tomada definir˜ao o tipo desta tomada.
Foi utilizado um algoritmo para detec¸ao de replay para a verifica¸ao do gol no
futebol.
O uso de caracter´ısticas cinem´aticas (como replays, por exemplo) tem o objetivo
de dar maior robustez na detec¸ao de eventos em esportes diferentes, considerando que
caracter´ısticas baseadas em objeto ao dependentes de cada categoria.
Alan Hanjalic em [HANJALIC et al., 1997] descreve um etodo de segmenta¸ao
de filmes utilizando caracter´ısticas visuais, objetivando a extra¸ao das chamadas Unidades
ogicas da Hist´oria (ULH), que ao composi¸oes de tomadas do filme que possuam rela¸ao
visual. Aplica-se um alculo de dissimilaridade entre dois quadros k
1
e k
1
+ p
1
onde p
1
´e
uma medida de distˆancia entre esses quadros. Caso esse valor de dissimilaridade supere um
determinado limiar, todos os quadros compreendidos entre k
1
e k
1
+ p
1
ser˜ao considerados
parte da mesma ULH.
Cada tomada identificada ´e representada por um ou mais quadros-chave. Os
quadros-chave de uma tomada ao agrupados em uma grande imagem chamada ima-
gem de tomada.
No trabalho, assume-se que o v´ıdeo est´a segmentado em tomadas previamente.
Para representar cada quadro-chave utilizada como caracter´ıstica a m´edia das cores
no espa¸co de cores L u v
1
de cada uma das imagens compostas.
O autor comenta de uma forma de separar os quadros-chave de cada ULH atrav´es
uma medida de granularidade que ao est´a esclarecida no artigo. Este recurso est´a as-
sociado com a possibilidade de navegar pelo conte´udo do v´ıdeo de uma forma dinˆamica
1
Espa¸co de cor L u v: este ´e um espa¸co de cor onde L=[0, 100]; u=[-134,220]; e v=[-140,122].
9
apenas utilizando os quadros-chave, mas a ecnica de agrupamento ao est´a descrita.
O texto descreve que se assume que dois quadros k e k + p
1
pertencem ao mesmo
contexto e ent˜ao aplica uma medida de similaridade que, se ultrapassar um determiado
limiar, ser´a realmente considerado parte de um mesmo contexto. Mas no texto ao est´a
descrito qual objeto ´e utilizado para medida de similaridade.
A imagem de tomada obtida dos quadros-chave ´e dividida em blocos de HxW
pixels. O significado de H e W ao est´a mencionado. Se considerarmos estes valores
como altura (height) e largura (width), da mesma forma ao faz sentido unir os quadros-
chave se depois eles ser˜ao divididos novamente em imagens de mesmo tamanho.
Em [RASHEED and Shah, 2003] descreve-se um sistema de detec¸ao de limite
entre cenas utilizando caracter´ısticas como o movimento, o tamanho da tomada e propri-
edades de cor das tomadas de v´ıdeos estruturados do tipo filmes.
O passo inicial do sistema descrito consiste em fazer a detec¸ao das tomadas. Os
quadros ao representados por um histograma de cores HSV de 16 canais (8 canais para
Matiz, 4 para Satura¸ao e 4 canais pra Valor). Considerando f
x
o x-´esimo quadro e H
x
o
seu histograma de cores, C ´e o conjunto de todos os canais do histograma, a intersec¸ao
entre os quadros x e x + 1, D(f
x
, f
x+1
) ´e dada por:
D(f
x
, f
x+1
)
b C
min(H
x
(b), H
x
+ 1(b)) (3.2)
Uma troca de tomada ´e detectada quando o valor de D for menor do que um
determinado limiar.
A sele¸ao dos quadros-chave ´e feita da seguinte forma: o quadro do meio ´e adi-
cionado ao conjunto (ainda vazio) dos quadros-chave. Ap´os, cada quadro da tomada ´e
comparado com todos os quadros. Se a interse c¸ao D registrada para todos os quadros-
chave for menor do que um limiar (diferente do limiar anterior), este frame ser´a adicionado
ao conjunto dos quadros-chave.
O algoritmo utiliza o tamanho da tomada e o movimento como caracter´ısticas
para o tipo de tomada. As informa¸oes de movimento a fazem parte do pr´oprio odigo
do arquivo MPEG. No momento da decodifica¸ao, obt´em-se essas informa¸oes de movi-
mento. Primeiro, um modelo global afim ´e estimado atrav´es da aplica¸ao do m´etodo de
m´ınimos quadrados sobre os vetores de movimento. Segundo, as velocidades dos blocos
ao reprojetadas. Terceiro, ´e feita uma compara¸ao entre a velocidade atual e a velocidade
reprojetada do bloco. Esta informa¸ao ser´a utilizada como caracter´ıstica de movimento
para a detec¸ao de cenas.
10
Para a detec¸ao de cenas ´e utilizada a informa¸ao de cor de cada tomada. Uma
medida chamada Coerˆencia anterior de tomada. Para todas as N tomadas identificadas
calcula-se:
SC
j
i
= max(D(f
x
, f
y
)) (3.3)
para cada par de tomadas (i, j).
As caracter´ısticas tamanho da tomada e movimento da tomada ao utilizadas para
prevenir a sobre segmenta¸ao nos casos de cenas com muita ao onde o algoritmo pode
identificar seq¨uˆencias de uma mesma cena como cenas separadas.
Uma medida chamada Dinˆamica de Cena ´e calculada para relacionar tamanho
da tomada e sua movimenta¸ao como segue:
SD
i
=
j scene
i
SM C
j
j scene
i
L
i
(3.4)
3.1 Discuss˜ao
As caracter´ısticas cinem´aticas ao tratadas nos trabalhos como um conhecimento
estrutural que permite adequar o sistema para uma melhor abordagem dos problemas em
vista dos resultados esperados em cada trabalho. Os tipos espec´ıficos de imagens captados
pelas ameras, a dura¸ao das tomadas de acordo com o tipo de seq¨uˆencia, a tentativa de
representar o comportamento de um per´ıodo de replay, todas essas caracter´ısticas, na
´area em que cada etodo se prop˜oe, ao fruto de um conhecimento pr´evio do tipo de
v´ıdeo a ser manipulado e demonstram como o trabalho com v´ıdeos estruturados pode ser
orientado diretamente pelas caracter´ısticas estruturais destes.
A representa¸ao dos dados nos arquivos compactados (com os quadros P , B e I)
tamb´em podem ser utilizada nos m´etodos de manipula¸ao de v´ıdeos, pois informa¸oes
referentes `as diferen¸cas entre as imagens da seq¨encia ao utilizadas pelo processo de
compacta¸ao das imagens e gera¸ao do v´ıdeo.
Da mesma forma, a representa¸ao da imagens da seq¨encia separadamente, nos
diversos formatos dispon´ıveis, permite ressaltar caracter´ısticas das imagens que ao est˜ao
dispon´ıveis no modo compactado. Parte-se sempre de uma melhor representa¸ao vi-
sual dos dados contidos, sem nenhuma perda de conte´udo (como no v´ıdeo compactado),
11
assumindo-se o custo computacional necess´ario para desenvolver tais tarefas.
Dos trabalhos descritos nesta se¸ao ser˜ao utilizadas arias ecnicas no decorrer do
trabalho.
A representa¸ao das imagens em formato HSV em histogramas de 16 n´ıveis, e
tamb´em a utiliza¸ao de caracter´ısticas de movimento (mesmo que atrav´es de outra repre-
senta¸ao) ser˜ao aplicadas neste trabalho.
Outras t´ecnicas que ao foram utilizadas neste trabalho ter˜ao a sua aplicabilidade
discutida na parte final do trabalho, pois arias deste ecnicas podem ser ´uteis a um
sistema de caracteriza¸ao de v´ıdeos estruturados.
12
13
Cap´ıtulo 4
M´etodo Proposto
O m´etodo em quest˜ao aplica algumas t´ecnicas descritas nas se¸oes anteriores e
prop˜oe uma nova abordagem para caracterizar e classificar as imagens contidas em um
v´ıdeo estruturado. Como principais caracter´ısticas exploradas nesse etodo est˜ao a dife-
ren¸ca de cores em um espa¸co HSI (Matiz, Saturao, Intesidade) e as caracter´ısticas de
movimenta¸ao do v´ıdeo.
Os v´ıdeos estruturados ao seq¨encias que possuem um formato tecnicamente de-
finido e caracter´ısticas peculiares como posicionamento de amera, ilumina¸ao e cortes
t´ecnicos. Os v´ıdeos possuem uma boa resolu¸ao e uma taxa de amostragem em torno de
25 quadros por segundo (qps).
O etodo implementado possui trˆes partes definidas, a partir das imagens ex-
tra´ıdas do v´ıdeo. O segundo passo consiste em tomar essas imagens HSI quantizadas e
calcular o histograma, dividindo a imagem em 20 partes iguais. Dessa forma, para cada
par de imagens, suas partes ser˜ao comparadas considerando uma medida de Interse¸ao de
Cores e outra de Interse¸ao de Movimento.
A terceira parte ser´a uma classifica¸ao da diferen¸ca entre os quadros, baseado nos
20 valores de Cores e Movimento. Dessa forma os pares de imagens ser˜ao rotulados de
acordo com a quantidade de movimenta¸ao existente, considerando quatro n´ıveis para os
pares de quadros.
A estrutura completa do etodo est´a mostrada na Figura 4.1, e a descri¸ao com-
pleta de cada uma das partes menc ionadas ´e feita nas se¸oes seguintes.
4.1 Especifica¸oes T´ecnicas
Os recursos t´ecnicos utilizados no estudo foram:
Processador Athlon 1.662 MHz, 512 MB de mem´oria RAM, 40 GB de Disco R´ıgido.
14
Figura 4.1: Diagrama do sistema
15
Processador Athlon 1.466 Mhz, 256 MB de mem´oria RAM, 36 GB de Disco R´ıgido.
aquina bi-processada Intel Pentium 4 2.600 MHz, 1,5 GB de mem´oria RAM e 90
GB de Disco R´ıgido.
Os recursos foram utilizados para armazenagem e processamento dos filmes.
Para os processos de extra¸ao das imagens dos v´ıdeos foi utilizada a ferramenta
FFMPEG [FFMPEG, 2003] As opera¸oes desenvolvidas pelo sis tema foram desenvolvidas
em scripts feitos para a ferramenta de alculos matem´aticos Octave [OCTAVE, 2003].
4.2 Representa¸ao dos Quadros
De um v´ıdeo em formato digital ao extra´ıdos os quadros que o comp˜oem. As
imagens extra´ıdas de cada seq¨uencia ao originalmente representadas em RGB.
Figura 4.2: Primeira Parte do Sistema
Para obter uma resposta mais precisa referente `a luminosidade contida em cada
quadro, estes ao convertidos do formato RGB para o formato HSI (Figura 4.2), de acordo
com a defini¸ao:
H(i, j) = cos
1
1
2
[(R G) + (R B)]
(R G)
2
+ (R B)(G B)
(4.1)
S(i, j) = 1
3
R + G + B
[min(R, G, B)] (4.2)
I(i, j) =
1
3
(R + G + B) (4.3)
Os coeficientes HSI contidos nas imagens ser˜ao quantizados para equalizar os va-
lores contidos em cada um dos coeficientes. Dessa forma foram definindos 16 n´ıveis de
16
representa¸ao para os canais de cor: 8 n´ıveis para o canal H , 4 para S e 4 para I.
4.3 Histogramas HSI
Figura 4.3: Exemplo imagem dividida em 20 partes filme ’Cidade de Deus’
Partindo de um grupo de imagens em formato HSI quantizado em 16 n´ıveis, o
sistema ir´a carregar estas imgagens e fazer a sua compara¸ao em tempo de e xecu¸ao. A
Figura 4.8 mostra a es trutura desta parte do sistema.
As imagens ser˜ao divididas em 20 partes cada uma, e para cada parte ser´a com-
putado um histograma HSI de 16 canais. Dessa forma, as rela¸oes entre as imagens ser˜ao
tomadas para cada par de subpartes. A Figura 4.3 representa uma imagem dividida em
20 partes.
As subpartes de cada par de imagens ao tomadas par a par e seus histogramas,
baseados nos coeficientes HSI quantizados, ao extra´ıdos. Cada histograma ´e formado
atrav´es da associa¸ao das resp ostas para cada um dos canais HSI dos segmentos. As
Figuras 4.4, 4.4 e 4.6 demonstram histogramas comums dos canais HSI extra´ıdos da
subparte n ´umero 7 (linha 2 coluna 2) da Figura 4.3, sem quantiza¸ao. O histograma
quantizado desta mesma subparte da imagem de exemplo ´e demonstrado na imagem
4.7. Desta forma podemos verificiar que a representa¸ao de HSI quantizado possibilita
agrupar os trˆes histogramas em um o devido a variabilidade dos valores estar em um
mesmo conjunto.
Estes histogramas ao comparados baseado em duas medidas.
17
Figura 4.4: Exemplo de Histograma do Canal H extra´ıdo da subparte 7 da Figura 4.3
18
Figura 4.5: Histograma do Canal extra´ıdo da subparte 7 da Figura 4.3
19
Figura 4.6: Histograma do Canal I extra´ıdo da subparte 7 da Figura 4.3
20
Figura 4.7: Histograma Quantizado dos canais HSI extra´ıdo da subparte 7 da Figura 4.3
21
Figura 4.8: Segunda parte do Sistema
22
Uma medida de Interse¸ao de Cores, definida por:
sc(h
1
, h
2
) =
i
min(h
1
[i], h2[i])
N
(4.4)
onde h
1
e h
2
representam os histogramas da primeira e da segunda imagem respec-
tivamente.
Esta fun¸ao ter´a como valor aximo 1; quanto mais pr´oximo do aximo esse valor
estiver, mais semelhan¸ca tˆem as imagens entre si.
A outra medida utilizada ´e a de Interse¸ao de Movimento, que consiste no alculo
da axima Verossimilhan¸ca entre os histogramas, dada por:
sm(h
1
, h
2
) =
S
1
+S
2
2
+
M
1
M
2
2
2
2
S
1
S
2
(4.5)
onde M
1
e M
2
, S
1
e S
2
representam a edia e o desvio-padr˜ao da primeira e da
segunda subparte respectivamente.
Esta fun¸ao tem como valor m´ınimo 0, que quando ocorre significa que as subpartes
ao possuem movimenta¸ao entre si.
Vamos chamar de SC(sc1, sc2, sc3, ..., sc20) os valores de interse¸ao para cada subparte
do par e SM (sm1, sm2, sm3, ..., sm20) os valores de verossimilhan¸ca. Estes somat´orios
ter˜ao valores aximo de 20 para cores e m´ınimo de 0 para movimento.
4.4 Caracteriza¸ao
Um par de imagens possui um conjunto de 20 valores de interese¸ao de c ores e 20
valores de interese¸ao de movimento. Cada um desses grupos de 20 coeficientes ´e somado,
gerando dois valores repres entantes de cores e movimento para cada par de imagens.
Dessa forma, os dados foram analisados levando em considera¸ao os seus valores
representativos e a variabilidade poss´ıvel dentro destes valores. Essa an´alise deu origem a
uma caracteriza¸ao dos pares de imagens definindo n´ıveis de diferen¸ca. Assim, cada par
ter´a um otulo relacionado a quantidade de diferen¸ca entre as imagens.
23
Figura 4.9: Terceira parte do Sistema
A classifica¸ao dos pares de tomadas considera quatro valores poss´ıveis estados para
os pares de tomadas: C1, C2, C3 e C4 (Figura 4.9). Estes n´ıveis definem a quantidade de
ao entre o par e ao dados atrav´es de SC e SM , indo da menor diferen¸ca em C1 para
a maior diferen¸ca em C4.
Essa rotula¸ao da base gera um vetor de otulos de tamanho n 1 onde n ´e a
quantidade de imagens contidas na seq¨uˆencia. Este vetor vai representar toda a seq¨encia
do v´ıdeo estruturado, permitindo agrupar ou separar partes do v´ıdeo de acordo com a
quantidade de movimenta¸ao.
Baseado na variabilidade dos dados, e feitas an´alises do comportamento dos dados
contidos em diversas seq¨uˆencias de v´ıdeos foram definidos limiares de separa¸ao entre os
n´ıveis diferentes de movimenta¸ao contidos em um v´ıdeo estruturado.
Os otulos do tipo C1 caracterizam a m´ınima diferen¸ca entre o par de imagem.
Suas respostas tendem ao valor m´ınimo em SM e ao valor aximo em SC.
Os otulos de C 2 e C3 caracterizam os n´ıveis intermedi´arios de ao contidos em
um par de imagens. Eles representam as movimenta¸oes ocorridas em uma mesma tomada
que contenham ao em n´ıvel intermedi´ario.
A representa¸ao dos otulos do tipo C4 buscam representar imagens com alto n´ıvel
de divergˆencia, possivelmente imagens que pertencem a tomadas diferentes, ou que sofrem
um tipo de corte brusco, como os definidos na Se¸ao 2.2.
Para separar devidamente os valores de SC e SM foram definidos quatro valores
de limiares em de interse¸ao de cores (LC) e quatro para interse¸ao de movimento (LM ),
24
onde LC = {LC1, LC2, LC3, LC4} e LM = {LM 1, LM 2, LM 3, LM 4}. Estes valores
ser˜ao aplicados nos testes de ground-truth, descritos na se¸ao de Testes.
Dado que o valor aximo de SC seja M AX(SC) e o valor m´ınimo de SM seja
M I N (SM ), a varia¸ao dos limiares para os otulos ´e dada da seguinte forma:
C1: MAX(SC) SC > LC1 e MIN(SM) SM < LM 1
C2: LC1 SC > LC2 e LM 1 SM < LM 2
C3: LC2 SC > LC3 e LM 2 SM < LM 3
C4: LC3 SC > LC4 e LM 4 SM < LM 4
Este vetor passa por um processo de ground-truth com o vetor de otulos identifica-
dos previamente, avaliando os resultados atraes do etodo qualitativo de Precis˜ao-
Recobrimento [GARGI et al., 2000]. Defina-se λ como Precis˜ao e ϕ com Recobrimento
atrav´es de:
λ =
D
D + DE
(4.6)
ϕ =
D
D + AF
(4.7)
onde D ´e a quantidade de rotula¸oes corretas, DE ´e a quantidade de detec¸oes errˆoneas
(casos onde o sistema ao identifica um determinado elemento do grupo) e AF representa
os alarmes falsos (casos onde o sistema classifica com um determinado elemento que ao
condiz com o otulo previamente definido).
Cada seq¨uˆencia avaliada ter´a quatro valores para Precis˜ao e quatro para Recobri-
mento, sendo um para cada poss´ıvel otulo do par de imagem. Assim pode-se tra¸car uma
curva com o desempenho do m´etodo para cada n´ıvel de movimenta¸ao das imagens, a
medida que LC e LM variam.
25
Cap´ıtulo 5
Experimentos
A fase de experimentos foi composta por uma s´erie de passos. A primeira de todas
foi a parte de sele¸ao dos filmes para compor a base de dados. Em seguida foram aplicadas
as t´ecnicas descritas no Cap´ıtulo 4.
Foram escolhidos dois filmes, e para cada um destes filmes foram separados dois
conjuntos de testes: um com imagens rotuladas manualmente e outro sem rotula¸aoo.
Cada um destes grupos cont´emm um total de 10.000 imagens. O conjunto de imagens
rotuladas foi dividido em duas partes neste trabalho para facilitar a descri¸ao e mostra¸ao
dos detalhes do trabalho.
Esta Se¸ao come¸ca com uma descri¸ao dos filmes escolhidos para a base de dados e
o processo que definiu essa escolha. Em seguida, os proc essos descritos na Se¸ao etodo
Proposto ao revistos, levando em considera¸ao o seu comportamento aplicado aos filmes
escolhidos. Para finalizar, uma an´alise dos resultados obtidos, assim como coment´arios e
apontamentos.
5.1 Base de Dados
Para o processo de escolha dos filmes, foram analisados arios t´ıtulos, levando em
considera¸ao a sua relevˆancia para o trabalho. Esta relevˆancia est´a relacionada com a
diversidade das cenas contidas nos filmes, caracter´ısticas cinem´aticas que possam definir
o filme, e `a variabilidade da dinˆamica das seq¨encias e movimenta¸ao de amera contidas
neste. Para este trabalho foram escolhidos dois filmes.
Os filmes utilizados foram “Matrix Reloaded” [WARNER, 2003], “Cidade de Deus”
[MIRAMAX, 2003]. Cada um destes possui caracter´ısticas visuais peculiares como mos-
trado a figura 5.1.
Cada um destes filmes possui mais de 100 mil quadros.
26
(a) Quadro de “Matrix Reloaded” 480X208 (b) Quadro de “Cidade de Deus” 592X320
Figura 5.1: Exemplos de Imagens da base de dados.
Uma das etapas dos experimentos realizados foi a an´alise e rotula¸ao manual do
filme, que consistiu na avalia¸ao quadro a quadro de cada grupo de 10.000 imagens dos
filmes escolhidos. Cada par avaliado obteve um otulo entre os C1, C2, C3 ou C4 pre-
viamente descritos neste trabalho. Posteriormente esses otulos foram comparados com
os otulos obtidos pelo sistema. Os resultados obtidos com essa aplica¸ao (ground-truth)
ser˜ao descritos nas pr´oximas se¸oes.
5.1.1 Detalhes ecnicos dos filmes
Os v´ıdeos foram obtidos em formato compactado e suas imagens foram extra´ıdas
para arquivos do tipo JPG. A Tabela 5.1 descreve os detalhes principais detalhes t´ecnicos
de cada um dos filmes, como tipo do arquivo, quantidade de QPS (Quadros por Segundo),
resolu¸ao e dura¸aoo dos filmes.
Tabela 5.1: Especifica¸oes t´ecnicas dos filmes
Nome QPS Tipo Arquivo Resolu¸ao Dura¸ao
“Matrix Reloaded” 25 MPEG-4 XVid 480x208 2:06:44
“Cidade de Deus” 25 MPEG-4 XVid 592x320 2:04:09
5.1.2 “Matrix Reloaded”
Este filme possui como uma de suas principais caracter´ısticas a baixa ilumina¸ao.
A maior parte das cenas ´e capturada em ambientes fechados ou `a noite, o que explica
a pouca quantidade de luz presente na seq¨encia. Existem tamb´em muitas seq¨uˆencias
de ao e di´alogo, tornando o filme bem variado em tipos de cena. Esse fator torna
impactante o aparecimento repentino de elementos como pessoas, por exemplo. A figura
27
(a) Quadro
n
o
4325
(b) Quadro
n
o
9680
(c) Quadro
n
o
9744
(d) Quadro
n
o
13807
(e) Quadro
n
o
15328
Figura 5.2: Exemplo de seq¨encia “Matrix Reloaded”
5.1.2 mostra imagens peculiares do filme.
5.1.3 “Cidade de Deus”
(a) Quadro
n
o
2875
(b) Quadro
n
o
2876
(c) Quadro
n
o
2877
(d) Quadro
n
o
2878
(e) Quadro
n
o
2879
(f) Quadro
n
o
2880
(g) Quadro
n
o
2881
(h) Quadro
n
o
2882
(i) Quadro
n
o
2883
(j) Quadro
n
o
2884
(k) Quadro
n
o
2885
(l) Quadro
n
o
2886
(m) Qua-
dro n
o
2887
(n) Quadro
n
o
2888
(o) Quadro
n
o
2889
Figura 5.3: Exemplo de seq¨encia “Cidade de Deus”
No caso deste filme, as cores utilizadas foram mais claras do que as aplicadas no
filme “Matrix Reloaded”. A dinˆamica das cenas resulta em tomadas menores e a capta¸ao
de cenas com amera na ao proporciona grande movimenta¸ao. A figura 5.1.3 mostra
um exemplo de uma tomada do filme.
28
5.2 Convers˜ao RGB para HSI
Em sua totalidade, cada um dos filmes conta com mais de 100 mil quadros. Como
os grupos definidos para este trabalhos foram de 20 mil quadros cada, foram escolhidos
os 20 mil primeiros quadros de cada filme para o procedimento de testes.
O processo de convers˜ao de RGB para HSI quantizado foi implementado atrav´es
de scripts para o ambiente Octave e demanda um tempo de em edia 40 segundos por
imagem. Para um total de 20 mil imagens, como foram definidos os grupos de teste, o
tempo de convers˜ao das imagens da base foi em torno de 22 horas.
Cada arquivo salvo pelo etodo tem um tamanho m´edio de 4.000 KB, demandando
um espa¸co em disco da ordem de 78 GB por grupo de imagens.
Estas informa¸oes foram obtidas com os recursos ecnicos descritos na Se¸ao 4.1.
5.3 Compara¸ao de imagens
Para a compara¸ao dos histogramas HSI quantizados, as imagens armazenadas da
seq¨uˆencia ao carregadas par a par e o processo de extra¸ao de SC e SM ´e feito.
Para cada par de imagens, o tempo de processamento desta parte do m´etodo ´e de
em torno de 2 minutos. Para um total de 20 mil imagens es se tempo de processamento
eh da ordem de 500 horas.
Durante essa compara¸ao ´e salvo um arquivo para cada par de imagens, contendo
dos valores de sc e sm (dois vetores de 20 valores cada). Estes arquivos consomem um
espa¸co em disco r´ıgido em torno de 160KB cada. Estes arquivos salvos ao a representa¸ao
das diferencas entre os quadros do filme e os valores ser˜ao avaliados nos processos poste-
riores.
5.4 Extra¸c˜ao de Caracter´ısticas
Nesta Se¸ao ser˜ao descritos os resultados obtidos para os grupos de 5.000 imagens
de cada base.
Os arquivos referentes a cada par de imagens ao carregados e avaliados segundo
as regras definidas na Se¸ao 4.4. A partir destes crit´erios obt´em-se um vetor de tamanho
n 1 onde n ´e a quantidade de imagens contidas em cada seq¨encia. Este vetor contem
os otulos para todos os pares de quadros das imagens.
Em seguida, esse arquivo ´e comparado com o arquivo dos pr´e-rotulados para obter
Precis˜ao e Recobrimento para cada um dos otulos.
29
De cada grupo obt´em-se um vetor de 4.999 otulos, representando cada um dos
pares de imagens da base testados.
5.4.1 Experimentos com o filme “Matrix Reloaded”
Figura 5.4: Gr´afico Cores e Movimento filme “Matrix Reloaded” quadros 1 a 5.000
A figura 5.4 mostra os valores de SC e SM para os primeiros 5.000 quadros do
filme. Os vales no vetor de cores representam maior diferen¸ca entre os valores de SC das
imagens, da mesma forma acontece com os picos do vetor dos valores de movimento.
A figura 5.5 mostra as varia¸oes de SC e SM para o segundo grupo de 5.000
imagens.
5.4.2 Experimentos com o filme “Cidade de Deus”
Os valores para SC e SM est˜ao representados na figura 5.6. Da mesma forma que
no filme “Matrix Reloaded” os vales no vetor de cores representam maior diferen¸ca entre
os quadros assim como os picos no vetor de movimento.
30
Figura 5.5: Gr´afico Cor e Movimento filme “Matrix Reloaded” quadros 5000 a 10000
31
Figura 5.6: Gr´afico Cor e Movimento filme “Cidade de Deus” quadros 1 a 5000
32
Figura 5.7: Gr´afico Cor-Movimento filme “Cidade de Deus” quadros 5000 a 10000
33
Os valores de SC e SM para o segundo grupo de 5.000 imagens para este filme
est´a mostrado na figura 5.7.
5.5 Rotula¸c˜ao
A aplica¸ao do m´etodo sobre a base rotulada de 20 mil imagens, permite obter uma
medida de avalia¸ao qualitativa do m´etodo atrav´es das curvas de Precis˜ao e Recobrimento.
O processo de rotula¸ao manual das tomadas consistiu em uma an´alise detalhada
da varia¸ao de cada par de quadros em 10 mil imagens de cada um dos filmes. E ssa
avalia¸ao ´e subjetiva e serviu de base aos limiares arbitr´arios que cercearam a defini¸ao
das m´etricas de rotula¸ao da base atrav´es do sistema desenvolvido.
Aplicado o processo de ground-truth aos resultados obtidos do sis tema aos grupos
de 5.000 imagens para cada filme, variam-se os limiares de caracteriza¸ao dos n´ıveis (LC e
LM ) de ao e dessa forma podemos extrair a curva de Precis˜ao e Recobrimento a medida
que estes valores variam.
Como ao quatro n´ıveis de diferen¸ca entre os pares de imagens, obt´em-se uma
curva para cada otulo.
Os valores de LC e LM foram projetados em cinco poss´ıveis valores para a gera¸ao
das curvas. Estes valores ao mostrados nas Tabelas 5.2 e 5.3, respectivamente.
Representativamente, cada grupo de limiares ser´a representado com um n´umero
e estes n´umeros ir˜ao compor o eixo das coordenadas nos gr´aficos que se seguem. Estes
valores foram aplicados para cada um dos limiares LC = {LC1, LC 2, LC 3, LC4} e LM =
{LM 1, LM 2, LM 3, LM 4} utilizando as defini¸oes descritas na Se¸ao 4.4.
Tabela 5.2: Varia¸ao dos Limiares LC
Grupo 1 2 3 4 5 6 7 8
LC1 17 16 19 19 17 17 17 17
LC2 17 16 19 16 15 16 16 16
LC3 12 12 14 14 12 13 13 13
LC4 12 12 14 12 8 13 13 13
Tabela 5.3: Varia¸ao dos Limiares LM
Grupo 1 2 3 4 5 6 7 8
LM1 21 22 23 23 20 20 21 21
LM2 23 24 25 25 23 30 30 35
LM3 30 31 32 32 25 40 35 45
LM4 50 51 52 52 52 60 35 45
34
Nesta parte, est˜ao os gr´aficos e tabelas referentes ao testes aplicados aos grupos de
limiares previamente descritos. Cada gr´afico possui a sua tabela de dados correspondente
mostrada.
Figura 5.8: Curva Recobrimento “Matrix Reloaded” primeiro grupo de 5.000 imagens
Baseado nos limiares definidos na Tabela 5.2 e 5.3 a figura 5.8 mostra a curva de
Recobrimento para o primeiro grupo de 5.000 imagens do filme “Matrix Reloaded” e a
figura 5.9 mostra a distribui¸ao de Precis˜ao do mesmo. Os dados contidos na figura 5.8
est˜ao mostrados na Tabela 5.4 e os dados referentes ao gr´afico de Precis˜ao est˜ao descritos
na Tabela 5.5.
O segundo grupo de 5.000 imagens tem suas curvas de Precis˜ao e Recobrimento
mostrados nas figuras 5.10 e 5.11 respectivamente. Seus dados est˜ao dispostos nas tabelas
5.6 e 5.7.
As 5.000 primeiras imagens tˆem a sua curva Recobrimento mostrada na figura 5.12
e a figura 5.13 mostra os valores de P recis˜ao do mesmo per´ıodo, com os dados mostrados
nas Tabelas 5.9 e 5.8. As c urvas de Precis˜ao e Recobrimento para o segundo grupo de
5.000 imagens do filmes est˜ao mostrados nas figuras 5.14 e 5.15 e seus dados dispostos
35
Figura 5.9: Curva Precis˜ao “Matrix Reloaded” primeiro grupo de 5.000 imagens
36
Figura 5.10: Curva Precis˜ao “Matrix Reloaded” segundo grupo de 5000 imagens
37
Figura 5.11: Curva Recobrimento “Matrix Reloaded” segundo grupo de 5000 imagens
38
Figura 5.12: Curva Recobrimento “Cidade de Deus” primeiro grupo de 5.000 imagens
39
Figura 5.13: Curva Precis˜ao “Cidade de Deus” primeiro grupo de 5.000 imagens
40
Figura 5.14: Curva de Precis˜ao “Cidade de Deus” segundo grupo de 5.000 imagens
41
Figura 5.15: Curva de Recobrimento “Cidade de Deus” segundo grupo de 5.000 imagens
42
Tabela 5.4: Dados de Recobrimento para “Matrix Reloaded” primeiro grupo de 5.000
imagens
Grupos Limiares C1 C2 C3 C4
1 90,61% 8,89% 9,09% 12,50%
2 94,59% 4,44% 9,09% 15,00%
3 76,47% 0,00% 15,15% 42,50%
4 76,47% 4,44% 9,09% 40,00%
5 60,83% 26,67% 0,00% 15,00%
6 60,83% 31,11% 9,09% 10,00%
7 90,61% 15,56% 3,03% 10,00%
8 90,61% 15,56% 9,09% 12,50%
Tabela 5.5: Dados de Precis˜ao para “Matrix Reloaded” primeiro grupo de 5.000 imagens
Grupos Limiares C1 C2 C3 C4
1 98,46% 1,45% 10,71% 2,46%
2 98,23% 1,44% 21,43% 4,11%
3 99,28% 0,00% 9,80% 1,45%
4 99,28% 2,38% 20,00% 1,40%
5 98,25% 0,68% 0,00% 2,73%
6 98,25% 0,75% 17,65% 4,60%
7 98,46% 1,75% 9,09% 4,21%
8 98,46% 1,73% 33,33% 5,38%
nas Tabelas 5.10 e 5.11.
O ponto mais est´avel de detec¸ao verificado pelo processo de ground-truth est´a nos
grupos de limiares definidos para os valores LC = {17, 16, 13, 13} e LM = {21, 35, 45, 45}.
Estes valores ao utilizados como balizadores para a gera¸ao dos otulos para o conjunto
das 20 mil imagens ao rotuladas da base.
A porcentagem de cada otulo obtido atrav´es do melhor limiar para ambos filmes
est´a mostrada na Tabela 5.12.
Tabela 5.6: Dados de Precis˜ao para “Matrix Reloaded” segundo grupo de 5.000 imagens
Grupos Limiares C1 C2 C3 C4
1 98,87% 3,33% 5,26% 2,86%
2 98,83% 0,00% 0,00% 5,00%
3 98,95% 0,00% 0,00% 2,22%
4 98,95% 0,00% 0,00% 2,71%
5 98,91% 0,49% 0,00% 3,61%
6 98,91% 0,62% 0,00% 0,00%
7 98,87% 3,33% 0,00% 0,00%
8 98,87% 3,12% 0,00% 0,00%
43
Tabela 5.7: Dados de Recobrimento para “Matrix Reloaded” segundo grupo de 5.000
imagens
Grupos Limiares C1 C2 C3 C4
1 97,16% 11,11% 8,33% 5,88%
2 97,99% 0,00% 0,00% 8,82%
3 95,32% 0,00% 0,00% 14,71%
4 95,32% 0,00% 0,00% 17,65%
5 86,24% 16,67% 0,00% 8,82%
6 86,24% 22,22% 0,00% 0,00%
7 97,16% 16,67% 0,00% 0,00%
8 97,16% 16,67% 0,00% 0,00%
Tabela 5.8: Dados de Precis˜ao para “Cidade de Deus” primeiro grupo de 5.000 imagens
Grupos Limiares C1 C2 C3 C4
1 95,39% 8,20% 8,33% 6,14%
2 94,21% 9,55% 9,68% 5,87%
3 97,84% 0,00% 9,45% 4,21%
4 97,84% 8,70% 9,09% 4,53%
5 95,87% 3,39% 0,00% 6,19%
6 95,87% 4,10% 27,66% 6,22%
7 95,39% 10,59% 21,21% 6,27%
8 95,39% 10,76% 35,71% 6,65%
5.6 Discuss˜ao
O etodo aplicado foi testado para um total de 40 mil imagens retiradas de dois
filmes diferentes, sendo que as imagens foram separadas em dois grupos, onde 20 mil
imagens foram previamente rotuladas e outras 20 mil foram submetidas ao etodo sem
rotula¸ao.
A partir destes testes, algumas conclus˜oes podem ser tiradas, tanto sobre os resul-
tados obtidos quanto `a aplica¸oes do etodo futuramente.
Tabela 5.9: Dados de Recobrimento para “Cidade de Deus” primeiro grupo de 5.000
imagens
Grupos Limiares C1 C2 C3 C4
1 84,70% 14,45% 8,46% 22,07%
2 89,78% 8,67% 4,62% 17,93%
3 62,81% 0,00% 9,23% 56,55%
4 62,81% 4,62% 3,08% 60,69%
5 49,46% 40,46% 0,00% 24,83%
6 49,46% 52,60% 10,00% 16,55%
7 84,70% 31,21% 5,38% 17,93%
8 84,70% 33,53% 7,69% 17,93%
44
Tabela 5.10: Dados de Precis˜ao para “Cidade de Deus” segundo grupo de 5.000 imagens
Grupos Limiares C1 C2 C3 C4
1 94,58% 26,80% 5,48% 0,56%
2 93,68% 36,84% 7,41% 0,61%
3 97,53% 0,00% 4,29% 1,61%
4 97,53% 39,58% 10,00% 1,50%
5 96,01% 6,85% 0,00% 0,45%
6 96,01% 8,20% 10,00% 0,00%
7 94,58% 38,70% 14,29% 0,00%
8 94,58% 39,11% 0,00% 0,00%
Tabela 5.11: Dados de Recobrimento para “Cidade de Deus” segundo grupo de 5.000
imagens
Grupos Limiares C1 C2 C3 C4
1 94,66% 12,81% 23,53% 1,37%
2 96,62% 8,75% 11,76% 1,37%
3 83,61% 0,00% 17,65% 21,92%
4 83,61% 5,94% 11,76% 20,55%
5 44,02% 57,19% 0,00% 1,37%
6 44,02% 70,62% 5,88% 0,00%
7 94,66% 31,56% 5,88% 0,00%
8 94,66% 33,12% 0,00% 0,00%
Quanto `a implementa¸ao do etodo, devemos considerar que o tempo de processa-
mento ´e uma condi¸ao determinante `a aplicabilidade desta ecnica em condi¸oes pr´aticas.
A utiliza¸ao da ferramenta Octave para o desenvolvimento do etodo proporcionou
implementar e testar diversas t´ecnicas baseado em suas facilidades de utiliza¸ao de fun¸oes
matem´aticas. Como contrapartida de sua aplica¸ao, o tempo de processamento em rela¸ao
a odigos compilados ´e muito grande, e ao permite grandes otimiza¸oes devido ao scripts
serem executados atrav´es do ambiente.
A ferramenta ´e muito ´util ao desenvolvimento da t´ecnica e na aplica¸ao dos testes
matem´aticos e, a partir do momento que estes testes ao efetivamente validados e ava-
liados, podem ser implementados em uma linguagem compilada, gerando assim, odigos
muito mais apidos e praticamente aplic´aveis.
Tabela 5.12: Porcentagem dos otulos na base ao rotulada
otulo Matrix “Cidade de Deus”
C1 79,7% 76,1%
C2 11,2% 8,7%
C3 4,4% 2,3%
C4 5,7% 13,9%
45
A rotula¸ao do grupo de imagens que compuseram o grupo de ao rotuladas que
foram utilizados servir˜ao como forma de projetar a curva de Precis˜ao-Recobrimento para
mais dados e conseqentemente ampliar a variabilidade dos dados utilizados e aumentar a
robustez do m´etodo para outros filme s.
A medida que se refinam as proje¸oes feitas pelo sistema, novas an´alises pode m ser
feitas sobre os valores obtidos nas diferen¸cas. As varia¸oes locais para os quadros de cada
par da imagem podem ser analisados separadamente, ou determinadas regi˜oes da imagem
podem ter peso maior sobre as decis˜oes tomadas pelo sistema de rotula¸ao dos pares de
imagens.
A detec¸ao de C 1 para os grupos de limiares foi a que obteve os melhores resultados.
O melhor resultado foi obtido com o segundo grupo de limiares, onde os valores de Precis˜ao
e Recobrimento.
Os valores de C 2 em uma variabilidade maior devido a quantidade de verifica¸oes
deste tipo de n´ıvel de ao ser menor. O grupo de limiares que teve a melhor resposta
para este foi o nmero 8.
O n´ıvel C 3 de ao tamb´em sofre com a pouca quantidade de dados contidas
nas seq¨encias. O melhor grupo de limiares para este n´ıvel foi o 4, seguido do nmero
8. Possivelmente a superioridade do grupo 4 sobre o grupo 8 seja devido a uma menor
separa¸ao entre os valores de LM 2 e LM 3 no grupo 4 (25 e 32 respectivamente) para os do
grupo 8 (35 e 45 respectivamente). Como o valor de LM 3 neste caso ´e consideravelmente
maior no grupo 4 que no grupo 8, este fator teve impacto na classifica¸ao.
Outro fator ponderante ao resultado ´e a similaridade entre os n´ıveis C2 e C3. Esse
fator influencia muito mais o car´ater subjetivo da rotula¸ao da base do que a pr´opria
sa´ıda do etodo.
Os resultados de C4 sofre com um outro fator que ´e a pouca quantidade de in-
cidˆencia deste tipo de quadros na seq¨encia. Desta forma, qualquer detec¸ao imprecisa
tem um impacto maior no resultado obtido. Os melhores resultados para C4 foram ob-
tidos com o grupo de limiares 5. Estes melhores resultados para C4 foram obtidos pelo
detrimento de C3.
A grande diferen¸ca de precis¸ao entre classificar os tipos de cena com m´ınimo de
ao (C1) est´a na grande similaridade das imagens que comp˜oem este tipo de distribui¸ao.
A separa¸ao dos n´ıveis superiores de ao (C 2, C3 e C 4) sofre com alguns fatores:
A subjetividade presente na rotula¸ao da base resulta em uma dificuldade de iden-
tificar os diferentes tipos de ao na seq¨uˆencia de forma padronizada.
A proximidade de C 2, C3 e C4 revelaram uma sensibilidade maior `as varia¸oes de
46
LM
As poss´ıveis solu¸oes para estas quest˜oes:
Fazer uma rotula¸ao mais apurada quanto `a separa¸ao dos n´ıveis de ao C 2, C3 e
C4;
Analisar o comportamento dos dados ap´os a rotula¸ao direcionada para definir ou-
tros valores para LC e LM ;
Testar estes novos limiares c om diversas combina¸oes em busca de uma melhor
representa¸ao.
47
Cap´ıtulo 6
Conclus˜oes
Este trabalho descreve um sistema de carcteriza¸ao e classifica¸ao de conte´udo em
v´ıdeos estruturados, tendo n´ıveis diferentes de movimenta¸ao como forma de representa¸ao
dos mesmos.
Os objetivos deste trabalho, como descrito no Cap´ıtulo ?? ao:
Fazer um estudo das diferentes ecnicas de manipula¸ao e an´alise de v´ıdeos estru-
turados para identificar formas de representa¸ao de v´ıdeos que permitam identificar
a ao contida nos mesmos;
Definir n´ıveis diferentes de ao para caracterizar os v´ıdeos;
A cria¸ao de uma base de dados de v´ıdeos estruturados para o trabalho;
Aplicar a caracteriza¸ao dos n´ıveis de ao `a base de dados criada.
Desta forma podemos analisar separadamente os objetivos espe c´ıficos do trabalho
e os resultados obtidos.
Atrav´es do estudo das ecnicas de manipula¸ao de v´ıdeos e imagens decidiu-se
pela utiliza¸ao da representa¸ao das imagens atrav´es do formato HSV. As caracter´ısticas
utilizadas para representar os pares de imagens foram a Interse¸ao de Histogramas HSV e
a axima Verossimilhan¸ca. Estas caracter´ısticas foram utilizadas com o objetivo de obter
uma representa¸ao da varia¸ao de cor e de movimento contida em cada par de imagens.
Foram definidos quatro n´ıveis diferentes de ao (C1, C2, C3, C4), indo da menor
quantidade de ao para a maior. Estes quatro n´ıveis foram criados atrav´es da an´alise da
base de dados criada. A defini¸ao de n´ıveis de ao para as seq¨uˆencias de v´ıdeos ´e uma
das principais caracter´ısticas do trabalho. Estes otulos podem servir como balisadores
para os processos posteriores de an´alise de v´ıdeo.
48
Foi criada uma base de dados a partir de dois filmes. De cada filme foram extra´ıdos
cerca de 10.000 quadros. Cada par de quadros das seq¨encias foi rotulado considerando
quatro n´ıveis diferentes de ao. A cria¸ao da base de dados rotulados ´e um passo muito
importante do trabalho, pois ao existe nenhuma base de v´ıdeos dispon´ıveis para p esquisa.
Desta forma a cria¸ao desta base ´e um passo inicial para que se crie uma base, com mais
dados, que sirva de parˆametro para as pesquisas em v´ıdeos estruturados.
A aplica¸ao da ecnica de rotula¸ao est´a descrita e analisada detalhadamente no
Cap´ıtulo 5. As principais quest˜oes a serem analisadas pela aplica¸ao do m´etodo ao:
O car´ater subjetivo da caracteriza¸ao da base de dados influenciou os resultados
obtidos;
A quantidade de filmes e de quadros existentes na base de dados denota a necessidade
de uma quantidade e uma variabilidade de filmes e estilos cinem´aticos maior;
As distribui¸oes de cor e movimento para as seq¨uˆencias demonstram uma separa¸ao
correspondente dos picos e vales destes elementos. Este fator ressalta a pertinˆencia
destas caracter´ıs ticas para representar os pares de quadros.
De uma forma geral o trabalho foi realizado de acordo com os objetivos definidos
previamente e os resultados obtidos pelo etodo apontam diversos caminhos poss´ıveis na
an´alise de v´ıdeos estruturados.
A pouca quantidade de publica¸oes diretamente relacionadas ao tema torna a quan-
tidade de alternativas grande, e tamem torna necess´arias atividades como a de desenvol-
vimento da base de dados, e outros trabalhos futuros a citados. Os resultados descritos
neste trabalho devem ser aplicados em uma base de dados maior, sofrendo mudan¸cas de
ajustes nos seus pesos para gera¸ao de novos dados qualitativos e novas avalia¸oes do
m´etodo.
A aplica¸ao de ecnicas de an´alise de conte´udo em v´ıdeos estruturados pode ser
aplicada em atividades pr´aticas como a recupera¸ao de v´ıdeos por conte´udo, aplic´avel `a
bibliotecas digitais. Estas ecnicas tamb´em podem ser aplicadas em sistemas de classi-
fica¸ao de conte´udos em repordutores de v´ıdeos digitais, tanto em computadores, quanto
em aparelhos comerciais como tocadores de DVD e aparelhos digitais.
A obten¸ao de uma representa¸ao dos n´ıveis de ao cont´ıdos em um v´ıdeo propor-
ciona tamb´em uma base para estudos posteriores que permitem analisar e tipificar uma
seq¨uˆencia de v´ıdeo, rotulando o per´ıodo de imagens como di´alogo, paisagem, violˆencia,
ao, atraes da adi¸ao de outros elementos estruturais ou espec´ıficos de cada um dos
tipos de cena.
49
6.1 Trabalhos Futuros
Para aumentar a robustez do m´etodo ao necess´arias e poss´ıveis algumas atividades
que ao como passos posteriores no desenvolvimento deste trabalho.
A necessidade de uma base de v´ıdeo rotulada com, ao menos, 5 filmes completos
´e um fator que proporciona ao estudo uma quantidade de amostras de tomadas muito
variadas. Para tanto, deve-se sselecionar mais filmes que possuam cenas com representa¸ao
adequada de tomadas tanto de ao quanto tomadas mais introspectivas. A gera¸ao de
tal base (at´e hoje indispon´ıvel) pode servir como base para o desenvolvimento de outros
estudos em v´ıdeos estruturados.
A proje¸c ˜ao dos limiares testados em uma quantidade maior de combina¸oes, anali-
sando as varia¸oes dos valores de Precis˜ao-Recobrimento `as mudan¸cas destes parˆametros.
Desta forma pode-se obter uma representa¸ao ´otima das varia¸oes de movimenta¸ao em
v´ıdeo, assim como uma an´alise do impacto das mudan¸cas de cada mum dos limiares nos
resultados obtidos. Essa quest˜ao est´a diretamente relacionada `a robustez do etodo, por-
que testar uma grande variabilidade de limiares em uma base de dados satisfatoriamente
representativa, proporciona uma confiabilidade ao etodo.
A an´alise local das diferen¸cas entre as imagens, atrav´es dos subpartes resultantes
da divis˜ao das imagens em 20 partes, ´e uma forma diferente de ver os mesmos dados
contidos nas imagens.
Essa vis˜ao local pode ser implementada de arias formas:
1) Definir pesos diferentes para determinadas regi˜oes ou grup os de subpartes base-
ados na regi˜ao de aten¸ao da imagem capturada, geralmente no centro. Esta ´e uma
caracter´ıstica cinem´atica que pode ser explorada.
2) Adicionar a informa¸ao da posi¸ao so subquadro ao valor da diferen¸ca. Desta
forma podem-se identificar varia¸oes em regi˜oes ”vizinhas”espacialmente nas ima-
gens. Assim pode-se aumentar a robustez `a grandes varia¸oes esparsas no espa¸co,
assim como contemplar varia¸oes locais.
A caracteriza¸ao manual de pares com muita ou pouca ao (C 4 e C1 respecti-
vamente) se apresenta mais simples devido a quantidade extrema de movimenta¸ao ou
diferen¸ca de cores presentes nos mesmos. Os casos de rotula¸ao de pares C2 e C3 possibi-
litam a ocorrˆencia de mais divergˆencias devido `a proximidade que ambos tipos possuem.
Este fatores em seu impacto na sa´ıda do sistema a partir do momento que tanto C 2
quanto C3 definem pares com ao, mesmo que em niveis diferentes. Como o objetivo
primeiro deste trabalho ´e o de caracterizar per´ıodos de ao e ao ao na seq¨encia de
50
v´ıdeo, o tratamento minucioso da separa¸ao dos n´ıveis intermedi´arios de ao torma-se
um trabalho posterior, a partir do momento em que tipos variados de ao sejam buscados
(violˆencia, persegui¸ao, luta, por exemplo).
Das ecnicas de outros trabalhos descritos na se¸ao 2 podemos apontar alguns
elementos que podem ser aplicados a este trabalho:
A representa¸ao de quadros-chave em [HANJALIC et al., 1997] pode ser aplicada
ao trabalho como elemento representativo para agrupar as tomadas semelhantes em
processos posteriores a caracteriza¸ao.
O acr´escimo da informa¸ao de tamanho da tomada [IYENGAR, 2002] pode ser
utilizado como elemento ponderante na classifica¸ao dos n´ıveis de ao.
51
Referˆencias Bibliogr´aficas
[FFMPEG, 2003] Fast fourier MPEG Software. http://ffmpeg.sourceforge.net/, 2003.
[OCTAVE, 2003] John W. Eaton. University of Wisconsin. Department of Chemical En-
gineering Gnu Octave, http://www.octave.org/, 2003.
[ADAMS et al., 2003] ADAMS, B., AMIR, A., DORAI, C., and GHOSAL, S. (2003).
Ibm research trec-2002 video retrieval system.
[ARMAN et al., 1994] ARMAN, F., HSU, A., and CHIU, M.-Y. (1994). Image processing
on encoded video sequences. In ACM Multimedia Systems Journal.
[BARRON et al., 1994] BARRON, J. L., BEAUCHEMIN, S. S., and FLEET, D. J.
(1994). On optical flow. In 6th Int. Conf. on Artificial Intelligence and Information-
Control Systems of Robots (AIICSR).
[CHOWDURRY and CHELLAPA, 2003] CHOWDURRY, A. R. and CHELLAPA, R.
(2003).
[DUGAD et al., 1998] DUGAD, R., RATAKONDA, K., and AHUJA, N. (1998). Robust
video shot change detection. In IEEE Workshop on Multimedia Signal Processing.
[EKIN and TEKALP, 2003] EKIN, A. and TEKALP, A. M. (2003). Generic event detec-
tion in sports video using cinematic features. In 2nd IEEE Workshop on Event Mining
: Detection and Recognition of Events in Video.
[EKIN et al., 2003] EKIN, A., TEKALP, A. M., and MEHROTRA, R. (2003). Automatic
soccer video analysis and summarization. IEEE Trans. Image Processing.
[FAN and LUO, 2003] FAN, J. and LUO, H. (2003). Principal video shot: Linkig low-
level perception features to semantic video events.
52
[GARGI et al., 2000] GARGI, U., Kasturi, R., and Strayer, S. H. (2000). Performance
characterization of video-shot-change detection methods. IEEE Trans. Circuits Syst.
Video Techn., 10(1):1–13.
[GULER et al., 2003] GULER, S., LIANG, W. H., and PUSHEE, I. A. (2003). A video
event detection and mining framework.
[HANJALIC et al., 1997] HANJALIC, A., CECCARELLI, M., LAGENDIJK, R. L., and
BIEMOND, J. (1997). Automation of systems enabling search on stored video data.
In Storage and Retreval for Image and Video Databases V.
[HANJALIC et al., 1999] HANJALIC, A., LAGENDIJK, R. L., and BIEMOND, J.
(1999). Automatically segmenting movies into logical story units. In Visual Infor-
mation and Information Systems.
[IYENGAR, 2002] IYENGAR, G. R. (2002). Characterization of Unstructured Video.
PhD thesis, Massachusetts Institure of Technology.
[KOBLA et al., 1996] KOBLA, V., DOERMANN, D., and ROSENFELD, A. (1996).
Compressed domain video segmentation.
[LEE et al., 2003] LEE, J. H., LEE, G. G., and KIM, W. Y. (2003). Automatic video
summarizing tool using mpeg-7 descriptors for personal video recorder. In IEEE Tran-
sactions on Consumer Eletronics.
[LI and SEZAM, ] LI, B. and SEZAM, M. I.
[LIN et al., 2002] LIN, C.-Y., TSENG, B., and SMITH, J. (2002). Universal mpeg content
access using compressed-domain system stream editing techniques. In Multimedia and
Expo, 2002. ICME ’02. Proceedings. 2002 IEEE International Conference, volume 2,
pages 73–76.
[MIRAMAX, 2003] International MIRAMAX (2003). Cidade de deus. Brasil.
[PATEL and SETHI, ] PATEL, N. and SETHI, I. Compressed video processing for cut
detection.
[RASHEED and Shah, 2003] RASHEED, Z . and Shah, M. (2003). Scene detection in
hollywood movies and tv shows. In IEE E International Conference on Coputer Vison
and Pattern Recognition (CVPR).
53
[RUI et al., 1998] RUI, Y., HUANG, T. S., and MEHROTRA, S. (1998). Exploring video
structure beyond the shots. In ICMCS ’98: Proceedings of the IEEE International
Conference on Multimedia Computing and Systems, page 237, Washington, DC, USA.
IEEE Computer Society.
[SETHI and PATEL, 1995] SETHI, I. K. and PAT EL, N. V. (1995). Statistical approach
to scene change detection. In Storage and Retrieval for Image and Video Databases
(SPIE), pages 329–338.
[SIKORA, 2003] SIKORA, T. (2003). Digital Consumer Eletronics Handbook. McGraw
Hill Book Company.
[STAUFFER, 2003] STAUFFER, C. (2003). Estimating tracking sources and sinks. In
Second IEEE Workshop on Event Mining.
[VASCONCELOS and LIPPMAN, 2000] VASCONCELOS, N. and LIPPMAN, A.
(2000). Feature representations for image retrieval: Beyond the color histogram. In
IEEE International Conference on Multimedia and Expo (II), pages 899–902.
[WARNER, 2003] WARNER Bros. (2003). The matrix reloaded. Estados Unidos da
America.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo