Download PDF
ads:
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
DISSERTAÇÃO
apresentada à UTFPR
para obtenção do grau de
MESTRE EM CIÊNCIAS
por
JOSÉ FREDERICO REHME
AVALIAÇÃO DA QUALIDADE DE VÍDEO TRAFEGANDO SOBRE
REDES IP
Banca Examinadora:
Presidente e Orientador:
Prof. Dr. ALEXANDRE DE ALMEIDA PRADO POHL UTFPR
Examinadores:
Prof.Dr. EDUARDO PARENTE RIBEIRO UFPR
Prof. Dr. MARCELO EDUARDO PELLENZ PUC-PR
Prof. Dr. RICHARD DEMO DE SOUZA UTFPR
Curitiba, fevereiro de 2007.
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
2
JOSÉ FREDERICO REHME
AVALIAÇÃO DA QUALIDADE DE VÍDEO TRAFEGANDO SOBRE
REDES IP
Dissertação apresentada ao Programa de Pós-
Graduação em Engenharia Elétrica e Informática
Industrial da Universidade Tecnológica Federal do
Paraná - UTFPR, como requisito parcial para a
obtenção do grau de Mestre em Ciências” Área
de Concentração: Telemática.
Orientador: Prof. Dr. Alexandre de A. Prado Pohl
Curitiba
2007
ads:
3
iii
“Não creia no que os seus olhos lhe dizem. Tudo o que mostram é limitação. Olhe com o
entendimento, descubra o que você já sabe e verá como voar.”
Richard Bach
iv
AGRADECIMENTOS
Aos meus filhos Frederico e Rafael, e à minha mulher, Rosana, pela paciência e pela
compreensão da redução do tempo a eles dedicado.
Aos meus pais, Cecília e Francisco, pelas lições através de exemplos da importância do
estudo e da dedicação aos objetivos propostos.
Ao professor Alexandre Pohl, por ter sido de direito e de fato um verdadeiro orientador.
Aos alunos da UTFPR, Bruno Pasi e Luiz Felipe de Toledo, pela inestimável ajuda e pelo
excelente trabalho na realização dos ensaios.
Ao professor Wagner Zola, pelo auxílio no gerenciamento da rede nas dependências da
UFPR.
Aos colegas de mestrado, especialmente à Gisane Michelon e ao Marcelo Arruda, pelo
companheirismo e dedicação demonstrados nos trabalhos em grupo.
Aos colegas de empresa, Emerson, Laércio e Ruth, pelos momentos de discussão a respeito do
tema.
À professora Maria Vaarwerk e ao professor Jackson Pitangueira, pelo incentivo e pelos
conhecimentos ministrados desde muitos anos até os dias de hoje.
À professora Keiko Fonseca, pelas várias sugestões dadas no decorrer do curso, pelas
referências sugeridas, e pelo empréstimo de recursos de laboratório.
A todos os professores com quem tive oportunidade de aprender nas disciplinas cursadas.
À RPC – Rede Paranaense de Comunicação, através do Enio Jacomino e do Ivan Miranda,
pela disponibilização de recursos financeiros e equipamentos, além da flexibilização de
horários de trabalho.
Ao CITS – Centro Internacional de Tecnologia de Software, pela disponibilização de
equipamentos.
v
SUMÁRIO
LISTA DE FIGURAS
……………………………………………..……………………………………
vii
LISTA DE TABELAS........................................................................................................ ix
LISTA DE GRÁFICOS......................................................................................................
x
LISTA DE ABREVIATURAS E SIGLAS........................................................................
xii
RESUMO.............................................................................................................................
xvi
ABSTRACT.........................................................................................................................
xvii
1 INTRODUÇÃO................................................................................................................
1
1.1 MOTIVAÇÕES.......................................................................................................... 1
1.2 OBJETIVOS............................................................................................................... 5
1.3 ESTRUTURA DA DISSERTAÇÃO..........................................................................
6
2 FUNDAMENTAÇÃO TEÓRICA..................................................................................
7
2.1 O SINAL DE VÍDEO.................................................................................................
7
2.1.1 O Sistema Visual Humano....................................................................................
7
2.1.2 O Sinal de Vídeo Analógico.................................................................................
8
2.1.3 Sinais de Teste Estáticos.......................................................................................
14
2.1.4 O Sinal de Vídeo Digital.......................................................................................
16
2.2 A COMPRESSÃO DE VÍDEO.................................................................................. 18
2.3 AS REDES DE DADOS.............................................................................................
25
2.3.1 Princípios Básicos.................................................................................................
25
2.3.2 Redes IP para Vídeo e a Estrutura de Quadros.....................................................
29
2.4 O CODIFICADOR E O DECODIFICADOR............................................................ 30
2.5 A MEDIÇÃO DA QUALIDADE DO VÍDEO...........................................................
32
2.5.1 Avaliação Subjetiva.............................................................................................. 34
2.5.1.1 MétodoDSIS................................................................................................... 36
2.5.1.2 Método DSCQS..............................................................................................
38
2.5.1.3 Métodos Alternativos......................................................................................
39
2.5.1.3.1 Método SS....................................................................................................
39
2.5.1.3.2 Métodos de Comparação de Estímulos........................................................
39
2.5.1.3.3 Método SSCQE............................................................................................
41
2.5.1.3.4 Método SDSCE............................................................................................
41
2.5.1.4 Outras Propostas de Avaliação Subjetiva....................................................... 42
vi
2.5.2 Avaliação Objetiva.. ...........................................................................................
42
2.6 AS DEGRADAÇÕES NO VÍDEO...........................................................................
47
3 METODOLOGIA E CONFIGURAÇÃO DOS EXPERIMENTOS...........................
49
3.1 CARACTERIZAÇÃO DO CODIFICADOR E DO DECODIFICADOR..................
51
3.1.1 Esquema do Ensaio................................................................................................
51
3.1.2 Configuração..........................................................................................................
52
3.1.3 As Fontes e os Monitores.......................................................................................
55
3.1.4 Testes Iniciais.........................................................................................................
57
3.1.5 Medições com Sinais de Teste Estáticos................................................................
61
3.1.6 Avaliação com Sinais Dinâmicos.......................................................................... 66
3.1.7 Ensaios Complementares.......................................................................................
68
3.2 ENSAIOS DA CONTRIBUIÇÃO DA REDE NA DEGRADAÇÃO DA
QUALIDADE do VÍDEO.....................................................................................................
70
3.2.1 A REMAV e as Adaptações Realizadas................................................................
71
3.2.2 A Geração de Carga – Tráfego para a Rede...........................................................
74
3.2.3 O Processo de Captura e Tratamento das Informações..........................................
77
3.2.4 Os Equipamentos para Análise de Vídeo...............................................................
80
3.2.5 Diagrama da Rede com os Equipamentos de Vídeo..............................................
81
3.2.6 Considerações Iniciais dos Ensaios na Rede..........................................................
81
3.2.7 Medidas de Qualidade de Vídeo na Rede..............................................................
82
4 RESULTADOS E DISCUSSÕES...................................................................................
85
4.1 ANÁLISE GRÁFICA DAS CARACTERÍSTICAS DA REDE................................. 88
4.2 ANÁLISE GRÁFICA DA INFLUÊNCIA DA REDE NA QUALIDADE DO
VÍDEO..................................................................................................................................
95
5 CONCLUSÕES................................................................................................................
113
ANEXO 1 - CARACTERÍSTICAS DO CODIFICADOR E DO
DECODIFICADOR............................................................................................................
119
ANEXO 2 - FORMAS DE ONDA DOS ENSAIOS DOS CODECs COM SINAIS
ESTÁTICOS........................................................................................................................
121
ANEXO 3 - TABELAS ESTATÍSTICAS DA REDE x QUALIDADE DO VÍDEO
125
ANEXO 4 - HISTOGRAMAS DAS CARACTERÍSTICAS DA REDE........................
129
REFERÊNCIAS BIBLIOGRÁFICAS..............................................................................
145
vii
LISTA DE FIGURAS
2.1
imagem e respectivo sinal composto de vídeo...........................................................
10
2.2 sinal de vídeo e sincronismo horizontal na escala IRE.............................................
11
2.3 detalhes do sinal de crominância (C) e do burst .......................................................
12
2.4 resolução horizontal...................................................................................................
13
2.5
sinal de teste NTC-7 – visualização e forma de onda de uma linha........................
14
2.6 sinal de teste “staircase”............................................................................................
15
2.7 sinal de teste “ Multiburst”........................................................................................ 15
2.8 digitalização do sinal – amostragem e quantização...................................................
17
2.9 estrutura hierárquica do MPEG-2..............................................................................
23
2.10 estrutura do datagrama UDP......................................................................................
27
2.11 estrutura do quadro Ethernet carregando pacotes MPEG-2.......................................
29
2.12 processo de vídeo sobre redes....................................................................................
30
2.13 esquema de teste DSIS...............................................................................................
36
2.14 tempos de observação e julgamento, método DSIS...................................................
37
2.15 classificação da qualidade da imagem pelo método DSCQS....................................
38
2.16 escala de PQR x escalas subjetivas............................................................................
45
2.17 esquema de medição com analisador de imagem......................................................
46
3.1 percepção de defeitos de acordo com a causa............................................................
50
3.2 esquema para ensaio do par codificador – decodificador..........................................
52
3.3 página de configuração básica do codificador via software VSI...............................
53
3.4 página de configuração avançada do codificador via software VSI..........................
53
3.5 página de configuração do codificador via web.........................................................
54
3.6 página de opções de configuração do decodificador, vista no monitor de vídeo,
acessada por teclado remoto......................................................................................
54
3.7 página de configuração de rede no decodificador, vista no monitor de vídeo,
acessada por teclado remoto......................................................................................
55
3.8 software de controle do analisador de vídeo VM700................................................
57
3.9 visualização da imagem decodificada com a primeira versão do software para
codificação de sinal PAL-M......................................................................................
58
3.10 imagem com a segunda versão PAL-M para o codificador.......................................
58
3.11 formas de onda das últimas linhas do campo............................................................ 59
viii
3.12 tracejado ocupando metade da linha visível 26.........................................................
60
3.13 relatório de medidas automáticas, sinal “matrix”......................................................
62
3.14 2Mbps: degradação do sinal de vídeo nas primeiras linhas visíveis..........................
65
3.15 7,5Mbps: degradação do sinal de vídeo nas primeiras linhas visíveis.......................
65
3.16 topologia física da ReMAV Curitiba........................................................................ 71
3.17 pontos da ReMAV Curitiba...................................................................................... 71
3.18 estrutura da rede e equipamentos incorporados na UTFPR..................................... 73
3.19 exemplo de tela do Iperf............................................................................................ 74
3.20 pares gerando tráfego UDP........................................................................................
76
3.21 pares gerando tráfego TCP........................................................................................ 76
3.22 visualização de tela do Ethereal.................................................................................
77
3.23 diagrama de fluxo dos pacotes...................................................................................
79
3.24 a rede e os equipamentos de vídeo.............................................................................
81
4.1 imagem do teste 104..................................................................................................
87
4.2 imagem do teste 110..................................................................................................
87
ix
LISTA DE TABELAS
2.1
modelo de camadas e respectivos protocolos............................................................
28
2.2 PVD para imagens em movimento............................................................................
35
2.3 conceito para avaliação DSIS....................................................................................
37
2.4 conceito para avaliação no método “Comparação de estímulos”..............................
40
3.1
valores de referência (gerador) e os obtidos com compressão em diversas
taxas; entrada e saída NTSC......................................................................................
62
3.2 qualidade da imagem x taxa de bits utilizada no codificador....................................
68
3.3 CPUs x tráfego gerado...............................................................................................
75
3.4 medidas do comportamento do tráfego......................................................................
78
3.5 qualidade de vídeo x características da rede..............................................................
82
4.1 testes 104 e 110..........................................................................................................
86
x
LISTA DE GRÁFICOS
4.1
teste 138 – tempo de chegada: tráfego 0, perda de pacotes 0, compressão de vídeo
7 Mbps.......................................................................................................................
90
4.2 teste 138 – delay: tráfego 0, perda de pacotes 0, compressão de vídeo 7 Mbps........
90
4.3 teste 107 – tempo de chegada: tráfego 891 Mbps, perda de pacotes 0,23 %,
compressão de vídeo 7 Mbps.....................................................................................
91
4.4 teste 107 – delay: tráfego 891 Mbps, perda de pacotes 0,23 %, compressão de
vídeo 7 Mbps............................................................................................................. 91
4.5
teste 112 – tempo de chegada: tráfego 961 Mbps, perda de pacotes 3,5 %,
compressão de vídeo 7 Mbps.....................................................................................
92
4.6 teste 112 – delay: tráfego 961 Mbps, perda de pacotes 3,5 %, compressão de
vídeo 7 Mbps............................................................................................................ 92
4.7 teste 122 – tempo de chegada: tráfego 1051 Mbps, perda de pacotes 29 %,
compressão de vídeo 7 Mbps.....................................................................................
93
4.8 teste 122 – delay: tráfego 1051 Mbps, perda de pacotes 29 %, compressão de
vídeo 7 Mbps ............................................................................................................ 93
4.9 teste 171 – tempo de chegada: tráfego TCP par Onça-Tigre e Puma-Lince perda
de pacotes 0,32 %, compressão de vídeo 7 Mbps......................................................
94
4.10 teste 171 – delay: tráfego TCP par Onça-Tigre e Puma-Lince perda de pacotes
0,32 %, compressão de vídeo 7 Mbps....................................................................... 94
4.11 7 Mbps - perda de pacotes x tráfego UDP................................................................ 99
4.12 7 Mbps - perda de pacotes x tráfego UDP, (zoom), mostrando o comportamento
para perda de pacotes de até 5 %...............................................................................
99
4.13 7 Mbps + UDP - qualidade do vídeo x perda de pacotes, em escala logarítmica......
100
4.14 7 Mbps + UDP - qualidade do vídeo x perda de pacotes, em escala linear, (zoom),
mostrando o comportamento para perda de pacotes de até 0,6 %.............................
100
4.15 7 Mbps + UDP - quantidade de ocorrência de artefatos x pacotes perdidos.............
101
4.16 7 Mbps + UDP - quantidade de ocorrência de artefatos x pacotes perdidos,
(zoom), mostrando o comportamento para perda de pacotes de até 0, 7 % ............. 101
4.17 2 Mbps + UDP - qualidade x pacotes perdidos, em escala logarítmica................... 102
4.18 2 Mbps + UDP - qualidade x pacotes perdidos, (zoom), mostrando o
comportamento para perda de pacotes de até 4 %.....................................................
102
xi
4.19 2 Mbps + UDP – quantidade de ocorrência de artefatos x pacotes perdidos............ 103
4.20 comparação da qualidade do vídeo entre taxas de 2 Mbps e 7 Mbps, UDP, log.......
104
4.21 comparação da qualidade do vídeo entre taxas de 2 Mbps e 7 Mbps, (zoom),
mostrando o comportamento para perda de pacotes de até 2 %................................
104
4.22 7 Mbps + tráfego agregado TCP - qualidade do vídeo x perda de pacotes............... 105
4.23 7 Mbps + tráfego agregado TCP - quantidade de ocorrências de artefatos x
pacotes perdidos.........................................................................................................
105
4.24 7 Mbps + UDP - atraso na rede x perda de pacotes.................................................. 106
4.25 7 Mbps + UDP - atraso na rede x perda de pacotes, (zoom), mostrando o
comportamento para perda de pacotes de até 5 %.....................................................
106
4.26 7 Mbps + UDP – jitter x perda de pacotes.................................................................
107
4.27 7 Mbps + UDP - jitter x perda de pacotes, (zoom), mostrando o comportamento
para perda de pacotes de até 5 %...............................................................................
107
4.28 7 Mbps + UDP - jitter x pacotes perdidos, (zoom), mostrando o comportamento
para perda de pacotes de até 0,7 %............................................................................
108
4.29 2Mbps + UDP - atraso na rede x pacotes perdidos....................................................
109
4.30 2Mbps + UDP - atraso na rede x pacotes perdidos, (zoom), mostrando o
comportamento para perda de pacotes de até 3,5 %..................................................
109
4.31 2Mbps + UDP - jitter x pacotes perdidos..................................................................
110
4.32 2Mbps + UDP - jitter x pacotes perdidos, (zoom), mostrando o comportamento
para perda de pacotes de até 3,5 %............................................................................
110
4.33 7 Mbps + tráfego agregado TCP - atraso na rede x pacotes perdidos....................... 111
4.34 7 Mbps+ tráfego agregado TCP - jitter x pacotes perdidos.......................................
111
xii
LISTA DE ABREVIATURAS E SIGLAS
A/D - Conversão de analógico para digital
ARIB - Association of Radio Industries and Business
ARP - Address Resolution Protocol
ATM - Asynchronous Transfer Mode
AVC - Advanced Video Coding
B - Bidirectional Frame (MPEG-2); sinal de cor azul
BER
-
Taxa de Erro de Bit (Bit Error Rate)
B-Y - sinal diferença de cor com azul
C - sinal de crominância
C
B
- sinal diferença de cor com azul
CBR - Taxa de Bit Constante (Constant Bit Rate)
CIF - Common Intermediate Format
CITS - Centro Internacional de Tecnologia de Software
CGI-br - Comitê Gestor da Internet no Brasil
CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
CPqD - Centro de Pesquisa e Desenvolvimento em Telecomunicações
CPU - Unidade central de processamento
C
R
- sinal diferença de cor com vermelho
D - DC Frame (MPEG-2)
D/A - Conversão de digital para analógico
DCT - Transformada discreta do cosseno (Discret Cosine Transform)
DSCQS - Double Stimulus Continuous Quality Scale
DSIS - Double Stimulus Impairment Scale
DTH - Direct to Home
DV - Digital Video ( formato de compressão)
DVB - Digital Video Broadcasting
DVD - Digital Video Disk
DVQL-W - Digital Video Quality Level
EBU - European Broadcasting Union
FEC - Forward Error Corrector
xiii
G - sinal de cor verde
GIF - Graphical Interchange Format
GOP - Group of Pictures
HVS - Human Visual System
I - Intracoded Frame (MPEG-2)
ICMP - Internet Control Message Protocol
IP - Internet Protocol
IRE - Instituto of Radio Engineers (origem do IEEE)
ISO - International Organization for Standardization
ITU-R - International Telecommunications Union, Radio Communication Sector
JND - Just Noticeable Difference
JPEG - Joint Photographic Experts Group
JVT - Joint Video Team
LAN - Local Area Network
LATE - Laboratório Avançado de Telecomunicações
LCD - Laboratório de Comunicação de Dados
MAC - Medium Access Control
MAN - Metropolitan Area Network
MPEG - Moving Picture Experts Group
MPLS - Multiprotocol Label Switching
MPQA - Multistage Perceptual Quality Assessment
MSE - Erro Médio Quadrático (Mean Squared Error)
MSO - Multiple Service Operator
NTC-7 - sinal de teste do National Telecommunications Commission
NTSC - National Television System Committee
OSI - Open Systems Interconnection
P - Predictive Coded Frame (MPEG-2)
PAL-M - Phase Alternating Line
PAR - Picture Appraisal Rating
PC - Computador Pessoal (Personal Computer)
PES - Packetyzed Elementary Stream
PQR - Picture Quality Rate, ou Perceptual Quality Rating
ProTeM-CC
- Programa Temático Multiinstitucional em Ciência da Computação
xiv
PSNR - peak signal to noise ratio
PUC-PR - Pontifícia Universidade Católica do Paraná
PVD - Preferred Viewing Distance
QCIF - Quarter - CIF
QoAS - Quality of
QoS - Quality of Service
R - sinal de cor vermelho
RAM - Memória de Acesso Aleatório
ReMAV - Rede Metropolitana de Alta Velocidade
RGB - sinal de vídeo componente
RNP - Rede Nacional de Ensino e Pesquisa
RSVP - Resource Reservation Protocol
RTP - Real-time Transport Protocol
R-Y - sinal diferença de cor com vermelho
S/N - Relação sinal-ruído (Signal to Noise Ratio)
SDI - Serial Digital Interface
SDSCE - Simultaneous Double Stimulus for Continuous Evaluation Method
SDTV - Standard Definition Television
SLA - Contrato de Nível de Serviço (Service Level Agreement)
SMPTE - Society of Motion Picture and Television Engineers
SS - Single Stimulus
SSCQE - Single Stimulus Continuous Quality Evaluation
TCP - Transmission Control Protocol
TIFF - Tagged Image File Format
TS - Transport Stream
UDP - User Datagram Protocol
UFPR - Universidade Federal do Paraná
UTFPR - Universidade Tecnológica Federal do Paraná
UTP - Unshielded Twisted Pair
VBR - Taxa de Bits Variável (Variable Bit Rate)
VCEG - Video Coding Experts Group
VHS - Vídeo-cassete doméstico (Video Home System)
VITS - Vertical Interval Test Signal
xv
VLAN - Rede local virtual (Virtual local area network)
VLC - Variable Lenght Code
VT - Video-tape
WAN - Wide Area Network
WM - Windows Media
WSNR - Weighted Signal to Noise Ratio
Y - sinal de luminância
xvi
RESUMO
O uso das redes de computadores, em especial redes IP, já é realidade para distribuição
e troca de conteúdo multimídia. Oferecem, dada sua capilaridade, uma opção econômica
inclusive para a contribuição e distribuição de vídeo de emissoras e redes de televisão. No
entanto, o material de vídeo e áudio apresenta normalmente características de tempo real, o
que cria restrições, ou pelo menos, requisitos rígidos das redes de dados para que o conteúdo
seja recebido dentro das limitações temporais e com a qualidade desejada.
Este trabalho avalia a relação entre os parâmetros da rede de transporte e a qualidade
do sinal de vídeo. São observadas, de forma experimental, as degradações inseridas tanto pela
rede quanto pelos equipamentos que fazem a adequação do vídeo e áudio às redes, os
terminais codecs. Apresenta ainda uma metodologia para mensuração e acompanhamento da
qualidade do sinal de vídeo trafegado sobre redes IP.
Os resultados dos ensaios realizados permitem que os usuários possam estabelecer os
valores aceitáveis para os parâmetros da rede, de modo a atender suas aplicações, e
demonstram a validade de um modelo de monitoração das características da rede e da
qualidade do vídeo.
xvii
ABSTRACT
Nowadays computer networks, especially IP networks, make distribution of
multimedia content possible. Because their wide range, IP networks offer a reasonable option
for video contribution and distribution for tv broadcasters. But video and audio content
normally have real-time characteristics. So, data networks must have a good performance and
some special issues to be able to traffic this kind of content in the right time and the desirable
quality.
This work evaluates the relation between network parameters and quality of video
signal. Experimentally, impairment caused not only by the network but also by the codecs
(they are a necessary interface between the video and audio signal and the network) is
observed. Furthermore, this work shows a methodology for measuring and monitoring video
quality over IP network.
The results of the tests let users establish acceptable values for network parameters to
attend their applications, and demonstrate how to apply a network parameters and video
quality monitoring systems.
1
CAPÍTULO 1
INTRODUÇÃO
1.1 MOTIVAÇÕES
Até poucos anos atrás, a transmissão de sinais multimídia, entre eles os de conteúdo
televisivo, era feita quase que exclusivamente em redes dedicadas para esta finalidade.
Eventualmente, contribuições entre emissoras de televisão utilizavam canais reserva das
operadoras de telefonia fixa. O custo de se construir e manter estas redes proprietárias é
bastante elevado, se tornando mais uma dificuldade para as emissoras de televisão aberta, a
cabo ou via satélite DTH (direct to home). Serviços de ensino à distância,
videoconferências ou eventos promocionais raramente eram viabilizados, devido ao custo das
operações.
A popularização das redes de computadores, o aumento de sua capacidade e a
possibilidade de tráfego multimídia oferecem uma oportunidade para redução de custos
operacionais relativos aos serviços existentes, abre novas possibilidades de aplicações e
convida novos produtores de conteúdo e operadores de sistemas a partilharem das facilidades
que os avanços tecnológicos asseguram. O uso de uma mesma estrutura Gigabit Ethernet para
transporte de dados, telefonia e vídeo propicia vantagens operacionais significativas a
operadores de múltiplos serviços (MSOs – multiple service operators) (LEVIN, 2003).
Para que as imagens possam trafegar em redes de dados, elas precisam estar em um
formato digital. Sons e imagens pertencem a um mundo analógico. Portanto, sua melhor
representação é obtida com sinais contínuos, analógicos, e que correspondem diretamente aos
sentidos (à visão e à audição humanas). Para adequar os sinais às redes de dados, eles
precisam ser digitalizados. Além desta necessidade, existe a vantagem de que o manuseio e
processamento de sinais discretos, com limitados e conhecidos símbolos para representar a
fonte, são mais precisos e simples de se repetir. No formato digital, em grande parte das
situações o sinal pode ser recuperado como cópia fiel do sinal transmitido, mesmo havendo
inserção de ruído no meio.
O maior entrave para a digitalização do vídeo é que a riqueza de detalhes de uma cena,
ou os milhares de cenas que compõe alguns minutos de sinal dinâmico, se transformam em
2
uma quantidade absurda de bits, para que se tenha uma qualidade aceitável da imagem
recuperada. Outro fator que traz dificuldades neste processo é que em muitos casos,
especialmente em televisão, existe a necessidade de se processar e transmitir este fluxo de
dados em tempo real. Entende-se por sistemas de tempo real as aplicações sujeitas a restrições
temporais (FARINES, FRAGA, OLIVEIRA, 2000). Por último, as redes não são imunes a
ruídos e perdas. No entanto, o avanço em técnicas de compressão e codificação de fonte, a
utilização de codificadores de canal e FEC (forward error correction), e o aumento da
capacidade das redes e processadores, aliados a mecanismos de QoS (quality of service),
permitem desde já o tráfego de vídeo de alta qualidade nas redes.
Apesar de que, uma vez digitalizado, o vídeo passa a ser dados, assim como são
representadas outras informações, a aplicação e seus requisitos são diferentes. As duas
características, tamanho da informação e tempo para seu tratamento e divulgação, colocam
desafios para as redes de computadores. Elas precisam estar aptas a atender requisitos
mínimos. Como muitos serviços de transporte e distribuição do vídeo são feitos por uma
operadora de rede contratada para tal, é importante que o usuário saiba caracterizar a rede que
deseja, descrever os parâmetros que considera necessários para sua aplicação, e possa, com
uso de ferramentas em hardware e software, medir e verificar o comportamento do sistema.
Nas redes de dados dedicadas, o controle de entrada de serviços é relativamente
simples, e é possível se garantir os recursos mínimos para cada aplicação com facilidade e
alto grau de certeza. O uso de tais redes é perfeitamente viável em ambientes restritos,
construindo-se LANs (local area network) de pequena abrangência. Para redes conectando
pontos distantes a centenas ou milhares de quilômetros entre si, a alternativa econômica
viável é o compartilhamento de recursos. Uma situação comum, especialmente em empresas e
grandes usuários, é o uso de redes mistas: as conexões de longa distância são realizadas
através de uma operadora de telecomunicações, que vende serviços de transporte de dados
para muitos clientes, e no ambiente interno os usuários são conectados através de uma rede
local, conhecida como intranet. Para tráfego intenso, os cabos coaxiais ainda são uma solução,
mas os cabos UTP (unshielded twisted pair) de categoria seis ou superior permitem a
elaboração de redes corporativas de alta capacidade (KISH, BOHBOT, 2003). A viabilidade
econômica é conseguida justamente pelo rateio dos recursos da rede. A própria internet se
baseia no princípio de não deixar sistemas ociosos. Mas este compartilhamento é
normalmente tratado de forma estatística, com relação ao volume de uso por parte dos
diversos clientes. Isto pode causar conflitos entre serviços que concorrem pelos meios. A
estrutura de redes comuns oferece riscos à qualidade de conteúdo multimídia devido às
3
políticas definidas para transmissão e descarte de pacotes. A limitação física em caso de
sobrecarga nos roteadores para direcionamento e retransmissão de pacotes gera perda de
informações para aplicações de tempo real, prejudicando a qualidade do conteúdo
apresentado. Aplicações multimídia normalmente são de tempo real e apresentam grande
geração de tráfego e alto consumo de canal de comunicação (SEGALL, 2005).
A informação multimídia é por natureza dependente de uma seqüência temporal, e
quadros recebidos atrasados em relação ao tempo de apresentação, ou fora da ordem natural
não são úteis, sendo então descartados. Porém, ocupam a rede. A saturação na rede causada
pelo tráfego de vídeo impacta tanto o próprio serviço quanto outros que compartilham o
mesmo meio (SEGALL, 2005).
As redes denominadas banda larga evoluem rapidamente, e se acredita que as
limitações de capacidade de canal devido à última milha” são temporárias (SERVETTO,
NAHRSTEDT, 1999). Provavelmente, porém, vai demorar muito para que se tenha a preços
baixos o acesso a redes abrangentes com as taxas, atrasos e perdas de informações peculiares
ao tráfego de vídeo e áudio. Os requisitos de QoS tornam até hoje um desafio o transporte de
vídeo sobre as redes compartilhadas (SEELING, REISSLEIN, KULAPALA, 2004).
As tecnologias de redes que garantem a vez para cada serviço concorrente do meio são
bastante adequadas para o tráfego de sons e imagens, mas não fazem o melhor aproveitamento
dos recursos. Poderiam ser utilizadas apenas para estes serviços específicos, cujos requisitos
temporais são menos flexíveis. As redes ATM asynchronous transfer mode - apresentam
boas características para o tráfego de vídeo e voz, por exemplo. No entanto, a explosão de
uso e a abrangência das redes IP (internet protocol) praticamente anulam o desenvolvimento
destas outras redes, e os fabricantes e pesquisadores buscam soluções que enquadrem as redes
IP para todos os serviços, inclusive aqueles que exigem tratamento em tempo real (LEVIN,
2003). Surgem inovações tanto nos equipamentos que compõe a rede, quanto nas interfaces
que agregam os serviços a ela. Há evidências mostrando que o futuro está sobre redes IP, mas
com alguma capacidade de prover QoS para situações particulares. Assim, se o tráfego de
vídeo exige banda elevada, além de jitter e atrasos pequenos, é possível a implantação de
redes com reserva de recursos (RSVP – resource reservation protocol) e roteamento definido,
utilizando as chamadas redes MPLS (multiprotocol label switching). A implantação de redes
IPv6 permite priorização de tráfegos em casos de congestionamento, reduzindo os efeitos
percebidos (PINHEIRO, 2005).
A qualidade do sinal de vídeo transportado por uma rede depende do resultado e
desempenho das várias etapas pelas quais passa até seu destino final: a digitalização, a
4
compressão, o encapsulamento, o tratamento e roteamento dado ao fluxo pela rede (afetando
latência, jitter, taxa), e o processo de recuperação (descompressão, conversão D/A digital
para analógico). A qualidade final do vídeo é uma combinação da qualidade obtida pelo
processamento (por exemplo, MPEG-2 (Moving Picture Experts Group)) e pelas condições de
entrega de pacotes pela rede (TODD, 2003). Deve-se possuir meios para se mensurar diversos
parâmetros em cada etapa, e estabelecer os requisitos mínimos esperados para cada um.
O uso das tecnologias de rede para transporte de vídeo exige ferramentas para
monitoração de qualidade em tempo real e preferencialmente sem interrupção de serviço (on
line). O método mais comum é sem dúvida a comparação da qualidade da fonte com o sinal
de vídeo recuperado, mas exige que se tenha acesso a ambas as pontas (TAO,
APOSTOLOPOULOS, GUÉRIN, 2004).
A avaliação da qualidade do vídeo deve ser realizada de modo a descrever a sensação
causada nos telespectadores. A forma mais fiel de medida é a subjetiva, onde um grupo de
pessoas realmente assiste as imagens e atribui notas ou adjetivos descrevendo sua qualidade.
Mas a implantação destas metodologias de avaliação é complexa e normalmente exige que as
aplicações sejam interrompidas durante o processo de julgamento. Diversos estudos têm sido
feitos para se obter uma avaliação objetiva de vídeo coerente, com alta correlação com a
percepção humana. Para sistemas puramente analógicos, o uso de alguns padrões de vídeo
estáticos no tempo é suficiente para a caracterização de seu desempenho, mesmo quando a
eles forem aplicados sinais dinâmicos e complexos. A qualidade da imagem pode ser
antecipada se no equipamento ou sistema for inserido um conjunto de sinais de teste
apropriado. Isto porque sistemas analógicos e não comprimidos são lineares (ROBIN, 2005).
No entanto, os sistemas digitais inserem novas formas de degradação, dependentes do tempo
ou de alguma composição específica do sinal (cor, freqüências envolvidas, intensidades
variáveis do sinal). Tais erros são introduzidos pelo processo de digitalização, de compressão,
ou em virtude de características ou falhas no meio de transporte e protocolos envolvidos.
Sinais de teste estáticos são facilmente comprimidos, e quase não mostram distorções ou
perdas.
As muitas formas numéricas e objetivas até hoje estudadas não conseguiram fazer pelo
vídeo digital o que existe para o analógico. As melhores soluções para avaliação objetiva são
as que simulam a percepção pelo sistema visual humano (HVS human visual system) como
o MPQA (multistage perceptual quality assessment) e o PQR (perceptual quality rate) (OH,
WOOLLEY, ARVANITIS, TOWNEND, 2001).
5
Diversos trabalhos têm sido executados sugerindo uma avaliação indireta. Não se
monitora a qualidade do vídeo, mas as características e o estado da rede que provocam
determinada alteração na qualidade do sinal. A monitoração de pacotes de vídeo é outra
forma de análise (REIBMAN, SEN, MERWE, 2004). Os mesmos autores sugerem cuidado
nas conclusões baseadas na monitoração do desempenho médio da rede, pois a Internet (se for
o caso) é complexa, heterogênea e dinâmica. Muitas vezes os valores médios não têm grandes
significados em tais situações.
A medição da qualidade de sinal multimídia em redes é alvo de muitos pesquisadores.
He e Chen (2002) apresentaram a análise da qualidade fim-a-fim para streaming de vídeo (o
que é diferente de deo em tempo real, o streaming permite o recebimento antecipado de
dados antes da apresentação das imagens). Especificamente, fazem a análise do efeito da
perda de pacotes na qualidade do vídeo. Todd (2003) explora o fato da qualidade do vídeo que
trafega em redes IP depender não apenas de banda ou outros parâmetros da rede, mas também
dos métodos de compressão usados para a inserção do vídeo nas redes. Bombelli (2005) faz
diversas considerações sobre arquitetura de redes de vídeo e os métodos de avaliação da
qualidade do sinal. Bai e Ito (2004) tratam dos parâmetros de rede (jitter, atraso, perda de
pacotes) que degradam vídeo e áudio, e indicam requisitos de QoS aplicáveis ao transporte de
vídeo e áudio.
1.2 OBJETIVOS
Dada a importância desta nova maneira de se manipular sinais multimídia (através de
redes de dados), a proposta aqui apresentada é analisar o resultado final do processo, cujas
entrada e saída são sinais de vídeo analógico, e avaliar com que impacto as redes contribuem
na deterioração destes sinais. A intenção é mostrar, de forma experimental, a metodologia
para implantação de um sistema de monitoramento de qualidade, qual a relação entre os
diversos parâmetros observados e discutir os resultados obtidos nos ensaios.
O desafio que se tem é investigar o desempenho dos sistemas, não mais apenas com
um analisador de vídeo ou forma de onda, mas através de outros equipamentos e métodos.
Precisa-se saber o que é danoso, quantificar os erros, o quanto de alteração é aceitável, o que
estes números representam na qualidade subjetiva da imagem, qual etapa insere estes erros,
como melhorar a resposta, quais os requisitos para cada aplicação. O trabalho apresenta a
utilização de uma metodologia para mensuração das diferenças entre o sinal gerado pela fonte
6
e o sinal recuperado após seu tráfego por uma rede. Salienta-se a importância de se analisar
separadamente os equipamentos das pontas, que inserem o vídeo na rede e o recuperam na
outra ponta (codecs), e posteriormente o conjunto compondo a rede em estudo.
Com resultados numéricos, os sistemas, seus componentes (equipamentos e softwares)
e o próprio sinal podem ser classificados, de forma a se verificar a possibilidade de uso para
determinada aplicação. Ou ainda, o contrário: de acordo com a aplicação desejada, pode-se
exigir os requisitos mínimos do sistema para seu atendimento.
1.3 ESTRUTURA DA DISSERTAÇÃO
A dissertação foi estruturada em cinco capítulos. O capítulo 2 foi denominado de
Fundamentação Teórica, e explica as bases do trabalho: o produto que se deseja trafegar
(vídeo), as redes e protocolos envolvidos, as formas de avaliação de qualidade. No capítulo 3
(Metodologia e Configuração dos Experimentos) são detalhadas as estruturas e processos
utilizados nos ensaios. O capítulo 4 (Resultados e Discussões) contém os dados obtidos e sua
análise. O capítulo 5 descreve as conclusões referentes aos resultados e à metodologia, e faz
sugestões de trabalhos seqüenciais. Nos anexos são encontradas algumas das bases de dados
obtidas ao longo dos trabalhos experimentais.
7
CAPÍTULO 2
FUNDAMENTAÇÃO TEÓRICA
2.1 O SINAL DE VÍDEO
Uma câmera de vídeo é um dispositivo transdutor que libera na sua saída um sinal
elétrico relacionado com a luz recebida em sua entrada. Elementos fotossensíveis capturam as
características momentâneas da luz (intensidade e comprimento de onda) incidente em sua
área exposta. Um monitor de vídeo também é um transdutor, e faz o caminho inverso: a partir
de um dado sinal elétrico, uma tela apresenta luz com brilho, cor e dinamismo (espaço e
tempo) conforme as características deste sinal. Pode-se dizer que vídeo é a representação
elétrica da luz, com variáveis no tempo e, de alguma forma, no espaço. Entre a captura e a
demonstração das imagens, muitas vezes o sinal de vídeo sofre processamentos diversos,
como, por exemplo, edição e até gravação para posterior exibição ou arquivo. A importância
do sinal de vídeo reside na capacidade que ele oferece para a manipulação de imagens, o que
seria bastante difícil de se realizar na forma puramente ótica.
2.1.1 O Sistema Visual Humano
Os mecanismos e os conceitos associados aos sinais de vídeo se baseiam no processo
de percepção de imagens pelo ser humano. O sistema de visão recebe estímulos luminosos e
transfere as informações ao cérebro, que as processa criando a percepção de imagens. É um
processo dinâmico com dependências temporal e espacial, pois a cada instante e em diferentes
posições dentro do campo visual os estímulos e a percepção se renovam.
De todo o espectro de ondas eletromagnéticas, apenas as que vão do comprimento de
380 nanometros até 780 nanometros são percebidas pelo ser humano como luz, com as cores
entre o violeta e o vermelho. Não há nada de especial nesta faixa do espectro, apenas o fato de
os sentidos humanos a perceberem de uma maneira diferente das demais freqüências (BRICE,
2000). Além disto, o sistema visual apresenta persistência: a sensação visual resultante da
excitação da retina pela luz, a qual permanece por alguns instantes (em torno de 50
milisegundos) após o término desta excitação (NINCE, 1988). O olho humano apresenta
8
sensibilidade, para um limiar de luminosidade (ou brilho), em média de um décimo de
candela por metro quadrado (HOLST, 1998). A variação da sensação observada é logarítmica,
e também existe uma relação mínima (chamada de sensibilidade de contraste) entre a variação
da luminosidade e a luminosidade inicial que o ser humano pode detectar (TRESSE, 1979).
Por último, a capacidade de percepção de detalhes pelo olho humano é finita, limitada pela
estrutura dos elementos fotossensíveis da retina. Isto se denomina acuidade visual, que é
medida em ângulos. A acuidade média do ser humano com capacidade visual normal varia
entre quatro décimos de minuto a cinco minutos, sendo máxima para a luz branca e
decrescendo para as cores verde, vermelho e azul (NINCE, 1988). Os cones, componentes da
retina, percebem as cores. Os bastonetes, outros componentes fotossensíveis da retina, são
responsáveis pela visão monocromática, e têm sensibilidade muito mais apurada do que os
cones. Isto faz com que, com pouco nível de iluminação, se consiga ver objetos, porém em
tons de cinza.
2.1.2 O Sinal de Vídeo Analógico
Pela persistência da visão, uma imagem em movimento pode ser representada por uma
sucessão finita de imagens estáticas, se a troca de imagens for executada em um período
menor que 50 milisegundos, ou seja, 20 telas por segundo. Estas imagens estáticas são
chamadas de quadros. Em filmes para cinema, é usual a freqüência de 24 quadros por
segundo, enquanto que para a televisão padrões com 25 e outros com 30 quadros por
segundo. A televisão no sistema PAL-M (Phase Alternating Line), padrão adotado no Brasil,
ou no NTSC (National Television System Committee), largamente usado no mundo, adota
aproximadamente trinta quadros por segundo, que resulta em uma troca de quadro a cada 33
milisegundos. Com esta freqüência, consegue-se o efeito de continuidade dos movimentos,
porém ocorre a percepção de cintilação, que é uma variação abrupta da luminosidade a cada
troca de quadro. De modo a evitar o aumento de informação (e conseqüentemente de recursos
de capacidade dos canais de transmissão ou meios de armazenamento), não se elevou a
quantidade de quadros, mas optou-se pela divisão de cada quadro em dois componentes
chamados campos. Cada campo carrega a metade das informações. Os sistemas de deo
geram uma sucessão de sessenta campos por segundo, freqüência na qual o observador o
percebe mais o fenômeno da cintilação.
O método de separação de uma imagem contínua em quadros e campos permite que se
9
faça a representação elétrica das variações de cenas no decorrer do tempo. Por outro lado, a
composição espacial da imagem é transmitida para a forma elétrica através de um processo
conhecido como “varredura”. Um quadro é decomposto em várias linhas (525 linhas para o
NTSC ou o PAL-M), e cada linha é lida ou apresentada da esquerda para a direita e da
primeira à última, em uma freqüência aproximada de 15.750 Hertz, ou 63 microsegundos.
Cada campo é formado por 262,5
linhas, um com as linhas ímpares e outro com as pares.
Portanto, a localização de determinada informação de luz no quadro implica em um tempo de
varredura até este ponto, e assim a dependência espacial passa a ser também temporal,
possível de ser representada pelo sinal elétrico tensão ao longo do tempo.
A forma de captura ou apresentação de cada quadro em dois campos com metade das
linhas, primeiro com as ímpares e em seguida com as pares, é chamada de varredura
entrelaçada. Existe, para outras aplicações, a varredura progressiva, que mostra as linhas na
seqüência numérica natural, não separando o quadro em campos par e ímpar (FIBUSH,
ELKIND, AINSWORTH, 1997).
Para que na visualização em um monitor, a informação temporal do sinal elétrico
possa identificar também a composição espacial, há a necessidade de sincronização das
varreduras de captura e de apresentação. Então, uma informação importante no sistema de
vídeo é o sincronismo horizontal e vertical, que avisa o rmino de cada linha e de cada
campo. Como o sinal de sincronismo também consome tempo, uma parte de cada linha e
algumas linhas de cada campo são usadas para esta finalidade, e deixam de ser visíveis. O
intervalo de tempo invisível é chamado de apagamento, ou blanking. Para os sistemas padrão
M, resta para a linha visível aproximadamente 53 microsegundos, e 483 linhas para o quadro,
pois o retorno do mecanismo de varredura consome 8% do tempo da varredura vertical de
cada quadro e 15% da varredura horizontal de cada linha. Além disto, na apresentação perde-
se um pouco mais, pois a máscara em torno da tela do monitor esconde as bordas, para evitar
que sejam vistos sinais de sincronismo ou as meias linhas no início e no fim da tela.
Um ponto de luz a ser reproduzido por um sistema de tv é caracterizado pelo brilho,
matiz e saturação. O brilho informa a energia, a intensidade luminosa de uma certa cor. Em
tv, esta propriedade é conhecida como luminância e representada pela letra Y. O matiz está
relacionado ao comprimento de onda da luz, ou seja, qual a cor interpretada pelo sistema
visual humano. A saturação indica a diluição de luz branca na cor. Uma cor completamente
saturada é pura, não tem branco em sua composição. Saturação e matiz compõe o sinal de
crominância, identificado pela letra C.
Os elementos fotossensíveis tanto das câmeras quanto dos monitores são
10
tricromáticos. O vermelho (R - red), o verde (G - green) e o azul (B - blue) são cores
primárias no processo de formação aditivo, aplicado a fontes luminosas. A saturação e o
matiz de qualquer cor são captados por estes três elementos. O brilho ou luminância do sinal é
obtido pela equação 1 (BRICE, 2000), onde os valores de R, G e B podem variar desde 0 até
1, dependendo da ocorrência e da saturação de cada um destes componentes de cor.
Y = 0,30 R + 0,59 G + 0,11 B (1)
Para permitir a reprodução das imagens em um aparelho receptor, o sinal de vídeo
deve conter as informações de cor, brilho e sincronismo. Existem diversas formas de se
representar eletricamente a luz. Na figura 2.1 é mostrado um dos formatos mais comuns, o
sinal de vídeo composto. Seu uso é bastante difundido, pois através de um único cabo se tem
acesso a todas as informações necessárias para a captura, gravação, transmissão ou
apresentação do vídeo. O sinal conduz as características da luz por alterações de tensão em
amplitude, fase e freqüência ao longo do tempo. Convém citar também um formato de vídeo
conhecido como “vídeo componente”. Ele é usado no processo de digitalização, visto um
pouco adiante. No vídeo componente, as informações de luminância são separadas das de
crominância. Estas últimas são carregadas por dois sinais chamados “diferença de cor”, R-Y e
B-Y, ou C
R
e C
B
. Através de processamento de sinais consegue-se obter o sinal de vídeo
composto a partir do vídeo componente e vice-versa. A partir deste ponto, será estudado o
sinal composto, e deve-se entender que no processo de digitalização do vídeo, o vídeo
composto poderá ser conduzido à forma de componente.
figura 2.1 – imagem e respectivo sinal composto de vídeo
E(V)
1
0,3
0
t(ms)
Nível de
branco
Nível de
preto
Blanking
burst
sincronismo
11
No sinal de vídeo composto, o sincronismo horizontal ocupa aproximadamente 5 µs,
com tensão entre 0 a 0,3 V, superposto ao intervalo de apagamento de 11 µs. A informação de
luminância é modulada diretamente, apresentando valores de tensão entre 0,3 V a 1 V. O
nível médio a sensação do brilho, e a diferença de pico instantânea do sinal de luminância
é o contraste. O branco, com a máxima intensidade da luz, é representado pelo nível de 1 V. O
preto ou ausência de luz recebe o valor de 0,3 V. Uma escala comumente usada é a IRE
(Institut of Radio Engineers), onde o sincronismo (de 0 a 0,3 V) é representado como -40
IRE a 0, e a excursão da luminância, (0, 3 a 1 V ) ocupa de 0 a 100 IRE. O sinal composto de
vídeo ocupa, nesta escala, 140 IRE, conforme ilustrado na figura 2.2.
figura 2.2 - sinal de vídeo e sincronismo horizontal na escala IRE
A figura acima mostra uma linha completa e o sincronismo de uma segunda linha do
mesmo campo. Após todas as 262,5 linhas que formam um campo, ocorre uma seqüência de
pulsos de sincronismo vertical, cuja duração é equivalente a 21 linhas horizontais.
A crominância é representada por uma freqüência única, um sinal senoidal em torno
Branco Cinza Preto
Apagamento
11us
Sincronismo
horizontal 5us
Tempo de uma linha = 63us
12
de 3,58 MHz. A amplitude desta senóide é modulada pela saturação da cor que se deseja
mostrar, e o matiz da cor altera a sua fase. Para completar o sinal composto, existe a
referência de cor (burst), para que o receptor de vídeo possa extrair a informação de fase
presente no sinal senoidal de 3,58 MHz. A figura 2.3 ilustra o sinal de crominância.
figura 2.3 – detalhes do sinal de crominância (C) e do burst
Um conceito importante em vídeo é a “resolução”. Ela indica a capacidade do sistema
em reproduzir pequenos elementos da imagem ou transições agudas. A falta de resolução é
percebida pelos sintomas de borrão ou falta de foco (TRESSE, 1979). A resolução vertical
está associada ao número de linhas (quanto mais linhas em uma mesma altura de tela, mais
detalhes, com menores dimensões, são possíveis de serem mostrados). A resolução horizontal
depende do tamanho do elemento fotossensível (da câmera e do monitor) e da máxima
freqüência do sinal de vídeo. Por exemplo, sendo a cor branca de máxima intensidade
representada pelo vel de tensão 1 Volt, e a cor preta (ausência completa de luz) pelo valor
de 0,3 Volt, a correspondência entre uma seqüência de listras brancas e pretas que formam
uma imagem e o respectivo sinal elétrico pode ser visto na figura 2.4.
A fase do sinal de cor é medida tendo como referência o burst
13
figura 2.4 – resolução horizontal
A representação desta imagem em um sinal de televisão requer que a freqüência do
sinal de vídeo mostrado seja de 1 / 15 µs, ou seja, 66,7 kHz. Fica fácil de perceber que, quanto
mais transições houver na imagem, quanto mais detalhes houver na direção da largura da tela,
mais alta será a freqüência do sinal. Como os recursos são escassos, existe um limite superior,
a freqüência de corte. Este limite superior, para os sistemas NTSC ou PAL-M, é da ordem de
4,2 MHz. Utilizando-se deste valor, pode-se dizer que, se o período (1 / 4,2 MHz) é de 23 µs,
tempo onde deve ocorrer uma transição, o menor comprimento observável de um objeto ou
elemento de imagem corresponde ao tempo de 0,12 µs, ou seja, a metade do período. Se a tela
tem 53 µs visíveis, aplica-se a regra de três, concluindo-se que 0,12 µs ocupa 0,23 % do
comprimento da tela, e este é o tamanho horizontal mínimo que poderá ser visualizado de um
detalhe da cena. Em um aparelho televisor de vinte e nove polegadas, isto significa um
elemento de 1,4 mm de largura. O sinal limitado em 4,2 MHz uma resolução da ordem de
150.000 elementos de imagem (pixels).
Dependendo da distância do observador à tela, tanto a espessura da linha (divisão da
altura visível por 480) quanto o tamanho dos detalhes de mais alta freqüência podem ficar
menores que as dimensões dadas pelo ângulo de acuidade visual. Portanto, a limitação de se
enxergar pequenos detalhes de imagem pode ser oriunda da resolução ou desta distância.
2.1.3 Sinais de Teste Estáticos
t (
µ
s)
E (V)
1,0
0,3
7,5 15
52,5
14
A avaliação da qualidade de um sistema de vídeo analógico pode ser feita com a
introdução de alguns sinais de teste e a mensuração de figuras de mérito associadas a estes
sinais.
O contraste, o brilho e a fidelidade com que o sistema reproduz variações de
luminância podem ser medidos com sinais que contenham valores pré-definidos de cinza,
além de veis de branco e preto. Medem-se os níveis de branco, de preto, a não linearidade
de luminância, além da amplitude do sincronismo e da referência de cor. A figura 2.5 mostra
o sinal NTC-7, que atende aos requisitos para a medição destes parâmetros.
O ganho diferencial e a fase diferencial são figuras de mérito que indicam o quanto o
sistema é capaz de manter a fase e a amplitude dos sinais de cor, quando estes possuem níveis
de brilho diferentes. O mesmo sinal da figura 2.5 é usado nesta caracterização, pois apresenta
um mesmo matiz, com saturação constante, em diferentes níveis médios de luminância.
figura 2.5 – sinal de teste NTC-7 – visualização e forma de onda de uma linha
Na falta deste sinal, o staircase”, apresentado na figura 2.6, pode ser usado para as
medidas de luminância. Há uma versão chamada de “staircase modulado”, que acrescenta cor
de amplitude e fase constantes sobre os degraus, permitindo também as medidas de ganho e
fase diferenciais.
15
figura 2.6 – sinal de teste “staircase
A resolução do sistema é medida através da resposta em freqüência que ele apresenta,
e o sinal usado no ensaio é o “multiburst”, que contém vários pacotes de freqüências distintas.
Como pode ser visto na figura 2.7, a amplitude dos pacotes do sinal do gerador de padrões é
constante, e mede-se em porcentagem ou em decibéis (dB) a diferença de amplitude entre os
pacotes após o processamento do sinal pelo sistema em teste.
figura 2.7 – sinal de teste “ Multiburst
Com o sinal de barras coloridas (colorbars) mostrado na figura 2.3 observa-se a
16
intensidade e o matiz das cores, além dos níveis de luminância e sincronismo.
A inserção de ruído ao sinal pode ser medida com um padrão de teste em que a linha
inteira possua um único nível de luminância. Pode ser usado o sinal “blackburst”, que contém
o sincronismo, a referência de cor e um nível de vídeo próximo de 0 IRE ao longo de toda a
linha. Mede-se a relação sinal-ruído, que é dada em dB (quantas vezes a amplitude do sinal é
maior do que a amplitude do ruído, em escala logarítmica).
Existem outros sinais de teste e parâmetros que, quando medidos, associam uma
análise quantitativa à qualidade da imagem percebida. Estes foram apresentados por serem
usados na seqüência deste trabalho e por caracterizarem suficientemente o sinal analógico e
suas degradações para o propósito.
2.1.4 O Sinal de Vídeo Digital
Com a intenção de facilitar partes do processamento dos sinais, e para permitir a
convivência do vídeo em sistemas digitais, as diversas formas de sinal de vídeo podem ser
convertidas para novos formatos, pelo processo de digitalização. Para que o sinal analógico
seja convertido em digital, ele é submetido às fases de amostragem e quantização. A
conversão de analógico para digital se faz pela intensidade da forma de onda, gerando-se uma
amostra em um instante de tempo, a quem é atribuída um número no formato binário.
O sinal analógico é limitado em freqüência, através de um filtro passa-baixas. Esta
fase é necessária, para que se estabeleça a freqüência adequada para a amostragem. Esta deve
ser, segundo o teorema de Nyquist (BRICE, 2000), maior que o dobro da maior freqüência de
componente do sinal, ou seja, a taxa de amostragem deve ser alta o suficiente para prover
duas amostras por ciclo da maior freqüência de detalhe visível. Alguns especialistas afirmam
hoje que se precisa até mais do que isto (WOOTTON, 2005).
Do sinal original, após o filtro, são retiradas amostras. Previamente são definidos
níveis discretos de tensão. A amostra representa o vel mais próximo do seu valor real. A
figura 2.8 exemplifica o processo. A discretização do sinal introduz uma certa degradação,
pois o valor que é atribuído à amostra pode ser diferente do original. A esta diferença se o
nome de “erro de quantização”, ou ainda, ruído digital”. Quanto mais níveis de quantização
forem utilizados, mais próximo do valor real se estará e menor será o ruído. Costuma-se usar
oito, dez e doze bits para quantização, o que resulta em 256, 1024 e 4096 níveis para
representar qualquer valor de tensão do sinal de vídeo analógico. O erro de quantização
17
diminui de forma logarítmica à medida em que mais bits são acrescentados para a quantização
(BRICE, 2000; FIBUSH, ELKIND, AINSWORTH, 1997). O ITU-R (International
Telecommunications Union, Radio Communication Sector) trata dos fundamentos do processo
de digitalização do vídeo e sugeriu para as freqüências de amostragem valores de 13,5 MHz
para a luminância e 6,75 MHz para cada uma das componentes de cor (sinais diferença de
cor). Esta recomendação define o mecanismo de amostragem, e não um padrão de interface, e
é descrita na recomendação ITU-R BT.601.
figura 2.8 – digitalização do sinal – amostragem e quantização
Há, assim como no caso analógico, vários padrões para o vídeo digital. Uma forma de
uso largamente difundida em aplicações de estúdio é a interface digital serial, conhecida pelo
acrônimo SDI (serial digital interface). Para uma digitalização com dez bits, e com o número
de amostras definido pelas freqüências descritas, tem-se uma taxa de bits de 270 Mbps (10
bits/amostra de luminância x 13,5 MHz, ou amostras por segundo + 2 x 10 bits/amostra de
sinal diferença de cor x 6,75 MHz = 270 Mbps). A norma SMPTE 259M (Society of Motion
Picture and Television Engineers) define o vídeo digital com qualidade padrão (SDTV
Standard definition television), com 720 pixels por linha, 480 linhas por quadro, com as
componentes amostradas em 4:2:2 para Y:C
R
:C
B
. Isto significa que a cada quatro amostras de
luminância, são amostradas duas informações do sinal diferença de cor com vermelho (C
R
) e
duas do sinal diferença de cor C
B.
Assim, a seqüência de sinais amostrados pode ser C
B
, Y,
C
R
, Y,
C
B
, Y, C
R
, ... A quantidade de amostras dos sinais diferença de cor é a metade das de
luminância, aproveitando-se da resposta de acuidade visual inferior para as cores para se
Níveis de quantização
(exemplo)
11 1010 1100
10 1101 0010
Amostragem
t = 1/F amostragem
18
economizar recursos (BRICE, 2000). ainda outros formatos. O 4:4:4, que ocupa mais
banda, por amostrar todas as informações de cor, é utilizado em sistemas de geração de
conteúdo, onde o vídeo sofrerá muito processamento. 4:1:1 e 4:2:0 são processos que reduzem
ainda mais as amostras de diferença de cor processadas ou transmitidas. Com isto, reduz-se a
taxa de bits, porém a qualidade também decresce. O padrão de DVD (digital video disk)
utiliza o formato 4:2:0.
O processo de digitalização insere a necessidade do sinal de relógio, a referência
temporal de amostragem. O sinal de vídeo digital é apresentado em formas de onda analógicas
(tensão x tempo) que conduz as informações do sinal de relógio e dos bits que compõe o sinal
digital.
2.2 A COMPRESSÃO DE VÍDEO
Compressão, redução de taxa de bits, redução de dados ou codificação de fonte são
todos termos que significam que a mesma - ou quase a mesma - informação é carregada por
uma menor taxa de bits (WATKINSON, 2004). duas categorias básicas de compressão:
sem perdas (lossless) e com perdas (lossy). A primeira garante a integridade da informação, e
ao ser descomprimida no final do processo ela é uma cópia exata do conteúdo original. É
muito usada na compressão de textos, planilhas e arquivos que não suportam qualquer
diferença, mas geram ganhos de compressão (relação entre o tamanho original do arquivo e o
seu tamanho comprimido) relativamente pequenos, dificilmente maiores do que três vezes
(WATKINSON, 2004). A compressão com perdas é importante quando, em prol de uma
redução considerável da taxa (da ordem de dez a cinqüenta vezes), aceita-se uma redução da
qualidade ou diferenças entre os dados recuperados expandidos em relação à fonte que foi
comprimida. Além disso, a decodificação da compressão com perdas é mais simples quando
comparada com o processo sem perdas (WOOTTON, 2005). Fazer o processo de codificação
de tal forma que a decodificação seja simples e leve é muito importante, pois em muitas
aplicações multimídia o decodificador é um item usado em larga escala pelos consumidores.
A compressão com perdas apresenta resultados variando desde alta qualidade com artefatos
não detectáveis até visualização maciça de degradação.
Enviar vídeo e áudio digital pelas redes de dados hoje disponíveis é impossível sem a
compressão do conteúdo. Durante os anos 80, tentou-se enviar o sinal de televisão pelas redes
telefônicas cabeadas. Para armazenar ou transportar em tempo real um fluxo com a taxa de
19
bits de vídeo digital, perto de 300 Mbps, necessita-se de muita banda disponível na rede e
discos rígidos de grande capacidade. Mesmo que haja tal disponibilidade, o custo dos
sistemas torna-se elevado. Porém, as técnicas de codificação de fonte, que eliminam
redundâncias, estão em constante evolução, e a compressão por elas permitida possibilita o
manuseio da informação em taxas mais adequadas aos sistemas e redes disponíveis. Pode-se
obter um fator de compressão (ganho de codificação) bastante razoável (dez vezes ou mais),
mantendo-se ainda a integridade, ou pelo menos, uma alta qualidade do sinal.
Mesmo no domínio analógico se faz compressão. A informação de cor é filtrada
para se remover as altas freqüências de mudança de cor, que acabariam por aumentar a
largura de banda. Em função da acuidade visual menor às cores do que ao brilho, os sinais de
crominância são menos percebidos,e podem ser parcialmente suprimidos sem perda sensível
da resolução das imagens. Os detalhes são preservados no canal de luminância. Porém, erros
muito expressivos no sinal de crominância também geram efeitos visíveis na tela, como, por
exemplo, uma camiseta colorida de um jogador de futebol pode parecer estar deslocada em
relação ao seu corpo. Outra forma de compressão analógica é a separação de um quadro em
dois campos de varredura entrelaçada, como descrito anteriormente. Embora a varredura
entrelaçada possa comprometer a imagem que tiver muita informação vertical (conteúdo com
detalhes no eixo vertical), é aceitável e seus efeitos são pouco perceptíveis.
Uma das maneiras de se reduzir a capacidade requerida do sistema é pela supressão de
alguns quadros. Mas esta técnica de compressão causa um efeito “estroboscópico” nos
movimentos, não realista e por vezes irritante. Mantendo-se o número de quadros, precisa-se
reduzir a quantidade de dados por quadro, o que implica em perda de qualidade, imagens sem
definição ou com efeitos de quadriculados em alguns pontos. Encontrar o ajuste certo é
complicado, pois certos conteúdos são comprimidos mais facilmente, enquanto outros
necessitam de maior taxa. Algumas técnicas utilizam a variação da taxa de transmissão para
atender momentaneamente os requisitos, mantendo-se a qualidade (VBR variable bit rate).
Rajada é o nome que se quando o conteúdo a ser comprimido momentaneamente se torna
mais complexo que o usual, resultando em taxas de bits mais elevadas. Outras técnicas
mantêm a taxa de bits constante (CBR constant bit rate) e são mais adequadas para o
transporte. Contudo, em cenas com grandes detalhes e movimentos ocorre uma perda de
qualidade.
O método de compressão, a taxa resultante e especialmente a degradação da qualidade
aceitável dependem das aplicações. Para emissoras de televisão e produtores de conteúdo, a
qualidade deve ser elevada, pois representam o início de uma cadeia. Arquivos de materiais
20
devem ser ainda menos comprimidos, de modo a aceitar futuras edições, aplicação de efeitos
e outros processamentos. Por exemplo, em uma montagem conhecida como chroma-key, onde
uma imagem é superposta à outra de fundo, pode-se perceber um efeito de bordas indesejável
no recorte, caso esta imagem de fundo tenha sido muito comprimida.
Antes da compressão de áudio ou vídeo, deve-se reduzir o quanto for possível o ruído.
Ele consome taxa de bits que poderia ser melhor empregada carregando o conteúdo que se
deseja codificar. Por isto, pré-processar o sinal com um filtro de ruído ajuda na compressão,
pois o ruído, que seria compreendido pelo processo como mudanças nas cenas, tem sua
intensidade reduzida.
Apesar de pulsos de sincronismo ser essenciais para o funcionamento da televisão,
esta parte do sinal não precisa ser comprimida, pois seu conteúdo é conhecido e pode ser
reconstruído no lado da decodificação. Digitalizar e comprimir estas informações seria um
desperdício de taxa de bits.
Todo compressor de vídeo utiliza idéias comuns: processa a diferença entre quadros,
estima o movimento, executa uma transformação do domínio do tempo para o da freqüência,
simplificando a descrição das partes mais freqüentes da imagem. A compressão espacial
busca as redundâncias existentes em um mesmo quadro, e descreve o mínimo necessário para
a posterior reconstrução da imagem. Por exemplo, em uma cena mostrando o céu, boa parte
do quadro apresenta pixels azuis, com pouca ou nenhuma nuance entre si. Na compressão
espacial são considerados os dados contidos em um quadro, sem relacioná-los com os dados
de outros quadros da seqüência. Exemplo disto são imagens GIF (Graphical Interchange
Format) e TIFF (Tagged Image File Format). Simplesmente é criada uma seqüência de
quadros parados codificados desta maneira, bastante eficiente para desenhos e determinadas
cenas definidas por coordenadas. Outro nível de compressão espacial é a técnica JPEG (Joint
Photographic Experts Group), que quebra a imagem em macroblocos e aplica neles a
transformada discreta do cosseno (DCT discrete cosine transform). Este é um tipo de
compressão com perdas, com a qual se obtém arquivos reduzidos para algo perto de dez por
cento do tamanho original (WOOTTON, 2005).
A compressão temporal é possível pela formação do vídeo, no qual as imagens são
apresentadas em intervalos regulares. O eixo do tempo pode ser usado para se economizar
banda, procurando-se por redundância entre as sucessivas imagens A compressão temporal
costuma ser com perdas, baseada no princípio de se procurar diferenças entre imagens
seqüenciais e se descrever estas diferenças, sem a necessidade de se repetir a descrição da
21
parte da imagem que o sofreu alterações. Para a compressão temporal, precisa-se de um
ponto de partida ou quadro-chave. Depois dele, apenas as diferenças são descritas.
Quanto mais sofisticados forem os mecanismos de codificação de fonte, normalmente
melhor é a relação qualidade versus taxa de bits, porém apresentam maior custo em termos de
capacidade de processamento e maior tempo requerido para executar a compressão. Para
várias situações, o aumento do atraso entre a captura da imagem e sua apresentação não é
tolerável. A medição do desempenho da codificação pode ser feita através de alguns
parâmetros: ganho de compressão (razão entre o tamanho original dos dados e o obtido após a
compressão), a qualidade da imagem reconstituída (de acordo com alguma metodologia de
avaliação) e ainda a complexidade de implantação e velocidade de processamento. São
padrões usuais MPEG-2, MPEG-4 parte 2, MPEG-4 parte 10, a série Windows Media (WM-
9), e trabalhos mais recentes da Microsoft com a SMPTE , que são os padrões chamados de
VC. Como exemplo de formatos de compressão que praticamente não apresentam
degradações, sendo propícios para o armazenamento e produções, citam-se o DV-50 e o DV-
25 (WOOTTON, 2005).
O MPEG-4 parte 10 também é conhecido como H-264 pelos técnicos, ou AVC
(Advanced Video Coding) pelas áreas comerciais. É um esquema de codificação desenvolvido
em conjunto pelo ISO MPEG, e pelo grupo VCEG (Video Coding Experts Group) do ITU,
que formaram um grupo de trabalho, o JVT (Joint Video Team). Possui a mesma aplicação do
MPEG-2, mas com desempenho superior, especialmente no fator de compressão. O uso do
AVC está se popularizando rapidamente. Até pouco tempo, ele apresentava, devido a
dificuldades de implementação, retardos muito grandes no processamento, (atualmente perto
de um segundo), o que pode ser muito para vários usos em televisão. Com o esquema H-264
pode-se conseguir a mesma qualidade do vídeo da obtida com o MPEG-2, com praticamente a
metade da taxa. Isto significa redução de banda, e conseqüentemente de custo de operação.
O MPEG-2 é o padrão de compressão mais utilizado para o trato do vídeo com
qualidade broadcast. Foi adotado pelo DVB (Digital Video Broadcasting) e pelo padrão de
DVD (Digital Video Disk). (WATKINSON, 2004). Em função de seu uso difundido e de que
foi o adotado para as experiências neste trabalho, será visto com mais detalhes.
Uma seqüência de vídeo contém muita informação, e precisa ser subdividida em
componentes menores. O padrão MPEG descreve uma série de quadros como um grupo de
imagens, chamada GOP (group of pictures). Usualmente, um GOP tem entre 10 a 30 imagens.
A estrutura de GOP é repetida tantas vezes quanto necessárias para se produzir a seqüência
22
completa. O MPEG-2 é estruturado em camadas hierárquicas, conforme visto na figura 2.9
(ARIB, 2004).
Cada camada tem um cabeçalho e um padrão de alinhamento de bit que permite a sua
identificação dentro do fluxo de bits. Os cabeçalhos carregam fragmentos importantes de
metadados, revelando, por exemplo, a relação de aspecto, taxa de quadros, método de
entrelaçamento.
A codificação é dita híbrida, considerando modo intraframe (sem dependência
temporal) e interframe, com dependência temporal de referências anterior e posterior. A
codificação intraframe se baseia na transformada discreta do cosseno DCT, na qual um
bloco de 8x8 pontos correlacionados de imagem é interpretado como sessenta e quatro
coeficientes não correlacionados. O VLC (variable lenght code) é um código de
comprimento variável, que dá palavras mais simples e menores para os elementos mais
comuns, em uma distribuição estatística. A codificação interframe usa, além da DCT e do
VLC, estimação e compensação de movimento (ASSUNÇÃO, 2000).
Os quadros I (intracoded frames), também chamados de key-frames, são codificados
de forma isolada, como se fosse JPEG. Não há predição. Tudo que é necessário para a
compactação está contido nele, e não há necessidade de outras referências. Podendo se
escolher, o quadro I deve ser um que tenha grandes mudanças de cena ou que venha a ser um
ponto de edição. Deve-se ter pelo menos dois quadros I a cada segundo (MARGI, 2000).
Quadros P (predictive coded frames, ou predicted frames) são codificados com
referência a uma figura codificada, e, através de compensação de movimento, aproveitam
áreas codificadas das imagens referenciais (tipo I ou P); é uma predição, ou seja, antecipa
sua formação com base nas imagens anteriores. Devido ao cascateamento de quadros P (um
pode ser construído sobre outros), qualquer erro de codificação se propagará e eventualmente
o acúmulo de erros causará artefatos visíveis.
Um quadro B (bidirectional, backward-predicted frame) é codificado usando-se as
diferenças de quadros I precedentes e P ou I subseqüentes. A predição é bidirecional. Quadros
B não servem de referência para predição de outras imagens.
Existem ainda quadros tipo D (DC frame), raramente usados, e têm função apenas
para busca rápida de imagens em um arquivo, em taxas bastante pequenas.
23
.
figura 2.9 – estrutura hierárquica do MPEG-2 (ARIB, 2004)
Um GOP inicia-se sempre com um quadro I porque, caso não o fosse, qualquer
sucessiva informação de diferença armazenada nos quadros P não teria referência para a
construção dos demais quadros. Os quadros são organizados em intervalos regulares com um
número constante de quadros B entre quadros I ou P. Espaçamentos irregulares são
permitidos, mas não são comuns. Estruturas de GOP curtas implicam em uma compressão
não muito eficiente, pois apresentam diversos quadros I por segundo, mas reduzem o tempo e
o trabalho do decodificador. Aumentando-se o número de quadros P ou B, o GOP aumenta e a
B
I
B
B
P
B
B
I
GOP
o o o o o o o o
o o o o o o o o
o o o o o o o o
o o o o o o o o
o o o o o o o o
o o o o o o o o
o o o o o o o o
o o o o o o o o
quadro
fatia
macrobloco
bloco
Seqüência de
vídeo
16 pixels
16 pixels
8 pixels
B
24
razão de compressão melhora; porém, um GOP longo pode prolongar o efeito de erros, além
de aumentar o tempo de processamento e complicar as atividades do decodificador. A latência
provocada pelo processo de compressão e descompressão nunca será menor que o tempo de
um GOP inteiro.
Estruturas de GOP podem ser fechadas ou abertas: as fechadas contêm um quadro I,
alguns P relacionados apenas neste I, e alguns B codificados apenas a partir das imagens deste
GOP. Já uma estrutura de GOP aberta dispensa quadros P e alterna I e B.
A transmissão de quadros do GOP é diferente da seqüência de exibição. O
decodificador necessita reorganizar os quadros recebidos para uma correta apresentação, em
função das predições efetuadas na compressão. (WOOTTON, 2005).
A seção do GOP conhecida como “fatias” é formada pelo agrupamento de
macroblocos, e pode conter desde um até quantidades suficientes para preencher muitas fatias.
As fatias são independentes entre si, pois cada uma inicia com os dados necessários para a
reconstrução dos coeficientes da transformada e com seus vetores de movimento.
Os macroblocos são sinais de luminância de dezesseis por dezesseis pixels e dois
sinais diferença de cor correspondendo a 8 x 8 ou 16 x 8 pixels (dependendo se a compressão
segue o formato 4:2:2 ou 4:2:0). A definição se dá pelos perfil e nível, encontrados nas tabelas
do MPEG-2. O perfil e o nível formam subconjuntos da sintaxe global, que implicam em
diferentes níveis de complexidade nos algoritmos de codificação e decodificação, e impõe
restrições de alguns parâmetros do fluxo de bits (ASSUNÇÃO, 2000). Cada macrobloco pode
ser codificado de forma diferente, de acordo com o tipo de quadro a qual pertence. Os
macroblocos de luminância levam quatro blocos 8x8, que representam a unidade básica no
processo de compressão. Nestes blocos a codificação também é efetuada através da
transformada DCT.
dois tipos de fluxo MPEG-2: um fluxo elementar conhecido por PES - packetized
elementary stream e o fluxo de transporte TS (transport stream). Este último deve conduzir
informações adicionais de sincronização. O TS é baseado em pacotes de comprimento
constante, de modo a facilitar a adição de códigos corretores de erro (FEC) e entrelaçamento
em uma camada mais alta. O comprimento do pacote do TS MPEG-2 é sempre de 188 Bytes,
e seu cabeçalho pode variar de tamanho, alterando assim a capacidade de carga de
informação, composta por fragmentos dos GOPs.
25
2.3 AS REDES DE DADOS
O tráfego de vídeo e áudio em redes analógicas é bastante conhecido e utilizado, e
atende as necessidades técnicas. Redes digitais dedicadas também já são realidade, mas seu
custo é muito elevado. Hoje se estuda bastante o transporte de vídeo em redes de dados
previamente constituídas de maneira muito abrangente, e é possível se encontrar com certa
facilidade sistemas desta natureza em operação.
Para o transporte de vídeo com qualidade, as redes devem entregar um grande número
de pacotes (gerando um tráfego intenso), em tempo real. Esta premissa impõe a necessidade
de um desempenho incomum para a maioria das redes. Normalmente os recursos de rede são
compartilhados, como por exemplo, banda de uma porta ou memória de um roteador.
Congestionamentos ocorrem quando pacotes chegam a uma porta mais rapidamente do que
podem ser enviados, exigindo uma disciplina de escalonamento para que a fila ande. A Teoria
de Filas explica que se que a taxa de chegada (solicitação de recursos) for variável no tempo,
e a taxa de serviço máxima (capacidade do sistema) for fixa, o sistema é probabilístico e em
algumas situações podem ser formadas filas (KLEINROCK, 1975). O congestionamento
reduz a taxa disponível, aumenta o atraso na rede, causa jitter (variação do tempo de chegada)
e pode levar a perda de pacotes, caso não haja memória suficiente para que os pacotes
permaneçam na fila (SEMERIA, 2001).
2.3.1 Princípios Básicos
A importância das redes de dados se concentra na questão do compartilhamento. Não
de recursos, gerando redução de custos operacionais e investimentos, mas principalmente
no compartilhamento de informações, na troca e disponibilização de dados, em estruturas
cliente-servidor (TANENBAUM, 2003). Esta afirmação é perfeitamente válida para o tráfego
de vídeo sobre redes e justifica os estudos: as redes de dados podem tanto poupar recursos
quanto facilitar a troca do conteúdo e ainda permitir a convergência das mídias.
As informações são transportadas nas redes em forma de pacotes. As características da
rede, permanentes ou momentâneas, podem interferir no modo como estes pacotes são
recebidos. Alguns parâmetros que definem a qualidade da rede são:
26
banda medida em bits/s e múltiplos, é conhecida também como taxa de bit ou bit
rate; representa a taxa de transferência disponível ao usuário em determinado serviço. Deve
ser maior que a taxa de envio dos envolvidos no serviço (STUERMER, 2006);
atraso – conhecido também por latência, ou delay, é a diferença de tempo entre a saída
do primeiro bit e a chegada do último bit de um dado pacote medida em segundos ou
múltiplos. Atrasos inferiores a 150 ms costumam não oferecer influência, mesmo para
aplicações de tempo real (STUERMER, 2006). Com esta definição, o comprimento do pacote
afeta o atraso. Para evitar esta influência, pode-se computar o atraso como o tempo gasto no
trânsito entre a saída e a chegada do primeiro bit do pacote;
jitter é a variação (o desvio-padrão) percebida no tempo de chegada de pacotes,
mede a cadência da entrega, e também é indicada em segundos (STUERMER, 2006,
TANENBAUM, 2003); alguns autores consideram o jitter como sendo a variação aleatória do
atraso fim-a-fim, e poderia ser calculado como a diferença entre o atraso de um pacote e o
atraso de seu antecessor. (BAI, ITO, 2004). Como a primeira definição é mais usual, será ela a
considerada neste trabalho;
perda de pacotes a quantidade de pacotes enviados que não é recebida, ou a chegada
ocorre após o fim de um tempo máximo estabelecido para o serviço. Pode ser indicado em
unidades perdidas, ou em forma percentual em relação ao número de pacotes enviados.
As redes podem ser ponto-a-ponto (unicast) ou de difusão. Esta última pode ainda ser
dividida em multicast, oferecendo serviços a um grupo restrito, ou broadcast, no qual todos
os elementos presentes no sistema estão aptos a partilhar os serviços. Existe outra
nomenclatura de redes, de acordo com sua abrangência: LAN (local area network) é a rede de
curta extensão, no máximo alguns quilômetros, e normalmente atende um mesmo ambiente,
como uma empresa ou condomínio (intranets). MAN (metropolitan area network) é a rede
que cobre uma cidade, enquanto que a WAN (wide area network) atende a uma área
geográfica, como um país.
Os serviços realizados sobre as redes podem ser orientados a conexões ou não.
Quando o são, o sistema primeiro estabelece a ligação entre os pares, em seguida troca as
informações, e por último desfaz a conexão. Nos serviços não orientados a conexões, as partes
iniciam o processo de envio de dados sem estabelecer o vínculo.
Para que as máquinas interligadas em uma rede possam trocar as informações e
executar as tarefas que lhes cabem, é fundamental o entendimento entre elas. Isto justifica a
implantação de protocolos. Modelos de referência ISO OSI (International Organization for
Standardization - Open Systems Interconnection), e TCP/IP (transmission control protocol/
27
internet protocol) facilitam a criação destes protocolos e o entendimento de suas funções,
dividindo o sistema em camadas. Sucintamente, pode-se dizer que a camada física “define as
características mecânicas, elétricas, funcionais e os procedimentos de ativação, manutenção e
desativação das conexões físicas para a transmissão de bits” (SILVEIRA, MATARAZZO,
2004). A camada de enlace de dados assegura a transferência confiável dos dados, é nela que
se implementam protocolos de sincronização e de controle de erros. No modelo TCP/IP, estas
duas são conhecidas como interface de rede. A camada de rede para o modelo OSI, ou
Internet para o TCP/IP determina como os pacotes são roteados, desde a origem até o destino.
A camada de transporte faz o controle da transferência dos dados e define os tipos e classes de
serviço, de acordo com a aplicação, determinando a vazão (taxa), o atraso, o jitter, etc... Os
protocolos de nível alto, próximos dos usuários, atuam na camada de aplicação.
Os protocolos de transporte podem ser o TCP ou o UDP (user datagram protocol). O
TCP é um protocolo orientado a conexões, e permite a entrega do fluxo de bits de modo
confiável em uma rede não confiável. Ele passa fragmentos da mensagem, e o receptor a
monta novamente. O controle de fluxo também é realizado, de modo que um transmissor
rápido não sobrecarregue a rede ou um receptor lento. Este mecanismo de adequação, em que
o transmissor escuta o lado do receptor, pode tornar a entrega de pacotes mais lenta. Por isto,
em aplicações de tempo real onde a velocidade de entrega é mais importante que a integridade
das informações, o protocolo UDP é usado. Oferece um meio para as aplicações enviarem
datagramas IP sem o estabelecimento de uma conexão (TANENBAUM, 2003). Não faz
controle de fluxo nem retransmissão, e pode haver perda de datagramas sem que o protocolo
comunique o fato. é viável o uso do UDP quando a perda de parte dos dados não causar
impacto vital ao sistema, e quando a rede for relativamente confiável. Para as aplicações de
vídeo em tempo real, a questão do tempo de entrega justifica o uso do protocolo UDP, e ele
será usado neste trabalho.
A estrutura do datagrama UDP é mostrado na figura 2.10.
Porta de origem
(16 bits)
Porta de destino
(16 bits)
Tamanho do
datagrama (16bits)
Checksum
(16 bits)
Dados
figura 2.10 – estrutura do datagrama UDP (TORRES, 2001)
Existe ainda um protocolo de transporte desenvolvido para aplicações de tempo real,
especialmente para aplicações multimídia. O RTP – real-time transport protocol - multiplexa
28
diversos fluxos de dados de tempo real sobre um único fluxo de pacotes UDP. Assim, diz-se
que o RTP é um protocolo de transporte, porém implementado na camada de aplicação,
necessitando também do protocolo UDP para efetivamente transportar os dados
(TANENBAUM, 2003).
O IP é um protocolo da camada de rede, responsável pelo endereçamento dos pacotes,
que empacota os dados da camada de transporte (TCP ou UDP), e os envia para a camada
física, que por sua vez empacota em quadros. (TORRES, 2001). O padrão Ethernet é um
protocolo da camada física, que libera o fluxo através de portas elétricas (conector padrão RJ-
45) e faz o controle de colisões e uso da rede. A tabela 2.1 mostra a hierarquia de camadas e
os protocolos correspondentes usados neste trabalho.
tabela 2.1 - modelo de camadas e respectivos protocolos (TORRES, 2001)
Camada Protocolo
Aplicação TS-MPEG-2
Transporte UDP
Internet (rede) IP
Interface com a rede (física) Ethernet
Existem outras redes além da IP, como o ATM, por exemplo, cuja característica é a
orientação a conexões. Entretanto, o presente estudo ficará limitado ao trabalho com redes IP.
A internet se baseia no princípio do best effort service”, ou seja, procura o melhor
caminho para fazer a entrega mais rápida, perdendo o mínimo de informação pelo percurso.
Como em muitos casos isto não é suficiente, a introdução de mecanismos de QoS sobre redes
IP se faz necessária, especialmente quando a rede opera diferentes tipos de serviços
(RAISANEN, 2004). O estudo da Engenharia de Tráfego proporciona bases para as
implantações de melhorias. O RSVP e o MPLS são dois destes mecanismos, que garantem
recursos de banda, evitando o congestionamento e conseqüente perda de pacotes, e definem
antecipadamente o trajeto realizado por todos os pacotes de um certo conjunto de dados,
assegurando um baixo jitter e a seqüência correta de chegada de pacotes (XIAO, NI, 1999).
Bai e Ito (2004) também introduzem os conceitos de serviços integrados, serviços
diferenciados e redes ativas, como sendo melhorias para a internet.
Dois termos são citados posteriormente, e por isto devem ser esclarecidos aqui. O
ARP (address resolution protocol) é responsável pela conversão dos endereços IP (endereços
29
lógicos) em endereços MAC (medium access control) da rede. O ICMP (internet control
message protocol) é um mecanismo de informação através do qual o roteador informa para a
máquina emissora que ocorreu um erro, e o datagrama não foi encaminhado.
2.3.2 Redes IP para Vídeo e a Estrutura de Quadros
Redes IP e Gigabit Ethernet oferecem muitas vantagens sobre outras alternativas de
tecnologia de transporte, como capacidade, flexibilidade e habilidade de gerenciamento
dinâmico do conteúdo. Desde que se consiga garantir um bom desempenho nos quesitos
atraso, jitter e perda de pacotes (com aplicação de QoS), uma infraestrutura IP / Ethernet,
aliada com os padrões MPEG-2 e DVB para compressão e distribuição, se mostra uma
solução aberta, competitiva e de baixo custo para redes de vídeo modernas (LEVIN, 2003).
As aplicações de streaming de vídeo são menos exigentes, e não havendo um requisito muito
crítico quanto ao fator tempo, o protocolo de transporte TCP, com seus mecanismos de
retransmissão, podem ser usados (LU, MORANDO, EL ZARKI, 2002). Para vídeo em tempo
real, o protocolo usado deve ser o UDP.
O sistema adotado neste trabalho gera dados de TS MPEG-2 (camada de aplicação),
encapsulados em datagramas UDP (camada de transporte), sendo a carga para o IP (camada
de rede). Os datagramas IP são colocados dentro do quadro Ethernet (camada física),
conforme a figura 2.11.
figura 2.11 – estrutura do quadro Ethernet carregando pacotes MPEG-2
MPEG-2
188Bytes
MPEG-2
188Bytes
MPEG-2
188Bytes
Cabeçalho ethernet cabeçalho IP cabeçalho UDP carga útil do UDP fim Eth
22 bytes 20 bytes 8 bytes 1316 bytes 4 bytes
30
2.4 O CODIFICADOR E O DECODIFICADOR
O processo de visualização de imagens e audição do som à distância através de uma
rede de dados envolve vários componentes e compreende algumas etapas. De um lado, existe
a fonte dos sinais de vídeo e áudio, normalmente ainda nas suas formas analógicas. Eles são
digitalizados para que um novo formato, com valores discretos e limitados, os representem.
Porém, como a quantidade de bits resultante deste processo é bastante grande para as atuais
capacidades de armazenamento ou de transporte, o sinal digital passa pela etapa de
compressão, que busca a eliminação das redundâncias, e, por conseguinte, uma redução
considerável das informações digitais sem uma perda proporcional da qualidade do material.
Em seguida, o fluxo comprimido deve ser encapsulado dentro dos vários protocolos para se
permitir a comunicação entre máquinas conectadas por uma rede, ou que as compõe. Lembra-
se que muitas vezes a rede é formada por várias sub-redes. Na outra ponta, ocorre o caminho
inverso: os pacotes são abertos, recupera-se o fluxo digital comprimido, executa-se a
descompressão. Se os monitores ou equipamentos de armazenamento que estão na ponta de
destino forem digitais, receberão o fluxo e o processo estará completo. Caso contrário, o fluxo
é processado por um conversor digital-analógico, que entrega os sinais elétricos analógicos
aos elementos transdutores específicos (monitor de vídeo, projetor, alto-falantes). A figura
2.12 exemplifica o processo.
figura 2.12 – processo de vídeo sobre redes
Fonte de vídeo e
áudio
Conversão
A/D
compressão
Montagem
dos pacotes
Monitores
decodificação
Retirada de
dados
Conversão
D/A
A
B
31
Os blocos que executam as etapas A e B são conhecidos respectivamente por
codificador e decodificador. No caso específico de estarem adequados para implantação em
redes IP, empacotam nos protocolos apropriados e são denominados encoder/decoder IP.
Algumas vezes interesse no fluxo multimídia bidirecional, e neste caso necessita-se de
ambos nas duas pontas. Equipamentos que agregam todas estas funções são chamados de
codecs. Por força de hábito, algumas vezes esta nomenclatura é usada para se referir ao
equipamento que executa apenas uma das funções, e o contexto informa a real atividade dele.
Em ambientes ruidosos (por exemplo, em redes sem fio) existe a necessidade de se
aumentar a robustez do sistema, o que muitas vezes é feito com codificação de canal (LIN,
COSTELO, 1983), que implanta técnicas de detecção e correção de erros. Alguns codecs
incorporam a função, apresentando a opção de FEC. O ideal é que se tenha controle da
redundância adicionada, de modo a evitar uma redução desnecessária da capacidade do canal.
A aplicação define os parâmetros importantes a serem considerados no momento da
escolha dos pares. A taxa de bits que será gerada na saída depende da qualidade do vídeo
desejado, do tamanho da tela e da capacidade da rede, ou seja, adequar a taxa à banda
disponível. O atraso introduzido pelo sistema, basicamente função da complexidade do
processamento, do tamanho do GOP utilizado (em caso de MPEG) e do tamanho do buffer do
decodificador, pode ser maior em transmissão de streamings de vídeo (quando se espera a
chegada de boa parte dos dados para se reconstruir o vídeo) e deve ser muito baixa em
aplicações chamadas de “ao vivo”. O protocolo H.264, por exemplo, é uma excelente escolha
quando se pretende uma boa qualidade de vídeo com uma taxa baixa, mas apresenta atrasos
bastante consideráveis. codecs usados para produção de vídeo, com foco no fluxo do
trabalho, na edição dos materiais e no arquivamento das imagens. A qualidade é fator
preponderante, e as taxas são altas, entre 25 a 50 Mbps. Para transmissão de imagens para o
usuário final que iapenas assistir as cenas, sem processá-las, os codecs de transporte (com
taxas entre 2 a 10 Mbps) são suficientes, ocupando menos banda (WOOTTON, 2005).
A opção de formato e tamanho da tela é uma possibilidade a mais para se aumentar a
compressão. O padrão denominado CIF (common intermediate format) ocupa um quarto de
tela de relação 4:3; O ITU definiu esse formato como sendo 352 x 240 pixels. Quando a banda
é muito limitada, usa-se o formato QCIF, um quarto do anterior, tendo 176 x 120 pixels. O
formato de tela inteira ocupa 720 x 480 pixels, e é muitas vezes chamado de NTSC.
A implementação dos codecs pode ser realizada em hardware ou software. Ambas tem
o mesmo produto final: uma seqüência de pacotes carregando fragmentos do vídeo As opções
baseadas em software são mais lentas, porém mais flexíveis quanto aos formatos e são de
32
menor custo. Quando a intenção é se codificar vídeo de forma rápida, para uso em tempo
real, necessita-se de soluções de hardware ou no mínimo híbridas.
Há muitos padrões de codificadores, especialmente através de softwares, e a qualidade
do vídeo depende de seus algoritmos. Mas o padrão de vídeo de entrada também altera o
desempenho dos codificadores. Testes realizados com diferentes técnicas (WM-9 e H.264)
provam que a compressão é mais eficiente (relação qualidade x compressão) quando
executados sobre vídeo de varredura progressiva do que entrelaçada (WOOTTON, 2005). É
fácil de se entender, pois muito mais correlação entre linhas consecutivas do que
intercaladas.
Este trabalho se baseia em um codificador MPEG-2. Os grupos de trabalho MPEG
definem a sintaxe do fluxo de bits a ser decodificado, e não especificam como o fluxo deve
ser codificado. Assim, seguindo um padrão, codificadores de um fabricante podem ser
conectados a decodificadores de outro. Definindo-se as características de um decodificador
chamado de compatível, os fabricantes de codificadores são livres para inovar, gerando uma
representação codificada mais eficiente do vídeo fonte original.
2.5 A MEDIÇÃO DA QUALIDADE DO VÍDEO
É da natureza do ser humano caracterizar seu ambiente, seus pertences, suas
realizações. Tanto através de adjetivos quanto com uso de graus numéricos, a classificação
mostra o nível de satisfação com determinada situação por parte daqueles que são por ela
afetados. A caracterização permite tanto criar expectativas com relação à implantação, uso ou
vivência de situações, objetos, sistemas ou ações, antecipando a percepção que irão gerar,
quanto comparar casos semelhantes, dando subsídios para tomadas de decisões.
O que realmente interessa é a percepção humana. A intenção dos sistemas de vídeo e
áudio é, dentro de suas capacidades e restrições, fornecer aos sentidos da visão e audição
sensações o mais próximas possíveis das percebidas in loco. A caracterização destes sistemas
informa o quanto ou com que grau de satisfação isto está sendo atingido.
Neste contexto, a forma ideal de se caracterizar os sistemas de mídia é aquela capaz de
expressar o sentimento do espectador. Como isto abre muitas possibilidades, tanto pelas
inúmeras e individuais formas de expressão quanto pela diversidade de sensações dos vários
espectadores, adotam-se formas de utilização de opiniões médias e conceitos comuns de
degradação dos sinais.
33
A importância da mensuração da qualidade também é notada quando se leva em conta
a diversidade de serviços disponíveis utilizando vídeo. A princípio, as pessoas pedem
qualidade máxima. Mas uma relação entre qualidade, preço, disponibilidade,
acessabilidade, que cria um conceito de “melhor qualidade dentro de certas condições”. Os
usuários de alguns tipos de serviço aceitam o sacrifício de parte da qualidade para redução de
custos (ARTHUR, 2002) ou para que seja possível se assistir o vídeo em um equipamento
portátil. Portanto, precisa-se medir ou qualificar um sinal dentro de certas condições para se
determinar o quanto ele atende as expectativas.
uma primeira divisão da forma de se qualificar os sistemas: objetiva ou subjetiva.
A vantagem da forma subjetiva é que ela é mais próxima ao usuário, é como se fosse uma
linguagem de programação de alto nível. “A imagem está ótima, sem ruídos, limpa”, ou “as
cenas estão um pouco escuras”, etc..., é mais familiar ao espectador do que dizer “relação S/N
= 54 dB”, “nível de luminância = 0,4 V”. Além disto, a conceituação subjetiva também é mais
adequada, que expressa o que realmente interessa, ou seja, a percepção do usuário. No
entanto, esta mesma subjetividade de informações pode conduzir outras pessoas a
entendimentos diferentes. Para evitar este tipo de erro, para se relacionar causas e efeitos, e
especialmente para facilitar a análise de resultados, as formas objetivas são extremamente
úteis. Para que elas tenham coerência e reflitam com acuidade a situação, devem relacionar
conceitos e graus de classificação com a opinião média da percepção dos espectadores.
No caso de sistemas analógicos, que são lineares, o uso de alguns padrões de vídeo
estáticos no tempo é suficiente para a caracterização do seu desempenho, mesmo quando a
eles forem aplicados sinais dinâmicos e complexos. A qualidade da imagem pode ser
antecipada se no equipamento ou sistema for inserido um conjunto apropriado de sinais de
teste (ROBIN, 2005). Ou seja, embora ainda o principal seja a percepção do usuário, a forma
técnica objetiva de caracterização de vídeo e áudio de sistemas analógicos é excelente. Ela
retrata com fidelidade qual tipo de distorção ou incômodo visual e auditivo a maioria da
população exposta a estes sistemas sobre teste percebe, e com a grande vantagem de traduzir
esta graduação de qualidade em números, o que torna possível e extremamente simples tanto a
comparação de características como a geração de expectativas semelhantes a técnicos que não
participam dos ensaios, mas apenas recebem seus resultados.
Um trabalho contínuo de vários anos e entidades criou um padrão de testes bastante
confiável. Com alguns sinais estáticos e muitas figuras de mérito cujos resultados são sempre
numéricos, pode-se prever o comportamento de sistemas analógicos, e, quando a eles forem
aplicados sinais comuns, dinâmicos, praticamente todas as imperfeições em seus mais
34
diversos graus de percepção pelo ser humano podem ser antecipadas. Diversos instrumentos,
de muitos fabricantes, foram criados para se poder medir os parâmetros e analisar os
resultados. Um ótimo material de referência foi estudado e apresentado pela Tektronix,
chamado de NTSC Systems Television Measurements (TEKTRONIX, 1999).
No entanto, os sistemas digitais inserem novas formas de degradação, extremamente
dependentes da composição específica do sinal e da sua variação no tempo. Estes erros são
introduzidos pelo processo de digitalização, de compressão, e em virtude de falhas e
limitações nos meios de transporte, armazenamento e protocolos envolvidos. Pela própria
essência do processo de compressão, que retira redundâncias espaciais e temporais, os sinais
estáticos, que possuem muita correlação no tempo e espaço, são muito fáceis de se comprimir.
O ensaio de um sistema onde ocorre compressão, com apenas este tipo de sinais, fatalmente
resultaria em um relatório inadequado, que não traduziria o comportamento deste sistema
quando for utilizado pelos espectadores, ou seja, acessando imagens dinâmicas diversas. As
degradações no vídeo digital são dificilmente mensuráveis de forma objetiva, embora sejam
muito perceptíveis para os observadores (ARTHUR, 2002).
2.5.1 Avaliação Subjetiva
A avaliação subjetiva é a mais adequada para expressar os sentimentos e sensações
dos observadores. Em ITU-R (2002), a recomendação ITU-R BT.500 - 11 diz: “métodos de
valoração subjetivos são usados para estabelecer o desempenho de sistemas de televisão
usando medidas que mais diretamente antecipem as reações daqueles que verão os sistemas
testados. Não é possível se caracterizar plenamente o desempenho dos sistemas com
significados objetivos; conseqüentemente, é necessário suplementar as medidas objetivas com
as subjetivas”. Completando esta afirmação, Lu, Morando e El Zarki (2002) citam que
“métodos subjetivos de análise de qualidade de vídeo são os mais confiáveis”.
Porém, fatores externos interferem nos resultados das avaliações. O julgamento é
afetado tanto por questões físicas como por puramente humanas. A cor e nível de iluminação
do ambiente onde se executa o ensaio, o tamanho e distância da tela, mas também a
composição dos avaliadores, seu estado físico, grau de cansaço, nível de instrução, ocupação
profissional, humor, certamente individualizam parte da percepção do avaliador. O importante
é se inserir padrões que deixem os resultados semelhantes quando oriundos de sistemas com
características semelhantes, e que tais padrões reduzam a interferência destes fatores externos.
35
A recomendação do ITU-R citada explica uma série destes padrões. critérios e
metodologias definidos para testes mais críticos, realizados unicamente em laboratórios, e
outros que permitem a avaliação da qualidade do ponto de vista do telespectador. Para ambos
os casos há condições específicas e determinadas na recomendação sobre resolução, contraste,
ângulo e distância do observador e tela, luminosidade e cor do ambiente. Como exemplo, a
distância entre tela e observador deve satisfazer as regras de PVD (preferred viewing
distance), conforme tabela 2.2. PVD é a melhor distância para visualização, e é dada em
múltiplos das unidades de altura da tela. Por exemplo, para um monitor de 20 polegadas, com
a tela de altura de 30 cm, a melhor distância entre observador e tela é de sete vezes a altura,
ou seja, 2,1 m.
tabela 2.2 – PVD para imagens em movimento
Diagonal da tela
(polegadas)
Altura da tela – H
(cm)
PVD
(H)
Tela relação 4/3 Tela relação 16/9
12 15 18 9
15 18 23 8
20 24 30 7
29 36 45 6
60 73 91 5
>100 >120 >153 3-4
Para testes subjetivos, a escolha das imagens é de suma importância. Sabe-se que os
sistemas digitais apresentam desempenho e defeitos dependentes do conteúdo da seqüência de
imagens. O ideal é que se tenha a distribuição estatística de probabilidade da dificuldade de
compressão do material. Sendo mais comum a falta do conhecimento prévio desta
distribuição, a seleção do conteúdo e a interpretação dos resultados devem ser feitas com
muito cuidado.
A ausência de defeitos na imagem fonte do teste é fundamental para que sejam obtidos
resultados confiáveis. É essencial a inclusão de seqüências ditas críticas. Recomenda-se que a
36
metade do teste seja realizada com material bastante crítico (complexo), e que a outra metade
com moderadamente crítico. É definido material crítico, mas não demais (“critical, but not
unduly so”) aquele que apresenta imagens com qualidade satisfatória para fazer parte da
programação normal de várias horas de uma emissora de tv, apesar da visualização de alguns
artefatos. (ITU-R, 2002).
Seguem alguns métodos definidos pela ITU na recomendação citada. Para todos, são
estabelecidos na recomendação critérios para escolha das seqüências de imagens, para a
formação do grupo de observadores (por exemplo, não devem ser pessoas especializadas em
vídeo, e formado por pelo menos quinze indivíduos), e para a duração do teste (sugere-se em
torno de meia hora), além das condições ambientais.
2.5.1.1 Método DSIS – double stimulus impairment scale (método EBU)
É comumente usado para se ter a percepção de defeitos ocorridos em percursos de
transmissão e para avaliação de novos sistemas. O avaliador é primeiramente apresentado a
um conjunto de imagens de referência, onde não ocorrem artefatos ou outros defeitos, e, em
seguida, ao mesmo conjunto após seu processamento pelo sistema sobre teste. A ele é pedido
julgar a segunda, tendo como base a primeira. O esquema do teste, mostrado na figura 2.13,
prevê tempos definidos para cada apresentação, assim como tempo de recuperação e descanso
durante a transição (imagem cinza), e um tempo final para o julgamento.
figura 2.13 – esquema de teste DSIS
Fonte de
sinal
Sistema em
teste
Monitor de
controle
Chave temporal
Monitor para
julgamento
Nível de
cinza
37
A primeira variante dá uma única apresentação da referência e uma única da imagem a
ser avaliada; a segunda variante repete as duas apresentações antes do julgamento, conforme
figura 2.14.
figura 2.14 – tempos de observação e julgamento, método DSIS
O julgamento deve ser dado em termos de notas a respeito da degradação da imagem,
seguindo a escala da tabela 2.3.
tabela 2.3 – conceito para avaliação DSIS
conceito degradação
5 imperceptível
4 perceptível mas não irritante
3 levemente irritante
2 irritante
1 muito irritante
t
1
t
2
t
3
t
4
t
1
t
2
t
3
t
2
t
1
t
2
t
3
t
4
julgamento julgamento
Variante I Variante II
t1 = 10s - imagem de referência
t2 = 3s - imagem tela cinza, nível de vídeo 200 mV
t3 = 10s - condição de teste
t4 = 5-11s - imagem tela cinza
38
Os observadores são orientados a julgar sempre sobre a impressão geral que tiveram
da última seqüência. Existem formulários para que cada um responda sobre as diversas
seqüências a ele apresentadas.
2.5.1.2 Método DSCQS – double stimulus continuous quality scale
Este método também é especialmente útil na avaliação dos efeitos dos meios de
transmissão sobre a qualidade da imagem. Nele, o avaliador assiste imagens aos pares, da
mesma fonte, sendo uma proveniente diretamente desta fonte e outra sendo processada pelo
sistema sobre averiguação. A ordem temporal das imagens durante as diversas seqüências é
alterada de forma pseudo-aleatória, através do chaveamento da imagem apresentada, e não é
dado o conhecimento prévio aos avaliadores qual imagem é a referência. Ambas as imagens
de cada seqüência devem receber julgamento. A pessoa ou grupo avaliador cada uma das
duas imagens em torno de dez segundos por duas ou três vezes, memoriza a percepção e então
a nota correspondente a cada uma delas, entre os limites de 0 a 100. Lembrando que, para
cada par de imagens de teste, uma não apresenta imperfeições, enquanto que a outra pode ou
não contê-las. O observador deve inserir uma marca na escala vertical contínua da figura 2.15
para cada uma das imagens apresentadas aos pares.
figura 2.15 – classificação da qualidade da imagem pelo método DSCQS
1 2 3 n
A B A B A B A B
Excelente
100
Boa
Aceitável
Pobre
Ruim
0
39
Não é conveniente se associar os números da pontuação dada neste método com os
resultados e adjetivos do método anterior. Os resultados obtidos devem ser tratados apenas
como a diferença de classificação numérica entre a referência e o sistema sobre teste (ITU-R,
2002). Desta forma, um número pequeno na escala DSCQS indica que a diferença de
qualidade da imagem entre a fonte e o equipamento ensaiado é pequena, ou seja, o sistema
introduz pouca degradação. Porém, não indica a qualidade final do sistema.
2.5.1.3 Métodos Alternativos
2.5.1.3.1 Método SS – single stimulus
Neste caso, uma única seqüência de imagens é apresentada, e de forma dirigida para se
avaliar um determinado defeito ou sintoma. É interessante para se obter uma gama de valores
para um mesmo tipo de degradação. O julgamento pode ser dado de quatro formas, sendo
descritas aqui duas:
a) através de notas correspondentes aos adjetivos (5 = excelente, ou imperceptível; 4 =
boa ou perceptível, mas não irritante; 3 = aceitável, ou levemente irritante; 2 = pobre, ou
irritante; 1 = ruim, ou muito irritante). Permite-se a utilização de meio grau dentro da escala,
especialmente quando se quer examinar detalhes, como a legibilidade de textos na imagem,
por exemplo;
b) método do desempenho: a percepção do avaliador é obtida através da resposta a
questões a ele formuladas. Por exemplo, a identificação de um certo objeto na cena, a leitura
de um texto, etc... A velocidade da resposta e o acerto são dados que formam distribuições, e
a análise de resultados é baseada na tendência central e na dispersão destas distribuições.
2.5.1.3.2 Métodos de Comparação de Estímulos (Stimulus Comparison Method)
Duas seqüências de imagens de mesmo conteúdo uma referência e outra sobre teste
– são mostradas simultaneamente, e o observador deve dar uma nota correspondente à relação
entre as imagens. Pode-se usar dois monitores igualmente ajustados ou ainda dividir uma tela
de maiores proporções. Nos testes para televisão, há três metodologias de avaliação:
40
a) Julgamento com adjetivos: a relação entre as imagens é feita com uso de palavras
que expressam a existência e direção de diferenças perceptíveis, de acordo com a tabela 2.4.
tabela 2.4 – conceito para avaliação no método “Comparação de estímulos”
nota Imagem teste comparada à referência
-3 muito pior
-2 pior
-1 levemente pior
0 igual
1 levemente melhor
2 melhor
3 muito melhor
b
) Julgamento sem categoria: a relação da qualidade observada é informada por um
número, entre limites abertos ou pré-definidos, ou ainda pelo desenho de um ponto ou risco
em uma escala vertical com dois limites rotulados nas pontas desta escala (exemplo: igual,
diferente).
c) Método do desempenho: cada imagem do par tem graus diferentes de um
determinado sintoma, ou uma delas não o contém. O avaliador decide qual das imagens
contém o problema, ou em qual delas está a de maior grau. O acerto e velocidade na resposta
são usados como índices da relação entre as duas imagens.
A introdução da compressão na tv digital produz defeitos que afetam a qualidade da
imagem e que são muito dependentes das cenas e suas variações; a qualidade flutua muito
durante um programa longo. As metodologias até aqui citadas não são suficientes para se
medir este tipo de situação. Além disto, os métodos de estímulo duplo são possíveis em
laboratório, e não replicam as condições de percepção domésticas, tipicamente de estímulo
único. Para a avaliação da qualidade do sinal de forma contínua, sem a imagem referencial, o
método a seguir é mais apropriado.
41
2.5.1.3.3 Método SSCQE - single stimulus continuous quality evaluation
Ao grupo de pessoas é apresentada uma série de segmentos de programa, cada um
com diferentes parâmetros de qualidade em avaliação, tendo cada segmento duração mínima
de cinco minutos. Os avaliadores têm em mãos um mecanismo sensor com um curso linear de
10 cm, e, enquanto assistem, transmitem suas impressões através do deslocamento do cursor
em dimensão proporcional à sensação percebida. Estes valores são gravados na cadência de
duas amostras por segundo, e os dados obtidos permitem o levantamento de histogramas. É
uma escala contínua, como a utilizada no método DSCQS, porém, se naquele o grau era único
no final de uma apresentação curta, neste as notas são dadas de forma contínua durante o
tempo da demonstração.
Este método é mais adequado, pois é natural que em dez segundos, como nos ensaios
anteriores, não haja uma representação significativa do que acontece em um caso real, mais
longo, já que os artefatos são muito dependentes do conteúdo temporal e espacial. Este
método está mais adequado para medidas de qualidade de vídeo em seqüências longas, e
reproduz situações reais com a ausência da referência.
Porém, quando se quer medir a fidelidade, então a referência deve ser introduzida. Assim,
foi criado e proposto o próximo método.
2.5.1.3.4 Método SDSCE – simultaneous double stimulus for continuous evaluation method
As seqüências de referência e a de teste são apresentadas simultaneamente, em um
mesmo monitor dividido ou em dois ajustados de forma igual. O grupo deve verificar as
diferenças entre as duas e julgar a fidelidade do vídeo movendo a alavanca do mecanismo
sensor, semelhante ao caso antes exposto. Para representar fidelidade perfeita (codificada
como 100) a alavanca deve estar no máximo comprimento, e fidelidade nula (escala 0) deve
estar no fundo.
O conjunto de dados obtidos pode gerar vários gráficos estatísticos.
É importante observar que estudos identificaram que a memória humana altera
significativamente o resultado de testes como os sugeridos anteriormente. As imagens mais
lembradas de uma seqüência serão as dos últimos dez a quinze segundos. O ITU considera
esta questão, usando trechos curtos quando o julgamento é posterior à apresentação, enquanto
que trechos longos são medidos durante sua realização.
42
2.5.1.4 Outras Propostas de Avaliação Subjetiva
Todas as formas de avaliação apresentadas anteriormente são da recomendação
denominada ITU-R BT.500 11, que se aplica à televisão em definição convencional.
recomendações específicas para tv de alta definição, videoconferência e outras aplicações
multimídia. Outros grupos também apresentaram algumas metodologias, mas essencialmente
possuem princípios similares e, dada a abrangência e aceitação das recomendações ITU,
considera-se suficiente o entendimento destas.
2.5.2 Avaliação Objetiva
A solução de análise subjetiva de qualidade de imagem em que pessoas observam e
julgam o vídeo é interessante, mas apesar dos esforços nos controles destes testes, a natureza
do julgamento subjetivo pode causar inconsistência nos resultados, variando de laboratório
para laboratório, teste para teste e observador para observador. Além disto, testes subjetivos
são caros e consomem muito tempo (DURANT, 1998). Também não podem fornecer
monitoração em tempo real, para aplicações em tempo real, quando o sistema está em serviço
(LU, MORANDO, EL ZARKI, 2002).
Métodos de avaliação objetiva são importantes ferramentas, e já mostraram sua
utilidade na área de vídeo nas várias décadas de era analógica. São muito mais rápidos e de
menor custo do que as soluções subjetivas, mostram degradações ainda imperceptíveis, e são
fundamentais na organização de padrões. O conhecimento da existência da distorção
imperceptível é importante para o isolamento de sistemas defeituosos e na formação do
conceito de limiares, a partir de onde determinado defeito passa a ser visível, e o quão longe o
sistema em teste está deste limiar.
Pelas suas características de imparcialidade, confiabilidade, possibilidade de repetição
e de baixo custo, métodos objetivos aumentam a competição entre provedores de serviço e
equipamentos, e facilitam a especificação e avaliação de novos sistemas. E, talvez até mais
importante: a realização de medidas objetivas em tempo real abre a perspectiva de
monitoração contínua da qualidade do vídeo (ARTHUR, 2002).
Se o interesse maior é na percepção humana, é fundamental que, em testes objetivos,
exista alta correlação com os resultados obtidos de maneira subjetiva, prevendo a aceitação
dos usuários e a tradução adequada das sensações. No caso de sistemas analógicos, não
43
comprimidos, sinais de teste estáticos conseguem criar praticamente todas as espécies de
dificuldades e degradações que o sistema pode sofrer, e parâmetros específicos carregam em
números a quantidade ou grau de cada forma de degradação. Existe esta desejada correlação
do número atribuído para uma dada figura de rito com a percepção visual correspondente.
Portanto, a medição objetiva, desde que realizada com critérios, sinais de teste corretos e
sejam avaliados todos os parâmetros de interesse, é suficiente para a determinação dos
sistemas analógicos. O mesmo não se pode dizer quando se deseja caracterizar um sistema
amostrado ou comprimido. As degradações visuais especialmente oriundas da compressão são
difíceis de se caracterizar, ou pelo menos de se distinguir umas das outras. São situações
complexas: a especificação dos parâmetros a se medir, que tipo de sintoma causariam na
percepção humana, e como provocar erros nestes parâmetros com sinais de teste dinâmicos.
Entende-se como objeto de estudo o desenvolvimento de diversas figuras de mérito que
tenham cada uma relação com um determinado tipo de degradação. Para completar, há a
necessidade de criação de sinais de teste que permitam a avaliação de cada um destes
parâmetros. Um exemplo destes estudos é visto no trabalho de Fenimore, Libert e Roitman
(2000), que apresenta uma métrica e um sinal de teste para avaliação da figura de mérito
denominada “mosquito noise”. Embora os sintomas ou a percepção sejam muitas vezes
similares para diferentes defeitos, a distinção e a valoração do erro permitem se investigar as
causas e melhorar os sistemas, como acontece em sistemas analógicos. Portanto, a
objetividade dos testes, quando existir uma correlação bastante forte com a percepção
subjetiva e cobrir todo tipo de degradação e situações, é a condição ideal, fornecendo dados
exatos para as melhores tomadas de decisão.
Diversos trabalhos têm sido mostrados com foco em medidas objetivas. Importa
verificar a correlação dos métodos sugeridos com as formas subjetivas. Em geral, nos
sistemas fim-a-fim, as imagens original e decodificada são comparadas, pixel a pixel, e as
diferenças são tratadas através de algoritmos particulares. Para que se possa fazer esta
comparação, é importante haver as referências de tempo e espaço, pois o processo de
compressão e descompressão sempre insere atraso, e pode ocorrer deslocamento espacial; a
falta da referência impossibilita a comparação dos elementos. O que faz um método ser
melhor que outro e resultar em uma correlação mais alta é a precisão destas referências e o
modo com que o algoritmo trata as diferenças capturadas. Esta forma que tem acesso às
imagens das duas pontas do processo é dita “com referência total” (REIBMAN,
VAISHAMPAYAN, SERMADEVI, 2004).
44
Porém, muitas vezes não se têm as duas informações no mesmo ambiente. Para se
fazer a avaliação nestes casos, parâmetros das imagens de cada um dos extremos são
coletados, e de um lado estes parâmetros objetivos são enviados ao outro lado com a ajuda de
um canal auxiliar. Nesta situação não se comparam os elementos da imagem, mas sim
características nela observadas, e assim se diz que a avaliação é feita “com referência
reduzida” (ARTHUR, 2002). ainda formas de avaliação sem referência, onde são
observados parâmetros apenas na imagem decodificada. A falta de referências normalmente
se traduz em processos mais complexos e menos eficientes, mas permite avaliação em serviço
(MUNTEAN, PERRY, MURPHY, 2005).
Arthur (2002) apresentou sete propostas de avaliação objetiva com referência total,
sendo uma delas desenvolvida pelo CPqD, e denominada CPqD-IES avaliação de imagem
baseada em segmentação. Dos descritores utilizados nos sistemas, é comum o uso do PSNR
(peak signal to noise ratio), ou do WSNR (weighted signal to noise ratio). O PSNR é uma
estimativa de qualidade da imagem reconstruída quando comparada com a original, de fácil
cálculo. Computa-se o erro médio quadrático (MSE) da imagem reconstruída, observando o
nível de luminância de cada pixel. O uso do PSNR é bastante comum em função da facilidade
de obtenção deste número. O MSE é bastante popular, apresenta expressões matemáticas
simples, facilitando a manipulação analítica. Mas testes mostram que pouca correlação de
medidas baseadas no MSE com as observações subjetivas (ZAMPOLO, SEARA, 2004).
A Snell e Wilcox desenvolveu uma métrica matemática, chamada de PAR picture
appraisal rating. Muntean, Perry e Murphy (2005) citam diversas outras métricas. Mas no
mesmo artigo comentam que “O ITU-T Video Quality Expert Group tem estudado
extensivamente propostas de métricas objetivas para padronização e concluiu que nenhuma
delas atende a todas as necessidades em todas as condições, e, em conseqüência, atualmente
não há solução objetiva capaz de substituir completamente os testes subjetivos”.
Uma das dificuldades de realização de testes objetivos é a implementação da
plataforma de ensaio. Alguns fabricantes, baseados em uma ou mais destas métricas e
filosofias, desenvolveram instrumentos que realizam a avaliação de forma objetiva, rápida e
coerente, ou seja, o mesmo equipamento ensaiado nas mesmas condições apresenta o mesmo
resultado.
A Tektronix e os laboratórios Sarnoff, com um instrumento analisador de qualidade de
imagem, realizam um procedimento fim-a-fim, do tipo “com redundância total”, usando a
métrica de qualidade JND (just noticeable difference) (BOMBELLI, 2005). Utilizam os dados
coletados da comparação pixel a pixel da imagem original e recuperada, e alimentam um
45
algoritmo que simula a percepção humana, ou seja, busca uma correlação com o sentimento,
com o resultado sentido pelo observador. Foi desenvolvida uma figura de mérito chamada de
PQR picture quality rate, expressa em valores numéricos, obtida após o tratamento das
diferenças pelo algoritmo de simulação do sistema visual humano (HVS). Assim, o PQR
apresenta excelente grau de correlação com os testes subjetivos executados de maneira
bastante controlada. (ROBIN, 2001).
A escala de PQR varia de 0 a 25. Valores acima de dez indicam artefatos capazes de
causar irritação. PQR igual a 0 é uma cópia exata da fonte. O valor 1 indica defeitos com
pequeno impacto na percepção, ou até imperceptíveis; 3 indica artefatos quase sempre
notados, porém que não causam incômodo. Apesar do alto grau de correlação deste método
com a avaliação subjetiva, ela é um pouco mais crítica, e computa degradações que estão
abaixo do limiar de percepção do olho humano (TEKTRONIX, 2001). Assim, a comparação
entre as técnicas subjetivas recomendadas pelo ITU com a objetiva baseada no PQR apresenta
um pequeno deslocamento inicial, mostrado na figura 2.16. Lembra-se que o grau único na
escala DSCQS é a diferença entre as notas atribuídas à fonte e ao sistema, e portanto números
altos indicam grandes degradações.
figura 2.16 – escala de PQR x escalas subjetivas
0
25
50
75
100
1
2
3
4
5
10
5
0
25
3
Escala objetiva
PQR
Escala
subjetiva
DSCQS
Escala
subjetiva DSIS
(EBU)
46
A figura 2.17 apresenta o diagrama de ensaio utilizando-se o instrumento da
Tektronix.
figura 2.17 – esquema de medição com analisador de imagem
O próprio instrumento gera as seqüências de deo para os testes. As imagens são
coletadas em sua outra porta, e a análise é realizada, resultando nos números de acordo com a
qualidade observada, conforme a escala da figura 2.16. Quando o vídeo é pré-processado,
antes de ser entregue ao conjunto sobre ensaio, costuma-se gerar uma percepção subjetiva
melhor, enquanto que o PQR normalmente piora, resulta em um valor mais alto. Isto é
explicado pelo fato de que o processamento filtra, limita o sinal a ser codificado.
Naturalmente, elimina transições abruptas e assim facilita a compressão. Como conseqüência,
reduz o surgimento de artefatos perceptíveis. Porém, uma análise mais criteriosa, mais precisa
que o limiar humano, pode verificar a limitação do vídeo, que causa uma imagem suavizada e
com menos bordas.
A Rohde & Schwarz definiu um parâmetro chamado de DVQL-W (digital video
quality level). Este parâmetro é computado a partir de vetores que contêm informações das
diferenças médias entre pixels adjacentes. Especialmente efeitos de blocos e bordas
irregulares são percebidos com esta técnica. Não necessita de referência, a medição é feita na
ponta final do sistema, onde o vídeo a ser avaliado é recebido. Ensaios mostram alta
correlação do método objetivo com a análise obtida através da opinião média de avaliação
subjetiva correspondente. (LAUTERJUNG, 1998).
Outros fabricantes também implementaram soluções de testes objetivos, como a K-
Will Corporation e a Pixelmetrix (K-WILL, 2006; PIXELMETRIX,2006).
Picture
Quality
Analyser
Pré-
processador
Encoder Decoder
Saída do
vídeo
Entrada
do vídeo
47
2.6 AS DEGRADAÇÕES NO VÍDEO
Consideram-se degradações todas as alterações sofridas pela imagem durante seu
processamento. Algumas podem ser imperceptíveis à visão humana, mas se o sintoma
aumentar de intensidade podem passar a ser percebidas e, portanto, também devem ser
consideradas. Conforme explicado na seção anterior, o interesse é representar de alguma
forma uma possível percepção humana. Listam-se aqui algumas destas percepções e como
são medidas.
- Alteração de contraste e brilho: provocadas por distorções não lineares no sistema.
São medidas a não linearidade de luminância (em porcentagem) e os níveis absolutos, em
escalas IRE ou Volts. Sinais de teste estáticos, com variações de nível de cinza, permitem
traduzir em números este tipo de erro e sua percepção.
- Alteração de matiz e saturação de cores: de acordo com o nível médio (brilho ou
luminância), as duas características da cor podem sofrer alterações. Medem-se o ganho e a
fase diferenciais, com um sinal de degraus de luminância, do nível de preto até o branco,
modulados por uma subportadora de cor de fase e amplitude constantes (staircase modulado).
Os números resultantes são expressos em porcentagem e em graus.
- Contornos muito destacados: a resposta transitória dos sistemas causa oscilações nas
transições abruptas do sinal elétrico. Mede-se o fator K, que indica em porcentagem a
intensidade deste fenômeno oscilatório, com a aplicação de um sinal de teste que contém
variações rápidas do branco para o preto e vice-versa .
- Pouca definição das imagens (desfocadas, borradas), ou o contrário, excesso de
brilho apenas nos detalhes das imagens: são percepções causadas por uma resposta em
freqüência deficiente, apresentando reforço ou atenuação da amplitude de acordo com a
freqüência do sinal. Pode ser feita a medida com o sinal de multiburst, composto de vários
“pacotes” de freqüências crescentes, todos com mesma amplitude. Os números são dados para
cada pacote, em forma percentual em relação a um deles como referência, ou em escala IRE
ou Volts de cada pacote.
- Ruído: a percepção de um granulado sobre a imagem é sintoma de uma relação
sinal/ruído deficiente. Com um sinal de teste de amplitude constante em toda a linha, mede-se
a intensidade da variação do sinal em torno deste valor médio. A S/N (relação sinal/ruído) é
indicada em dB (decibel).
O exposto é válido para sistemas analógicos e digitais, comprimidos ou não. A
diferença é que, junto com mais algumas medidas e o uso dos respectivos sinais padrão de
48
teste, os sistemas analógicos ficam perfeitamente caracterizados de forma numérica. Para
sinais comprimidos, aparecem novas formas de degradação, e para as quais ainda não são de
uso comum sinais de teste apropriados para sua mensuração. Isto justifica a preferência pelos
métodos subjetivos de análise, que definem a qualidade da imagem de uma forma total, não se
destacando valores para cada forma de degradação percebida. Alguns defeitos originados no
processo de compressão estão descritos a seguir.
- Quadro escuro (preto ou azul), ou black frame: quando a taxa de erros de bit (BER
bit error rate) ultrapassa um valor limite, ou quando o fluxo é interrompido, dependendo da
configuração do decodificador, a sua saída de vídeo adota nível e cor fixos.
- Tela congelada, freezed frame: é outra forma adotada pelo decodificador para
situações de muitos erros ou interrupção do fluxo.
- Ruído de blocos, blocagem, block noise, blockiness: erros em rajadas, afetando uma
pequena parte da informação, ou falta de banda para se comprimir adequadamente uma
porção da cena com movimento intenso, causam em algumas áreas da tela uma
descontinuidade, padrões em forma de pequenos blocos (múltiplos de 8x8 pixels) não
compatíveis com o cenário vizinho. Dependendo da gravidade da ocorrência, a quantidade e a
seqüência de blocos errados formam faixas (fatias) e ocupam grande parte da tela, e com
grande freqüência de eventos.
- Mosquito noise: as bordas dos objetos em movimento ficam crespas, ocorre uma
sobreposição de ruído sobre elas. Quando a imagem é muito rica em detalhes e movimentos,
este ruído é percebido por toda a área. Para este sintoma, foram propostas métricas específicas
e um correspondente sinal de teste, chamado de espirais (spirals) (FENIMORE, LIBERT,
ROITMAN, 2000).
- Falta de definição, blurring: sintoma semelhante à resposta em freqüência deficiente
nos sistemas analógicos. É uma perda de resolução causada pelo processo de compressão, que
evita o tratamento dos detalhes (altas freqüências) para reduzir a taxa de bits de saída
(ARTHUR, 2002).
- Posterização: a causa pode ser a mesma do blurring, uma filtragem do sinal antes da
compressão limita o conteúdo. O sintoma aparece como padrões retangulares de manchas de
luminosidade, as nuances de luz e sombra são agrupadas em menos possibilidades.
- Atualização lenta de cenas, jerkiness: especialmente quando a taxa de bits usada para
a compressão é muito baixa para o conteúdo dinâmico da imagem, percebe-se uma
descontinuidade do movimento, como se faltassem quadros (em caso de GOPs curtos), ou as
áreas da imagem em movimento apresentam rastros (GOPs mais longos).
49
CAPÍTULO 3
METODOLOGIA E CONFIGURAÇÃO DOS EXPERIMENTOS
A inserção de componentes em seqüência serial introduz alterações de conteúdo,
redução de confiabilidade do sistema, ou ambos. Qualquer das etapas mostradas na figura
2.12 acrescenta degradações, bem como a confiabilidade e disponibilidade do sistema ficam
limitadas às menores características individuais de suas partes.
No intuito de se avaliar a qualidade do vídeo transportado em uma rede IP, deve-se ter
em mente que diversos são os contribuintes para o resultado final. Os equipamentos das
extremidades, ou seja, o codificador e o decodificador, bem como os instrumentos de vídeo
(geradores e monitores) limitam a qualidade do sinal de vídeo. A rede, com sua topologia e
características, também adiciona degradações ao sinal.
O interesse central deste trabalho é averiguar a relação entre a qualidade do vídeo e as
condições da rede que o transporta na forma de dados. A metodologia usada para o
desenvolvimento das experiências considera a avaliação das influências das partes em etapas
distintas. Primeiramente, avalia-se a qualidade do vídeo limitada pelos instrumentos e alterada
pelos codecs, imprescindíveis para a adaptação dos sinais ao novo meio. Para isto, foi
montada uma rede extremamente simples, controlada e de recursos bastante suficientes para o
propósito. Em seguida, conhecendo-se as deficiências características do codificador e do
decodificador, além da resposta da fonte e monitores, avaliam-se as degradações inseridas
especificamente pela rede IP. A figura 3.1 ilustra a diferença dos sintomas observados na tela
quando degradações de origem na compressão daqueles causados por perda de pacotes na
rede (LU, MORANDO, EL ZARKI, 2002). Obviamente, os artefatos originados na
compressão serão observados após o tráfego do sinal na rede. Esta figura pretende apenas
distinguir o tipo de defeito em função da causa. No quadro 1, o algoritmo de compressão
preserva mais a qualidade do sinal, a taxa é maior do que a utilizada para o quadro 2. Nesta
figura, pode-se observar que falhas na rede e a conseqüente perda de pacotes causa artefatos
bastante perceptíveis, falta informação na montagem do quadro. No exemplo, algumas fatias
do quadro MPEG são perdidas. Os artefatos causados pelo algoritmo de compressão são mais
discretos. No lado 2 da figura, observa-se uma redução na definição, a imagem parece fora de
foco, com menos detalhes. Isto é facilmente verificado comparando-se as duas imagens,
especialmente no cabelo e nos contornos menos definidos. Além disso, a formação de
50
pequenos blocos, nas bordas da bandeira e da roupa. Também é notada a ocorrência de
posterização, o fundo de madeira apresenta variações mais abruptas de tonalidades.
figura 3.1 – percepção de defeitos de acordo com a causa
Para a avaliação da qualidade do vídeo foi usado o método perceptual. Baseando-se
nas recomendações do ITU, e considerando-se a intensidade, freqüência e o tipo de
degradações impostas ao vídeo pela rede, uma escala de 0 a 5 para informar a percepção do
espectador desde ininteligibilidade até a não percepção de degradações foi considerada
suficiente.
Este capítulo descreve a disponibilidade da infra-estrutura de rede e acessórios de
vídeo usados na execução dos experimentos e na sua análise e explica a configuração do
sistema. O desempenho e a operação do codificador e o decodificador são explorados com uso
de sinais estáticos e dinâmicos. Na seqüência são descritos os procedimentos adotados para o
ensaio da rede completa. Os resultados das etapas que antecedem aos testes da rede também
são apresentados neste capítulo, por serem consideradas estágios intermediários. A discussão
de resultados dos ensaios da rede é deixada para o capítulo 4, sendo esta o motivo principal
deste trabalho.
1) 2)
Degradação de qualidade causada por 1) perda de pacotes na rede; 2) algoritmo de
compressão
51
3.1 CARACTERIZAÇÃO DO CODIFICADOR E DO DECODIFICADOR
Os equipamentos das pontas do sistema, responsáveis pelas conversões de formato e
adequação ao meio, realizam processamentos volumosos. Conforme detalhado no capítulo 2,
o número de níveis utilizados na quantização, a freqüência de amostragem, a linearidade e
outros parâmetros, o algoritmo de compressão e suas políticas de avaliação e tratamento das
redundâncias inserem invariavelmente distorções e ruídos ao sinal original. Os ensaios
executados procuram explorar as capacidades e características do par em teste e conhecer sua
resposta aos mais diversos sinais que devem processar.
Essa caracterização tem por objetivo verificar o desempenho isolado do par
codificador e decodificador, antes de fazer parte de uma rede onde existam outros
contribuintes de tráfego.
As etapas do teste dos equipamentos terminais foram:
montagem e configuração da rede;
aplicação de imagens estáticas;
aplicação de sinais de programação;
aplicação de sinais estressantes;
verificação de estabilidade dos equipamentos;
avaliação do retardo causado pelo processo;
No anexo 1 encontram-se as características dos equipamentos codificador e
decodificador usados neste trabalho. Equipamentos MPEG-2 de outros fabricantes possuem,
de maneira geral, características semelhantes, e também para eles os resultados obtidos nos
ensaios podem ser considerados válidos, especialmente os que relacionam taxa de bits com
qualidade perceptual da imagem dinâmica.
3.1.1 Esquema do Ensaio
A ligação física dos equipamentos é mostrada na figura 3.2. O esquema foi utilizado
para a
familiarização de funcionamento e configurações, bem como para a caracterização da
resposta do par codec. Foi elaborada uma rede Ethernet 100 Mbps, com um switch
conectando exclusivamente os equipamentos sobre teste e um computador para controlar seus
parâmetros.
52
figura 3.2 – esquema para ensaio do par codificador – decodificador
3.1.2 Configuração
Montou-se uma rede local em modo unicast. A configuração tanto do codificador
quanto do decodificador é simples, bastando seguir as instruções dos fabricantes contidas nos
manuais de operação. Para o codificador, pode ser feita através de hiperterminal, conectando
o elemento com o PC através da porta serial, com a ajuda do software VSI que o acompanha,
ou pela Web. O decodificador possui como acessórios um controle remoto e um teclado sem
fio, com os quais se pode configurá-lo e iniciá-lo. Existem senhas para que somente pessoas
autorizadas possam alterar os parâmetros. De posse destas, inserem-se os endereços IP (no
caso de se optar por endereços fixos), as máscaras de rede, o roteador (gateway), o tipo de
encapsulamento (UDP ou RTP), a taxa de compressão e pode-se iniciar ou parar o tráfego.
Também nas páginas de configuração pode-se alterar o GOP, introduzir ou retirar o FEC,
outras opções avançadas, e ainda fazer as adequações de vídeo: padrão de cores dos sinais
analógicos de entrada e de saída, tamanho e resolução da imagem, entre outras. As figuras
3.3, 3.4, 3.5, 3.6 e 3.7 mostram algumas das opções de configuração.
Fontes de vídeo
Analisador de
vídeo VM 700T
Cabo serial
Cabos de vídeo
53
figura 3.3 – página de configuração básica do codificador via software VSI
figura 3.4 - página de configuração avançada do codificador via software VSI
54
figura 3.5 – página de configuração do codificador via web
figura 3.6 - página de opções de configuração do decodificador, vista no monitor de
vídeo, acessada por teclado remoto
55
figura 3.7 - página de configuração de rede no decodificador, vista no monitor de
vídeo, acessada por teclado remoto
3.1.3 As Fontes e os Monitores
O LATE - Laboratório Avançado de Telecomunicações, localizado na sala C-307 da
Universidade Tecnológica Federal do Paraná (UTFPR), possui um vídeo cassete VHS, com
saída de vídeo composto, um dvd player também com vídeo composto e S-vídeo, e geradores
de sinais de teste tanto em PAL-M quanto em NTSC. Inseriu-se ainda no laboratório um
receptor analógico de satélite e uma antena, na laje do prédio, com 4 metros de diâmetro, que
foi apontada e alinhada para o satélite Brasilsat B1. Neste satélite trafegam diversos sinais de
televisão abertos, que foram utilizados como fonte de sinais de programação. Todos estes
equipamentos forneceram vídeo para ensaios com sinais estáticos e dinâmicos.
Para a realização de ensaios com os sinais estáticos citados no capítulo 2, o primeiro
gerador de sinais de teste NTSC utilizado foi o VITS100, que na verdade faz a inserção de
sinais no intervalo vertical. Este equipamento recebe um sinal de vídeo composto na entrada,
chamado de programação, e agrega a ele, entre as linhas 17 e 20 do intervalo vertical, sinais
de teste ou informações em forma de texto, que podem ser selecionados a critério do
56
operador. Como o codificador elimina toda a informação presente desde o início do intervalo
vertical até a linha 20 (do intervalo vertical libera apenas a linha 21, onde normalmente é
transportado o sinal de closed caption das emissoras de televisão), não se conseguiu recuperar
os sinais na outra ponta do sistema. Os testes envolvendo sinais no padrão NTSC foram então
executados com um gerador portátil Tektronix TSG95, emprestado temporariamente pela TV
Paranaense. Os ensaios com sinais PAL-M tiveram como fonte de vídeo o modelo R-145
M, também da Tektronix.
Os testes com sinais estressantes foram efetuados nos laboratórios da TV Paranaense.
Através de um video-tape Betacam, foram geradas imagens com conteúdo bastante
diversificado, rico em detalhes e com contrastes e cores elevados. cenas de fontes de água
em movimento, chamas e fumaça com movimentação bastante irregular, trabalhadores
pisando e espalhando cacau, bandeiras tremulando, e a movimentação de torcida e jogadores
em um estádio de futebol. O ideal seria utilizar seqüências de imagens conhecidas, como o
Mobile with calendar”, Flowers”, e outras bastante usadas na avaliação de sistemas digitais
e comprimidos. Porém, dificuldade em se obter e também reproduzir estas imagens em
uma mídia que não introduza erros consideráveis, (o que certamente acontece no caso de
dvd), e a qualidade da imagem fonte é muito importante quando se está analisando detalhes de
resposta do conjunto codec. Portanto, a solução adotada da escolha de cenas diversificadas e
adequadas, acessadas através do VT Betacam, a qualidade de fonte e condições de
observação suficientes para o propósito.
Há no LATE um monitor 14 polegadas do fabricante Barco, de boa resolução (mais de
500 linhas), e um analisador de vídeo VM 700T da Tektronix. Este equipamento, além de
possuir tela e gratículas de monitor de formas de onda e de vectorscópio, executa muitas
medidas de forma direta, sem a necessidade de se observar a forma de onda para calcular o
valor correspondente a certas figuras de mérito.
O VM700 possui uma interface paralela, na qual pode ser conectada uma impressora
comum. Resultados numéricos e as formas de onda visualizados na tela podem ser impressos,
bastando para isto que se aperte uma tecla (copy). No entanto, esta metodologia necessita,
após a impressão, que se faça a captura das imagens através de um scanner, caso se queira
organizar uma documentação eletrônica. Como este processo é bastante lento, entrou-se em
contato com a empresa Sigtron, que presta assistência aos clientes da Tektronix, e com esta
obteve-se um software que permite a captura das informações da tela diretamente no
computador, gerando arquivos que podem ser manipulados ou armazenados. O VmtWin,
cuja tela inicial aparece na figura 3.8, faz uma conexão com o equipamento de medidas e
57
permite que ele seja controlado remotamente via interface serial. A pinagem do cabo é
descrita no Manual do Programador Equipamento para Medição de Vídeo VM700T
Interface RS-232.
figura 3.8 – software de controle do analisador de vídeo VM700
3.1.4 Testes Iniciais
Os primeiros ensaios foram feitos com um hub Ethernet 10baseT, que não suportou o
tráfego gerado pelo codificador (próximo de 10Mbps, se considerada a taxa de 7,5 Mbps de
vídeo, e ainda a carga adicional do áudio e do cabeçalho do pacote). Não se conseguiu a
recuperação do sinal no decodificador. Então, o hub foi substituído por um switch
10/100/1000, viabilizando a decodificação do sinal de vídeo.
O decodificador apresenta as opções de padrão de cores para sinal analógico NTSC ou
PAL-M. a versão original do firmware do codificador a princípio aceitava apenas o NTSC,
ou o PAL para seiscentas e vinte e cinco linhas. Imagens inseridas no codificador em PAL-M
eram recuperadas em preto e branco no decodificador. A partir do contato com os fabricantes
e do relato da limitação, ocorreu o desenvolvimento de um novo firmware. A primeira versão
desse desenvolvimento para o sistema de televisão brasileiro corrigiu a freqüência de
58
subportadora de cor, permitindo a recuperação de imagens coloridas, mas passou a apresentar
erros de sincronização, conforme pode ser visto na figura 3.9.
figura 3.9 – visualização da imagem decodificada com a primeira versão do software
para codificação de sinal PAL-M
A segunda versão beta enviada pela equipe de desenvolvimento da fábrica funcionou
adequadamente para vídeo de entrada no padrão PAL-M. A imagem de um sinal PAL-M
introduzida no sistema foi decodificada corretamente, conforme mostra a figura 3.10.
figura 3.10 – imagem com a segunda versão PAL-M para o codificador
478 LINHAS
EXIBIDAS
59
Durante os ensaios, tanto com a fonte PAL-M (receptor de satélite) quanto com a fonte
NTSC (dvd player ou video-tape Betacam), observou-se a perda das cinco últimas linhas
visíveis na tela (mostrada nas figuras 3.9 e 3.10). A utilização do analisador dedeo
evidenciou a situação. A forma de onda do sinal direto da fonte é observada até as linhas 262
de cada campo, para então se iniciar o intervalo vertical; o sinal proveniente do
decodificador (figura 3.11) vai apenas até a linha 257, eliminando, portanto, as últimas cinco
linhas que deveriam ser visíveis.
Experiências efetuadas com codificadores de outros fabricantes mostraram que esta é
uma característica comum: outros três produtos rapidamente ensaiados também eliminam
entre três a seis linhas visíveis da tela. Esta situação indesejável é resultado do processo de
compressão, que compara informações anteriores e posteriores e faz estas linhas ficarem
muito distorcidas (o intervalo vertical apresenta uma forma muito diferente das linhas
visíveis, a mudança é bastante abrupta).
figura 3.11 – formas de onda das últimas linhas do campo
Linhas apagadas na parte inferior
da região visível da tela
60
Outra constatação feita é que o decodificador, embora apresente a possibilidade de
montar na sua saída o sinal PAL-M, apresenta um defeito interessante: na linha 26, mostra um
tracejado em branco e preto de comprimento de meia linha de vídeo. Este sintoma aparece
inclusive nas telas de inicialização do decodificador, quando selecionado em PAL-M,
independente da geração de tráfego pelo codificador, evidenciando o equipamento
responsável pelo problema. A forma de onda da figura 3.12 mostra claramente a situação. Os
contatos com o fabricante do decodificador para resolver a questão não evoluíram.
figura 3.12 – tracejado ocupando metade da linha visível 26
61
3.1.5 Medições com Sinais de Teste Estáticos
Embora se saiba que sinais estáticos são de fácil tratamento pelo processo de
compressão, o que minimiza a possibilidade de ocorrências de distorções nele originadas, a
avaliação dos resultados deste ensaio que faz uso de sinais padrão de testes é bastante objetiva
e informa características ou deficiências básicas do conjunto, especialmente de sua etapa de
digitalização. Com o analisador de vídeo, ou com um monitor forma de ondas e um
vectorscópio, associados a gratículas adequadas, tem-se a caracterização quantitativa do
desempenho dos equipamentos quanto a resposta em freqüência, não linearidade de
luminância e crominância, ganho e fase diferenciais, etc...
Foi feito levantamento de resultados sobre algumas figuras de mérito consideradas
relevantes, e para as quais se dispunha do sinal de teste apropriado para sua medição. A
escolha foi feita de modo a se obter informações a respeito do resultado da imagem quanto
aos quesitos inserção de ruído (relação S/N) e fidelidade do sinal recuperado em níveis de
luminância, níveis e matizes de cor, resolução nos detalhes (resposta em freqüência) e
tratamento de contornos. Para a caracterização dos codecs para sinal NTSC foram usados os
sinais: “NTC-7”, colorbar 75 %”, blackburst e multiburst”, que apresentam a mesma
forma de onda continuamente no tempo e em todas as linhas, além do sinal matrix vts”, que
contém as diversas formas de onda citadas, cada qual ocupando uma certa quantidade de
linhas de cada quadro. para caracterizar a fonte PAL-M foram feitos apenas medidas com
os sinais “staircase” com 5 e 10 degraus e colorbar75 % e 100 %, pois o gerador utilizado
não fornece os outros sinais. Ainda assim, o ensaio foi considerado suficiente.
É importante salientar que as primeiras ou últimas linhas visíveis dos campos são
bastante afetadas, devido ao processo de compressão, e que por isto deve-se escolher a
realização das medidas em uma linha de deo distante destes extremos. Foram realizados
diversos ensaios: para taxas de bits de 2 Mbps, 3, 4, 5, 6 e 7,5 Mbps. Foram usados sinais de
entrada NTSC, reconstruídos NTSC; entrada NTSC, saída PAL-M; entrada PAL-M saída
PAL-M e entrada PAL-M saída NTSC. Os dados foram capturados de forma automática com
o analisador de vídeo, quando ao sistema foi aplicado o sinal matrix vts”. O VM700
devidamente configurado busca nas linhas apropriadas o sinal de teste que necessita para
mensurar cada parâmetro solicitado, e apresenta uma tela mostrada na figura 3.13.
62
figura 3.13 – relatório de medidas automáticas, sinal “matrix
As medidas coletadas de cada relatório foram agrupadas na tabela 3.1, para facilitar a
leitura e interpretação dos resultados. Nela, também foi inserida uma coluna com os valores
obtidos diretamente do gerador, para que se tenha uma referência de comparação das
distorções ocorridas no sistema analisado.
tabela 3.1 – valores de referência (gerador) e os obtidos com compressão em diversas
taxas; entrada e saída NTSC
2 3 4 5 7,5 Gerador Unidade
Avg. Picture Level 49,3 49,4 49,3 49,3 49,3 50 %
Bar Amplitude 86,5 86,5 86,5 86,5 86,5 100 IRE
Sync Amplitude 41,9 42 42 42 42 40,1 %Bar
Burst Amplitude 100,9 101 100,9 100,9 100,7 100,4 %Sync
Line Time Distortion 0,5 0,4 0,5 0,4 0,4 0,2 %
Pulse/Bar Ratio 100,7 100,4 100,6 100,7 100,7 99,3 %
2T Pulse K-Factor 0,5 0,5 0,5 0,6 0,5 0,2 % Kf
S/N Unif Lum-Wghtd 59,6 56,2 56,8 54,1 54 72,2 DB
Chroma-Lum Delay 6,8 4,4 6,1 5,4 3,1 0 Ns
Chroma-Lum Gain 100,1 99,2 100,3 98,8 99,9 99,7 %
Differential Gain 1,06 1,43 1,85 1,76 1,63 0,21 %
Differential Phase 0,65 1,05 0,8 0,68 1,03 0,32 Deg
Lum Non-Linearity 14,03 13,37 14,88 14,85 15,03 0,4 %
NTC7 MB Packet #1 51 50,6 50,7 50,6 50,7 49,7 % Flag
NTC7 MB Packet #2 51,1 51,1 50,7 51,3 51,2 50,2 % Flag
NTC7 MB Packet #3 52,5 52,5 52,5 52,5 52,9 49,6 % Flag
NTC7 MB Packet #4 58,5 58,5 58,5 58,6 58,7 50,2 % Flag
NTC7 MB Packet #5 62,3 62,4 62,2 62,3 62,4 50,3 % Flag
NTC7 MB Packet #6 63,3 63,1 63,2 63,2 63,1 50 % Flag
SCH Phase -4,2 -4,5 -4,8 -4,6 -4,5 1,3 Deg
Taxa (Mbits/s)
Medidas
63
Os ensaios com a aplicação de sinais estáticos mostraram o comportamento básico do
conjunto codificador-decodificador, permitindo o conhecimento de suas características que
não são afetadas pela complexidade do conteúdo das imagens. Este conjunto de testes
verificou o desempenho principalmente das etapas de amostragem e quantização do
codificador e do conversor digital-analógico do decodificador. A tabela anterior apresenta um
resumo dos valores obtidos nos testes com a entrada recebendo NTSC e a saída recompondo o
sinal também em NTSC, com o codificador gerando diversas taxas de bits. O valor ideal de
cada medida deveria ser igual ao obtido com o gerador de padrões ligado diretamente ao
analisador de vídeo, cujos dados constam em uma das colunas da tabela 3.1. Não existe uma
referência genérica de valores aceitáveis, mas para algumas aplicações existem normas e
regulamentos que especificam diferenças máximas para o sinal quando comparado ao
fornecido pelo gerador. Em geral, pode-se dizer que diferenças inferiores a 5 % para as
medidas efetuadas e mostradas nesta tabela não são perceptíveis pelo telespectador. A
publicação da Tektronix NTSC Systems Television Measurements fornece uma idéia de
valores associados a cada medida e seus efeitos (TEKTRONIX, 1999).
As medidas efetuadas das outras combinações (NTSC - PAL-M, PAL-M - NTSC e
PAL-M - PAL-M) não apresentaram alterações significativas em relação a esta, NTSC na
entrada do codificador e NTSC na saída do decodificador. A avaliação da tabela acima e a
comparação com as tabelas dos outros casos conduzem a algumas conclusões, válidas para
sinais estáticos e com grande redundância espacial. Algumas formas de onda dos sinais de
teste para o caso NTSC-NTSC podem ser vistas no anexo 2.
O conjunto testado apresenta desempenho e resultados similares independente do
padrão dos sinais de entrada e saída (NTSC ou PAL-M). A relação sinal/ruído é apenas
razoável, e uma relação inversa entre esta medida e a taxa: quanto maior a taxa de bits
utilizada (menos compressão), menor é a relação S/N. É natural que qualquer equipamento
incorpore ruído aos sinais nele processados, pelo menos devido à contribuição do ruído
térmico. Além disto, o processo que ocorre no conversor A/D (analógico para digital)
acrescenta o ruído de quantização. No entanto, o desempenho neste quesito deveria ser um
pouco melhor. Obteve-se valores de relação sinal/ruído (S/N) entre 54 a 59 dB. Valores
abaixo de 52 dB são perceptíveis ao telespectador leigo, e, para contribuição de sinais para
uma geradora de televisão, é comum a especificação de valores acima de 60 dB. Os demais
parâmetros se mantém praticamente constantes, assim como a percepção visual no monitor de
vídeo, entre os extremos de taxas utilizadas (2,e 7,5 Mbps).
Os pacotes do sinal multiburst são gerados com níveis constantes e freqüências
64
crescentes. Para todas as taxas, observa-se que o par ensaiado apresentou aumento da
amplitude de sinal em torno de 10% nas freqüências mais altas. Isto resulta em um reforço nos
contornos e bordas das imagens, assim como na saturação das cores, que elas são
representadas pelas componentes de freqüência de 3,58 MHz no sinal de vídeo composto.
Os resultados dos ensaios das medidas de amplitude da barra e de não linearidade de
luminância mostram que o vídeo decodificado tem a excursão dinâmica de luminância menor
que o sinal da fonte; assim, ao se inserir um vídeo com variações de nível desde o valor O
IRE até 100 IRE (preto abranco 100 %), o sinal entregue pelo decodificador varia entre 7 a
87 IRE, o que reduz as percepções de brilho e contraste. O sistema introduz um nível de
pedestal, que não reproduz valores de deo próximos de 0,3 V (ou 0 IRE), representando
partes de imagens totalmente pretas, levando-os para o nível mínimo de 7 IRE. Com a
aplicação de um sinal de teste que excursiona desde o branco até o preto, o resultado mostra
uma não linearidade de luminância ruim, da ordem de 14 %.
Embora seja difícil a percepção no monitor de vídeo, sabe-se que as primeiras linhas
visíveis dos campos são mais degradadas, em função do próprio mecanismo de compressão,
que utiliza comparações bidirecionais. O conteúdo das linhas visíveis é diferente das
primeiras linhas do quadro, que compõe o intervalo de sincronismo e apagamento vertical.
Este fenômeno pode ser verificado através das formas de onda capturadas com o VM700,
mostradas nas figuras 3.14 e 3.15. A comparação das duas figuras mostra que a qualidade do
vídeo é recuperada mais rapidamente para taxas de transmissão maiores (menos compressão).
O sinal de teste apresenta um nível de branco com duração de aproximadamente meia linha,
(chamado de barra), e nos sinais comprimidos este nível de branco, que deveria ser um traço
fino, apresenta-se espesso na linha 22 de qualquer um dos campos. Nas linhas seguintes esta
deformação vai gradativamente tendo sua intensidade reduzida.
Quase toda informação contida no intervalo vertical é suprimida. Os sinais de teste
incorporados nas linhas 17 a 20 de cada campo pelo equipamento VITS inserternão são
recuperados no decoder. O conjunto processa e recompõe apenas o sinal de closed caption
na linha 21, também mostrado nas figuras 3.14 e 3.15.
65
figura 3.14 - 2Mbps: degradação do sinal de vídeo nas primeiras linhas visíveis
figura 3.15 - 7,5Mbps: degradação do sinal de vídeo nas primeiras linhas visíveis
66
3.1.6 Avaliação com Sinais Dinâmicos
Em virtude da não linearidade dos sistemas comprimidos, é fundamental se avaliar o
desempenho do sistema na presença de cenas dinâmicas, identificando e graduando
deteriorações da imagem relacionadas à compressão. Visto que é complexa a nominação e a
medição de cada tipo de falha induzida, deve-se buscar a caracterização da qualidade
perceptual da imagem. Não havendo disponibilidade de um instrumento dedicado à avaliação
objetiva de sinais comprimidos, que utilizem algoritmos de simulação da percepção visual
humana, optou-se pela atribuição de notas do grau de distorção, relacionando números à
percepção da qualidade visual. Os critérios e considerações adotados foram baseados no
modelo DSIS da recomendação ITU BT.500-11. Algumas adaptações foram feitas para
simplificar o processo de medida, com características do método SS, da mesma
recomendação, e se introduziu a possibilidade de se indicar graus intermediários. Incluiu-se
também o grau zero, que significa imagem ininteligível. Assim, as imagens são classificadas
de zero a cinco, podendo também assumir valores meios, como 3,5, por exemplo.
Relembrando, a nota 5 corresponde a uma imagem onde degradações não são perceptíveis; 4
para distorções perceptíveis, mas não irritantes; 3 quando os erros são levemente irritantes; 2
quando são irritantes e 1 quando são muito irritantes.
Inicialmente foram inseridos sinais das diversas fontes do laboratório, em especial
sinal de programação de tv de emissoras brasileiras proveniente do receptor de satélite. A
observação destas imagens permitiu familiarizar e refinar a percepção de degradações, em
função das taxas utilizadas e dos conteúdos da programação. Em seguida, foram utilizadas de
forma repetitiva e para as várias taxas o conjunto de imagens desenvolvido como padrão de
ensaio, cujos conteúdos são considerados estressantes para o processo de compressão, que
foram descritos no tópico 3.1.3: cenas de movimentação de bandeiras, fogos de artifício e
fumaça em um estádio de futebol, trabalhadores espalhando cacau, entre outras.
Ainda em uma rede muito simples, para avaliação apenas dos codecs, os ensaios com
sinais dinâmicos de conteúdo diversificado e estressante mostraram os efeitos da compressão.
Os artefatos observados nas imagens variam bastante de intensidade e até duração, de acordo
com a taxa de bits usada para carregar a informação visual. Os efeitos são imperceptíveis, ou
quase isto, com taxas de 7,5Mbps, e passam a apresentar crescentes graus de degradação à
medida que a taxa é reduzida até 2Mbps. Estas degradações são percebidas de algumas
formas: redução na saturação das cores, perda de detalhes, assemelhando-se a falta de foco,
adição de ruído visualizado como uma granulação fina, especialmente nas partes das imagens
67
com movimento ou nas transições de cenas, chegando a efeito de blocos formação de
pequenas estruturas quadradas ou retangulares cujo conteúdo não é compatível com a área em
que se localizam, até o efeito conhecido como posterização, que se percebe da mesma forma
que um objeto extremamente iluminado: há manchas de saturação de luz.
Seguem observações feitas com as diversas cenas e em diferentes níveis de
compressão.
a) 7,5 Mbps: ruídos de forma extremamente sutil, sugerindo erros de quantização,
mosquito noise (granulação muito fina sobre partes de cenas em movimento), especialmente
nas transições entre imagens e telas pretas, e uma leve perda de definição (resposta em
freqüência um pouco deficiente, assemelha-se com imagem desfocada ou borrada); redução
no contraste (nível de preto começa com pedestal 7 % e nível de branco fica limitado a 90 %).
Todas as degradações com intensidades muito pequenas, exigindo grande concentração e
ainda se comparando com o sinal original para serem percebidas.
b) 5 Mbps: ainda apenas ruídos de granulação pequena, block noise também muito
sutil, confundindo-se com demais ruídos. Perda de definição se acentua um pouco; na cena do
gramado do campo de futebol aparece mosquito noise, porém ainda suave.
c) 3Mbps: em cenas com pouca movimentação, o sinal fica razoável, apenas com
ruídos de pequena granulação, mas constantes e com intensidades bem perceptíveis em todas
as imagens. Cenas mais dinâmicas carregam bastante efeitos. Formação de blocos
(blocknoise) e granulado (mosquito noise) são constantes sobre as cenas do cacau, por
exemplo.
A tabela 3.2 apresenta o resultado deste ensaio, com as notas de qualidade perceptual
variando de 0 (ininteligível) a 5 (distorções imperceptíveis).
Quando se aplicou sinal de programação convencional, a partir do receptor de satélite
(as cenas anteriores são consideradas críticas), a percepção é ligeiramente melhor, em torno
de meio ponto para todas as taxas. Em muitas situações, não se percebe nenhuma distorção
quando se comprime com 7,5 Mbps, o que deve ser considerado então nota 5. Desenhos
animados e cenas de pouco movimentação ou detalhes podem ser comprimidos para gerar
taxas de até 3,5 Mbps sem causar irritação (nota entre 3,5 a 4).
68
tabela 3.2 – qualidade da imagem x taxa de bits utilizada no codificador
Taxa de compressão (Mbps) Qualidade perceptual (0-5)
2 1,5
3 2,5
4 3
5 4
6 4
7 4,5
7.5 4,5
3.1.7 Ensaios Complementares
Além da qualidade do sinal tratado pelo conjunto, são relevantes características o
atraso introduzido, a estabilidade das configurações, a confiabilidade e a facilidade de
operação. Considerando-se que a rede montada para esta fase de ensaios é bastante simples e
livre de roteamento, estima-se que a sua contribuição para o atraso da recuperação do sinal no
lado do decodificador seja insignificante. Assim, foi medido em unidades de tempo (ms) o
atraso introduzido pelo conjunto codificador-decodificador. Este parâmetro costuma ser
importante em várias aplicações, e valores elevados podem inviabilizar algumas delas,
especialmente aquelas baseadas em transmissões ao vivo.
Com uma nova bateria de ensaios observou-se o comportamento e a manutenção das
configurações quando há falha momentânea de energia em qualquer dos lados, falha de
energia duradoura, interrupção da rede física ou a queda de vídeo no codificador. Estes
ensaios ficaram limitados a dezessete horas de interrupções, o que se considera bastante
satisfatório; presume-se que os resultados obtidos sejam válidos para tempos maiores.
A confiabilidade é um parâmetro difícil de se avaliar quando se tem apenas um
conjunto e pouco tempo de convívio, mas o período de análise até o presente momento sugere
que a robustez do codificador e do decodificador seja elevada.
O codificador AVN 200 usado nos ensaios produz uma taxa máxima de 7,5 Mbps para
o vídeo. Durante os testes, foi observado que existem também taxas mínimas para a
69
manutenção do fluxo: 2 Mbps para vídeo e 384 kbps para áudio, ou 1,6 Mbps de vídeo e 256
kbps de áudio. Valores menores fazem o fluxo parar após oito minutos.
O retardo ocorrido no sistema, medido como a diferença de tempos entre a
recuperação de uma imagem no decodificador e a inserção dela no codificador, deve-se ao
processo de compressão e especialmente devido ao buffer do decodificador. O conjunto
apresentou um atraso de aproximadamente 250 ms, o que é considerado bastante baixo,
atendendo a todas as aplicações de uma emissora de televisão ou ensino a distância, por
exemplo. Testes substituindo o decodificador por um modelo de outro fabricante
demonstraram um aumento para perto de 400 ms. Considera-se que atrasos perto de um
segundo podem ser críticos, por exemplo, em geração de sinal de eventos esportivos ao
vivo.
Sobre a estabilidade das configurações, foram feitos desligamentos de fonte e
interrupção de fluxo na rede e de fornecimento de vídeo. Verificou-se que o decodificador
perde a memorização de canal, ou seja, necessita-se informá-lo, com o controle remoto, qual
programa se deseja assistir, após trinta e oito segundos de falta de vídeo no codificador. Mas,
mesmo interrupções no vídeo superiores a dezessete horas não causam outra alteração,
nenhuma configuração precisou ser feita, apenas sintonizar o canal decodificado. A falta de
energia no codificador, mesmo prolongada, não alterou a sua configuração (endereços e
opções de taxas e qualidades), apenas é necessário reiniciar o fluxo (start). Já a falta
prolongada de energia no decodificador exige sua reconfiguração, inclusive de endereços IP.
A queda rápida da continuidade da rede não causa maiores efeitos, o sistema retorna sozinho
assim que a rede é restabelecida, porém em interrupções da rede maiores que 38 segundos,
necessita-se refazer a escolha do canal no decodificador.
O codificador possui dois modos de trabalho quanto à geração de tráfego: ele pode
manter uma taxa constante (CBR) mesmo sem vídeo, ou então cessar o tráfego enquanto não
houver vídeo entregue em sua entrada. A segunda forma é interessante quando se é tarifado
pela carga gerada na rede: o operador não precisa parar o fluxo, basta retirar a fonte de sinal
quando o trabalho estiver encerrado.
70
3.2 ENSAIOS DA CONTRIBUIÇÃO DA REDE NA DEGRADAÇÃO DA QUALIDADE
DO VÍDEO
Embora não seja o foco do trabalho, o primeiro aspecto de interesse nos ensaios foi a
caracterização dos equipamentos que permitem o tráfego de vídeo pelas redes de dados, os
terminais codecs. Conhecendo-se as capacidades e limitações destes, pôde-se realizar a etapa
principal dos trabalhos, as experiências para se investigar a influência das características das
redes na qualidade do sinal multimídia nelas trafegado. Em especial, desejou-se conhecer e
comprovar os efeitos produzidos no sinal em função da composição e do regime de tráfego
desta rede.
Neste caso, procurou-se efetuar os ensaios em uma rede real, efetivamente instalada, e
não apenas em um ambiente de laboratório, mas na qual fosse possível se controlar alguns
parâmetros próprios e o tráfego presente. Foi utilizada a rede que interliga três universidades
em Curitiba, a ReMAV Rede Metropolitana de Alta Velocidade –, que possui as
características necessárias para os trabalhos propostos, e na qual foi permitida a alteração de
regimes de operação sem comprometer outros serviços.
Visto que o transporte de deo se fez em protocolo UDP, no qual não há
retransmissão ou controle de erros, foi previsto que os efeitos de carga na rede gerariam perda
de pacotes, e, conseqüentemente, de informação. Esperava-se, o que ficou comprovado, que o
efeito visual deveria ser bastante perceptível, para o qual a metodologia de avaliação subjetiva
utilizada na fase anterior é suficiente e bastante eficaz.
As etapas desta parte do ensaio envolveram atividades de:
montagem e configuração da rede;
geração de tráfego adicional variável;
desenvolvimento de ferramentas para medição dos parâmetros da rede;
montagem e configuração de sistema de visualização e gravação do vídeo;
aplicação de sinais de programação;
avaliação de resultados.
O conhecimento da relação entre as características da rede e a qualidade do vídeo é o tema
central deste trabalho, e portanto os resultados desta etapa e a sua análise e interpretação estão
apresentadas no capítulo seguinte, “ Resultados e Discussões”.
71
3.2.1 A ReMAV e as Adaptações Realizadas
Para o desenvolvimento de novos aplicativos para redes, para troca de experiências e
realização de treinamentos, e para o uso de infra-estruturas de linhas e fibras óticas entre
instituições acadêmicas e operadoras de telecomunicações, foram criadas redes de alta
velocidade em diversas regiões metropolitanas do Brasil. A iniciativa foi desenvolvida pela
parceria entre a Rede Nacional de Ensino e Pesquisa (RNP) e o Programa Temático
Multiinstitucional em Ciência da Computação (ProTeM-CC). O apoio financeiro para os
projetos foi oferecido pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico
(CNPq) e pelo Comitê Gestor da Internet no Brasil (CGI.br) (RNP, 2006).
A ReMAV Curitiba foi composta pelo então Centro Federal de Educação Tecnológica
do Paraná (CEFET-PR), hoje UTFPR (Universidade Tecnológica Federal do Paraná), pelo
Centro Internacional de Tecnologia de Software (CITS), pelo Instituto de Tecnologia do
Paraná (TECPAR), pela Pontifícia Universidade Católica do Paraná (PUC-PR) e pela
Universidade Federal do Paraná (UFPR). Ela conecta as universidades através de enlaces
óticos, e cada local possui um switch Gigabit com duas portas físicas óticas e várias outras
portas com conexão padrão RJ-45. Assim, é constituída uma rede Gigabit Ethernet, mostrada
nas figuras 3.16 e 3.17.
figura 3.16 - topologia física da ReMAV Curitiba
figura 3.17 - pontos da ReMAV Curitiba
72
Na UTFPR, dois laboratórios possuem equipamentos ligados a esta rede: no LCD -
Laboratório de Comunicação de Dados, está localizado um switch modelo Dlink 3308TG,
com a conexão ótica e seis outras portas elétricas, e no LATE um switch também 1Gbps,
modelo Cnet Csnh-8000GRS.
Para a observação da influência da topologia e condições da rede no tráfego de vídeo e
na qualidade do sinal, a idéia foi cruzar as informações da situação da rede em diversos
instantes e a correspondente percepção da qualidade do vídeo. Para isto, foi necessário
incorporar alguns equipamentos à ReMAV Curitiba. Um codificador recebe o vídeo analógico
e entrega à rede quadros Ethernet. Um decodificador realiza o processo inverso, abrindo
quadros e pacotes para entregar na saída o sinal de vídeo. De forma a permitir o controle de
tráfego na rede e alterar suas condições de saturação desde pouca carga até volume de tráfego
bastante elevado, e então verificar a influência das características momentâneas da rede na
qualidade do vídeo, alguns computadores foram ligados à rede para geração de fluxos
adicionais. Outras máquinas fazem o controle do sistema montado e a captura e análise dos
dados.
Foi solicitada a colaboração do administrador da rede na Universidade Federal do
Paraná UFPR, que configurou o switch para que realizasse o roteamento de pacotes. Foram
então criadas duas VLANs (redes locais virtuais) conectando os equipamentos da UTFPR e
UFPR. Para obrigar o tráfego de vídeo por toda a rede, o codificador foi configurado para
compor uma das VLANs, enquanto que o decodificador foi colocado na outra. O mesmo foi
feito com as máquinas de cada par gerador de tráfego agregado.
Na figura 3.18 é apresentado o diagrama que mostra a rede e os equipamentos
acessórios utilizados nos ensaios.
Oito computadores são utilizados para as atividades pertinentes aos ensaios, para
monitoração, controle e geração de tráfego agregado. Neles foi instalado o sistema
operacional de fonte aberta, ou seja, de uso gratuito, Debian GNU/Linux, versão unstable”.
O núcleo do sistema é o “kernel 2.6”. Em um deles também foi instalado o sistema
operacional Windows XP, pois o software de decodificação que acompanha o codificador
roda sobre plataforma Windows.
73
figura 3.18 – estrutura da rede e equipamentos incorporados na UTFPR
ENCODER
200.134.165.45
DECODER
10.10.29.6
HUB
HUB
200.134.165.48
CPU GATO
Captura e
analisa pacotes
10.10.29.48
200.134.165.47
CPU JAGUAR
Controla os
codecs e as
outras CPUs
200.134.165
.1
SWITCH
Giga
DGS 3308
10.10.29.4
CPU LEOPARD
Para para a Leão
10.10.29.3
CPU PUMA
Par para a Lince
10.10.29.8
CPU ONÇA
Par para a Tigre
LATE
C 307
SWITCH
Giga
CNET
200.134.165.39
CPU LEÃO
Gera tráfego
200.134.165.35
CPU LINCE
Gera tráfego
200.134.165.43
CPU TIGRE
Gera tráfego
VLAN 1705 200.134.165.5.4
SWITCH ROTEADOR
VLAN 1729 10.10.29.2
LCD
B 305
UFPR
Portas óticas
TX / RX
74
3.2.2 A Geração de Carga – Tráfego para a Rede
Três pares de CPUs foram utilizados para a geração de tráfego, através do software de
uso gratuito conhecido como Iperf. Em cada par, uma máquina é cliente e a outra servidor. A
soma das cargas adicionadas por estas máquinas é suficiente para se saturar a rede Gigabit
utilizada neste trabalho.
O Iperf é uma ferramenta que serve para medir a capacidade de tráfego, a máxima
banda de uma rede. Este software cria um túnel entre duas máquinas, enviando uma grande
quantidade de pacotes de uma para outra. Pode criar pacotes TCP ou UDP. No caso do TCP, o
próprio protocolo controla a quantidade de tráfego gerado, enviando o maior número de
pacotes antes da ocorrência de perdas elevadas. Já no caso de pacotes UDP, através de
comandos simples seleciona-se o volume do fluxo gerado. Além de criar o tráfego, o
aplicativo retorna mensagens como largura da banda, atraso, jitter e perda de datagramas. O
tempo de comunicação entre as máquinas também é configurável, bem como o intervalo de
tempo para a apresentação das medidas realizadas (IPERF, 2006). A figura 3.19 mostra um
exemplo da apresentação de uma tela do Iperf.
figura 3.19 – exemplo de tela do Iperf
75
O software Iperf foi configurado de modo a gerar relatórios a cada segundo do tráfego
gerado e recebido. Foram realizados vários testes, agregando-se tanto tráfego de pacotes UDP
quanto de TCP. A criação de fluxo UDP foi usada pela facilidade que o Iperf proporciona no
controle de volume de pacotes. Isto é importante quando se deseja verificar o comportamento
do sistema na presença de um estado de congestionamento variável da rede. Foram escolhidas
diversas taxas, desde 0 até o máximo obtido no sistema, perto de 1100 Mbps. Também foram
realizados ensaios com tráfego agregado TCP, pois este protocolo é bastante comum em
redes, e desejava-se avaliar a sua influência no vídeo carregado em pacotes UDP.
Para facilitar as atividades, todas as máquinas foram controladas a partir de uma delas
(Jaguar). Através de uma conexão “rsh”, a máquina de controle se conecta e comanda cada
uma das seis máquinas. Para que o fluxo agregado realmente trafegue por toda a rede, gerando
assim a carga desejada para os testes, três computadores estão na VLAN 1705 enquanto os
seus pares pertencem à VLAN 1729.
Dois computadores (Onça e Tigre) utilizam microprocessador de 2,8 GHz e possuem
memória RAM de 1 GB. Com eles conseguiu-se gerar tráfego de até 821Mbps. Com os outros
dois pares, que trabalham com microprocessador de 500 MHz e memória RAM de 128 kB, o
tráfego UDP máximo não passou de 140 Mbps em cada par, conforme tabela 3.3. O tráfego
gerado foi constante (CBR), não caracterizando rajadas ou outro tipo de distribuição.
Tabela 3.3 - CPUs x tráfego gerado
CPUs Máximo fluxo UDP
Tigre - Onça 821 Mbps
Leopard - Leão 140 Mbps
Lince - Puma 134 Mbps
As figuras 3.20 e 3.21 mostram a tela do computador Jaguar usado no controle das
máquinas que participaram da geração de tráfego na rede completa. Quando solicitado ao
programa Iperf a geração de pacotes UDP, a taxa desejada é uma opção de operação, até o
limite de capacidade das CPUs envolvidas. Eventualmente, de acordo com as condições da
rede, percebe-se que o fluxo recebido pode ser menor que o enviado, caracterizando as perdas
de pacotes. A figura 3.20 mostra, por exemplo, a máquina Tigre enviando 821Mbps, enquanto
que seu par, Onça, recebe entre 604 a 600 Mbps. Cada linha apresenta o resultado de um
segundo de análise. Quando se escolhe a geração de pacotes TCP, o controle do fluxo é
implementado pelo próprio protocolo de transporte. Na figura 3.21 percebe-se que a taxa de
76
transmissão é igual ou muito próximo da de recepção, para cada linha de cada par de
máquinas.
Recepção Emissão
figura 3.20 - pares gerando tráfego UDP
figura 3.21 – pares gerando tráfego TCP
77
3.2.3 O Processo de Captura e Tratamento das Informações
Na CPU denominada Gato roda o programa de fonte aberta Ethereal (wireshark)
versão console T-shark.
O Ethereal é um analisador de pacotes capturados na rede que detalha o conteúdo
destes. É um dispositivo que examina o fluxo da rede. O Ethereal é simples de se usar e tem
suporte a vários sistemas. Com ele, pode-se verificar, por exemplo, problemas nas redes,
inclusive de segurança, observar o tipo de tráfego e seu volume, os protocolos envolvidos no
fluxo. A captura de pacotes da interface da rede é feita em tempo real. Os pacotes são
mostrados em forma de tabela, e os dados podem ser exportados para outros programas. A
busca de pacotes pode ser filtrada, de acordo com critérios configurados. Seleciona-se o
período e a interface da qual se deseja realizar a captura e análise de dados (Ethereal, 2006).
A figura 3.22 mostra uma tela do software Ethereal.
figura 3.22 – visualização de tela do Ethereal
78
Na máquina Gato foram instaladas duas placas de rede gigabit. Dois programas iguais
são executados, cada um recebendo informações de uma das duas interfaces de rede, Eth 0 e
Eth1. Estas interfaces estão conectadas aos hubs próximos dos codecs. Com os hubs, tem-se
um espelhamento do fluxo de vídeo, permitindo a captura dos dados de interesse sem que as
interfaces enxerguem o restante da rede completa. Dois arquivos em formato “libpcap” são
gerados, mostrando todos os pacotes capturados pelas interfaces de rede. Este procedimento
permite a comparação dos pacotes enviados pelo codificador com os recebidos pelo
decodificador.
Um script foi elaborado e roda na mesma CPU (gato), que abre cada arquivo libcap e
tabela os parâmetros checksume o momento (horário) de saída ou chegada dos pacotes. O
mesmo programa relaciona os checksums, identificando cada pacote, e calcula o atraso
(latência), o tempo de chegada e a variação deste tempo (jitter). Contabiliza ainda os pacotes
perdidos e calcula a média dos valores. Outro script é executado para desenhar os histogramas
resultantes dos valores tabelados.
Com as informações recebidas dos arquivos coletados pelo Ethereal, é formada a
tabela 3.4, com uma linha para cada pacote enviado.
tabela 3.4 – medidas do comportamento do tráfego
checksum Pacotes
perdidos
Tempo de
chegada
Tempo de
saída
Atraso Intervalo entre
chegadas
nnnnnnn tc
1
ts
1
tc
1 -
ts
1
mmmmm tc
2
ts
2
tc
2 –
ts
2
tc
2 –
tc
1
= a
2
zzzzzzzz tc
3
ts
3
tc
3 –
ts
3
tc
3 –
tc
2
= a
3
::::: :::: :::: :::: :::: ::::
kkkkkkk tc
n
ts
n
tc
n –
ts
n
tc
n -
tc
n-1
= a
n
O atraso é calculado pacote a pacote, identificados pela igualdade do número do
checksum, simplesmente como sendo a diferença de tempo entre a chegada e a saída.
O intervalo entre chegadas, a diferença entre o tempo de chegada de um pacote e de
seu antecessor, gera um vetor a
2
, a
3
, ....,a
n
; este vetor é utilizado para o cálculo do jitter, que,
conforme definição encontrada em Tanenbaum (2003) e em, Stuermer (2006), está
relacionado com a variação do tempo de chegada. Rigorosamente, o jitter é calculado como o
desvio padrão do vetor citado, conforme equação 2.
79
( )
1
2
2
=
=
n
a
n
a
n
n
Jitter (2)
Os histogramas levantados com os dados obtidos mostram a quantidade de ocorrências
de determinados valores do atraso e do tempo de chegada, resultando em distribuições de
probabilidade.
Por último, o programa calcula uma média aritmética dos valores das colunas,
resultando assim em três números que representam o atraso médio na rede, adia do
intervalo entre chegadas e o jitter. Estes números são mostrados em uma nova tabela, para que
se possa fazer a correlação das características da rede com a avaliação perceptual da imagem.
A figura 3.23 mostra o fluxo completo e a captura dos pacotes pelo computador que
processa as informações.
figura 3.23 – diagrama de fluxo dos pacotes
ENCODER
200.134.165.45
DECODER
10.10.29.6
HUB
HUB
CPU GATO
SWITCH
LCD
B-305
SWITCH
LATE
C-307
LEÃO
LINCE
TIGRE
LEOPARD
PUMA
ONÇA
ROTEADOR
UFPR
Fluxo UDP vídeo VLAN 1705
Fluxo UDP vídeo VLAN 1729
Tráfego agregado VLAN 1705
Tráfego agregado VLAN 1729
80
3.2.4 Os Equipamentos para Análise de Vídeo
Para a análise de qualidade puramente subjetiva e com sinais dinâmicos, não se
conectou o analisador de vídeo. O interesse passou em se observar sintomas de degradação e
relacioná-los com as condições momentâneas da rede. Para isto, foi montada uma estrutura
que permitiu a comparação da imagem original com a recuperada. Ambos os sinais foram
gravados e mostrados simultaneamente na tela, e ainda foi inserido um relógio, para que se
pudesse associar as imagens com as tabelas originadas na monitoração da rede, através da
mesma referência temporal.
Para tornar isto possível, foram instalados distribuidores de vídeo, que replicam o sinal
em sua entrada em várias saídas, e assim rias cargas podem compartilhar do mesmo vídeo
sem influência uma na outras. Instalou-se também um divisor de tela (quadsplit), que possui
quatro entradas de vídeo analógico e uma saída. Esta saída foi ligada ao monitor, onde se
observa a tela dividida em quatro partes. Uma divisão mostra o sinal oriundo da fonte, sem
processamento, e outra apresenta o vídeo recuperado pelo decodificador, após o tráfego por
toda a rede.
A gravação dos sinais para posterior análise ou comprovação foi feita em um
computador dotado de placa de captura de vídeo e de um disco rígido de boa capacidade (80
GB). Deve-se ressaltar que a estrutura montada para a gravação possui limitações que afetam
a qualidade percebida. A gravação no computador também realiza compressão, e com taxas
relativamente baixas, cujos sintomas são: posterização, redução da relação sinal-ruído, falta
de definição das imagens. O ideal para este tipo de análise seria um sistema de gravação
analógico, ou mesmo um sistema digital não comprimido.
O quadsplit utilizado também insere uma degradação visível, criando linhas
horizontais sobre cenas com saturação de cor e brilho mais elevados. Porém, na
impossibilidade de se contar com a estrutura perfeita, considera-se que o sistema adotado
satisfaz plenamente os objetivos propostos, pois o conhecimento prévio das limitações
permite uma separação confiável dos efeitos introduzidos pelo sistema de monitoração
daqueles causados pela rede e estrutura em análise.
Para se separar adequadamente quais degradações são causadas pela rede de transporte
propriamente dita das originadas nos codecs, pelo processo de compressão e descompressão,
também seria adequada a colocação de um segundo decodificador recebendo o fluxo do
codificador através de uma sub-rede confiável e sem congestionamento. Defeitos percebidos
nos dois decodificadores seriam originados pela compressão, enquanto que os observados
81
apenas no terminal associado à rede completa indicariam defeitos causados pela rede. Não foi
possível implantar esta condição, pois os dois decodificadores deveriam ter o mesmo
endereço IP devido ao tráfego Unicast, o que gera conflito.
3.2.5 Diagrama da Rede com os Equipamentos de Vídeo
A figura 3.24 mostra a conexão dos equipamentos de vídeo junto com a estrutura da
rede.
figura 3.24 – a rede e os equipamentos de vídeo
3.2.6 Considerações Iniciais dos Ensaios na Rede
Antes das anotações, sinais das diversas fontes do LATE foram usados para se
comparar efeitos e conhecer as limitações do sistema. Depois desta fase inicial, todos os
ensaios foram realizados apenas com três seqüências de imagens de um minuto cada,
provenientes do dvd player. Foram escolhidas de modo a representar bem uma programação
FONTE DE
VÍDEO
MONITOR
DISTR.
VIDEO
QUADSPLIT
ENCODER
DECODER
Para a rede
fonte
destino
PC
GRAVADOR
DE VÍDEO
82
convencional. A seqüência 1 é retirada do filme “Imensidão Azul”, acessada pelo dvd como
trecho 20 (identificada a seguir como IA-20). Possui muitas alternâncias de cenas (cortes
entre câmeras), trechos de diálogo, às vezes pouca e às vezes muita movimentação, imagem
de fundo do cenário ora praticamente estático, ora rico em detalhes, e cores com saturação
bastante natural; A seqüência 2 é o capítulo 4 do filme “Missão Impossível II” (MI-4), e
possui movimentação típica de filmes de ação. A seqüência três é do trecho 12 do desenho
animado “A Era do Gelo” (EG-12). Como na maioria dos desenhos, costuma haver presença
forte de cor, porém padrões de objetos mais uniformes, ou seja, menos detalhes e nuances
nas imagens, o que deve facilitar o trabalho de compressão e atenuar a percepção dos defeitos.
3.2.7 Medidas de Qualidade de Vídeo na Rede
Os ensaios foram executados em muitas condições de carga da rede. Foram gravadas
mais de sessenta exposições do sistema a um minuto de vídeo, em condições de carga de rede
variável, desde esta praticamente ociosa, trafegando apenas o vídeo, em torno de 10 Mbps, até
o limite de geração de tráfego em protocolo UDP, próximo de 1,1 GBps. Também ensaios
com um, dois e três conjuntos de máquinas gerando tráfego agregado TCP.
Situações de carga similares foram repetidas algumas vezes, em horários e dias
diferentes, para comprovar a consistência dos resultados e a validade da metodologia adotada.
Foram feitas observações e análises preliminares ao vivo”, enquanto se rodavam as
seqüências. Posteriormente, as imagens gravadas foram revisadas e as informações obtidas
permitiram a construção de tabelas, elaboradas de forma crescente de acordo com a
quantidade de pacotes perdidos. O formato está apresentado na tabela 3.5.
Tabela 3.5 – qualidade de vídeo x características da rede
Análise da qualidade de vídeo trafegando sobre redes IP
teste carga cena estatísticas artefatos
qualidade
Pacotes perdidos Pacotes
transmit.
qtdade relativos
Atraso na
rede (delay)
Tmédio
cheg.
jitter
(
Mbps
)
(unid) (unid) (%) (ms) (ms) (ms) (unid) 0 - 5
83
Ressalta-se que o valor atribuído à carga é estimativo. O tráfego na rede não foi
medido, mas considerado como sendo a soma das contribuições geradas pelos pares de
máquinas. De diversas observações e do conhecimento do padrão de uso desta rede (Remav),
deduziu-se que um eventual tráfego não oriundo dos experimentos relativos a este trabalho
seria bastante pequeno, não afetando significativamente os resultados.
As tabelas completas estão no o anexo 3. Uma tabela relaciona informações das três
seqüências de vídeo comprimidas com taxa de 7 Mbps, e com tráfego agregado UDP variável.
Outra tabela relaciona os dados obtidos com as imagens comprimidas a 2,5 Mbps, também
UDP. Uma terceira base de dados foi levantada com as imagens em 7 Mbps e tráfego
agregado TCP, gerado por um, dois e três pares de máquinas.
84
85
CAPÍTULO 4
RESULTADOS E DISCUSSÕES
Foi observado o impacto que o tráfego introduzido na rede provoca na qualidade do
vídeo carregado em pacotes UDP. Os ensaios foram focados apenas na variação do tráfego da
rede, e não foram executadas alteração de roteamento ou interrupções rápidas na rede.
Observou-se que a variação do tráfego acarreta alterações nos rios parâmetros da
rede. Porém, dentro de uma faixa de valores onde se obtém imagens desde muito boas até
bastante degradadas, enquanto que o aumento do tráfego resultou em uma elevação da perda
de pacotes de forma bastante sensível, as características de atraso na entrega dos pacotes e o
jitter foram apenas levemente influenciadas. Assim, conclui-se que o impacto do tráfego
presente na rede na qualidade do vídeo é principalmente devido à perda de pacotes, e não aos
demais parâmetros. Esta conclusão é compartilhada em diversos trabalhos, como em
(REIBMAN, SEN, MERWE, 2004), (REIBMAN, VAISHAMPAYAN, SERMADEVI,
2004), (HE, CHEN, 2002).
A observação do efeito da latência e do jitter na qualidade do vídeo necessitaria de
outros procedimentos de ensaio, não efetuados neste trabalho. Dever-se-ia alterar os tempos
com a modificação de rotas dos fluxos, sempre mantendo a banda mínima que evitasse a
elevação da perda de pacotes. De qualquer modo, como está se tratando de uma aplicação de
tempo real, pacotes entregues com atrasos ou jitter elevados, com tempos grandes em relação
à capacidade dos buffers dos equipamentos, ou ainda pior, fora de ordem, são considerados
perdidos, e a conseqüência no vídeo é semelhante à estudada nesta dissertação. Variações
pequenas nos tempos não devem trazer conseqüências visíveis.
As tabelas completas dos dados obtidos e analisados nos experimentos descritos no
capítulo anterior estão no anexo 3. A tabela 4.1 apresenta o exemplo de dois ensaios e as
informações coletadas. As respectivas imagens de um quadro capturado estão nas figuras 4.1
e 4.2. Estes quadros apenas ilustram os efeitos, porém não se consegue representar a
percepção visual das imagens em movimento em dois quadros estáticos. A observação do
material gravado é muito mais interessante, pois nele se tem a percepção do quão desastrosa é
a perda de pacotes para o sinal de vídeo. As gravações permitem verificar, por exemplo, que
perdas aproximadamente de 0,5 % causam artefatos perfeitamente visíveis a cada movimento
da imagem, tornando a seqüência inutilizável.
86
tabela 4.1– testes 104 e 110
Taxa de vídeo 7 Mbps, tráfego agregado em protocolo UDP
teste carga cena estatísticas artefatos qualidade
Pacotes perdidos Pacotes
transmitidos
qtdade relativos
Atraso
na rede
Tmédio
cheg.
jitter
(Mbps)
(unid) (unid) (%) (ms) (ms) (ms) (unid) (0-5)
104 911 IA-0 40955 167 0,40776 1,488 1,535 0,679 muitos 2
110 961 IA-20 40725 1410 3,46225 1,595 1,583 0,742 continuo 0
Na cena do teste 104 são percebidos os efeitos de jerkiness, da redução da definição dos
contornos e a diminuição do contraste. Enquanto a moça caminha, fica um rastro do seu
movimento, a atualização dos pedaços da imagem em que há alteração é lenta.
No teste 110, a quantidade de pacotes perdidos é de aproximadamente 3,5 % , e o
resultado é uma imagem ininteligível. São percebidos macroblocos e fatias, a atualização dos
quadros é muito lenta, nunca conseguindo completar um deles.
A elevação do fluxo UDP agregado de 911 Mbps para 961 Mbps resultou em uma
variação elevada para a perda de pacotes (aumentou em quase nove vezes), mas as demais
características da rede sofreram pouca alteração.
A maior parte dos ensaios foi executada com o codificador ajustado para uma estrutura
de GOP de tamanho quinze, ou seja, um quadro I a cada quinze. Alguns ensaios foram
realizados com um GOP de apenas dois quadros, um I e um P, em situações de carregamento
de rede similares às de GOP longo. Percebe-se facilmente que a compressão é menos
eficiente em um GOP curto. Mantendo-se a mesma taxa de bits, a qualidade da imagem, com
perdas insignificantes de pacotes, é menor para o caso de GOP curto em relação ao longo.
Ruídos e pequenos artefatos são percebidos. Por outro lado, em situações com perda de
pacotes, os efeitos danosos da falta destes é mais perceptível na estrutura de GOP longo.
87
figura 4.1 – imagem do teste 104
figura 4.2 – imagem do teste 110
88
Uma discussão mais aprofundada está descrita após a apresentação de gráficos obtidos
com os dados das tabelas completas.
4.1 ANÁLISE GRÁFICA DAS CARACTERÍSTICAS DA REDE
Os dados coletados e tratados na CPU Gato possibilitaram a elaboração de
histogramas dos parâmetros da rede. Foram gravados mais de sessenta conjuntos de
informações, cada um mostrando histogramas do intervalo entre chegadas dos pacotes e do
atraso. No anexo 4 são apresentados alguns, representando situações de carregamento da rede
desde muito baixa, ocasionando perda de pacotes perto de 0, até a máxima carga possível com
a estrutura montada e descrita no capítulo 3, quando as perdas chegaram a 29 %. São
apresentados no anexo dois histogramas de tempo de chegada e dois de atraso para cada faixa
de valores de perda de pacotes, para que se possa concluir a respeito da consistência dos
dados. Os gráficos 4.1 a 4.10, vistos ainda na seqüência desta seção, mostram um exemplo
destes histogramas.
Nos histogramas identificados como “tempo de chegada”, o eixo das abcissas indica o
intervalo entre chegadas de um pacote e de seu imediatamente antecessor, e sua escala está
definida em milisegundos. Contabiliza tanto a cadência e tamanho dos pacotes quanto o
tempo de trânsito. Os histogramas chamados “delay” relacionam a quantidade de pacotes com
o atraso sofrido por cada um deles pelo sistema, ou seja, o eixo x informa a diferença de
tempo de chegada e de saída de um mesmo pacote, também com a unidade de tempo em
milisegundos.
Na análise dos histogramas relativos aos ensaios com o codificador realizando a
compressão de vídeo na taxa de 7 Mbps e com tráfego agregado à rede com protocolo de
transporte UDP, percebe-se que a maioria dos pacotes chega com a diferença de seu
predecessor em torno de 1,5 ms. Com o aumento do tráfego na rede, os tempos de chegada se
distribuem em novos valores, sempre para tempos acima do inicial, porém, a predominância
dos eventos se mantém em torno do valor de 1,5 ms. Também é perceptível, embora em
pequena quantidade, a incidência de eventos em aproximadamente 5 ms, independente do
estado de carregamento da rede. A avaliação do conteúdo dos pacotes indica uma cadência
entre pacotes carregando os dados desejados e outros com protocolos de controle, como ARP
(address resolution protocol) e ICMP (internet control message protocol). O ARP é
responsável pela conversão dos endereços IP (virtuais) em endereços MAC da rede. O ICMP
89
é um mecanismo de informação do roteador para a máquina emissora que ocorreu um erro, o
datagrama não foi encaminhado. Estes pacotes com informações de controle ocorrem em
torno de 5 ms após seus predecessores, conforme salientado no gráfico 4.1.
O comportamento do atraso de entrega de pacotes mostrou-se também proporcional ao
carregamento da rede, mas diferentemente do caso anterior, a maior incidência de eventos e,
portanto, o valor médio da distribuição, desloca-se para a direita (tempo maior), e a variância
em torno deste valor médio também cresce com a carga da rede. Isto é mostrado nos gráficos
pares, de 4.2 a 4.10.
Os histogramas dos ensaios feitos com tráfego UDP e codificador ajustado para taxas
de vídeo de 2 Mbps apresentam comportamento e valores similares para o atraso, mas o
intervalo entre chegadas dos pacotes apresenta o segundo conjunto de ocorrência (relativa aos
pacotes de controle) em tempos bastante mais elevados, perto de 25 ms (gráficos dos
testes160, 159 e 154 constantes no anexo 4. Não foi aplicado qualquer requisito de QoS na
rede, este tempo foi gerado pelo próprio codificador, que para esta taxa alterou a cadência de
envio de pacotes.
Agregando tráfego TCP na rede (ver gráficos dos testes 171, 172, 173 e 175 no anexo
4), observou-se perda de pacotes pequena, pois o protocolo TCP informa ao gerador de
tráfego a situação da rede e o torna adequado. Em situações onde a perda de pacotes é
semelhante, o tráfego TCP causa atraso superior e com dispersão maior em torno de seu valor
médio quando comparados aos observados na presença de tráfego UDP. Por exemplo, para
perdas de pacotes de 0,3 %, no caso de TCP o atraso médio foi de 2,5 ms, variando desde 1,2
a 4,5 ms, enquanto que para o UDP o atraso foi de 1,6 ms e variação de 1,2 a 1, 8 ms.
A análise dos histogramas deixa claro que o aumento do tráfego influenciou muito
mais na perda de pacotes do que no atraso na entrega destes. Pode-se observar, por exemplo,
que o acréscimo de carregamento entre o teste 107 (gráfico 4.4) e o teste 112 (gráfico 4.6)
provocou uma variação de aproximadamente 15 vezes na perda de pacotes (de 0,23 % para
3,5 %), enquanto que o atraso médio subiu apenas 13 %, de 1,5 ms para 1,7 ms. Para o caso
deste estudo, onde o buffer do receptor e sua capacidade de aceitação de pacotes apresenta um
tempo (maior que 100 ms) muito maior do que os valores de atraso da rede (da ordem de
2ms), o foco principal dos estudos deve ser no parâmetro que indica a perda de pacotes
causada pelo tráfego.
90
gráficos 4.1 e 4.2 : teste 138 – tráfego 0, perda de pacotes 0,
compressão de vídeo 7 Mbps
Pacotes com
informações
de controle
91
gráficos 4.3 e 4.4 : teste 107 – tráfego 891 Mbps, perda de pacotes 0,23 %,
compressão de vídeo 7 Mbps
92
gráficos 4.5 e 4.6 : teste 112 – tráfego 961 Mbps, perda de pacotes 3,5 %,
compressão de vídeo 7Mbps
93
gráficos 4.7 e 4.8: teste 122 – tráfego 1051 Mbps, perda de pacotes 29 %,
compressão de vídeo 7 Mbps
94
gráficos 4.9 e 4.10 : teste 171 – tráfego TCP par Onça-Tigre e Puma-Lince perda de
pacotes 0,32 %, compressão de vídeo 7 Mbps
95
4.2 ANÁLISE GRÁFICA DA INFLUÊNCIA DA REDE NA QUALIDADE DO VÍDEO
Os gráficos 4.11 até 4.34, apresentados a seguir, foram construídos com os dados das
tabelas “estatísticas da rede x qualidade”, constantes no anexo 3. A atribuição de graus à
qualidade da imagem, coluna que compõe esta tabela, foi feita pela revisão exaustiva do
material gravado. A visualização das cenas em diferentes situações de carregamento da rede, e
a comparação entre elas, deixam bastante clara a relação da qualidade da imagem com as
condições de transporte do sinal na rede.
O aumento de tráfego até um certo valor, perto de 820 Mbps, conseguido com um dos
pares de máquinas, além do tráfego de deo de aproximadamente 10 Mbps, totalizando uma
ocupação do enlace da ordem de 83%, não causou perdas de pacotes. As perdas se iniciaram
com acréscimo do tráfego de um segundo par. Pode-se verificar que existe uma relação direta
entre o tráfego agregado e a perda de pacotes que transportam o sinal do codificador, apesar
dos gráficos 4.11 e 4.12 mostrarem uma dispersão considerável em torno da tendência da
curva. Os dados foram obtidos em dias diferentes de ensaios. Sugere-se que esta dispersão
mostre a existência de outro tráfego pela rede, que não foi computado pelo sistema do ensaio.
A medição do tráfego pela rede foi realizada de maneira indireta, com a soma dos valores
indicados pelas máquinas geradoras de tráfego. Como a ReMAV está disponível nas
Universidades, é possível que algum serviço adicional, fora do âmbito dos laboratórios
envolvidos neste trabalho, tenha contribuído com o carregamento da rede em um dado
momento dos ensaios. Salienta-se que, na mesma seqüência temporal de ensaios, a relação
entre tráfego agregado e a perda medida foi sempre direta, e, próximo de 910 Mbps, o sistema
era sensível a aumentos muito pequenos, da ordem de 1Mbps (0,1 % de acréscimo).
As demais análises foram feitas sempre tendo a perda de pacotes como referência,
lançada no eixo das abcissas. Conforme discutido anteriormente, o carregamento da rede
altera significativamente o número de pacotes perdidos, e pouco altera os outros parâmetros.
Assim, a causa principal da redução da qualidade constatada no vídeo é o aumento da perda
de pacotes, e por isto a relação entre eles (qualidade e perda de pacotes) é interessante. De
qualquer forma, se o gráfico fosse feito em relação ao tráfego, teria forma e resultado da sua
análise semelhantes, dada a relação direta entre pacotes perdidos e tráfego.
A qualidade perceptual do vídeo foi observada individualmente para cada seqüência
de imagens, dentre as três utilizadas no ensaio. Em função da diferença de conteúdo das
seqüências de vídeo, especialmente com menos detalhes e movimentos no caso do desenho
96
animado, esperava-se que perdas de pacotes iguais causassem diferentes percepções de
qualidade. Para facilitar a análise, as três curvas foram superpostas nos mesmos gráficos.
O gráfico 4.13 indica que o carregamento da rede que causa uma perda de pacotes
grande, perto de 30 %, torna as imagens ininteligíveis, a perda completa das informações de
vídeo ou áudio. Pacotes perdidos na ordem de apenas1 % são suficientes para impor
degradações extremas ao vídeo, ao qual é atribuído grau próximo de 1, na escala de 0 a 5,
correspondendo a uma imagem muito irritante. A qualidade do vídeo nesta situação é
imprópria mesmo para aplicações e serviços pouco exigentes de multimídia. Portanto, a
análise pode se restringir a perdas pequenas. O gráfico 4.14 evidencia que, para vídeo
comprimido na taxa de 7 Mbps, uma perda de pacotes muito pequena, da ordem de 0,2 %, é
suficiente para degradar as imagens no grau considerado “levemente irritante”, com artefatos
perfeitamente perceptíveis. O grau “ïrritante” acontece para uma perda próxima de 0,4 % e,
entre 0,7 a 1 %, a imagem é “muito irritante”. Fica também evidente que o conteúdo das
cenas altera um pouco esta relação entre qualidade e pacotes perdidos. O desenho animado
tem um comportamento menos crítico, e a nota atribuída à qualidade perceptual fica em torno
de meio grau maior que para os dois outros filmes na mesma situação de perda de pacotes.
Em qualquer condição de perda de pacotes, os artefatos observados são de ruído de
blocos, inclusive formação de fatias, e jerkiness, descritos na seção 2.6. A quantidade de
pacotes perdidos apenas acentua os defeitos, em duração, extensão ou ambos. Os outros tipos
de degradação não foram relacionados à perda de pacotes, mas sim à configuração do
codificador. Por exemplo, ao se comprimir com taxa baixa, de 2 Mbps, se percebe a falta de
definição, posterização e mosquito noise.
Foi também realizada a observação da quantidade de artefatos ocorridos para cada
situação de perda de pacotes. Pelo fato de que ocorrem artefatos diferentes, com durações
diferentes, causando diferentes sensações visuais, não se sugere usar esta grandeza como uma
figura de mérito, pelo menos não de forma absoluta. Para esta análise, foram considerados
artefatos, especialmente formação de blocos ou falhas na continuidade dos movimentos de um
dado objeto da cena, as degradações perceptíveis e com duração curta, menores de 1 segundo.
Erros perdurando por tempos maiores foram contabilizados como sendo vários, de
aproximadamente um segundo cada. A informação de número de ocorrências de artefatos
permite que se tenha uma idéia do quanto se degrada a imagem, ou traduz de forma um pouco
mais quantitativa a percepção da qualidade. Assim, com os gráficos 4.15 e 4.16, pode-se dizer
que nas seqüências das imagens utilizadas com duração de um minuto, comprimidas a 7
Mbps, ficaram evidentes em média cinco ocorrências para uma perda de pacotes de 0,05 %, e
97
perto de cinqüenta eventos perto de 0,5 %. Este último caso a idéia de quase um artefato
por segundo, interpretado como algo extremamente irritante para o observador.
Para vídeo comprimido na taxa de 2 Mbps, a qualidade da imagem começa com
uma nota inferior. Com uma compressão desta magnitude, a dinâmica do conteúdo das cenas
causa uma percepção de artefatos independente dos pacotes perdidos, e a definição das
imagens é menor do que a observada com a compressão em 7 Mbps. uma perda dos
detalhes e da saturação de cores (reduz-se a resposta dos sinais de alta freqüência). Com a
adição de perdas de pacotes, no entanto, a degradação piora de maneira mais suave do que foi
observado no caso de taxa de vídeo mais elevada. A mesma quantidade de pacotes perdidos
introduz mais artefatos de blocos ou jerkiness no vídeo comprimido em 7 Mbps do que em 2
Mbps. Os gráficos 4.17 , 4.18 e 4.19 mostram, para compressão com 2 Mbps, a relação entre
qualidade de vídeo e ocorrência de artefatos com a perda de pacotes, enquanto que os gráficos
4.20 e 4.21 comparam a qualidade no caso de compressão a 2 e 7 Mbps. A comparação dos
gráficos 4.16 e 4.19 mostra que a redução da taxa também reduz a ocorrência de falhas
perceptíveis.
Para tráfego agregado UDP e vídeo comprimido com taxa de 7 Mbps, o atraso médio
no recebimento dos pacotes enviados pelo codificador variaram entre 1,2 a 1,9 ms, para um
tráfego causador de perdas de pacotes desde 0 até 30 %. O gráfico 4.24 apresentou-se de
forma comportada, sempre crescente. Como foi verificado anteriormente, a faixa de interesse
para análise de qualidade de vídeo é bem mais limitada, entre as perdas de 0 até no máximo 1
%. Nesta região, o tráfego agregado causou atrasos médios variando entre 1,2 a 1,5 ms. Na
região onde foi observada uma quantidade de pacotes perdidos entre 0,05 a 0,5 %, que possui
uma correspondente variação da qualidade do vídeo muito grande (notas entre 4,5 a 1,5), o
atraso foi praticamente constante, entre 1,4 a 1,5 ms. O gráfico 4.25 ilustra o exposto. O jitter
teve comportamento similar ao do atraso na rede (gráficos 4.26, 4.27, 4.28), crescendo de 0,65
a 1,45 ms para pacotes perdidos de 0 até 30 %. Para perdas entre 0 a 0,5 %, o jitter foi quase
constante, entre 0,65 e 0,7 ms.
Este último parágrafo contribui para a conclusão de que a perda de pacotes foi o fator
determinante na qualidade do vídeo, e não a latência ou o jitter, quando os parâmetros da rede
são afetados pelo seu estado de carregamento. Estes parâmetros temporais apresentariam
conseqüências caso seus valores se aproximassem do tempo de buffer do receptor. Neste
cenário simplificado, onde não se provocou alterações de roteamento ou mecanismos de
controle de fluxo, não ocorreram elevações substanciais nos tempos de latência ou jitter.
98
Para o vídeo comprimido em 2 Mbps, conforme gráficos 4.29 a 4.32, o atraso e o jitter
também tiveram comportamento crescente, semelhante ao analisado para o caso de
compressão a 7 Mbps, apenas o valor inicial do jitter é bem maior, perto de 7,5 ms.
Os gráficos 4.33 e 4.34, relacionando parâmetros da rede com a adição de tráfego
TCP, não apresentaram uma tendência de crescimento constante destes parâmetros (delay e
jitter) com o aumento dos pacotes perdidos. O mecanismo de controle de perdas implantado
pelo protocolo TCP causa esta falta de correlação. os comportamentos de qualidade de
vídeo e ocorrência de artefatos com os pacotes perdidos, conforme gráficos 4.22 e 4.23,
mostraram-se muito semelhantes ao caso do tráfego UDP, com valores bastante próximos, o
que, para o cenário estudado, evidencia ainda mais a dependência da qualidade com a perda
de pacotes, e não diretamente com o jitter ou o atraso na rede.
99
0
5
10
15
20
25
30
35
40
850 900 950 1000 1050 1100
tráfego agregado UDP (Mbps)
pacotes perdidos (%)
gráfico 4.11: taxa de 7 Mbps – perda de pacotes x tráfego UDP
0
1
2
3
4
5
6
7
850 870 890 910 930 950 970
tráfego agregado UDP (Mbps)
pacotes perdidos (%)
gráfico 4.12: taxa de 7 Mbps – perda de pacotes x tráfego UDP , (zoom), mostrando o
comportamento para perda de pacotes de até 5%
100
0
1
2
3
4
5
6
0,001 0,01 0,1 1 10 100
pacotes perdidos (%)
qualidade perceptual (0-5)
Imensidão Azul
Missão Impossível II
A Era do Gelo
gráfico 4.13: taxa de vídeo de 7 Mbps e tráfego agregado UDP – qualidade do vídeo x perda
de pacotes, em escala logarítmica
0
1
2
3
4
5
6
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7
pacotes perdidos (%)
qualidade perceptual (0-5)
Imensidão Azul
Missão Impossível II
A Era do Gelo
Expon. (Imensidão
gráfico 4.14: taxa de vídeo de 7 Mbps e tráfego agregado UDP – qualidade do vídeo x perda
de pacotes, em escala linear, (zoom), mostrando o comportamento para perda de pacotes de
até 0,6 %
101
0
10
20
30
40
50
60
0 0,1 0,2 0,3 0,4 0,5
pacotes perdidos (%)
ocorrência de artefatos
Imensidão Azul
Missão Impossível II
A Era do Gelo
gráfico 4.15: taxa de vídeo de 7 Mbps e tráfego agregado UDP – quantidade de ocorrência de
artefatos x pacotes perdidos
0
10
20
30
40
50
60
70
0 0,2 0,4 0,6 0,8 1 1,2 1,4
pacotes perdidos (%)
ocorrência de artefatos
gráfico 4.16: taxa de vídeo de 7 Mbps e tráfego agregado UDP – quantidade de ocorrência de
artefatos x pacotes perdidos, (zoom), até 1,4 %, mostrando o comportamento médio das três
seqüências de vídeo
102
0
0,5
1
1,5
2
2,5
3
3,5
0,1 1 10 100
pacotes perdidos (%)
qualidade perceptual (0-5)
gráfico 4.17: taxa de vídeo de 2 Mbps e tráfego agregado UDP – qualidade do vídeo x pacotes
perdidos, em escala logarítmica
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
0 0,5 1 1,5 2 2,5 3 3,5 4
pacotes perdidos (%)
qualidade perceptual (0-5)
gráfico 4.18: taxa de vídeo de 2 Mbps e tráfego agregado UDP – qualidade do vídeo x pacotes
perdidos, em escala linear, (zoom), mostrando o comportamento para perda de pacotes de até
4 %
103
0
10
20
30
40
50
60
70
80
0 0,5 1 1,5 2 2,5 3 3,5 4
pacotes perdidos (%)
ocorrência de artefatos
gráfico 4.19: taxa de vídeo de 2 Mbps e tráfego agregado UDP – quantidade de ocorrência de
artefatos x pacotes perdidos
104
0
1
2
3
4
5
6
0,01 0,1 1 10 100
pacotes perdidos (%)
qualidade perceptual (0-5)
7 Mbps + UDP
2 Mbps + UDP
gráfico 4.20: comparação da qualidade do vídeo x pacotes perdidos para taxas de 2 Mbps e 7
Mbps, com tráfego agregado UDP, em escala logarítmica
0
1
2
3
4
5
6
0 0,5 1 1,5 2 2,5
pacotes perdidos (%)
qualidade perceptual (0-5)
7 Mbps + UDP
2 Mbps + UDP
gráfico 4.21: comparação da qualidade do vídeo x pacotes perdidos para taxas de 2 Mbps e 7
Mbps, com tráfego agregado UDP, (zoom), mostrando o comportamento para perda de
pacotes de até 2 %
105
0
1
2
3
4
5
6
0 0,1 0,2 0,3 0,4 0,5
pacotes perdidos (%)
qualidade perceptual (0-5)
gráfico 4.22: taxa de vídeo de 7 Mbps e tráfego agregado TCP – qualidade do vídeo x pacotes
perdidos
0
5
10
15
20
25
30
35
40
45
50
0 0,1 0,2 0,3 0,4 0,5
pacotes perdidos (%)
ocorrência de artefatos
gráfico 4.23: taxa de vídeo de 7 Mbps e tráfego agregado TCP – quantidade de ocorrência de
artefatos x pacotes perdidos
106
1
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2
0 5 10 15 20 25 30 35
pacotes perdidos (%)
latência (ms)
gráfico 4.24: taxa de vídeo de 7 Mbps e tráfego agregado UDP: atraso na rede x perda de
pacotes
1
1,2
1,4
1,6
1,8
2
2,2
0 1 2 3 4 5
pacotes perdidos (%)
latência (ms)
gráfico 4.25: taxa de vídeo de 7 Mbps e tráfego agregado UDP: atraso na rede x perda de
pacotes, (zoom), mostrando o comportamento para perda de pacotes de até 5 %
107
0,4
0,6
0,8
1
1,2
1,4
1,6
0 5 10 15 20 25 30 35
pacotes perdidos (%)
jitter (ms)
gráfico 4.26: taxa de vídeo de 7 Mbps e tráfego agregado UDP: jitter x perda de pacotes
0,5
0,55
0,6
0,65
0,7
0,75
0,8
0,85
0 1 2 3 4 5
pacotes perdidos (%)
jitter (ms)
gráfico 4.27: taxa de vídeo de 7 Mbps e tráfego agregado UDP: jitter x perda de pacotes,
(zoom), mostrando o comportamento para perda de pacotes de até 5 %
108
0,5
0,55
0,6
0,65
0,7
0,75
0,8
0,85
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7
pacotes perdidos (%)
jitter (ms)
gráfico 4.28: taxa de vídeo de 7 Mbps e tráfego agregado UDP: jitter x perda de pacotes,
(zoom), mostrando o comportamento para perda de pacotes de até 0,7 %
109
0,5
1
1,5
2
2,5
3
3,5
0 5 10 15 20 25 30
pacotes perdidos (%)
latência (ms)
gráfico 4.29: taxa de vídeo de 2 Mbps e tráfego agregado UDP: atraso na rede x perda de
pacotes
1
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
0 0,5 1 1,5 2 2,5 3 3,5
pacotes perdidos (%)
latência (ms)
gráfico 4.30: taxa de vídeo de 2 Mbps e tráfego agregado UDP: atraso na rede x perda de
pacotes, (zoom), mostrando o comportamento para perda de pacotes de até 3,5 %
110
7,4
7,6
7,8
8
8,2
8,4
8,6
8,8
9
0 5 10 15 20 25 30
pacotes perdidos (%)
jitter (ms)
gráfico 4.31: taxa de vídeo de 2 Mbps e tráfego agregado UDP: jitter x perda de pacotes
7,3
7,35
7,4
7,45
7,5
7,55
7,6
7,65
7,7
7,75
7,8
0 0,5 1 1,5 2 2,5 3 3,5
pacotes perdidos (%)
jitter (ms)
gráfico 4.32: taxa de vídeo de 2 Mbps e tráfego agregado UDP: jitter x perda de pacotes,
(zoom), mostrando o comportamento para perda de pacotes de até 3,5 %
111
0
0,5
1
1,5
2
2,5
3
3,5
4
0 0,1 0,2 0,3 0,4 0,5
pacotes perdidos (%)
latência (ms)
gráfico 4.33: taxa de vídeo de 7 Mbps e tráfego agregado TCP: atraso na rede x perda de
pacotes
0,63
0,65
0,67
0,69
0,71
0,73
0,75
0 0,1 0,2 0,3 0,4 0,5
pacotes perdidos (%)
jitter (ms)
gráfico 4.34: taxa de vídeo de 7 Mbps e tráfego agregado TCP: jitter x perda de pacotes
112
113
CAPÍTULO 5
CONCLUSÕES
Diversos trabalhos relacionando características de redes e qualidade de sinal
multimídia têm sido apresentados através de simulações. Porém, conforme citado por Bezerra
(2001), muitas vezes os valores atribuídos aos parâmetros nestas simulações são aleatórios,
sem uma avaliação crítica que indique sua coerência com a realidade. Além disto, poucos são
os trabalhos que chegam a apresentar resultados numéricos informando a qualidade do vídeo
de acordo com as características do meio de transporte. Experimentos aplicando metodologias
diversas, em casos reais, podem fornecer valores práticos para uso como critérios de QoS para
aplicações multimídia. A metodologia utilizada neste trabalho teve caráter experimental. Com
ela, foi possível comprovar os efeitos danosos que a rede de comunicação de dados pode
originar nas aplicações em tempo real, especialmente no vídeo. Os experimentos permitiram
ainda a validação de critérios ou a definição de ordem de grandeza para os diversos
parâmetros envolvidos neste tipo de estudo. Os ensaios foram realizados com equipamentos e
instrumentos comerciais sobre uma rede de dados real, que são aplicados no quotidiano da
área. A maior parte dos softwares também é de uso comum, sendo desenvolvidas apenas
algumas ferramentas próprias para a análise das informações.
É importante ressaltar que a metodologia e especialmente os resultados e conclusões
aqui apresentados não devem ser considerados absolutos ou de aplicação geral. O leitor deve
contextualizar as informações para cada situação. Os ensaios foram feitos em uma rede
controlada, com características próprias. Reibman, Sen e Van der Merwe (2004) citam que a
Internet e outras redes são complexas, heterogêneas e dinâmicas, e valores médios podem não
representá-las adequadamente. Também comentam que idênticas situações da rede podem
ocasionar diferentes resultados visíveis, dependendo do conteúdo e aplicação. Os resultados
obtidos são devido à combinação das características da rede usada e do algoritmo de
compressão. A alteração de qualquer destes itens pode conduzir a diferentes desfechos. Por
exemplo, o uso de codificação H.264 ao invés de MPEG-2, em determinada condição de
perda de pacotes deve apresentar menos impacto, pois o H.264 emprega técnicas de
tratamento de erros mais sofisticada (TAO, APOSTOLOPOULOS, GUÉRIN, 2004). Todd
(2003) comenta a diferença de percepção causada pelas características da rede quando o vídeo
é comprimido em MPEG-2 com qualidade standard ou em alta definição. Portanto, todas as
114
conclusões expostas neste trabalho são válidas para o algoritmo MPEG-2 trafegando sobre
redes e protocolos definidos na metodologia, capítulo 3.
Os procedimentos adotados permitiram uma avaliação individual para os
equipamentos terminais (codificador e decodificador) e para a influência da rede nos
resultados. As baterias de ensaios foram realizadas em dias diferentes, repetindo-se valores
próximos, para dar mais confiabilidade às informações coletadas.
Era presumível que o aumento de tráfego causaria em algum instante perda de pacotes,
e que esta perda se traduziria em degradações momentâneas ao vídeo. Também esperava-se
que o atraso na rede e o jitter teriam alguma relação direta com o tráfego. Os diversos ensaios
comprovaram o exposto. Constatou-se que a perda de pacotes deve ser extremamente baixa
para não comprometer o uso das imagens transportadas pelas redes. Valores da ordem de 0,05
% de pacotes perdidos são suficientes para ocasionar a percepção de degradações
consideráveis. Tais resultados validam estudos simulados que sugerem uma perda máxima de
0,01 % de pacotes e atraso inferior a 100ms para aplicações de vídeo (BEZERRA, 2001),
podendo estes números ser usados como critérios de QoS em determinadas condições de
similaridade de caso. Na faixa de 0 até 0,5 % de pacotes perdidos tem-se a qualidade
perceptual variando desde perfeita até extremamente degradada. Em uma condição de tráfego
que impõe esta perda, as demais características da rede (jitter e atraso) se mantém
praticamente constantes, o que leva a conclusão de que o grande entrave para o vídeo
trafegando em redes é realmente a perda de pacotes. Trabalhos de diversos autores indicam
que este é o principal parâmetro a influenciar o vídeo trafegando sobre redes. (TAO,
APOSTOLOPOULOS, GUÉRIN, 2004); (HE, CHEN, 2002); (TODD 2003), BAI, ITO,
2004). Obviamente, dependendo do tipo de tráfego e sua distribuição em uma rede, onde tanto
o jitter quanto o atraso tenham valores elevados, o resultado será ruim, pois pacotes chegando
atrasado ou fora de ordem são utilizados pelo decodificador de forma errônea, e o efeito é
similar à perda de pacotes. Esta conclusão é compartilhada em (REIBMAN,
VAISHAMPAYAN, SERMADEVI, 2004). Todd (2003) indica que até 30 ms de atraso ou
jitter é aceitável para se ter vídeo com qualidade dita de “dvd”. Estes números não podem ser
considerados absolutos, uma vez que os efeitos do atraso estão intimamente relacionados ao
tamanho do buffer dos equipamentos envolvidos.
Foi verificado que os quadros IP/Ethernet têm comprimento de 1358 bytes, e, como o
transport stream do MPEG-2 é fixo em 188 bytes, em um único pacote perdido ou atrasado
tem-se vários TS MPEG-2. Alguns destes TS podem estar carregando informações muito
importantes, por exemplo o cabeçalho de um GOP ou de uma fatia.
115
O atraso absoluto causado pela rede de dados, em torno de 1,5 ms, é desconsiderável
quando comparado ao valor de 200ms proveniente do processamento do par codec. Muitas
aplicações de vídeo são bastante sensíveis a atrasos, mas a meio segundo costuma ser
aceitável mesmo para os serviços mais críticos encontrados em uma emissora de televisão.
Mesmo que tenha sido comprovado que a composição das cenas altera a relação entre
tráfego na rede com a qualidade percebida, pode-se afirmar que para a especificação de
parâmetros da rede não é necessário se considerar o conteúdo das imagens, mas sim a
aplicação ou serviço. Sinais de vídeo são extremamente sensíveis à perda de pacotes, e pode-
se dizer que para a maioria das aplicações, os limites toleráveis são muito baixos. Para
serviços de ensino à distância e material promocional, 0,2 % pode ser o valor máximo para
perda de pacotes na rede. O serviço de locadora virtual (video on demand) de eventos ao
vivo, por exemplo esportivos, provavelmente não será aceito pelo consumidor se a perda
ultrapassar 0,05 %. Contribuição de conteúdo para emissoras de televisão exige características
da rede que imponham uma perda de pacotes menor do que 0,01 %.
O conteúdo do vídeo pode, por outro lado, definir perfeitamente a taxa de bits utilizada
em cada caso. Os ensaios feitos para a determinação da influência dos codecs no sistema em
uma rede com recursos suficientes mostraram que a qualidade do vídeo, a percepção de
defeitos e a aceitação dos sintomas pelo telespectador dependem da composição das cenas e
do uso que se pretende delas. Por exemplo, para o ensino à distância, se o professor se
movimentar pouco ou de forma não muito rápida, se as apresentações de slides e outros
recursos não for por demais rica em detalhes dinâmicos, uma taxa de 3 Mbps é suficiente para
não causar qualquer desconforto aos telespectadores. A otimização da taxa de compressão é
importante, pois o custo do transporte dos dados é proporcional à demanda utilizada. Para a
contribuição de vídeo para emissoras de televisão, deve-se utilizar pelo menos 7 Mbps, pois o
material está no início da cadeia produtiva, deverá ser editado e sofrer outros processamentos,
que acumulam degradações.
Conforme esperado, os ensaios efetuados com a inserção de sinais de vídeo estáticos
no codificador apresentaram bons resultados. Os sinais de teste são importantes na busca de
eventuais distorções causadas nos processos de conversão entre deo analógico e digital.
Porém, não podem ser usados na determinação da influência da rede na qualidade do vídeo.
Como não renovação de conteúdo nos quadros com o passar do tempo, perdas de
informações (levadas pelos pacotes) originadas na rede não apresentam sintomas visíveis,
pois neste caso a parte da cena correspondente a estes pacotes é mantida de momentos
anteriores, e ela se encaixa perfeitamente com a informação que conseguiu ser renovada.
116
Portanto, o ensaio com sinais de teste estáticos deve ser efetuada apenas para a determinação
de características mínimas dos codecs que, se forem adequadas, não trarão prejuízos à
qualidade da imagem por eles processada.
Em função dos serviços de tráfego multimídia exigirem tratamento em tempo real,
carregados normalmente em protocolos TCP na camada de transporte, onde não
confirmação de recebimento acertado de pacotes, e ainda que a ordem errada ou atrasos
grandes serão considerados como pacotes perdidos pelo sistema, é imprescindível que a rede
de dados tenha aplicação de quesitos de QoS em sua estrutura. Especialmente, a rede deve
garantir reserva de recursos e roteamento pré-estabelecido, como os obtidos em uma rede
MPLS.
Embora não tenha sido objeto principal do estudo, a observação do efeito da perda de
pacotes na qualidade do áudio se mostrou um pouco mais branda. Os valores de pacotes
perdidos para tornar a sensação irritante para o deo foi em torno de 0,4 % e para o áudio de
2 %.
Os resultados conseguidos com o trabalho apresentado permitem que os usuários de
serviços multimídia definam os parâmetros mínimos que devem solicitar na elaboração de um
contrato (SLA service level agreement) com as operadoras e provedoras de tráfego de
dados. Possibilitam também a implantação de um método de monitoração da qualidade do
produto (vídeo e áudio) de uma forma indireta. Uma vez que a observação direta e subjetiva
da qualidade da imagem e do som exige dedicação grande de tempo e recursos financeiros
(DURANT, 1998), uma estratégia pode ser a medição dos parâmetros da rede, associando
seus valores à qualidade do sinal. A gravação de sons e imagens é algo relativamente
simples e barato. No caso do apontamento, pela medição contínua das características da rede,
de perda de pacotes considerada alta, acima dos limites estabelecidos pelo usuário, pode-se
buscar a correspondente imagem (e som) na mídia usada para o arquivo temporário de vídeo,
e verificar se ocorreu ou não danos ao sinal. Este processo ocupa muito menos tempo de
visualização, e serve como material de prova para eventuais argüições ou ressarcimento das
operadoras para os clientes.
Como trabalho futuro, aprimorando o que foi apresentado, sugere-se uma pesquisa
equivalente com maior número de ensaios e também com a participação de um grupo de pelo
menos quinze pessoas na avaliação da qualidade perceptual, escolhidas de acordo com os
critérios das recomendações do ITU, para reduzir a influência de fatores diversos na
atribuição das notas.
117
Outro trabalho importante relacionado ao exposto é o desenvolvimento de plataformas
de análise da rede em tempo real, para que possam ser implementadas comercialmente.
Um estudo interessante seria a análise, também em tempo real, do transport stream
MPEG-2, para que com ela, seja possível a implantação de mecanismos de controle da rede e
da emissão de pacotes de acordo com a qualidade do vídeo, como por exemplo, proposto em
(LU, MORANDO, EL ZARKI, 2002).
Uma última sugestão é a de se repetir estes ensaios com a compressão baseada em
hardwares MPEG-4 parte 10 (H.264), visto que a expectativa de popularização destes codecs
é bastante grande.
118
119
ANEXO 1
CARACTERÍSTICAS DO CODIFICADOR E DO DECODIFICADOR
Codificador
Fabricante: Visionary Solutions, Inc.
Modelo: AVN200 MPEG-2 IP
Taxa de Bits para vídeo: 1.2 a 7.5 Mbps.
Tipo de codificação: vídeo MPEG-2 MP@ML; áudio MPEG-1 layer 2
Encapsulamento: UDP ou RTP
Transmissão: Unicast ou Multicast
Resolução: Multicast 720 x 480, 352 x 480; Unicast 480 x 480, 352 x 240.
Vídeo: Composto, 75 ohms, NTSC, conector BNC fêmea, ou S-Vídeo (Y/C)
Áudio: estéreo, desbalanceado, conector P2 estéreo, nível 1 Vrms
Taxa de áudio: 384 kbps e 256 kbps, amostragem de 48 kHz
Porta I/O para controle e outras aplicações
Fonte de alimentação externa, 3.3V DC
Conexão com a rede, padrão Ethernet/IP, via RJ-45, 10baseT ou 100baseTXFast
Configuração via web, hiperterminal ou software que o acompanha (VSI Image).
Libera a informação de closed caption no intervalo vertical
Decodificador
Fabricante: Amino Communications ltd.
Modelo: AmiNET103 IP
Áudio: estéreo, desbalanceado, conector RCA fêmea (2x)
Vídeo: composto, 75 ohms, conector RCA fêmea; formatos 4:3 e 16:9
Conexão com a rede, padrão Ethernet/IP, 10/100BaseT
DHCP ou IP fixo
Decodifica MPEG-1 e MPEG2 MP@ML, até 10Mbps
Fonte de alimentação externa, 5 V DC
Acesso para configuração via controle remoto, teclado remoto
Unicast ou Multicast
Não suporta encapsulamento RTP
Libera a informação de closed caption no intervalo vertical
120
121
ANEXO 2
FORMAS DE ONDA DOS ENSAIOS DOS CODECs COM SINAIS ESTÁTICOS
Sinal de teste NTC-7, NTSC, taxa de vídeo de 7,5 Mbps
122
Sinal Multiburst, NTSC, taxa de vídeo de 7,5 Mbps
123
Sinal Colorbars, NTSC, taxa de vídeo 7,5 Mbps
124
Sinal Blackburst, NTSC, taxa de vídeo 7,5 Mbps
125
ANEXO 3
TABELAS ESTATÍSTICAS DA REDE x QUALIDADE DO VÍDEO
1) Fluxo de vídeo em 7 Mbps e tráfego agregado UDP selecionável.
2) Fluxo de vídeo em 7,5 Mbps e tráfego agregado UDP selecionável.
3) Fluxo de vídeo em 2 Mbps e tráfego agregado UDP selecionável.
4) Fluxo de vídeo em 7 Mbps e tráfego agregado TCP, auto-ajustável para controle de
perda de pacotes.
126
TAXA DE VÍDEO = 7 Mbps e TRÁFEGO AGREGADO UDP
TESTE
CARGA
CENA
ESTATÍSTICAS artef
QUALIDADE OBS
Pacotes Pacotes Perdidos Atraso
Tempo de Jitter
transmit.
quant. relativos
na
rede chegada
(unid) (unid)
(%) (ms) (ms) (ms)
AUDIO
VIDEO
138
0
EG 12
40922
0
0
1,222
1,529
0,664
1
4,5
102
0
IA 20 40833
0
0
1,234
1,528
0,667
1
4,5
103
821
IA 20 41040
0
0
1,237
1,528
0,665
0
5
131
861
MI 04 40733
0
0
1,348
1,528
0,664
0
5
5
132
876
MI 04 41091
0
0
1,401
1,528
0,666
3
4,5
4
100
821
IA 25 40833
1
0,002449
1,224
1,53
0,677
3
4
123
821
MI 04 40739
1
0,002455
1,238
1,529
0,661
1
4,5
4,5
101
821
IA 25 40704
5
0,012284
1,222
1,529
0,667
2
4
113
881
IA 20 41208
7
0,016987
1,425
1,529
0,681
3
4
126
881
MI 04 41111
8
0,01946
1,437
1,528
0,669
5
5
4
105
881
IA 20 41134
14
0,034035
1,423
1,529
0,671
6
4
124
821
MI 04 40933
21
0,051303
1,238
1,529
0,66
6
5
4,5
falha na fonte
108
884
IA 20 41076
26
0,063297
1,437
1,529
0,673
7
4
114
886
IA 20 40782
29
0,07111
1,445
1,53
0,677
7
3,5
133
886
MI 04 40729
31
0,076113
1,446
1,53
0,67
6
5
4
134
886
EG 12
40786
39
0,095621
1,445
1,53
0,669
6
5
4
106
886
IA 20 41202
41
0,09951
1,445
1,53
0,674
14
3
137
888
EG 12
40692
69
0,169566
1,453
1,531
0,671
14
4
3,5
115
891
IA 20 40608
87
0,214243
1,463
1,532
0,681
31
3
107
891
IA 20 40982
94
0,229369
1,473
1,532
0,675
30
3
135
891
EG 12
40716
101
0,24806
1,463
1,533
0,682
26
3,5
3,5
130
891
MI 04 40719
105
0,257865
1,463
1,533
0,674
31
3,5
2,5
129
892
MI 04 40828
113
0,276771
1,467
1,533
0,675
36
3,5
2,5
128
893
MI 04 41025
129
0,314442
1,472
1,533
0,676
47
3
2,5
136
896
EG 12
40662
138
0,339383
1,492
1,534
0,676
21
3
3
141
896
EG 12
41005
152
0,370687
1,482
1,533
0,691
35
3,5
2,5
GOP2
127
895
MI 04 40991
160
0,39033
1,478
1,534
0,678
48
3
2
dvd travou
104
911
IA 20 40955
167
0,407765
1,488
1,535
0,679
45
2
120
916
MI 04 40990
261
0,636741
1,506
1,539
0,684
50
1,5
125
911
MI 04 41035
525
1,279396
1,531
1,548
0,713
66
3
1
117
941
MI 04 40622
802
1,9743
1,583
1,559
0,712
100
1
121
918
MI 04 41661
1021
2,450733
1,6
1,567
0,757
100
2
1
118
921
MI 04 40815
1402
3,435012
1,651
1,583
0,786
100
1
109
961
IA 20 40725
1410
3,462247
1,595
1,583
0,742
100
1
112
961
IA 20 41088
1457
3,546048
1,6
1,584
0,746
100
1
GOP2
139
961
EG 12
41158
1489
3,617766
1,64
1,586
0,727
100
2
1,5
116
941
MI 04 40922
1610
3,934314
1,653
1,591
0,741
100
1
119
941
MI 04 40807
1838
4,504129
1,695
1,6
0,812
100
1
110
1041
IA 20 40631
11364
27,96879
1,91
2,123
1,4
100
0
122
1051
MI 04 40912
11989
29,30436
1,939
2,161
1,436
100
0
0
140
1031
EG 12
40977
11943
29,14562
1,925
2,157
1,438
100
0
0
111
1051
IA 20 40897
12200
29,83104
1,912
2,178
1,437
100
0
GOP2
127
TAXA DE VÍDEO = 7,5 Mbps e TRÁFEGO AGREGADO UDP
TESTE
CARGA CENA
ESTATÍSTICAS artef QUALIDADE OBS
Pacotes Pacotes Perdidos Atraso
Tempo de
Jitter
transmit.
quant. relativos
na
rede chegada
(unid) (unid)
(%) (ms) (ms) (ms)
AUDIO
VIDEO
161
821
IA20 43819
5
0,011411
1,298
1,427
0,253
poucos
5
4,5
tela cheia
162
821/70/10 IA20 43951
253
0,575641
1,533
1,435
0,29
muitos
5
2,5
tela cheia
TAXA DE VÍDEO = 2 Mbps e TRÁFEGO AGREGADO UDP
TESTE
CARGA CENA
ESTATÍSTICAS artef QUALIDADE OBS
Pacotes Pacotes Perdidos Atraso
Tempo de
Jitter
transmit.
quant. relativos
na
rede chegada
(unid) (unid) (%) (ms) (ms) (ms)
AUDIO
VIDEO
160
0
IA20 14507
0
0
1,293
4,28
7,492
0
5
3
tela cheia
150
0
IA20 14557
0
0
1,293
4,28
7,495
0
5
3
151
821
IA20 14635
0
0
1,311
4,278
7,49
0
5
3
158
898
IA20 14601
28
0,191768
1,528
4,287
7,485
7
5
3
155
894
IA20 14713
29
0,197105
1,529
4,288
7,488
5
5
3
tela cheia
157
897
IA20 14607
30
0,205381
1,529
4,289
7,487
8
5
2,5
tela cheia
156
896
IA20 14618
31
0,212067
1,529
4,289
7,489
5
3
2,5
159
891
IA20 14578
64
0,439018
1,573
4,298
7,498
26
4
2,5
152
898
IA20 14618
295
2,01806
1,656
4,368
7,574
51
2,5
1,5
154
1028
IA20 14563
461
3,165557
1,737
4,418
7,622
70
2
1
153
1038
IA20 14600
3763
25,77397
3,177
6,513
8,81
100
0
0,5
TAXA DE VÍDEO = 7 Mbps e TRÁFEGO AGREGADO TCP
TESTE
CARGA CENA
ESTATÍSTICAS artef QUALIDADE OBS
Pacotes Pacotes Perdidos Atraso
Tempo de
Jitter
transmit.
quant. relativos
na
rede chegada
(unid) (unid) (%) (ms) (ms) (ms)
AUDIO
VIDEO
173
TCP OT IA20 40808
0
0
1,267
1,529
0,664
1
5
5
172
TCP OT LL IA20 40706
1
0,002457
1,293
1,529
0,666
0
5
5
175
TCP LL PL IA20 41097
23
0,055965
3,653
1,529
0,695
10
4,5
3,5
174
TCP LL PL IA20 41117
29
0,07053
3,606
1,53
0,69
13
5
3,5
171
TCP OT PL IA20 40795
130
0,318667
2,641
1,533
0,71
36
4
2,5
170
TCP 3 pares
IA20 41180
188
0,456532
2,236
1,535
0,71
44
4
2
128
129
ANEXO 4
HISTOGRAMAS DAS CARACTERÍSTICAS DA REDE
Histogramas de atraso na rede e jitter obtidos com os dados dos seguintes ensaios,
apresentados em ordem de quantidade de pacotes perdidos:
a) com tráfego agregado UDP
138
123
107
135
112
139
110
122
160
159
154
b) com tráfego agregado TCP
173
172
175
171
130
teste 138 – tráfego 0, perda de pacotes 0,
compressão de vídeo 7 Mbps
131
teste 123 – tráfego 821 Mbps, perda de pacotes 0,002 %,
compressão de vídeo 7 Mbps
132
teste 107 – tráfego 891 Mbps, perda de pacotes 0,23 %,
compressão de vídeo 7 Mbps
133
teste 135 – tráfego 891 Mbps, perda de pacotes 0,24 %, compressão de vídeo 7 Mbps
134
teste 112 – tráfego 961 Mbps, perda de pacotes 3,5 %,
compressão de vídeo 7Mbps
135
teste 139 – tráfego 961 Mbps, perda de pacotes 3,6 %, compressão de vídeo 7 Mbps
136
teste 110 – tráfego 1041 Mbps, perda de pacotes 28 %,
compressão de vídeo 7 Mbps
137
teste 122 – tráfego 1051 Mbps, perda de pacotes 29 %, compressão de vídeo 7 Mbps
138
teste 160 – tráfego 0 Mbps, perda de pacotes 0 %, compressão de vídeo 2 Mbps
139
teste 159 – tráfego 891 Mbps, perda de pacotes 0,44 %, compressão de vídeo 2 Mbps
140
teste 154 – tráfego 1028 Mbps, perda de pacotes 3,17 %, compressão de vídeo 2
Mbps
141
teste 173 – tráfego TCP par Onça-Tigre
perda de pacotes 0 %, compressão de vídeo 7 Mbps
142
teste 172 – tráfego TCP par Onça-Tigre e Leão-Leopardo perda de pacotes 0 %,
compressão de vídeo 7 Mbps
143
teste 175 – tráfego TCP par Puma-Lince e Leão-Leopardo perda de pacotes 0,06 %,
compressão de vídeo 7 Mbps
144
teste 171 – tráfego TCP par Onça-Tigre e Puma-Lince perda de pacotes 0,32 %,
compressão de vídeo 7 Mbps
145
REFERÊNCIAS BIBLIOGRÁFICAS
ARIB. ARIB STD-B32 Version 1.5. Association of Radio Industries and Businesses, 2004.
Disponível em: www.dibeg.org/aribstd/STD-B32v1_5.pdf. Acessado em 12/08/2006.
ARTHUR, R. Avaliação Objetiva de Codecs de Vídeo. Dissertação de Mestrado
apresentada no Departamento de Engenharia de Computação e Automação Industrial,
Universidade Estadual de Campinas-Unicamp, 2002.
ASSUNÇÃO, P. Televisão Digital. A Norma MPEG-2. Apresentação no Instituto de
Telecomunicações - Pólo de Coimbra. Janeiro 2000. Disponível em:
http://www.co.it.pt/seminarios/tvdigital/tvdigital.html. Acessado em 05/05/2005.
BAI, Y., ITO, M. QoS Control for Video and Audio Communication in Conventional and
Active Networks: Approaches and Comparison. IEEE Communications Surveys and
Tutorials, vol 6, n.1, p 42-46, 2004.
BEZERRA, S. A. C. Uma Metodologia para Avaliação de Desempenho de Aplicações
Multimídia em Redes Locais sem Fio. Dissertação de Mestrado apresentada ao curso de
Ciência da Computação, Universidade Federal de Minas Gerais, 2001.
BOMBELLI, G. Video Quality in a Switched Video System. Scientific Atlanta Whitepaper,
2005. Disponível em: http://www.infra-sat.ch/docs/dokumente/Video_Quality_2005.pdf .
Acessado em 04/09/2006.
BRICE, R. Newness Guide to Digital Television. Butterworth-Heinemann Linacre House,
Jordan Hill. Woburn ,MA, 2000.
DURANT, L. Comparing Objective and Subjective Picture Quality Measurements. Tektronix
Technical Brief, 1998. Disponível em:
http://www.tek.com/Measurement/App_Notes/25_12866/eng/25W_12866_0.pdf.
Acessado em 19/12/2006.
ETHEREAL. Disponível em: http://www.ethereal.com . Acessado em 11/07/2006.
146
FARINES, J., FRAGA, J., OLIVEIRA, R. Sistemas de Tempo Real. Publicado pelo
Departamento de Automação e Sistemas - Universidade Federal de Santa Catarina.
Florianópolis, 2000.
FENIMORE, C., LIBERT, J., ROITMAN, P. Mosquito Noise in MPEG-Compressed Video:
Test Patterns and Metrics. Proceedings of SPIE Conf. Human Vision and Electronic
Imaging, San Jose CA, 2000. Disponível em:
http://www.itl.nist.gov/div895/docs/pubs.html. Acessado em 07/03/2005.
FIBUSH, D., ELKIND, B., AINSWORTH, K. A Guide to Digital Television Systems and
Measurements. Tektronix Publication, 1997. Disponível em:
http://www.tek.com/Measurement/App_Notes/DigitalTV/25W-7203-3.pdf . Acessado em
19/12/2006.
HE, Z., CHEN,C. End-to-End Video Quality Analysis and Modeling for Video Streaming
over IP Network.
Proceedings of International Conference on Multimedia and Expo
2002, vol 1 p.853-856, 2002
.
HOLST, G. CCD Arrays Cameras and Displays. Second edition. Published by SPIE – The
International Society for optical Engineering, 1998.
IPERF. Disponível em: http://dast.nlanr.net/Projects/Iperf. Acessado em 11/07/2006.
ITU-R. Rec. ITU-R_BT.500-11: Methodology for the subjective assessment of the quality of
television pictures. 2002. Disponível em:
http://www.dii.unisi.it/~menegaz/DoctoralSchool2004/papers/ITU-R_BT.500-11.pdf.
Acessado em 13/12/2005.
K-WILL. Disponível em: http://www.kwillcorporation.com/products/quality_matrix.html.
Acessado em 15/12/2006.
KISH, P., BOHBOT, M. Broadband Video over Category 6 UTP Cabling. Quebec, Canadá,
2003. Disponível em:
http://www.nordx.com/public/htmen/PDF/WP_NORDX_BB_Video.pdf. Acessado em
17/09/2006.
KLEINROCK, L. Queueing Systems Theory, vol 1. Wiley-Interscience, 1975.
147
LAUTERJUNG, J. Picture Quality Measurement. Rohde & Schwarz White paper,
apresentado na International Broadcasting Convention (IBC) Conference Publication,
Amsterdam, September, 1998. Disponível em
http://www.mobileradio.rsd.de/www/download_files.nsf/file/PQM.pdf/$file/PQM.pdf.
Acessado em 19/12/2006.
LEVIN, R. Broadcast Quality Video over IP/Ethernet: Advanced Cable Architectures for
Today. International Broadcasting Convention (IBC) Conference Proceeding. p.80-93,
2003.
LIN, S., COSTELO, D. Error Control Coding Fundamentals and Applications.
Englewood Cliffs, Prentice-Hall, 1983.
LU, X., MORANDO, R., EL ZARKI, M. Understanding Video Quality and its Use in
Feedback Control. Packet Video 2002, Pittsburgh, PA, 2002. Disponível em
http://vip.ics.uci.edu/publications/index.html. Acessado em 18/09/2006.
MARGI, C. Um Mecanismo para Distribuição Segura de Vídeo MPEG. Dissertação de
Mestrado apresentada na Escola Politécnica da Universidade de São Paulo, 2000.
MUNTEAN, G., PERRY, P., MURPHY, L. Objective and Subjective Evaluation of QOAS
Video Streaming over Broadband Networks.
IEEE Electronic Transactions on Network
and Service Management, Vol. 2, No. 1, p.19-28, Nov. 2005.
NINCE, U. Sistemas de Televisão e Vídeo. LTC- Livros Técnicos e Científicos Editora,
1988.
OH, J., WOOLLEY, S., ARVANITIS, T., TOWNEND, J. A Multistage Perceptual Quality
Assessment for Compressed Digital Angigram Images. IEEE Transactions on Medical
Imaging, vol.20 n.12, december 2001.
PINHEIRO, J. Convergência de Voz e Dados em Redes de Computadores. 2005. Diponível
em:
http://www.cliconnet.com.br/Artigos/ConvergenciaVozDadosRedesComputadores.html.
Acessado em 16/09/2006.
148
PIXELMETRIX. Disponível em:
http://www.pixelmetrix.com/eng/product.html. Acessado
em 15/12/2006.
RAISANEN, V. Service Quality Support – an overview. Computer Communication, vol.27,
p.1539-1546, Elsevier, inc, 2004.
REIBMAN, A., SEN, S., MERWE, J. Network Monitoring for Video Quality over IP.
Picture Coding Symposium, December
2004 . Disponível em:
http://www.research.att.com/~kobus/. Acessado em 23/02/2006.
REIBMAN, A., VAISHAMPAYAN, V., SERMADEVI, Y. Quality Monitoring of Video
Over a Packet Network. IEEE Transactions on Multimedia, vol.6, n.2, p. 327-334, April
2004.
RNP. Disponível em: http://www.pop-pr.rnp.br/tiki-index.php?page=REMAV. Acessado em
15/12/2006.
ROBIN, M. Digital Video Compression and Noise. Broadcast Engineering Journal, p.25-
28, junho 2005.
ROBIN, M. Testing Link Performance. Broadcast Engineering Journal, jul 1, 2001.
SEELING, P., REISSLEIN, M., KULAPALA, B. Network Performance Evaluation Using
Frame Size and Quality Traces of Single-Layer and Two-Layer Video: A Tutorial. IEEE
Communications Surveys & Tutorials, vol.6, n.3, p.58-78, 2004.
SEGALL, U. Análise e Modelagem de Tráfego de Vídeo Hierárquico. Dissertação de
Mestrado apresentada no Programa de Pós-graduação em Informática Aplicada,- Pontifícia
Universidade Católica do Paraná. Curitba, 2005.
SEMERIA, C. Supporting Differentiated Service Classes: Queue Scheduling Disciplines.
White Paper - Juniper Networks Inc. Sunnyvale, CA, december 2001. Disponível em
http://www.juniper.net. Acessado em 06/08/2006.
SERVETTO, S., NAHRSTEDT, K. Broadcast Quality Video over IP. IEEE International
Conference on Image Processing ICIP'99. Kobe, Japão, 1999.
149
SILVEIRA, L., MATARAZZO, E. O Modelo OSI de Interconexão de Sistemas Abertos.
Tutorial Teleco, 2004. Disponível em: http://www.teleco.com.br. Acessado em
14/12/2004.
STUERMER, G. QoS em Redes IP: Conceitos e Terminologia. Monografia apresentada no
XIII Curso de Especialização em Teleinformática e Redes de Computadores, UTFPR,
2006.
TANENBAUM, A. Rede de Computadores. Quarta Edição. Elsevier Editora, 2003.
TAO, S., APOSTOLOPOULOS, J., GUÉRIN, R. Real-Time Monitoring of Vídeo Quality in
IP Networks. Proceedings of the 12th ACM International Multimedia Conference,
p.136-143, 2004.
TEKTRONIX. Measuring and Interpreting Picture Quality in MPEG Compressed Video
Content. Tektronix Application Note, 2001. Disponível em:
http://www.tek.com/Measurement/App_Notes/25_14675/eng/25W_14675_0.pdf .
Acessado em 19/12/2006.
TEKTRONIX. NTSC Systems Television Measurements. Tektronix publication, 1999.
Disponível em: http://www.tek.com/Measurement/App_Notes/25_7049/eng/section1.pdf.
Acessado em 19/12/2006.
TODD, M. Quality of Video-over-IP Measuring the Quality of Streaming MPEG-2 Transport
Streams over IP. 2003. Disponível em:
http://ftp.ineoquest.com/pub/docs/Papers/VideoOverIPStreamQuality.pdf. Acessado em
13/03/2006.
TORRES, G. Redes de Computadores Curso Completo. Axcel Books do Brasil Editora.
Rio de Janeiro, 2001.
TRESSE, E. Resolução em Sistemas de TV. Publicado pela Assessoria de Desenvolvimento
Técnico-Operacional, Central Globo de Engenharia, 1979. Disponível na Biblioteca de
Engenharia – RPC – Curitiba.
WATKINSON, J. The MPEG Handbook. Elsevier, Linacre House. Second Edition, 2004.
150
WOOTTON, C. A practical Guide to Video and Audio Compression. Elsevier Inc, Focal
Press, 2005.
XIAO, X., NI, L. Internet QoS: The Big Picture. Dept. of Computer Science, Michigan
State University,1999. Disponível em: http://citeseer.ist.psu.edu/xiao99internet.html.
Acessado em 20/11/2004.
ZAMPOLO, R., SEARA R. Medidas e estratégias para Avaliação da Qualidade Perceptual de
Imagens Usando Redes Bayesianas. XXI Simpósio Brasileiro de Telecomunicações,
Belém, PA, Brasil, setembro de 2004.
151
RESUMO:
O uso das redes de computadores, em especial redes IP, é realidade para distribuição e
troca de conteúdo multimídia. Oferecem, dada sua capilaridade, uma opção econômica
inclusive para a contribuição e distribuição de vídeo de emissoras e redes de televisão. No
entanto, o material de deo e áudio apresenta normalmente características de tempo real, o
que cria restrições, ou pelo menos, requisitos rígidos das redes de dados para que o
conteúdo seja recebido dentro das limitações temporais e com a qualidade desejada.
Este trabalho avalia a relação entre os parâmetros da rede de transporte e a
qualidade do sinal de vídeo. São observadas, de forma experimental, as degradações
inseridas tanto pela rede quanto pelos equipamentos que fazem a adequação do vídeo e
áudio às redes, os terminais codecs. Apresenta ainda uma metodologia para mensuração e
acompanhamento da qualidade do sinal de vídeo trafegado sobre redes IP.
Os resultados dos ensaios realizados permitem que os usuários possam estabelecer os
valores aceitáveis para os parâmetros da rede, de modo a atender suas aplicações, e
demonstram a validade de um modelo de monitoração das características da rede e da
qualidade do vídeo.
PALAVRAS-CHAVE
Vídeo sobre redes; MPEG-2; análise subjetiva de vídeo; análise perceptual de imagens;
codecs de vídeo.
ÁREA/SUB-ÁREA DE CONHECIMENTO
Código: 3.04.06.03-0 Descrição: Sistemas de Telecomunicações
2007
N
º
: 435
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo