Download PDF
ads:
MARIA EUGENIA DAJER
ANÁLISE DE SINAIS DE VOZ POR PADRÕES
VISUAIS DE DINÂMICA VOCAL
Tese apresentada à Escola de Engenharia de
São Carlos, da Universidade de São Paulo,
para obtenção do Título de Doutor em
Ciências (Programa de Engenharia Elétrica).
Área de Concentração: Processamento
de Sinais e Instrumentação
Orientador: Prof. Tit. Dr. José Carlos Pereira
São Carlos
2010
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ii
ads:
iii
DEDICATORIA
A mis padres, Angelita y Ricardo,
porque la certeza de su presencia
es mi fortaleza, mi luz y mi alegría.
iv
AGRADECIMENTOS
Tenho muito a agradecer, porque só eu sou responsável pelas minhas
quedas; mas compartilho minhas vitórias com muita gente. Sempre caminhei
com minhas próprias pernas, mas nunca estive sozinha. Por isso agradeço a
DEUS em primeiro lugar por tem-me abençoado com tantas pessoas incríveis
ao longo do caminho.
Agradeço a meus pais, pelo amor e apoio constante; e por ensinar-me
desde muito cedo o valor da amizade e a importância de saber sonhar.
Ao Prof. José Carlos Pereira, por todos estes anos de trabalho conjunto,
de apoio, de guia, de paciência. Pela confiança, a generosidade e a
oportunidade. E por ser um exemplo de vida e de profissional.
Ao Silvio A. Souza (Xu hermoso), por ser meu amor, meu parceiro, meu
amigo; por me dar forças e apoio nos momentos mais difíceis, e pela
PACIÊNCIA para agüentar as crises e choros.
Quero agradecer especialmente a um grupo humano incrível,
diversificado, divertido, nobre, íntegro, com quem tive a honra de compartilhar
longas horas de trabalho ano após ano; com quem aprendi grandes lições
sobre determinação, esforço, trabalho, responsabilidade e companheirismo.
Daiane “Macuca” de Bem, Edwin Villanueva e Soledad Espezúa, Julián
Villamarín, Rafael “Capacetão” Christ, Paulo Scalassara, Vinicius “Vinão”
Guimarães, Fernando Araújo, Lianet Sepúlveda, Jamille Marrara, Regina
Pimenta e Alan Petrônio muitíssimo obrigada!!!!!! Também quero agradecer a
uma pessoa muito especial, que compartilhou apenas um semestre com a
gente, mas que fez diferença em nossas vidas. Anderson!! (vulgo: Forex, Dandi
ou “Tou de boa”), muito obrigada pela mensagem, pela alegria e pela amizade.
v
Ao Dr. Paulo Scalassara, um grande companheiro e amigo, por toda
ajuda recebida e por todo o trabalho compartilhado nestes quatro anos; a sua
linda esposa Melissa pelo carinho e amizade.
A “La Pequeña Cubana”, por ensinar-me que é possível ser forte,
determinada e lutadora, sem perder a alegria e a grandeza d'alma. Pela
amizade incondicional e por compartilhar angústias e alegrias como uma
verdadeira irmã. Obrigada a Esperanza, Felipe, Lian, Orieta e Indara por
receber-me com tanto carinho e tantos mojitos!!!!.
A meus “queridos Maricas”! Amilcar Querubini, Giovani Pozzebón e
Guido Gomez, pelos mates, os cafezinhos, os happy-hours, churras e
companhia, mas principalmente pela amizade generosa e desinteressada,
vocês são meus anjos guardiães! E um agradecimento especial ao Prof.
Ricardo Quadros e a sua esposa Rita, pelo apoio e carinho, e por incorporar-
me como mais uma ao grupo.
A Regina, Jamille, Fernando, Paula, Felipe e Filipe por permitir-me tão
generosamente compartilhar e dar palpites em seus trabalhos. Vocês são os
responsáveis por eu querer ser “palpitera profissional”!!!
A minhas queridas amigas Carol, Lie, Aline, Lilian, Sabrina, Camila,
Cris, Sheila e Alinezinha por tantos momentos de “terapia de grupo”, fofocas e
risadas. Vocês são tuuudo de bom!! A todos os amigos do departamento:
Kustela, Janison, Monaro, Marcel, Suetake, Marcelo, Perninha, Moussa e
Leandro, por fazerem minha vida mais leve com as risadas, conversas e
momentos de relax.
Ao pessoal de secretaria, Jussara, Marisa, Cidinha e Zé, e ao pessoal de
apoio técnico, Roseli, Fernanda, Gerson e João, por estar sempre prontos para
resolver pepinos e porque seu trabalho constante faz possível o trabalho de
todos nós. A Vera pelo cafezinho “salvador” das 2 das tarde!! A Dair e Rui,
pelo serviço técnico, o pronto socorro e pela cordialidade de todos estes anos.
vi
A Kátia, Tatyana e Marcelo, do serviço de convênios, por toda a
assistência, ajuda e paciência para orientar-me com tanta papelada!!
Ao Prof. Arlindo Montagnoli pela colaboração, por tantas contribuições
teóricas e práticas, e pela paciência e confiança.
A todos os professores que contribuíram de diferente forma com minha
formação humana e profissional, Prof. Rodrigo Guido, Prof. Mara Behlau, Prof.
Domingos Tsuji, Prof. Marcelo BJ, Prof. Vilma, Prof. Zucoloto, Prof. José
Marcos, Prof. Lidia Teles, Prof. Baker, Prof. Geraldo, Prof. Luciana Montanari,
Prof Nelson Silva, Prof. Maciel e ao Programa de Engenharia Elétrica que
aceitou o desafio de receber um profissional de outra área.
Ao Programa de Estudante-Convênio de Pós-Graduação (PEC-PG) e à
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) por
financiar este projeto.
A Mónica, Abudi, Nati e Tami Sultani, pelo carinho e a torcida. A meus
primos, Claudio Dajer e família, Laura García e família, e Andrea Vides e
família, por torcer por mim a distância!!!
A meus “hermanos del corazón”: Ceci Pellegrini, Fede Ferrari, Marisa
Zorrilla, Pichi Funes e “Tutis” María Cruz e Tomás; Viky Rivas, Cesar Demonte,
Virginia De Arriba, Tomás e Robert Easdale e Hernán Bracamonte por mostrar-
me que não existe tempo nem distância.
A minha família materna, Matilde Rubín, Graciela e família, Mirta e
família, e David e família, por ensinar-me que amizade é uma das melhores
heranças.
A meu Brother Fernando Castro e toda sua família, por receber-me de
braços abertos com tanto carinho. Ao trio Thais Perez Vanzella, Silvia Pinto e
Ava Brandão, pela amizade e o companheirismo, e por conservar intata uma
vii
época maraviSHosa, que ficará para sempre no meu coração. A meus amigos
Josi, Elton e André, pelo carinho e a amizade de todos estes anos.
A dona Judith e as meninas da pensão, Bruna, Patrícia e Simone.
A todos e cada uma destas pessoas por contribuir com gestos, palavras,
criticas, apoio, amizade e ter-me acompanhado nesta longa caminhada.
viii
“Ó Deus, Criador do Universo e meu Pai, concedei-me uma boa idéia, que
esteja de acordo com o meu talento e que beneficie o maior número possível
de pessoas. E concedei-me a força vital capaz de realizar essa boa idéia”.
(Masahuru Taniguchi)
SUMÁRIO
Dedicatoria .....................................................................................................iii
Agradecimentos
............................................................................................ iv
LISTA DE FIGURAS
..................................................................................... xi
LISTA DE TABELAS ....................................................................................15
RESUMO......................................................................................................17
ABSTRACT ..................................................................................................18
1 INTRODUÇÃO ...................................................................................... 19
2 REVISÃO BIBLIOGRAFICA.................................................................. 23
2.1 Voz humana:...................................................................................23
2.1.1 Voz fenômeno multidimensional e evolutivo.
.......................... 36
2.1.2 Voz relacionada com transtornos posturais
............................ 37
2.1.3 Alterações vocais ou voz disfônica.
........................................ 38
2.2 Avaliação dos sinais de voz............................................................ 40
2.2.1 Avaliação perceptivo-auditiva
................................................. 41
2.2.2 Avaliação acústica .................................................................. 44
2.2.3 Abordagens baseadas em modelos de dinâmica não linear... 47
3 MATERIAIS E MÉTODO....................................................................... 55
3.1 Materiais ......................................................................................... 56
3.1.1 Grupo 1. Sinais de voz sem alteração vocal ou vozes saudáveis
56
x
3.1.2 Grupo 2. Sinais de voz com disfonia....................................... 58
3.2 Métodos .......................................................................................... 63
3.2.1 Avaliação perceptivo-auditiva ................................................. 63
3.2.2 Análise acústica...................................................................... 64
3.2.3 Análise qualitativa dos padrões visuais da dinâmica vocal PVDV
66
4 RESULTADOS...................................................................................... 87
4.1 Análise perceptivo-auditiva ............................................................. 87
4.1.1 Vozes saudáveis..................................................................... 87
4.1.2 Voz normal com mudanças posturais..................................... 88
4.1.3 Vozes patológicas................................................................... 90
4.2 Análise Acústica.............................................................................. 94
4.2.1 Vozes normais ........................................................................ 95
4.2.2 Normais com diferentes posturas ........................................... 96
4.2.3 Vozes patológicas................................................................. 100
4.3 Análise qualitativa dos Padrões Visuais da Dinâmica Vocal......... 105
4.3.1 Vozes normais ...................................................................... 105
4.3.2 Voz normal com mudanças posturais
................................... 109
4.3.3 Vozes patológicas
................................................................. 116
5 DISCUSSÃO ....................................................................................... 133
CONCLUSÕES .......................................................................................... 145
6 REFERÊNCIAS BIBLIOGRÁFICAS.................................................... 147
LISTA DE FIGURAS
Figura 2.1: Desenho esquemático dos sistemas e órgãos envolvidos na
produção dos sinais de voz e do modelo linear de fonte-filtro proposto por
FANT (1970). ............................................................................................ 24
Figura 2.2: Esquema da localização da laringe no trato respiratório. Figura
modificada de: http:/medimages.healthopedia.com/ large/larynx.jpg........ 25
Figura 2.3: Visão anterior e posterior das principais estruturas laríngeas
(cartilagens, ligamentos, membranas laríngeas, osso Hióde e traquéia.
Figura modificada de Netter (1997)........................................................... 26
Figura 2.4: Desenho esquemático da visão posterior (a) e da visão lateral (b)
dos músculos intrínsecos da laringe. Figura modificada de Netter (1997) 28
Figura 2.5: Desenho esquemático de um corte transversal da laringe. Músculos
Tiroaritenóideo (TA) e interaritenóideo (IA).............................................. 29
Figura 2.6: Esquema de um corte longitudinal de uma prega vocal................. 31
Figura 2.7: Desenho esquemático do mecanismo das pregas vocais na
produção do pulso glótico. Onde To= período completo; t1= começo de
fase de abertura; t2= abertura máxima; t3= inicio de fase fechada e t4=
fechamento completo................................................................................ 33
Figura 2.8: (A) Desenho esquemático do espectro de freqüências do som
fundamental sem amplificação. (B) Curvas de ressonância do trato vocal.
(C) Espectro resultante da freqüência fundamental mais as ressonâncias
do trato vocal............................................................................................. 34
Figura 3.1: Grupos e sub-grupos das amostras de sinais de voz avaliadas.
... 56
Figura 3.2: Imagens das pregas vocais saudáveis. Imagens extraídas do banco
de dados do Laboratório de Processamento de Sinais............................. 58
Figura 3.3: Imagem das pregas vocais de um paciente com edema de Reinke.
Imagem extraída do sitio web: http://www.gbmc.org/body.cfm?id=450..... 60
Figura 3.4: Imagem das pregas vocais de um paciente com nódulos vocais
bilaterais. Imagem extraída de Behlau, M. Voz - O Livro do Especialista. 61
xii
Figura 3.5: Imagem das pregas vocais de um paciente com disfonia de origem
neurológico, portador de paralise unilateral. Imagem extraída do sitio web:
http://www.gbmc.org/body.cfm?id=450 ..................................................... 63
Figura 3.6: Imagem da versão 2009 do programa Análise de Voz
(MONTAGNOLI, 2009).............................................................................. 66
Figura 3.7: (A) Sinal completo da vogal sustentada /a/. (B) trecho de 200
milissegundos. (C) tre
cho de 10 ciclos selecionado para análise. ............ 69
Figura 3.8: Curva de informação mútua por atraso de amostras para o sinal
apresentado na figura 3.7C (10 ciclos).
.................................................... 70
Figura 3.9: Exemplo de um PVDV bidimensional de uma vogal sustentada /e/
do sinal apresentado na figura 3.7C (10 ciclos) com atraso de 13 amostras.
.................................................................................................................. 71
Figura 3.10: Exemplo do PVDV tridimensional (eixos x, y, z) do sinal de 10
ciclos apresentado na figura 3.7C com atraso de 13 amostras................. 71
Figura 3.11: Exemplo do PVDV em função do tempo do sinal de 10 ciclos
apresentado na figura 3.7C com atraso de 13 amostras. ........................ 72
Figura 3.12: Exemplo do PVDV de um sinal simulado de uma única freqüência.
.................................................................................................................. 73
Figura 3.13: Exemplo do PVDV de um sinal simulado de uma única freqüência
e com acréscimo de 1% de jitter e 1% de shimmer . ................................ 74
Figura 3.14: Exemplo do PVDV de um sinal de voz, de uma vogal /i/ sustentada
de um sujeito sem queixa ou alteração vocal............................................ 75
Figura 3.15: Exemplo de uma vogal /a/ no tempo com seu respectivo PVDV de
um sujeito sem queixa ou alteração vocal................................................. 77
Figura 3.16: Exemplos de graus de loops dos PVDV. Grau 4- para
configurações com mais de 3 loops; grau 3- para três loops ; grau 2- para
dois loops; grau 1- para um loop e grau 0- para número indefinido.......... 78
Figura 3.17: Exemplo de um sinal de vogal /a/ no tempo (superior) e o
respectivo PVDV de um sujeito com alteração vocal (inferior).................. 80
Figura 3.18: Exemplos dos graus de regularidade de traçados. Grau 5- traçado
regulares em todo o percurso; grau 4- traçados regulares com uma porção
de irregularidade; grau 3- regularidade intermitente; grau 2 - traçados
levemente irregulares; grau 1- traçados levemente irregulares com região
de irregularidade, e grau 0- para traçados irregulares em todo o percurso.
.................................................................................................................. 81
xiii
Figura 3.19: Exemplo de uma vogal /e/ no tempo com seu respectivo Padrão
Visual da Dinâmica Vocal de um sujeito com alteração vocal................... 83
Figura 3.20: Exemplos de PVDV com os 5 graus de convergência de trajetórias
para sinais de voz da vogal sustentada /a/. Onde o grau 4- apresenta uma
forte convergência da trajetória das órbitas e o grau 0- uma convergência
fraca. Os graus 1, 2 e 3 são intermediários e mostram uma dinâmica de
convergência mista. .................................................................................. 84
Figura 3.21: Exemplo de avaliação qualitativa de um Padrão Visual da
Dinâmica Vocal de um trecho de voz de 200 milissegundos de um
voluntário sem patologia ou queixa vocal. ................................................ 86
Figura 4.1: Gráfico de distribuição de valores de jitter para: 1- Postura neutra,
2- postura com anteriorização de cabeça com extensão do pescoço e 3
postura com aumento da cifose toráxica com anteriorização de cabeça. . 97
Figura 4.2: Gráfico de distribuição de valores de shimmer para: 1- Postura
neutra, 2- postura com anteriorização de cabeça com extensão do pescoço
e 3 postura com aumento da cifose toráxica com anteriorização de cabeça.
.................................................................................................................. 98
Figura 4.3: Gráfico de distribuição de valores de freqüência fundamenta F0
para: 1- Postura neutra, 2- postura com anteriorização de cabeça com
extensão do pescoço e 3 postura com aumento da cifose toráxica com
anteriorização de cabeça. ....................................................................... 100
Figura 4.4: Gráfico de distribuição de valores de jitter para: grupo 1- vozes sem
alteração ou queixa vocal, grupo 2- edema de Reinke; grupo 3- nódulos
vocais e grupo 4- disfonia orgânica de origem neurológico. ................... 104
Figura 4.5: Gráfico de distribuição de valores de shimmer para: grupo 1- vozes
sem alteração ou queixa vocal, grupo 2- edema de Reinke; grupo 3-
nódulos vocais e grupo 4- disfonia orgânica de origem neurológico....... 105
Figura 4.6: Exemplos de PVDV de trechos de 200 milissegundos da vogal
sustentada /a/ de sujeitos de ambos os gêneros sem queixa ou alteração
vocal........................................................................................................ 108
Figura 4.7: PVDV para as três posturas avaliadas. 1- Postura neutra, 2- postura
com anteriorização de cabeça com extensão do pescoço e 3- postura com
aumento da cifose toráxica com anteriorização de cabeça..................... 110
Figura 4.8: Exemplos de PVDV para a postura 1 ou Postura neutra
correspondentes as amostras dos dias 1, 5, 7 e 9.................................. 111
Figura 4.9: Exemplos de PVDV para a postura 2 ou postura com anteriorização
de cabeça e com extensão do pescoço. Os quatro PVDV correspondem
aos dias 1, 5, 7 e 9.................................................................................. 113
xiv
Figura 4.10: Exemplos de PVDV para a postura 3 ou postura com aumento da
cifose toráxica. Os PVDV correspondem aos dias 1, 5, 7 e 9................. 114
Figura 4.11: Exemplos de PVDV de seis sinais de voz com edema de Reinke.
................................................................................................................ 119
Figura 4.12: Exemplo 09 e uma aproximação de PVDV de uma voz com edema
de Reinke................................................................................................ 120
Figura 4.13: Exemplo 07 e uma aproximação de PVDV de uma voz com edema
de Reinke................................................................................................ 121
Figura 4.14: Exemplos de PVDV de seis vozes com nódulos vocais............. 123
Figura 4.15: Exemplos de PVDV de seis vozes com nódulos vocais............. 124
Figura 4.16: Exemplos de PVDV de seis vozes com nódulos vocais............. 125
Figura 4.17: Exemplos de PVDV de vozes de pacientes com alterações
neurológicas............................................................................................ 127
Figura 4.18: Exemplo 11 e uma aproximação de PVDV de uma voz com
disfonia de origem neurológica. .............................................................. 128
Figura 4.19: Exemplo 12 e uma aproximação de PVDV de uma voz com
disfonia de origem neurológica. .............................................................. 128
15
LISTA DE TABELAS
Tabela 3-1: Relação de gênero e idade do grupo de vozes saudáveis............ 57
Tabela 3-2: Relação de gênero e idade do grupo de pacientes com edema de
Reinke....................................................................................................... 59
Tabela 3-3: Relação de gênero e idade do grupo de pacientes com nódulo
vocal.......................................................................................................... 60
Tabela 3-4: Relação de diagnóstico e idade do grupo de pacientes com disfonia
de origem neurológica............................................................................... 62
Tabela 4-1: Resultados da avaliação perceptivo-auditiva dos sinais saudáveis.
.................................................................................................................. 88
Tabela 4-2: Avaliação perceptivo-auditiva dos sinais de voz com três posturas
nos 10 dias de coleta. ............................................................................... 89
Tabela 4-3: Avaliação perceptivo-auditiva das vozes com edema de Reinke.. 91
Tabela 4-4: Resultados da avaliação perceptivo-auditiva dos sinais com nódulo
vocal.......................................................................................................... 92
Tabela 4-5: Avaliação perceptivo-auditiva das vozes com disfonia neurológica.
.................................................................................................................. 93
Tabela 4-6: Resultados de jitter, shimmer e Fo das 16 vozes saudáveis......... 95
Tabela 4-7: Valores médios de jitter (%) das amostras de voz nas três posturas.
.................................................................................................................. 96
Tabela 4-8: Valores médios de shimmer (%) das amostras de voz nas três
posturas. ................................................................................................... 98
Tabela 4-9: Valores da Freqüência fundamental F0 (Hz) das vozes nas três
posturas. ................................................................................................... 99
Tabela 4-10: Valores médios dos parâmetros acústicos jitter, shimmer, e F0
para os 16 sinais de voz com edema de Reinke..................................... 101
Tabela 4-11: Valores médios de jitter, shimmer, e Fo dos 15 sinais com nódulos
vocais...................................................................................................... 102
16
Tabela 4-12: Valores médios de jitter, shimmer e freqüência fundamental de
vozes de pacientes com disfonia neurológica......................................... 103
Tabela 4-13: Avaliação qualitativa dos PVDV das vozes saudáveis.............. 106
Tabela 4-14: Avaliação em graus da configuração de loops, regularidade e
convergência dos traçados dos PVDV nas diferentes posturas.............. 115
Tabela 4-15: Resultados da avaliação dos PVDV das vozes com edema de
Reinke..................................................................................................... 118
Tabela 4-16: Resultados qualitativos dos PVDV das vozes com nódulos voc
ais.
................................................................................................................ 122
Tabela 4-17: Avaliação qualitativa dos
PVDV das vozes com disfonia
neurológica.............................................................................................. 126
Tabela 4-18: Comparação de porcentagens de graus de loops das vozes dos 4
grupos ..................................................................................................... 129
Tabela 4-19: Comparação de porcentagens de graus de regularidade de
traçados dos sinais de voz dos quatro grupos ........................................ 130
Tabela 4-20: Comparação de porcentagens de graus de convergência para os
4 grupos .................................................................................................. 131
Tabela 4-21: Coeficiente de correlação das variáveis das três técnicas usadas
para os 91 sinais de voz ......................................................................... 132
17
RESUMO
DAJER, M. E. Análise de sinais de voz por padrões visuais de dinâmica
vocal. 2010. pp. 154. Tese (Doutorado) – Escola de Engenharia de São Carlos,
Universidade de São Paulo, São Carlos, 2010.
O objetivo deste trabalho foi avaliar vozes saudáveis e com alterações
patológicas aplicando análise de Padrões Visuais de Dinâmica Vocal (PVDV)
em conjunto com análise acústica e análise perceptivo-auditiva. Foram
avaliadas 91 vozes da vogal sustentada /a/ do português do Brasil, de sujeitos
de ambos os gêneros com idades entre 21 e 88 anos. As vozes foram
gravadas com taxa de amostragem de 22.050 Hz, 16 bits, mono canal e
formato WAV. Foram obtidos valores de jitter, shimmer e freqüência
fundamental. Para análise perceptivo-auditiva foram avaliadas rugosidade,
soprosidade, tensão e instabilidade. Para descrever a dinâmica dos sinais de
voz dos PVDV foi utilizada a técnica de reconstrução de espaço de fase e
foram analisados qualitativamente os parâmetros de loops, regularidade e
convergência de traçados. Foram aplicados testes estatísticos paramétricos e
não paramétricos. Os resultados demonstram que jitter apresenta uma
correlação negativa com loop, regularidade e convergência dos traçados; e que
shimmer tem correlação negativa com convergência e loops. As características
de rugosidade e soprosidade estão correlacionadas negativamente com os três
parâmetros dinâmicos. A análise qualitativa dos PVDV é uma técnica
promissora, por considerar os componentes caótico e determinístico da voz. É
sugerido que não substitui as técnicas existentes, embora possa aperfeiçoar e
complementar os métodos usados por profissionais fonoaudiólogos e
otorrinolaringologistas.
Palavras - chave: Voz; Análise de Voz; Padrão Visual de Dinâmica Vocal,
Reconstrução de Espaço de Fase; Análise Não Linear.
18
ABSTRACT
DAJER, M. E. Voice signal analysis using Vocal Dynamic Visual Patterns.
2010. pp.154. Ph.D. Thesis – Escola de Engenharia de São Carlos,
Universidade de São Paulo, São Carlos, 2010.
The aim of this research was to analyze healthy and pathologic voices using
Vocal Dynamic Visual Patterns (VDVP) in combination with acoustical and
perceptual analysis. Ninety one voice signals of sustained vowel /a/ from
Brazilian Portuguese, from male and female patients, were analyzed using
acoustical analysis, perceptual analysis and Vocal Dynamic Visual Patterns
(VDVP) analysis. All voice samples were quantized in amplitude with16 bits and
recorded in mono-channel WAV format. The sampling frequency was 22050 Hz.
Acoustical values for jitter, shimmer and fundamental frequency were obtained.
Roughness, breathiness, strain and irregularity were analyzed for perceptual
analysis. Phase space reconstruction technique was performed in order to
describe the voice signal nonlinear characteristics by Vocal Dynamic Visual
Patterns. Results showed negative correlation for jitter and the 3 dynamic
parameters, as well as, for shimmer with convergence and loops. Roughness
and breathiness were negative correlated with dynamical parameters. Vocal
Dynamic Visual Pattern analysis is a promising technique for voice evaluation;
including voice chaotic and deterministic components. It is suggested that
visual pattern analysis do not replace the existing voice analysis techniques,
although it complements and improves the voice evaluation methods available
for speech therapist and laryngologists.
Keywords: Voice, Voice analysis, Vocal Dynamic Visual Pattern, Phase Space
Reconstruction, Nonlinear Analysis.
19
1 INTRODUÇÃO
A importância da voz em nosso dia a dia é inquestionável. A voz – única
para cada pessoa – é um meio rápido, eficiente e econômico que nos permite
comunicar e transmitir idéias, expressar emoções, exercer uma profissão, e
manter-nos inseridos num contexto social. Conseqüentemente, distúrbios de
voz podem produzir um impacto na qualidade de vida de uma pessoa, limitando
a comunicação no trabalho, assim como em outros aspectos da vida social. Por
tanto, a manifestação de uma alteração vocal deve ser rapidamente
diagnosticada e tratada. O diagnóstico de uma alteração vocal é um processo
extenso que precisa combinar diversas técnicas de avaliação e análise para
contemplar a complexidade da dinâmica vocal(BEHLAU, 2008).
Com o intuito de aperfeiçoar o processo de avaliação na clínica vocal,
nas últimas décadas diversas áreas da ciência, principalmente a medicina e a
engenharia, desenvolveram pesquisas referentes à fisiologia normal da voz
humana e suas alterações patológicas. Destes estudos sugiram diversas
medidas, técnicas e ferramentas de análise como videolaringoscopia,
glotografia, análise acústica e análise perceptivo-auditiva. Todos estes recursos
desenvolvidos ao longo dos anos têm como objetivo proporcionar informações
e dados úteis tanto para clínica como para a pesquisa na área da voz, mas em
contrapartida apresentam uma série de desvantagens.
20
As técnicas de avaliação laríngea (videolaringoscopia, laringoscopia,
videofluoroscopia, etc.), usadas fundamentalmente para avaliação e
diagnóstico laríngeo proporcionam um acesso direto para observar as
estruturas e as características vibratórias das pregas vocais, mas em
contrapartida são consideradas de alto custo e de caráter invasivo. A
glotografia, embora não invasiva, é uma técnica pouco usada na clínica e
apresenta uma baixa resolução, além de inserir um filtro passa baixas
(eletrodos localizados no pescoço) antes da captação do sinal.
As técnicas de análise acústica são amplamente utilizadas tanto na
clínica como na pesquisa, e têm demonstrado serem ferramentas auxiliares
úteis e não invasivas. Por outro lado as medidas acústicas fornecem valores
médios para os parâmetros acústicos, que na maioria dos casos dependem da
determinação da freqüência fundamental. No estudo de ESPANHOL (2004) foi
demonstrado que os “determinadores” disponíveis não apresentam a robustez
necessária. E segundo UMAPATHY ET AL (2005) embora seja uma das
ferramentas de análise da voz mais utilizada, ainda não existe consenso a
respeito da utilidade e confiabilidade destas medidas na discriminação de
vozes normais e patológicas. Grandes diferenças são encontradas nos valores
dos parâmetros nos diferentes softwares comercializados, devido à
implementação de algoritmos diferentes para cálculo desses valores (SMITS;
CEUPPENS; DE BODT, 2005)0, ou a presença de ruído (CARSON;
INGRISANO; EGGLESTON, 2003).
21
Por último, a análise perceptivo-auditiva pode ser considerada o método
de avaliação da voz mais utilizado na clínica fonoaudiológica diária (OATES,
2009), mas por ser um método subjetivo depende de fatores tais como:
treinamento do avaliador (EADIE; BAYLOR, 2006) e (CHAN; YIU, 2005); das
diferenças individuais do ouvinte e do consenso a respeito da terminologia para
definir os parâmetros a serem avaliados (SHRIVASTAV, 2005), e em alguns
casos, os parâmetros auditivos podem ser difíceis de correlacionar com os
parâmetros acústicos. (BHUTA; PATRICK; GARNETT, 2004) (MARYN ET AL,
2009).
Nas últimas décadas a dinâmica não linear tem introduzido uma nova
perspectiva para a análise de sistemas que evoluem no tempo e são sensíveis
as condições inicias, e embora determinísticos apresentam comportamentos
aperiódicos. Esta nova abordagem tem contribuído em diversas áreas da
ciência, desde a física e a engenharia, até a biologia e a medicina. A partir dos
primeiros estudos nos anos 90 (TEAGER,H; TEAGER, S, 1990); (BAKEN,
1990) (TITZE, BAKEN, HERZEL, 1993), (HERZEL, BERRY, TITZE, SALEH,
1994), diversas ferramentas baseadas em dinâmica não linear vem sendo
aplicadas na análise de sinais voz. Desde esta perspectiva um sinal de voz
pode ser considerado uma série temporal representada por uma trajetória no
espaço de fase reconstruído aplicando a técnica de tempo de atraso
PACKARD ET AL (1980) e TAKENS (1981). Por tanto, um ciclo vibratório das
pregas vocais em função do tempo, será representado como uma trajetória no
espaço de fase, evidenciando o comportamento dinâmico do sistema de
produção vocal. Se o sinal for periódico, a trajetória será fechada e regular;
22
mas no caso de sinais aperiódicos a trajetória será aberta e irregular.
Considerando que a produção vocal é um sistema que evolui no tempo, tende
ao equilíbrio e apresenta ciclos de repetição, porem pode apresentar
simultaneamente mudanças e comportamentos irregulares, parece apropriado
escolher ferramentas baseadas em dinâmica não linear para análise de sinais
de voz.
A necessidade na clínica e na pesquisa, de uma técnica de análise que
permita a visualização da dinâmica do sistema vocal com uma melhor
resolução de dados, que não dependa da determinação da freqüência
fundamental, e que seja de baixo custo e de caráter não invasivo, foram as
principais motivações para desenvolver uma ferramenta de fácil implementação
para o especialista em voz. A ferramenta proposta permite estabelecer padrões
visuais dinâmicos capazes de refletir a dinâmica da produção vocal de forma
rápida, econômica, precisa, não invasiva, fornecendo dados complementares
que aumentam a eficiência na avaliação e diagnóstico. Também permite o
acompanhamento temporal das condições do paciente, avaliando sua melhora
ou não no decorrer de uma terapia vocal. Portanto, o objetivo deste trabalho foi
avaliar vozes saudáveis e com alterações patológicas aplicando análise de
Padrões Visuais de Dinâmica Vocal (PVDV) em conjunto com análise acústica
e análise perceptivo-auditiva e estabelecer correlações entre as técnicas.
23
2 REVISÃO BIBLIOGRAFICA
Este capítulo apresenta alguns dos principais conceitos referentes à
produção de voz sem alterações e com alterações patológicas na seção 2.1.
Na seção 2.2 apresentam-se os métodos empregados na clínica
fonoaudiológica para avaliação dos sinais de voz, e na subseção 2.2.3 são
introduzidos alguns conceitos sobre técnicas de avaliação dinâmica da voz.
2.1 Voz humana:
A voz humana, considerada principal ferramenta de comunicação, é uma
emissão acústica voluntária, de alta complexidade e com inúmeros fatores
envolvidos na sua produção. Para produzir um sinal de voz, é necessária a
sincronia de diferentes sistemas e órgãos, cada um deles com diferentes
funções primárias. Em outras palavras, do ponto de vista anatômico não existe
um sistema de produção de voz, senão, vários sistemas de órgãos trabalhando
coordenadamente para realizar uma função secundária, desenvolvida ao longo
da evolução humana. Estes sistemas envolvidos na produção de voz são:
Respiratório Fonte de Energia (pulmões)
Fonatório Fonte Vibratória (pregas vocais)
Ressonância Fonte de Ressonância (cavidade oral e nasal)
24
Articulatório Articuladores (língua, lábios, mandíbula, palato, dentes)
Sistema Nervoso Central e Periférico Coordenação. (Córtex,
estruturas sub-corticais e nervos).
A partir do ponto de vista anatômico-fisiológico é possível considerar um
modelo mecânico-matemático para podermos representar o sistema de
produção de voz. Segundo o modelo linear de fonte-filtro de FANT (1970) as
pregas vocais são consideradas a fonte sonora e o trato vocal atua como um
filtro acústico. Este modelo aperfeiçoado por FLANAGAN (1972) continua
sendo muito empregado na área de processamento de sinais. A figura 2.1
ilustra um modelo fisiológico dos sistemas envolvidos na produção de voz,
assim também como a correlação com o modelo linear de fonte-filtro proposto
por FANT (1970).
Figura 2.1: Desenho esquemático dos sistemas e órgãos envolvidos na produção dos
sinais de voz e do modelo linear de fonte-filtro proposto por FANT (1970).
O sinal resultante desta complexa interação será o sinal acústico de voz
humana. (RABINER; JUANG; 1993). As pregas vocais encontram-se na
laringe, a vibração destas estruturas é considerada a fonte sonora ou pulso
25
glotal, responsável pela freqüência fundamental de uma voz. A laringe é um
órgão do sistema respiratório, se encontra na parte anterior do pescoço, tem
formato de tubo alongado, e comunica a faringe e a traquéia. A figura 2.2 ilustra
a localização anatômica da laringe humana.
Figura 2.2: Esquema da localização da laringe no trato respiratório. Figura modificada
de: http:/medimages.healthopedia.com/ large/larynx.jpg
A laringe está constituída por cartilagens, músculos, membranas e
mucosa. As cartilagens laríngeas são nove no total e podem ser classificadas
em pares e impares. As três cartilagens impares são: a tireóidea, a cricóidea e
a epiglote; e as cartilagens pares são: as aritenóideas, consideradas principais,
as corniculadas e as cuneiformes, estas últimas, consideradas acessórias ou
secundárias. Estas cartilagens estão sustentadas principalmente pelo osso
hióde, que tem a particularidade de ser o único que não se articula com outros
ossos, e serve de ponto de inserção para os músculos e ligamentos da laringe,
língua e outros órgãos. A figura 2.3, modificada de Netter (1997), apresenta de
forma esquemática uma visão anterior e posterior de algumas das principais
estruturas da laringe.
26
Figura 2.3: Visão anterior e posterior das principais estruturas laríngeas (cartilagens,
ligamentos, membranas laríngeas, osso Hióde e traquéia. Figura modificada de Netter
(1997).
27
Os músculos da laringe podem ser classificados segundo o tipo de
inserção. Aqueles que têm origem e inserção na laringe são denominados
músculos intrínsecos; e os músculos com inserção na laringe e em estruturas
externas, são denominados extrínsecos. (TUCKER, 1993). Os músculos
intrínsecos estão relacionados diretamente à produção de voz e têm maior
proporção de fibras musculares tipo IIA que outros músculos do corpo, estas
fibras são de contração rápida e altamente resistentes à fadiga (HENICK,
SATALOFF, 1997). A musculatura intrínseca participa ativamente nas funções
de respiração, esfíncter e fonação; também é responsável pela adução, a
abdução e a tensão das pregas vocais.
Existem seis pares de músculos intrínsecos: o Tiroaritenóideo (TA), o
Cricoaritenóideo Posterior (CAP), o Cricoaritenóideo Lateral (CAL), o
Cricotiróideo (CT), o Ariepiglótico (AE) e o Tireoepiglótico (TE). O único
músculo impar é o aritenóideo (A) ou interaritenoideo. As figuras 2.4 e 2.5
ilustram de forma esquemática a musculatura intrínseca antes mencionada.
(HIRANO,1981).
28
(a)
(b)
Figura 2.4: Desenho esquemático da visão posterior (a) e da visão lateral (b) dos
músculos intrínsecos da laringe. Figura modificada de Netter (1997)
29
Figura 2.5: Desenho esquemático de um corte transversal da laringe. Músculos
Tiroaritenóideo (TA) e interaritenóideo (IA)
Figura modificada de: escuela.med.puc.cl/.../ AnatLaringea09.gif
Os músculos extrínsecos têm como função principal manter e
proporcionar estabilidade à laringe nas estruturas do pescoço. Participam de
forma indireta na fonação, mas são considerados importantes por serem os
responsáveis do mecanismo secundário de controle de freqüência (LE HUCH;
ALLALI, 1993). Estes grupos musculares podem ser classificados segundo sua
localização em relação ao osso hióide em músculos supra-hióideos, que
elevam a laringe no pescoço; e em músculos infra-hióideos, que abaixam a
laringe.
As cartilagens e músculos laríngeos encontram-se interconectados por
ligamentos e membranas intrínsecos e extrínsecos, estes tecidos têm como
função básica a interligação das estruturas laríngeas. No interior da laringe
encontram-se as pregas vestibulares e as pregas vocais. As pregas
vestibulares, erroneamente chamadas de falsas pregas vocais, são duas
dobras de tecido espesso e mole com glândulas internas que se localizam por
cima das pregas vocais (HIRANO, 1996).
30
Em seus detalhados trabalhos histológicos, Hirano demonstrou que a
estrutura das pregas vocais é organizada em camadas, e que cada camada
tem propriedades mecânicas diferentes. A análise da organização estrutural
das pregas vocais mostra que há uma variação gradativa na rigidez de cada
camada, sendo mais maleáveis na superfície e tornando-se cada vez mais
rígidas em direção ao músculo vocal (TSUJI, INAMURA; UBIRAJARA, 2006).
Baseado nessa estrutura em camadas surgiu o modelo de “corpo e
cobertura” (do termo em inglês cover-body) proposto por Hirano no começo dos
anos 70. Neste modelo as pregas vocais são duas estruturas multilaminadas,
formadas basicamente por músculo e mucosa, constituídas por camadas que
se encontram localizadas em posição horizontal dentro da laringe e em sentido
ântero-posterior. Segundo Hirano a prega vocal esta dividida em: mucosa, por
sua vez, subdividida em duas camadas, o epitélio e lâmina própria; e o músculo
constituído pelo músculo vocal (HIRANO; KAKITA,1985).
O epitélio da mucosa das pregas vocais está formado por tecido
escamoso e estratificado e sua função é cobrir e manter a forma da prega
vocal. A lâmina própria subdivide-se em três camadas: superficial, intermediária
e profunda, onde cada uma delas apresenta características diferentes. Na
figura 2.6 pode-se observar um esquema das diferentes camadas histológicas
das pregas vocais segundo o modelo proposto por (HIRANO, KAKITA, 1985).
31
Figura 2.6: Esquema de um corte longitudinal de uma prega vocal.
Apresenta as diferentes camadas histológicas; cobertura (epitélio, camadas da lâmina
própria) e corpo (músculo vocalis) segundo o modelo de “corpo e cobertura” de Hirano.
Figura modificada de: www.british-voice-association.com
A camada superficial da lâmina própria (CSLP), também chamada de
espaço de Reinke, se apresenta como um tecido gelatinoso, solto e flexível;
esta característica permite um descolamento acentuado, sendo a camada que
vibra mais intensamente durante a fonação. A camada intermediaria da lâmina
própria (CILP) está composta por um grande número de fibras elásticas e
caracteriza-se por ser uma camada com maior densidade. A camada profunda
da lâmina própria (CPLP) é constituída por maior quantidade de fibras
colágenas que proporcionam maior rigidez. Não existe um limite bem definido
entre as camadas intermediaria (CILP) e profunda (CPLP), mas pode-se
observar a diminuição de fibras elásticas e o aumento de fibras colágenas à
medida que os tecidos se aproximam do corpo da prega vocal (HIRANO;
KAKITA,1985), (HIRANO, 1996).
32
O corpo da prega vocal está constituído pelo músculo vocal ou músculo
tiroaritenóideo, e funciona como um feixe elástico rígido no momento da
contração muscular. É composto por fibras elásticas, fibras colágenas e fibras
musculares distribuídas longitudinal e paralelamente à borda livre da prega
vocal. O limite entre a camada profunda da lâmina própria (CPLP) e o músculo
vocal é difuso, sendo que algumas fibras da camada profunda inserem-se no
músculo (GRAY, HIRANO, SATO, 1993), como se pode observar na figura 2.6.
De acordo com o modelo de corpo e cobertura as cinco camadas
descritas podem ser agrupadas segundo sua estrutura e propriedades
mecânicas em três seções: cobertura (epitélio e CSLP), transição (CILP) e
corpo (músculo vocal). Hirano observou em estudos com luz estroboscópica,
que durante a fonação na cobertura da prega vocal ocorre um deslocamento
intenso e fluido em direção contraria a gravidade, enquanto o corpo oferece
estabilidade e tono muscular de base. Por sua vez, a camada de transição tem
a função de acoplamento entre a camada superficial da lâmina própria e o
músculo vocal (HIRANO; 1996).
Portanto, segundo este modelo, a passagem do fluxo aéreo procedente
dos pulmões e a diferença de pressões da cavidade (efeito Bernoulli)
associadas às propriedades mioelásticas e mecânicas das pregas vocais
produzem a vibração da cobertura, gerando o som vocal ou pulso glótico. A
figura 2.7 mostra de forma esquemática a geração do pulso glótico pela
vibração das pregas vocais.
33
Figura 2.7: Desenho esquemático do mecanismo das pregas vocais na produção do
pulso glótico. Onde To= período completo; t1= começo de fase de abertura; t2= abertura
máxima; t3= inicio de fase fechada e t4= fechamento completo.
Pelas características particulares da fonte produtora do som, observar-
se certa variabilidade de ciclo a ciclo vibratório. Em outras palavras, os ciclos
vibratórios podem ser considerados similares, mas não idênticos; o que faz
com que o sinal de voz humano seja considerado um sinal acústico quase-
periódico (TOSI, 1979). Essas variações próprias do som fundamental podem
ocorrer como perturbações na freqüência, denominada jitter, ou perturbações
na amplitude, shimmer (BAKEN, ORLIKOFF, 2000).
O som fundamental gerado pelos ciclos vibratórios da mucosa das
pregas vocais tem uma intensidade muito baixa e freqüência fundamental com
seus harmônicos sem amplificação. Na figura 2.8A visualiza-se uma ilustração
34
do espectro do pulso glótico com uma intensidade que decresce 12 dB por
oitava.
Figura 2.8: (A) Desenho esquemático do espectro de freqüências do som fundamental
sem amplificação. (B) Curvas de ressonância do trato vocal. (C) Espectro resultante da
freqüência fundamental mais as ressonâncias do trato vocal.
Figura modificada de: www.spectrum.uni-bielefeld.de/~
thies/HTHS_WiS...
No entanto, a voz humana como resultado final é muito mais complexo
que esse pulso glótico gerado nas pregas vocais. O pulso glótico é modificado
e amplificado ao longo do trato vocal. O trato vocal atua como um verdadeiro
filtro (equalizador), realçando ou atenuando as componentes de freqüências
contidas no pulso glótico. Em outras palavras, o som básico da vibração da
mucosa das pregas vocais será modificado pelo fenômeno de ressonância
provocado pelo trato vocal, que consiste na amplificação de certas faixas de
freqüência, e no amortecimento de outras dependendo das características de
cada ressonador ou freqüências naturais de ressonância (TITZE, 2000). A
figura 2.8B ilustra de forma esquemática as curvas de ressonância do trato
vocal.
35
Devido às características do sistema de ressonância do trato vocal
existem inúmeras possibilidades na estrutura tridimensional, revestimento das
paredes que geram diversas curvas de resposta traduzida como infinitas
qualidades vocais, ou seja, cada voz é única e individual. O trato vocal também
é responsável pela articulação dos sons da fala; palato, língua, dentes e lábios
modificam o som laríngeo formando as vogais e as consoantes, elementos
básicos da fala. A figura 2.8C apresenta um esquema do espectro de
freqüências do pulso vocal modificado pelas cavidades de ressonância do trato
vocal.
Resumindo, os espectros de som e as curvas de ressonância de uma
voz dependem de fatores evolutivos, características anatômicas e funcionais
das estruturas fonatórias, assim como da conjunção das dinâmicas dos
diferentes sistemas envolvidos no processo de produção de voz. Cabe
mencionar que determinadas opções de amplificação e ressonância dependem
das escolhas de base psico-emocional do falante, que se evidenciam no
padrão articulatório e de ressonância (ROSEN; SATALOFF, 1997). Deve-se
lembrar que a qualidade de uma voz não depende simplesmente do
desempenho e coordenação de diferentes subsistemas, depende também da
atividade de todos os músculos envolvidos na produção da voz, e da
integridade de todos os tecidos do aparelho fonador e do sistema nervoso
central e periférico (BEHLAU, 2001).
36
2.1.1 Voz fenômeno multidimensional e evolutivo.
A laringe é um órgão extremamente complexo, responsável por diversas
e importantes atividades fisiológicas. (TSUJI; INAMURA; UBIRAJARA, 2006).
Esta sofre transformações fisiológicas ao longo da vida que são facilmente
perceptíveis na voz. As mudanças da voz acompanham e representam o
desenvolvimento do indivíduo, tanto do ponto de vista físico como psicológico e
social. (BEHLAU, 2001).
A voz manifesta-se desde o primeiro momento de vida, com o primeiro
choro; e após o nascimento com o crescimento do trato vocal, onde ocorre uma
série de mudanças nas configurações geométricas do tubo. Portanto, a voz
humana pode ser estudada em diversas etapas da vida: infância, puberdade,
fase adulta e senescência. Essa diferenciação se deve as modificações das
estruturas que produzem a voz que ocorrem ao longo do tempo.
Levando em consideração que estas mudanças fazem parte de um
processo fisiológico evolutivo, associado a características sócio-culturais e
psicológicas, falar de voz normal e disfônica parece um tanto simplista.
BEHLAU, (2001) afirmou que o conceito de voz normal é altamente negociável,
e depende de diversos fatores intrínsecos e extrínsecos; e propõe uma série de
conceitos entre normal e disfônico, como os de voz saudável e voz preferida.
Chama-se de voz saudável quando a voz não apresenta alterações e
está adaptada às situações nas quais a qualidade é aceitável socialmente, não
interfere na inteligibilidade da fala, permite o desenvolvimento profissional,
37
apresenta freqüência, intensidade, modulação e projeção apropriadas para o
gênero e idade do falante e transmite a mensagem emocional do discurso. No
caso da voz profissional, BELHAU (2001) propõe o termo de voz preferida, que
considera fatores culturais, modismos e estilos das diferentes profissões que
usam a voz como ferramenta de trabalho. Este tipo de enfoque favorece a
compreensão da voz como fenômeno dinâmico e de múltiplas dimensões,
considerando os diversos aspectos relacionados à produção e à função da voz.
2.1.2 Voz relacionada com transtornos posturais
Existe um consenso geral da estreita relação entre postura corporal e
voz. Vários autores afirmam que um bom alinhamento postural é um importante
elemento na otimização da função vocal (SCHNEIDER, DENNEHY; SAXON;
1997), (RUBIN; MATHIESON; BLAKE, 2004) e (BHEMAN-ACKAH, 2005),
(CARNEIRO ET.AL, 2008). Segundo BEHMAN (2005) a maioria dos
fonoaudiólogos, que trabalham com pacientes com alterações vocais
consideram a importância de uma boa postura corporal para obtenção de uma
melhor produção de voz.
Nos últimos anos tem-se incrementado o interesse dos profissionais da
voz a fim de compreender os mecanismos fisiológicos subjacentes às
recomendações posturais feitas para os pacientes e estudantes de voz. De
acordo com SCHNEIDER, DENNEHY; SAXON (1997) a postura incorreta da
cabeça e o pescoço levam a mudanças adaptativas dos músculos –
desequilíbrio muscular – que eleva a laringe e comprometem o controle da
38
freqüência e da ressonância da voz. Outros estudos associaram a modificação
da postura corporal com mudanças no formato dos tecidos moles da faringe e a
conseqüente alteração da ressonância vocal. Assim, como o desequilíbrio na
musculatura é um fator de risco na prática de esportes, no caso da voz, o
desequilíbrio muscular oriundo de uma postura corporal inadequada,
representa também um alto risco para desenvolver uma patologia vocal
principalmente para pessoas com uso profissional ou ocupacional da voz.
Estes dados mencionados na literatura nos fazem refletir sobre a
complexidade do fenômeno da produção de voz e considerar que mesmo em
vozes sem alterações patológicas, os fatores intrínsecos como a postura, os
movimentos corporais e o desequilíbrio da musculatura influenciam diretamente
o output vocal.
2.1.3 Alterações vocais ou voz disfônica.
Se partirmos do conceito de que a voz saudável requer um consenso
entre o falante e o ouvinte, podemos definir uma alteração vocal quando um ou
mais parâmetros vocais são percebidos como alterados por falante e/ou
ouvinte, produzindo um sinal de voz não adaptado. Quando se fala de uma
alteração da voz, independente de sua etiologia, geralmente refere-se a uma
disfonia. BEHLAU (2001) define disfonia como um distúrbio da comunicação
oral, no qual a voz não consegue cumprir seu papel básico de transmissão da
mensagem verbal e emocional do falante. A autora afirma que esta disfonia
pode manifestar-se de diversas formas, como desvio da qualidade vocal,
39
emissão com esforço, fadiga, perda de controle da freqüência fundamental,
sensações desagradáveis na emissão, entre outras.
Considerando a voz como fenômeno multidimensional e a grande
variedade de alterações de voz, observamos que também existem vários
critérios para a classificação das disfonias. PONTES, BEHLAU, BRASIL,
(2000) classificaram as disfonias segundo o envolvimento do comportamento
vocal no surgimento da alteração vocal; eles classificam as disfonias em três
grupos: funcionais; organofuncionais e orgânicas.
Seguindo este critério, as disfonias funcionais podem subdividir-se em
primárias por uso incorreto da voz; secundárias por inadaptações vocais e
funcionais por alterações psicogênicas. São exemplos deste tipo de disfonias:
compressão glótica excessiva ou insuficiente, alterações miodinâmicas
laríngeas e disfonia de conversão, respectivamente. As disfonias
organofuncionais englobam aquelas disfonias com lesões secundárias, com
base funcional, como nódulos e edema de Reinke, para mencionar alguns. A
terceira categoria de disfonias orgânicas pode ter diferentes causas, e não
estão relacionadas com o uso da voz; e podem ser subdivididas em orgânicas
por alterações nos órgãos da comunicação e orgânicas por doenças com
origem em outros órgãos ou aparelhos. Diafragma laríngeo, neoplasias,
disfonias por desordens neurológicas, como Parkinson e esclerose lateral
amiotrófica (ELA) são exemplos de disfonias orgânicas (BEHLAU, 2001).
40
É importante destacar que esta classificação, assim como outras, tem
como objetivo facilitar o raciocínio clínico e terapêutico organizando um vasto
conjunto de dados em categorias; mas nem sempre é possível encontrar
categorias fechadas devido à complexidade fisiopatológica da voz. (BEHLAU,
2001).
2.2 Avaliação dos sinais de voz
Do mesmo modo que consideramos a produção de voz como um
fenômeno complexo e multidimensional, a instância de avaliação de voz resulta
igualmente complexa, e precisa considerar diferentes dimensões de análise
para abarcar os diversos aspectos do sinal de voz. Portanto, a avaliação de voz
é um processo clínico, geralmente multidisciplinar, com uma série de instâncias
e procedimentos que devem ser considerados. Este processo serve para
compreender o mecanismo normal e fisiopatológico da produção de voz, a
significância de um transtorno vocal e planejar as medidas terapêuticas
necessárias para restabelecer a organização funcional do sistema de produção
de voz.
Segundo BEHLAU, (2008) a avaliação dos sinais de voz pode-se dividir
em 5 dimensões: 1) análise perceptivo-auditiva (escalas analógicas e
numéricas), 2) auto-avaliação da voz e seu impacto (medir o grau do desvio e
como interfere), 3) dados aerodinâmicos e acústicos (medidas fonatórias e
medidas acústicas; 4) perfil de extensão vocal e 5) análise visual da laringe.
41
Neste trabalho, serão abordados alguns conceitos chaves referentes à
primeira dimensão, de análise perceptivo-auditiva com escala numérica; e a
terceira dimensão, com dados de análise acústica. Ambas as ferramentas
serão empregas no presente trabalho e são consideradas essenciais, embora
controversas, na clínica e na pesquisa para análise da qualidade vocal
(OATES, 2009), (MARYN, 2009). Ambos os tópicos serão abordados nas
subseções seguintes.
2.2.1 Avaliação perceptivo-auditiva
A avaliação perceptivo-auditiva é uma das ferramentas mais usadas na
clínica vocal, e geralmente é considerada padrão ouro (OATES, 2009),
principalmente por a voz ser um fenômeno perceptivo em resposta á um
estímulo acústico (EADIE, TAYLOR, 2006). Este tipo de avaliação tem como
objetivo definir as características vocais. De modo geral, os métodos de
avaliação perceptivo-auditiva são ferramentas importantes na clínica
fonoaudiológica, pois permitem avaliar qualitativamente possíveis transtornos
ou desvios vocais, e ainda podem se empregados para validar outras
ferramentas de avaliação de voz, consideradas mais objetivas (MARTIN;
FITCH; WOLFE, 1995) e (SÖDERSTEN ET AL., 1991).
Este tipo de análise faz parte da prática profissional dos fonoaudiólogos
e é objeto de estudo e aprimoramento, e por sua característica de subjetividade
ou grau de confiabilidade tem sido questionado por diversos pesquisadores
(EADIE, BAYLOR, 2006), (GERRATT, KREIMAN, 2001), (CARDING;
42
CARLSON; EPSTEIN; MATHIESON; SHEWELL, 2000), (OATES, 2009), mas
continua sendo a ferramenta âncora na avaliação fonoaudiológica de voz.
Existem diversos protocolos e escalas normalizadas reconhecidas
internacionalmente como o “Modelo Fonético de Descrição da Qualidade Vocal
– Fonte e Filtro” (LAVER, 1980), para avaliação global da voz, e a escala
“GRBAS”, criada pelo Comitê para Testes de Função Fonatória da Sociedade
Japonesa de Logopedia e Foniatria (SJLF) em 1969. Escalas foram adaptadas
para uma determinada comunidade como a Escala de Avaliação Perceptivo-
auditiva da Fonte Glótica: RASAT (PINHO; PONTES, 2002). Assim também
existem simultaneamente escalas informais com nomenclatura e graus
diferentes, customizadas por cada fonoaudiólogo. Isto aporta inúmeros termos
e gradientes para descrever e valorar a qualidade vocal de um sinal de voz.
A qualidade vocal é uma interação entre um sinal acústico de voz e um
ouvinte; o sinal de voz não possui em si mesmo uma qualidade, mas evoca no
ouvinte uma determinada qualidade (KREIMAN; GERRATT, 1998). Portanto,
pode-se considerar que a qualidade vocal é o produto da percepção do ouvinte
e depende mais do sistema de referência interno do ouvinte – envolve diversos
fatores e varia de sujeito a sujeito – que do próprio sinal de voz. Por exemplo, o
adequado estado das pregas vocais, sua densidade muscular, o estado da
mucosa que as reveste permitem que ambas sejam aduzidas otimamente, e
possibilita a criação de uma condição ideal de pressão e velocidade
volumétrica do fluxo de ar, gerando assim o sinal quase-periódico que evocará
no ouvinte a sensação de qualidade vocal normal ou sem alteração.
43
Os termos utilizados na maioria de escalas de avaliação perceptivo-
auditiva para descrever desvios na qualidade vocal, são: rouquidão, aspereza e
soprosidade. Diversos autores definiram os termos usados com maior
freqüência, a fim de chegar num consenso e simplificar a troca de informações
entre pesquisadores (OATES, 2009).
Isshiki (ISSHIKI, 1980) define a rouquidão como uma irregularidade
vibratória da mucosa das pregas vocais durante a fonação, causada por uma
fenda glótica maior ou igual a 0,5 mm
2
. Segundo (HIRANO; YOSHIDA;
TANAKA; HIBI, 1990) e (HAMMARBERG, 2000) a rouquidão provoca ruídos de
baixa freqüência que mascaram o traçado espectrográfico dos harmônicos
inferiores. Esta característica pode ser encontrada em patologias como nódulos
vocais, edemas e hiperemias que apresentam um sinal de voz irregular com
ruído similar ao som de uma bandeira tremulando ao vento forte.
O termo aspereza é empregado para descrever uma característica vocal
associada à rigidez de mucosa, provocada por certa irregularidade vibratória
dependendo da presença ou não de fenda glótica e de associações com outras
alterações laríngeas. Segundo autores como (HIRANO; YOSHIDA; TANAKA;
HIBI, 1990), (HAMMARBERG; GAUFFIN. 1995), (HAMMARBERG, 2000) a
característica perceptiva de aspereza apresenta ruídos de alta freqüência na
análise acústica e espectral. Isto se explica funcionalmente devido ao grande
vazamento de ar provocado pela vibração de uma mucosa enrijecida. Se a
característica de rigidez predomina, a qualidade vocal parece uma voz seca e
sem projeção. O exemplo clássico de voz áspera por rigidez de mucosa é
44
encontrado nos casos de sulco vocal. Cistos, pontes mucosas e bolsas
geralmente apresentam voz áspera associada à rouquidão mais intensa,
devido à presença de edema que freqüentemente os acompanha.
Um funcionamento inadequado de qualquer músculo, principalmente
intrínseco, acarretará uma vocalização soprosa (SHRIVASTAV, 2005). Ao
ocorrer uma superadução prolongada das pregas vocais, estas ficam passíveis
de originarem uma fenda na região posterior, também causando escape de ar.
Qualquer interferência nas bordas de aproximação das pregas vocais resultará
em disfonias e ruído turbulento, ou seja, aparecimento de soprosidade na
avaliação perceptivo-auditiva (EADIE; BAYLOR, 2005). ISSHIKI, alerta para o
fato que, devido à complexa estrutura de funcionamento do sistema produtor
da fala, patologias com características soprosas podem ser confundidas com
as percentualmente definidas como roucas.
2.2.2 Avaliação acústica
Os métodos não invasivos de avaliação da função fonatória, como a
análise acústica, embora tenham um papel secundário no diagnóstico
diferencial de distúrbios laríngeos, têm a vantagem de propiciar, as chamadas
medidas objetivas, isto é, dados quantitativos extraídos automaticamente, por
meio de um processamento computacional adequado, além de utilizar
instrumentos relativamente simples e baratos (NUNES; COSTA, 2006).
45
Pode-se considerar que a história da análise acústica da voz começou
em 1920 quando surgiu o oscilograma, que foi o primeiro instrumento para
representar um sinal contínuo num gráfico da amplitude em relação ao tempo.
Posteriormente, entre as décadas de 40’s e 50’s, surgiram a análise de Fourier
e a espectrografia. A partir da metade do século XX surgiram várias teorias
para explicar o fenômeno de produção de voz, desde a teoria mioeslástica-
aerodinâmica de Van Den Berg em 1954 até a mais recente e bem aceita,
teoria do caos de Titze, Baken e Herzel (1993).
A partir de 1970 o processamento digital de sinais trouxe um aumento
gradativo de estudos voltados à análise objetiva da voz e ao desenvolvimento
de inúmeros laboratórios de voz. A implementação da análise acústica no
processamento de sinais de voz permitiu definir os parâmetros e medidas
acústicas usadas na atualidade na clínica de voz. Segundo FUKUYAMA (2001)
os principais parâmetros são: Medidas de freqüência fundamental, medidas de
perturbação e medidas de ruído.
Medidas de Freqüência fundamental (F0) ou freqüência glótica: é o
número de ciclos vibratórios completos da mucosa das pregas vocais por
segundo. De acordo com BEHLAU, TOSI; PONTES (1995) para o português
brasileiro, os valores normais médios são de 80 a 150Hz com média de 113Hz
para os homens; de 150 a 250Hz com média de 204Hz para as mulheres, e
média de 235,8Hz para as crianças. Pode-se observar que a freqüência
fundamental esta relacionada fortemente com o gênero e a idade.
46
Medidas de perturbação: A vibração das pregas vocais produz um pulso
de ar glótico quase-periódico, esta quase-periodicidade embora normal no
funcionamento da laringe, está limitada a certos valores. As medidas de
perturbação de um sinal referem-se a quanto um determinado período de
vibração diferença-se do outro que o sucede (FUKUYAMA, 2001), e por meio
destas pode-se discriminar casos patológicos dos normais. Várias medidas na
perturbação de freqüência e amplitude foram propostas na literatura. De forma
genérica, o jitter representa a perturbação do período (freqüência), e o shimmer
à perturbação na amplitude do sinal.
Medidas de Ruído: avaliam o ruído em diferentes faixas de freqüência do
espectro. O ruído é um sinal acústico sem periodicidade, originado da
superposição de vários movimentos de vibração com diferentes freqüências as
quais não apresentam relação entre si (FUKUYAMA, 2001). Da mesma forma
que as medidas de perturbação, vários algoritmos foram propostos na
literatura, como por exemplo: Relação Harmônico/Ruído (HNR); Intensidade
Relativa de Harmônicas (Hr), Harmônicas Relativas (Ra), Nível Espectral de
Ruído (SNL), para mencionar algum deles.
A avaliação acústica clínica, introduzida na década de 1990, na
realidade brasileira, tem sido cada vez mais presente na realidade
fonoaudiológica (BEHLAU, 2001). Segundo Nunes e Costa (2006) este tipo de
análise é uma ferramenta valiosa na clínica, pois:
47
No diagnóstico, apóiam as observações subjetivas nas imagens de
videlaringoestrobospia,
Em campanhas de triagem podem potencialmente ser utilizadas para
detectar níveis de perturbação fonatória acima dos valores de referência de
uma população não disfônica.
Podem auxiliar o monitoramento terapêutico.
As imagens e gráficos destas análises permitem ao pacientes uma maior
compreensão do problema vocal.
Registros e medidas acústicas podem servir em perícias onde há
questionamento da eficácia de tratamentos vocais.
Em síntese, a análise acústica fornece informações e medidas relativas
ao bloco patológico que originou uma determinada alteração vocal e
modificação acústica no sinal de voz; possibilitam a obtenção de dados
normativos; oferecem uma documentação e monitoram a eficácia de um
tratamento. Embora o uso confiável requeira ainda cuidados na gravação dos
sinais e conhecimento sobre as capacidades e limitações e fragilidades dos
algoritmos computacionais (NUNES, COSTA, 2006).
2.2.3 Abordagens baseadas em modelos de dinâmica não linear
Na área clínica, assim como na pesquisa, a análise acústica tem sido
muito utilizada para avaliar objetivamente a voz, medindo as propriedades de
sinais de voz de vogais sustentadas, tanto patológicas como saudáveis. Se os
48
sinais forem quase-periódicos, as flutuações em curto prazo podem ser
quantificadas usando medidas de perturbação (jitter e shimmer). Mas segundo
RAHN ET AL (2007) empregar este tipo de medida para determinar o grau de
patologia em vozes com alterações, pode ser difícil porque o período não pode
ser extraído de forma consistente.
Nos últimos anos, no campo da medicina, os estudos têm focalizado na
análise das propriedades caóticas em EEG, sistema respiratório, ritmos
cardíacos, (POON; MERRILL, 1997), (RICHTER; SCHREIBER, 1998),
(HORNERO; ALONSO; JIMENO; JIMENO; LOPEZ, 1999), (SATALOFF;
HAWKSHAW, 2001) e vibração das pregas vocais, (AWREJCEWICZ, 1990),
(HERZEL ET AL, 1994), (BERRY; HERZEL; TITZE; KRISCHER, 1994),
(JIANG; ZHANG, 2001), (JIANG; ZHANG, 2002), (MAC CALLUM ET AL, 2009).
Esses sistemas têm uma característica em comum, não podem ser
categorizados como aleatórios, embora sigam determinados padrões próprios e
o resultado seja muitas vezes altamente imprevisível.
Segundo TITZE, BAKEN, HERZEL (1993) os sinais de voz humana
possuem manifestações de dinâmica não linear. Alguns exemplos são: voz
rouca, voz crepitante, ou as quebras de voz. Existem três trabalhos que podem
considerar-se como os pioneiros em demonstrar a não linearidade na vibração
das pregas vocais. Um deles é o modelo matemático desenvolvido por
AWREJCEWICZ (1990) que desvia a dificuldade de conduzir experimentos
fisiológicos numa laringe em fonação e demonstra a função laríngea através de
um modelo matemático. Outro trabalho foi realizado por (MENDEL, HERZEL,
49
WERMKE, 1990) que evidenciou que o choro de recém nascidos é uma fonte
rica de características raras e desconhecidas na voz do adulto, que apresenta
“quebra dos sub-harmônicos” e turbulência, que envolvem duplicação de
período e aperiodicidade respectivamente. O último estudo é o realizado por
(BAKEN, 1990) que comparou as vibrações das pregas vocais entre pessoas
normais e pessoas com patologia laríngea comprovada.
Do mesmo modo, a análise não linear tem mostrado ser uma valiosa
ferramenta para estudar segmentos aperiódicos de voz (HERZEL, BERRY,
TITZE, SALEH, 1994) e (ZHANG ET AL. 2005). A aplicação deste tipo de
ferramentas fornece informações complementares à análise acústica no estudo
objetivo da voz. Conseqüentemente, a análise da dinâmica não linear em
combinação com medidas de perturbação pode melhorar a capacidade de
descrever e diagnosticar vozes com alterações patológicas (TITZE, BAKEN,
HERZEL, 1993), (ZHANG, JIANG, 2004), (DAJER, MACIEL, PEREIRA, 2007),
(MAC CALLUM ET AL, 2009).
Algumas das técnicas não lineares aplicadas para analisar sinais com
aperiodicidades como é o sinal de voz são: reconstrução de espaço de fase,
mapa de Pointcaré, dimensão fractal, dimensão de correlação, entropia de
Kolmogorov e Expoente de Lyapunov. Estas técnicas são capazes de
descrever um sistema determinístico, mas que apresentam comportamentos
não lineares.
50
O Mapa de Poincaré é uma ferramenta desenvolvida a partir da idéia
original do físico e matemático francês Henri Poincaré. Segundo este autor, as
características de um sistema podem ser imprevisíveis dependendo das
condições iniciais e dos parâmetros externos aplicados ao sistema. Essa
característica de imprevisibilidade é conhecida como caos determinístico. O
mapa de Poincaré é uma ferramenta útil para análise desses fenômenos. Esta
técnica descreve a evolução do sistema para valores no tempo discreto e
esses mapas são versões discretizadas dos sistemas associados a equações
diferenciais ordinárias. (NAYFEH, BALACHANDRAN, 1994), (KANTZ,
SCHREIBER, 2003).
A dimensão fractal foi um conceito introduzido por Mandelbrot e é
empregado para se referir à forma geométrica da natureza que tem estrutura
semelhante. Sinais biológicos com certas flutuações como a EEG e sons
vocais são conhecidos por terem componentes que podem ser avaliados pela
sua dimensão fractal e relacionados com a propriedade de “auto- afinidade”
(KATZ, 1988).
De forma resumida, a dimensão de correlação é uma medida
quantitativa que específica o número de graus de liberdade necessários para
descrever o sistema dinâmico; um sistema mais complexo tem uma alta
dimensão (KANTZ, SCHREIBER, 2003). Um estudo de RAHN ET AL (2005)
utilizou a dimensão de correlação e análise da perturbação para descrever as
alterações vocais. Este estudo demonstrou que a dimensão de correlação (D2)
51
pode quantificar amostras de vozes periódicas e aperiódicas, enquanto que os
métodos de perturbação não podem medir precisamente vozes aperiódicas.
O expoente de Lyapunov define as características numéricas de um
sistema dinâmico. Este expoente permite classificar o comportamento do
sistema de maneira concisa, através da convergência exponencial ou
divergência das trajetórias que se originam próximas umas das outras. O
número do expoente de Lyapunov, que caracteriza o comportamento do
sistema dinâmico, é igual a dimensão deste sistema. Para a aplicação prática,
é importante conhecer o Máximo Expoente de Lyapunov. Se o máximo valor no
espectro do Expoente de Lyapunov é positivo, significa que o expoente é
caótico. Se esse valor for igual a zero indica uma dinâmica periódica ou quase-
periódica (KANTZ, SCHREIBER, 2003).
A reconstrução do espaço de fase, baseado no método das
coordenadas defasadas, tem provado ser uma poderosa ferramenta na análise
de sinais biológicos, como os sinais de voz. As idéias fundamentais sobre esta
técnica são creditadas a PACKARD ET AL (1980) e TAKENS (1981), e uma de
suas principais características é a preservação dos invariantes geométricos do
sistema. Se considerarmos um sinal de voz como uma série temporal, s(n), esta
pode ser representada pela trajetória de um dado sistema dinâmico. As séries
temporais se caracterizam por terem comprimento e precisão finitos, portanto,
a seleção do
é importante na reconstrução do espaço de fase. Se
for muito
baixo, as amostras atrasadas estarão fortemente correlacionadas, e as
trajetórias dos atratores estendem-se ao redor de uma linha diagonal no
52
espaço de fase reconstruído. Caso contrario, se
é muito grande, a trajetória
dos atratores reconstruídos no espaço de fase caracteriza-se por uma auto-
interseção.
Para estimar o tempo de atraso
, um dos métodos propostos na
literatura é o Método de Informação Mutua (FRASER; SWINNEY, 1986), o qual
geralmente depende de duas variáveis. FRASER E SWINNEY propõem como
critério efetivo para a seleção de um tempo de atraso
, o primeiro valor mínimo
da curva de informação mútua por tempo de atraso
, e afirmam que esta
medida garante que as variáveis defasadas sejam descorrelacionadas.
A idéia básica da técnica é traçar s(n) versus s(n+τ), onde τ é uma
defasagem no tempo. Este procedimento é motivado pelo fato de que a
trajetória representada no espaço de fase reconstruído, possui propriedades
similares ao espaço de fase original, sendo topologicamente equivalentes
(PACKARD ET AL,1980) e (TAKENS, 1981). A reconstrução do espaço de fase
mostra a vibração das pregas vocais em função do tempo, sendo uma trajetória
fechada no sinal periódico e uma trajetória irregular quando o sinal é irregular
ou caótico, (JIANG, ZHANG, MCGILLIGAN, 2006), (RAHN, 2007) (DAJER,
MACIEL, PEREIRA, 2007), (SCALASSARA, ET AL, 2009).
Os diversos trabalhos encontrados na literatura, (GIOVANNI;
OUAKNINE; TRIGLIA, 1998), (MATASSINI; HEGGER; KANTZ; MANFREDI,
2000), (JIANG; ZHANG, 2002), (ZHANG; JIANG, 2004), (ZHANG ET AL. 2005),
(MACCALLUM ET AL, 2009) confirmam que as técnicas de dinâmica não linear
53
têm-se mostrado ferramentas poderosas na área de análise de distúrbios
vocais. Estas técnicas consideram as características intrínsecas do sistema de
produção vocal; e se empregadas em conjunto conseguem revelar a dinâmica
dos sinais de voz, sejam estes normais ou patológicos.
Ainda existe um amplo campo de pesquisa nesta área. Estudos futuros
podem ser úteis para confirmar resultados e para desenvolver ferramentas de
uso clínico, que permitam contornar as desvantagens dos métodos existentes e
proporcionem dados mais precisos para os pesquisadores, profissionais de
saúde e os pacientes.
54
55
3 MATERIAIS E MÉTODO
A proposta deste trabalho foi analisar sinais de voz sem alterações
vocais e com alterações patológicas empregando Padrões Visuais de Dinâmica
Vocal- PVDV em conjunto com análise acústica e análise perceptivo-auditiva e
estabelecer correlações entre as técnicas. Foram analisadas 91 amostras de
sinais de voz da vogal sustentada /a/ do português brasileiro de sujeitos de
ambos os gêneros, pertencentes ao banco de vozes do Laboratório de
Processamento de Sinais do SEL-EESC-USP. Os sinais de voz foram
gravados e digitalizados diretamente em computador com o programa Análise
de Voz com 22050Hz de taxa de amostragem, mono-canal e 16 bits. Todas as
amostras utilizadas neste trabalho foram de pacientes que realizaram
videoestroboscopia para corroborar a presença ou ausência de patologia vocal.
Foram selecionados trechos estacionários de 200 milissegundos de
cada uma das amostras para serem analisadas com a técnica de padrões
visuais da dinâmica vocal (PVDV), conjuntamente com a análise acústica (AA)
e a análise perceptivo-auditiva (APA). Os resultados das três análises
receberam tratamento estatístico com testes paramétricos para os dados
quantitativos e não paramétricos para os dados qualitativos. Foi aplicado o
teste de correlação para avaliar a possível associação entre as técnicas.
56
3.1 Materiais
Os 91 sinais analisados foram classificados em dois grandes grupos:
sinais de voz sem alterações vocais, ou saudáveis (46 amostras) e sinais de
voz com disfonia (45 amostras); ambos os grupos foram subdivididos, como
apresentado na Figura 3.1.
Figura 3.1: Grupos e sub-grupos das amostras de sinais de voz avaliadas.
3.1.1 Grupo 1. Sinais de voz sem alteração vocal ou vozes saudáveis
Neste grupo de vozes saudáveis foi incluído o subgrupo de vozes
saudáveis com alteração postural. O objetivo desta inclusão foi avaliar mais
profundamente a capacidade das ferramentas de análise, de diferenciar
alterações sutis, mesmo em vozes sem alteração. Por conseguinte,
91 sinais de voz
Grupo 1
Saudáveis
Grupo 2
Com alteração vocal
Diferentes posturas
30 sinais
Saudáveis
16 sinais
D. Organofuncional
31 sinais
D. orgânica
14 sinais
Postura 1
10 sinais
Postura 2
10 sinais
Postura 3
10 sinais
Edema de Reinke
16 sinais
Nódulo vocal
15 sinais
Origem neurológica
14 sinais
57
possibilitando uma visão mais precisa das possibilidades e limites de cada uma
das ferramentas aplicadas.
Os 46 sinais de voz foram divididos em:
Saudáveis: 16 sinais de voz da vogal /a/ de adultos jovens com idades
entre 21 e 45 anos, idade média de 31,31 anos sem queixa ou alteração vocal,
de ambos os gêneros (5 femininos e 11 masculinos); A tabela 3-1 apresenta
uma relação segundo o gênero e idade dos sinais de voz deste grupo.
Tabela 3-1: Relação de gênero e idade do grupo de vozes saudáveis
Sinal de voz Gênero Idade
1 Masculino 39
2 Masculino 21
3 Feminino 41
4 Feminino 22
5 Masculino 35
6 Masculino 23
7 Masculino 23
8 Masculino 21
9 Masculino 43
10 Masculino 36
11 Feminino 24
12 Feminino 45
13 Masculino 38
14 Masculino 27
15 Feminino 21
16 Masculino 42
Saudáveis com diferentes posturas: 30 sinais da vogal /a/ de um mesmo
sujeito, masculino de 33 anos em três posturas diferentes: 1) postura neutra, 2)
anteriorização de cabeça com extensão do pescoço e 3) aumento da cifose
toráxica com anteriorização de cabeça. O participante realizou, na posição
58
sentada, a emissão confortável da vogal sustentada /a/ nas três posturas. Os
registros vocais foram repetidos, pelo mesmo indivíduo, por dez dias.
A figura 3.2 mostra a imagem de pregas vocais sem alteração em
posição aberta ou posição respiratória e fechada ou posição fonatória.
Figura 3.2: Imagens das pregas vocais saudáveis. Imagens extraídas do banco de dados
do Laboratório de Processamento de Sinais.
3.1.2 Grupo 2. Sinais de voz com disfonia
Consta de 45 sinais de voz de pacientes de ambos os gêneros com
alteração patológica de diferente etiologia, divididos segundo o critério de
classificação de disfonias (PONTES; BELHAU, 2000), em dois subgrupos:
Disfonia organofuncional: 16 sinais de voz com Edema de Reinke e 15
sinais com nódulo vocal.
59
Edema de Reinke: os 16 sinais de voz pertencem a sujeitos com idades
entre 28 e 48, com média de 38,56 anos, de ambos os gêneros (14 femininos e
2 masculinos). Uma relação segundo o gênero e idade dos pacientes deste
grupo encontra-se na tabela 3-2.
Tabela 3-2: Relação de gênero e idade do grupo de pacientes com edema de Reinke
Sinal de voz Gênero Idades
Paciente 1 Feminino 45
Paciente 2 Feminino 36
Paciente 3 Feminino 38
Paciente 4 Feminino 40
Paciente 5 Feminino 41
Paciente 6 Feminino 48
Paciente 7 Feminino 34
Paciente 8 Masculino 28
Paciente 9 Masculino 33
Paciente 10 Feminino 40
Paciente 11 Feminino 29
Paciente 12 Feminino 38
Paciente 13 Feminino 34
Paciente 14 Feminino 42
Paciente 15 Feminino 45
Paciente 16 Feminino 46
O edema de Reinke se caracteriza pela deposição de material gelatinoso
no espaço de Reinke. Apresenta uma grande variabilidade clínica, mas na
visão laringoscópica apresenta um aspecto característico geralmente bilateral e
assimétrico, que evolui com a distensão gradativa do espaço de Reinke,
aumentando a massa e a flacidez das pregas vocais (TSUJI, INAMURA;
UBIRAJARA, 2006). A Figura 3.3 mostra a imagem laríngea de pregas vocais
com edema de Reinke.
60
Figura 3.3: Imagem das pregas vocais de um paciente com edema de Reinke. Imagem
extraída do sitio web: http://www.gbmc.org/body.cfm?id=450
Nódulo Vocal: os 15 sinais de voz pertencem a sujeitos com idades entre
25 e 48, média de 35,86 anos de ambos os gêneros (13 femininos e 2
masculinos). A relação segundo gênero e idade deste grupo se encontra na
tabela 3-3.
Tabela 3-3: Relação de gênero e idade do grupo de pacientes com nódulo vocal
Sinal de voz Gênero Idade
Paciente 1 Feminino 28
Paciente 2 Feminino 33
Paciente 3 Feminino 45
Paciente 4 Feminino 26
Paciente 5 Masculino 44
Paciente 6 Feminino 42
Paciente 7 Feminino 38
Paciente 8 Masculino 31
Paciente 9 Feminino 29
Paciente 10 Feminino 35
Paciente 11 Feminino 48
Paciente 12 Feminino 37
Paciente 13 Feminino 32
Paciente 14 Feminino 45
Paciente 15 Feminino 25
61
Os nódulos vocais são lesões relativamente comuns e ocorrem em
adultos quase exclusivamente em mulheres entre 20 e 40 anos. Apresentam-se
em geral bilateralmente na região de transição entre o terço médio para o
anterior das pregas vocais e levam a alterações da membrana basal e da
camada superficial da lâmina própria das pregas vocais (TSUJI, INAMURA;
UBIRAJARA, 2006). A figura 3.4 mostra uma imagem laringoscopica de
nódulos vocais bilaterais.
Figura 3.4: Imagem das pregas vocais de um paciente com nódulos vocais bilaterais.
Imagem extraída de Behlau, M. Voz - O Livro do Especialista.
Disfonia orgânica de origem neurológica: o grupo consta de 14 sinais de
voz (7 masculinos e 7 femininos) com idades entre 22 a 90 anos, média de
58,5 anos. A tabela 3-4 apresenta a relação respeito à patologia, gênero e
idade dos sinais de voz com disfonia orgânica de origem neurológica.
62
Tabela 3-4: Relação de diagnóstico e idade do grupo de pacientes com disfonia de
origem neurológica.
Sinal de voz Patologia Gênero Idade
1 AVC Feminino 90
2 Doença de Huntington Masculino 52
3 AVC Masculino 77
4 Doença de Parkinson Masculino 60
5 Doença de Parkinson Feminino 80
6 ELA Masculino 53
7 Mononeurite múltipla Feminino 59
8 Mitocondropatia Masculino 42
9 ELA Feminino 40
10 Distrofia de Duchenne Masculino 22
11 ELA Masculino 65
12 Distonia cervical Feminino 70
13 Distonia cervical Feminino 70
14 Distrofia miotônica Feminino 39
Legenda: AVC (Acidente Vascular Cerebral); ELA (Esclerose Lateral Amiotrófica)
Segundo Behlau (2005) as disfonias neurológicas são distúrbios vocais
que acompanham a lesões ou alterações no sistema nervoso; e embora nem
todos os pacientes com transtornos neurológicos apresentam disfonia, muitas
vezes um desvio vocal é o primeiro sinal de uma alteração no sistema nervoso.
Para ilustrar este tipo de patologia a figura 3.5 apresenta a imagem de uma
laringe de um portador de disfonia orgânica de origem neurológica; neste caso
de uma paralisia unilateral de prega vocal.
63
Figura 3.5: Imagem das pregas vocais de um paciente com disfonia de origem
neurológico, portador de paralise unilateral. Imagem extraída do sitio web:
http://www.gbmc.org/body.cfm?id=450
3.2 Métodos
Os dados selecionados para este trabalho foram avaliados por meio de
três ferramentas de análise: avaliação perceptivo-auditiva APA, análise
acústica tradicional AA e análise qualitativa de Padrões Visuais de Dinâmica
Vocal (PVDV).
3.2.1 Avaliação perceptivo-auditiva
Para avaliação perceptivo-auditiva das vozes foram contempladas
quatro características de qualidade vocal: rugosidade (percepção de
irregularidade na fonte sonora), soprosidade (percepção audível de escape de
ar na voz), tensão (percepção de esforço vocal) e instabilidade (percepção de
oscilação na fonte). Foi empregada uma escala que varia de 0 a 3 para cada
64
aspecto avaliado. Sendo que se considera grau 0 (normal ou ausente) quando
nenhuma alteração vocal é percebida pelo ouvinte; grau 1 (discreto) para
alterações vocais discretas ou, em caso de dúvida, se a alteração está
presente ou não; grau 2 (moderado) quando a alteração é evidente e; grau 3
(intenso) para alterações vocais extremas. Esta avaliação foi baseada em
conceitos da escala “GRBAS”, criada pelo Comitê para Testes de Função
Fonatória da Sociedade Japonesa de Logopedia e Foniatria (SJLF, 1969).
A avaliação perceptivo-auditiva foi realizada por uma fonoaudióloga
especialista em voz, com mais de 5 anos de experiência que não tinha
conhecimento do propósito nem dos dados apresentados neste trabalho. As
91 vozes foram apresentadas aleatoriamente e com 50% de repetição dos
sinais (46 sinais repetidos) – total de 137 sinais de voz. A confiabilidade do
avaliador foi de 84,78%; com 39 sinais de avaliação concordante e 7 sinais
avaliadas com diferença de um grau para mais ou para menos.
3.2.2 Análise acústica
Para a coleta dos sinais, e análise tradicional de medidas de
perturbação acústicas foi utilizado o programa Análise de Voz 6.0.
(MONTAGNOLI, 1997). Foram extraídas as medidas de freqüência
fundamental e as medidas de perturbação acústica jitter, perturbação da
freqüência fundamental e shimmer, perturbação da amplitude.
65
As duas medidas de perturbação fornecidas pelo programa, comumente
chamadas de Jitter e Shimmer, derivam do cálculo da média de perturbação
relativa RAP (KOIKE, 1973), e foi a partir dessas estimativas que Davis em
1976 desenvolveu dois novos parâmetros acústicos denominados de quociente
de perturbação de pitch (PPQ) e quociente de perturbação de amplitude (APQ).
O parâmetro PPQ ou Jitter indica a perturbação no período do sinal de voz,
normalmente ocasionada pela falta de controle das pregas vocais. O parâmetro
APQ ou Shimmer muitas vezes está correlacionado a irregularidades nas
pregas vocais, como lesões de massas ou redução da resistência glótica.
Nessa nova versão do programa, (MONTAGNOLI, PEREIRA, 2009)
utiliza a autocorrelação do sinal de voz ao contrário das versões anteriores, as
quais utilizavam o sinal residual da voz para definir esses parâmetros. Este
programa nos permite visualizar no lado esquerdo superior da tela, o
osciloscópio, que mostra a porção do sinal a ser analisado e do lado direito da
figura observamos a autocorrelação do sinal como mostra a figura 3.6.
66
Figura 3.6: Imagem da versão 2009 do programa Análise de Voz.
3.2.3 Análise qualitativa dos padrões visuais da dinâmica vocal PVDV
A ferramenta apresentada nesta subseção foi baseada na teoria dos
sistemas dinâmicos, que afirma que a evolução no tempo pode ser definida no
espaço de fase. Segundo KANTZ e SCHEIBER, (1999) sistemas não lineares
exibem caos determinístico, isto é, o ponto de partida natural quando um sinal
apresenta irregularidades. Estes autores afirmam que um sinal pode ser
representado como uma série temporal, ou em outras palavras, uma seqüência
escalar de medidas, que dependem do estado do sistema, tomadas a múltiplos
de uma amostragem fixa no tempo. Para converter esta série temporal em
vetores de estado é empregado o método de atraso para à reconstrução de
espaço de fase.
67
A técnica de reconstrução do espaço de fase resulta apropriada no caso
dos sinais de voz, já que os ciclos vibratórios das pregas vocais representam
um sistema dinâmico, e podem ser descritos como uma trajetória no espaço de
fase com evolução no tempo. A análise dos padrões visuais de dinâmica vocal
foi baseada na técnica de reconstrução de espaço de fase com técnica de
tempo de atraso (FRASER, SWINNEY, 1986). Utilizando o software Matlab 7.0
foi criada uma rotina computacional, chamada de “PVDV” – Padrão Visual de
Dinâmica Vocal – desenvolvida a partir do pacote Tisean (HEGGER, KANTZ,
SCHREIBER, 1999).
Os PVDV foram baseados na técnica de reconstrução de espaço de fase
que representa a vibração das pregas vocais em forma de trajetória num
espaço de fase com evolução no tempo. O sinal de voz é representado como
uma série temporal simples x(t
i
)= t
i
=iT; com i= 1, 2, ..., N; onde N é o
comprimento do sinal e T é o período de amostragem (KANTZ, SCHREIBER,
2004). O PVDV é realizado plotando a série temporal x(t
i
) contra si mesma em
um tempo de atraso. Para reconstruir a série temporal x(t
i
) foi empregado o
método referido por FRASER e SWINNEY (1986) e HEGGER, KANTZ,
SCHREIBER (1999). O conjunto de m vetores, chamados de espaço de
imersão, são formados por valores de tempo de atraso de x(t
i
) como mostra a
equação (1)
X (t
i
) = { x (t
i
); x (t
i
- τ),..., x(t
i
- (m-1) τ) } (1)
68
Quando m > 2D+1 o espaço de fase reconstruído é topologicamente
equivalente ao espaço de fase original (FRASER E SWINNEY, 1986). Para
estimar o tempo de atraso foi utilizado o Método de Informação Mutua
(FRASER; SWINNEY, 1986), que propõe como critério de seleção o primeiro
valor mínimo da curva de informação mutua por tempo de atraso ; este critério
garante que as variáveis defasadas são geralmente independentes.
Para seleção das amostras de análise se escolhe manualmente um
trecho do sinal. Para cada sinal de voz foi escolhido um trecho de 200
milissegundos (que apresentasse maior estabilidade na amplitude de onda) e
um trecho menor com 10 ciclos de duração, para análise mais detalhada da
dinâmica. A figura 3.7 apresenta a seqüência de pré-processamento dos sinais
para escolher os trechos a serem analisados. Na figura 3.7A aparece o sinal de
voz completo no domínio do tempo com o trecho selecionado para corte em
vermelho. A figura 3.7B mostra o trecho de 200 milissegundos – que será o
trecho do sinal avaliado – e em linha pontilhada o trecho a ser cortado de 10
ciclos completos. Finalmente C apresenta a amostra com 10 ciclos, que será o
trecho para controle em caso a complexidade da dinâmica apresente duvidas
na avaliação.
69
Figura 3.7: (A) Sinal completo da vogal sustentada /a/. (B) trecho de 200 milissegundos.
(C) trecho de 10 ciclos selecionado para análise.
Depois de escolher as amostras de acordo com o critério proposto por
(FRASER; SWINNEY, 1986) é selecionado o primeiro valor mínimo da curva de
informação mútua como apresentado na figura 3.8. Este gráfico indica a
autocorrelacão da série temporal, realçando a forte similaridade para 26
amostras de atraso e a baixa correlação para 13 amostras. Em outras palavras,
ela mede a dependência do sinal consigo mesmo e oferece uma melhor
estimativa na eleição de tempo de atraso, realçando a dinâmica aleatória e não
determinística do sinal. Na figura 3.8 pode-se observar o gráfico da curva de
70
informação mútua em função do tempo de atraso da amostra, o círculo marca o
primeiro valor mínimo da curva de informação mutua por atrasos de amostras,
neste caso a escolha de 13 amostras.
Figura 3.8: Curva de informação mútua por atraso de amostras para o sinal apresentado
na figura 3.7C (10 ciclos).
Uma vez realizada a seleção do tempo de atraso, podem-se obter três
projeções dos padrões visuais da dinâmica vocal; uma projeção do trecho de
sinal bidimensional (x, y), exemplificado na figura 3.9; uma tri-dimensional (x, y,
z) na figura 3.10; e uma projeção em função do tempo (x, y, t) apresentada na
figura 3.11. Estes gráficos são uma representação da dinâmica do sistema
vocal (sinal de voz) e foram denominadas Padrões Visuais de Dinâmica Vocal
(PVDV). Embora seja possível obter 3 projeções diferentes dos PVDV, para
este trabalho somente a projeção bidimensional (eixos x e y) será analisada.
71
Figura 3.9: Exemplo de um PVDV bidimensional de uma vogal sustentada /e/ do sinal
apresentado na figura 3.7C (10 ciclos) com atraso de 13 amostras.
Figura 3.10: Exemplo do PVDV tridimensional (eixos x, y, z) do sinal de 10 ciclos
apresentado na figura 3.7C com atraso de 13 amostras.
72
Figura 3.11: Exemplo do PVDV em função do tempo do sinal de 10 ciclos apresentado na
figura 3.7C com atraso de 13 amostras.
Em outras palavras, a análise dos PVDV é usada para mapear os traços
instantâneos de um sinal de voz com evolução no tempo. Esta ferramenta
permite observar a periodicidade, a mudança na forma da onda glótica, a
variação ciclo a ciclo e a presença de ruído de um sinal de voz. Para ilustrar
melhor esta ferramenta serão apresentados três sinais com seus respectivos
PVDV, os dois primeiros são sinais simulados (sem e com adição de
perturbação em freqüência e amplitude), e por último um sinal de voz humano.
No caso dos sinais simulados é possível observar as mudanças nos
PVDV de um sinal simulado de uma única freqüência (formato senoidal)
quando é adicionada uma porcentagem de perturbação da freqüência (jitter)
e/ou da amplitude (shimmer) como mostram as respectivas figuras 3.12 e 3.13.
Nestas figuras o mesmo sinal artificial de 170 Hz é apresentado na figura 3.12
sem nenhuma porcentagem de perturbação e na figura 3.13 com adição de
0,1% de jitter e 1% de shimmer.
73
No exemplo do sinal sem perturbação, e independente do comprimento
do trecho escolhido para análise, as trajetórias passam ciclo a ciclo pelos
mesmos pontos formando um PVDV com uma figura circular única. O sinal com
acréscimo de jitter e shimmer embora apresente um formato circular
semelhante muda respeito à comportamento de convergência da trajetórias,
ciclo a ciclo o mesmo ponto passa próximo mas não exatamente no mesmo
lugar.
Figura 3.12: Exemplo do PVDV de um sinal simulado de uma única freqüência.
74
Figura 3.13: Exemplo do PVDV de um sinal simulado de uma única freqüência e com
acréscimo de 0,1% de jitter e 1% de shimmer .
Quando analisado um sinal de voz com predomínio de uma única
freqüência e com as variações mínimas de jitter e shimmer esperadas para
uma voz saudável, o PVDV obtido reflete uma dinâmica semelhante à obtida no
sinal simulado com adição de perturbações. Na figura 3.14 é possível observar
como um sinal de voz humano quase-periódico com vários ciclos é
representado por um formato semi-arredondado de único laço (loop) e com
traçados próximos um dos outros, mas que não convergem ponto a ponto.
75
Portanto, num sinal de voz real qualquer variação – própria da voz
humana – será projetada como uma discreta irregularidade nos traçados e/ou
dispersão das trajetórias, como mostra o exemplo da figura 3.14.
Figura 3.14: Exemplo do PVDV de um sinal de voz saudável, de uma vogal /i/ sustentada.
A figura 3.14 apresenta um trecho de sinal de voz (real) com 17 ciclos
vocais de uma vogal sustentada /i/ de um sujeito sem queixa ou alteração
vocal. Pode-se observar que no sinal no tempo é difícil enxergar a variação
normal ciclo a ciclo; mas no Padrão Visual de Dinâmica Vocal (PVDV) as
mínimas variações de cada período são evidenciadas claramente, fornecendo
76
parâmetros dinâmicos para a avaliação de voz em vez de parâmetros médios
como fazem outras ferramentas.
Avaliação qualitativa dos PVDV
Para avaliação qualitativa dos padrões visuais da dinâmica vocal foram
considerados 3 aspectos da configuração: a) Número de laços (loops); b)
Regularidade dos traçados e c) Convergência doa traçados,
a) Número de laços (loops):
Foi empregada uma escala gradativa descendente de 4 a 0 para avaliar
o aspecto concernente aos loops da vogal /a/. É necessário mencionar que
para avaliar o comportamento da vogal /a/ esta escala considera os PVDV com
laços (loops) graus 4 e 3 como normais, devido a configuração do trato vocal
da vogal /a/ do português brasileiro – por ser central e aberta – evidencia
diferentes amplitudes em seus formantes (BEHLAU, 2001). Esta observação é
fundamental, porque a configuração do PVDV estará fortemente relacionada
com o formato de onda do sinal, e conseqüentemente com a conformação do
trato vocal para produzir o som vocálico – neste caso da vogal /a/.
O exemplo da figura 3.15 mostra como os cinco picos da onda de um
sinal de voz da vogal /a/ – relacionados com os formantes do sinal – estão
representados na projeção bidimensional do PVDV mantendo a sua
proporcionalidade.
77
Figura 3.15: Exemplo de uma vogal /a/ no tempo com seu respectivo PVDV de um sujeito
sem queixa ou alteração vocal.
Ë importante mencionar que a escala proposta é uma subcategorização
de uma determinada característica dinâmica observada, e não deve ser
considerada uma escala gradativa linear. Na escala proposta o grau 4
corresponde a configurações que apresentem um número maior que 3 laços;
grau 3 para 3 laços; grau 2 para configurações com 2 laços, o grau 1 refere-se
a PVDV com 1 laços, e grau 0 corresponde à configurações onde não é
possível avaliar a quantidade de laços. A figura 3.16 apresenta exemplos de
PVDV de cada um dos graus contemplados pela escala para avaliar
configuração de laços (loops).
78
Figura 3.16: Exemplos de graus de laçs dos PVDV. Grau 4- para configurações com mais
de 3 laços; grau 3- para três laços ; grau 2- para dois laços; grau 1- para um laço e grau
0- para número indefinido.
b) Regularidade dos traçados:
A diferença da classificação do número de laços – ligada à configuração
do trato vocal para cada um dos sons vocálicos – a avaliação da regularidade
dos traçados está ligada à presença de ruído no sinal de voz (SCALASSARA
ET AL, 2009) e (DAJER, SOBRINHO, PEREIRA, 2010). Conseqüentemente, a
79
escala proposta pode ser aplicada a qualquer uma das vogais. A transformação
do sinal no tempo para o PVDV permite que seja possível observar ciclo a ciclo
o comportamento do sinal respeito a mínimas perturbações de freqüência,
amplitude e ruído.
Para classificar a regularidade dos traçados foi proposta uma escala
gradativa descendente de 5 a 0, onde grau 5 indica o máximo grau de
regularidade, esperado para vozes sem alterações, e grau 0 indica o mínimo de
regularidade ou completamente irregular, esperado em vozes com intensas
alterações vocais. Para esta classificação é observada a dinâmica individual e
geral dos traçados, com o objetivo de visualizar se estes são regulares e
retilíneos ou apresentam algum grau de irregularidade ou desvios no percurso.
A figura 3.17 mostra um exemplo de um sinal de voz no tempo com
presença de ruído e o correspondente PVDV. Nesta figura estão marcados os
pontos A e B tanto no sinal no tempo como no PVDV. As diferenças são
dificilmente detectáveis no sinal no tempo, mas no PVDV são evidenciadas
pelo tipo de projeção.
80
Figura 3.17: Exemplo de um sinal de vogal /a/ no tempo (superior) e o respectivo PVDV
de um sujeito com alteração vocal (inferior).
Nesta escala o grau 5 corresponde a traçados regulares ao longo de
todo o percurso; o grau 4 corresponde a traçados regulares que apresentam
comportamento irregular numa porção restrita do percurso; grau 3 indica uma
regularidade intermitente dos traçados; o grau 2 é destinado para traçados com
irregularidade leve global; ; o grau 1 corresponde a traçados com irregularidade
leve e com um ou mais focos de irregularidade ao longo de todo o percurso e
finalmente o grau 0 corresponde para configurações com irregularidade global
nos traçados, isto é trajetórias rugosas ao longo de todo o percurso. A figura
3.18 mostra exemplos dos 6 graus de regularidade de traçados na avaliação
81
qualitativa de padrões visuais de trechos de sinais de voz de 200
milissegundos da vogal sustentada /a/.
Figura 3.18: Exemplos dos graus de regularidade de traçados. Grau 5- traçado regulares
em todo o percurso; grau 4- traçados regulares com uma porção de irregularidade; grau
3- regularidade intermitente; grau 2 - traçados levemente irregulares; grau 1- traçados
levemente irregulares com região de irregularidade, e grau 0- para traçados irregulares
em todo o percurso.
82
c) Convergência dos traçados:
A convergência das traçados foi classificada com uma escala de 4 a 0. O
comportamento convergente das trajetórias está diretamente relacionado com
a periodicidade do sinal de voz, e conseqüentemente os desvios observados
na convergência estarão relacionados com perturbações de freqüência e
amplitude do sinal de voz no tempo, como ilustra a figura 3.19. Nesta figura na
parte superior encontra-se um trecho de um sinal de voz com variações
mínimas no período e na amplitude do sinal; estas variações ficam mais
evidentes quando projetada no PVDV, como mostra a parte inferior da figura.
De modo geral, PVDV com configurações similares as da figura 3.19
correspondem a vozes com valores de jitter e shimmer alterados (JIANG ET
AL, 2009), (SCALASSARA ET AL, 2009) e (DAJER, SOBRINHO, PEREIRA,
2010).
Para avaliar qualitativamente a convergência de um PVDV a escala
propõe o grau 4 como maior grau de convergência e corresponde a trajetórias
com forte convergência global, que tendem a passar repetidamente pelo
mesmo ponto ou muito próximas dele. No outro extremo, o grau 0 (menor grau
de convergência) corresponde para trajetórias com fraca convergência global,
ou seja, ciclo a ciclo as trajetórias passam afastadas do mesmo ponto e é
impossível distinguir os diferentes loops da configuração. Os graus 1, 2 e 3
representam trajetórias de convergência mista, onde a dinâmica dos traçados
possuem características de forte e fraca convergência respectivamente, mas
com diferentes combinações.
83
Figura 3.19: Exemplo de uma vogal /e/ no tempo com seu respectivo Padrão Visual da
Dinâmica Vocal de um sujeito com alteração vocal.
De forma detalhada, o grau 3 classifica os traçados com convergência
de alta a media; ou seja, a maior parte do percurso com comportamento
convergente mas com uma pequena porção de traçados espalhados entre si. O
grau 2 refere-se a convergência media, onde o espalhamento dos traçados é
evidente, apresenta algumas partes do percurso com maior convergência e é
possível diferenciar a que laço (loop) pertencem os traçados. O grau 1
corresponde a traçados com convergência de media a fraca, são claramente
mais dispersas, e é difícil identificar a qual laço (loop) corresponde cada
traçado. A figura 3.20 apresenta exemplos dos 5 graus de convergência dos
84
traçados para os PVDV da vogal sustentada /a/ (trechos de 200
milissegundos).
Figura 3.20: Exemplos de PVDV com os 5 graus de convergência de traçados para sinais
de voz da vogal sustentada /a/. Onde o grau 4- apresenta uma forte convergência dos
traçados e o grau 0- uma convergência fraca. Os graus 1, 2 e 3 são intermediários e
mostram uma dinâmica de convergência mista.
Resumindo, a transformação de um sinal de voz no tempo para um
PVDV permite ter acesso ponto a ponto à dinâmica intrínseca do sinal e avaliar
qualitativamente o formato de onda, a perturbação de freqüência e amplitude, a
85
presença de ruído e considerar também a fase do sinal. Esta dinâmica é
caracterizada de acordo com os diferentes graus outorgados aos três aspectos
observados no PVDV:
Laços ou loops: este aspecto é avaliado como um todo, tendo em
conta o número de “anéis” presente na configuração.
Regularidade dos traçados das trajetórias: os traçados são
avaliados individualmente ao longo de todo o percurso e de cada
um dos ciclos plotados no PVDV, observando se são contínuos,
homogêneos e retilíneos ou se apresentam uma dinâmica variável
e heterogênea ao longo do tempo.
Convergência dos traçados: os traçados são avaliados em
conjunto, uns em relação aos outros e independentemente da
regularidade. Deve-se observar se a partir do primeiro ciclo
completo os traçados restantes repetem o percurso passando
pelos mesmos pontos ou distantes deles.
A figura 3.21 exemplifica como é realizada a avaliação qualitativa de um
PVDV considerando os diferentes graus de laços, regularidade e convergência
dos traçados. O PVDV apresentado corresponde a um sinal de voz de um
voluntário masculino sem patologia ou queixa vocal avaliado com grau 4 para
laços, regularidade grau 4 e convergência grau 3.
86
Grau LOOPS Grau TRAÇADO Grau CONVERGENCIA
0 Indefinido 0 Irregular global 0 Fraca global
1 1 loop 1 Irregular leve c/ focos irregulares 1 Fraca a média
2 2 loops 2 Irregular leve global 2 Média
3 3 loops 3 Regular intermitente
3 Média a forte
4 + de 3 loops 4 Regular c/ foco de irregularidade leve
4 Forte global
5 Regularidade global
Figura 3.21: Exemplo de avaliação qualitativa de um Padrão Visual da Dinâmica Vocal de
um trecho de voz de 200 milissegundos de um voluntário sem patologia ou queixa vocal.
87
4 RESULTADOS
4.1 Análise perceptivo-auditiva
Para avaliação perceptivo-auditiva de cada parâmetro foi empregada
uma escala de graus que varia de 0 à 3. Sendo que o grau 0 é empregado
quando nenhuma alteração vocal é percebida pelo ouvinte e pode ser
considerado normal; o grau 1 é reservado para alterações vocais discretas; o
grau 2 para alterações moderadas e o grau 3 para alterações vocais intensas.
Os resultados foram analisados com o teste não-paramétrico de Kruskal-Wallis
e o teste de comparação múltipla, ou teste de Dunn, ambos com 0,05 de
significância.
4.1.1 Vozes saudáveis
Os dezesseis sinais de voz saudáveis apresentaram grau 0 ou 1 para os
4 parâmetros avaliados. Para rugosidade doze amostras (75%) foram avaliadas
com grau 1 e quatro amostras (25%) com grau 0. Para soprosidade nove sinais
de voz (56,25%) foram avaliadas com grau 1 e sete sinais (43,75%) com grau
0. Treze sinais (81,25%) foram avaliadas com tensão grau 0 e três sinais
(18,75%) com tensão grau 1. Somente duas amostras (12,5%) foram avaliadas
com grau 0 de instabilidade e as restantes, 14 vozes (87,5%), com instabilidade
grau 1. A tabela 4-1 mostra os resultados da avaliação perceptivo-auditiva para
88
os parâmetros de rugosidade (R), soprosidade (S), tensão (T) e Instabilidade (I)
para cada amostra do grupo de vozes saudáveis.
Tabela 4-1: Resultados da avaliação perceptivo-auditiva dos sinais saudáveis.
Sinal de Voz R S T I
Sinal 01 1 1 0 0
Sinal 02 0 1 0 1
Sinal 03 0 1 0 1
Sinal 04 1 0 0 0
Sinal 05 1 0 1 1
Sinal 06 1 1 1 1
Sinal 07 1 1 0 1
Sinal 08 1 0 1 1
Sinal 09 1 1 0 1
Sinal 10 1 1 0 1
Sinal 11 0 1 0 1
Sinal 12 1 0 0 1
Sinal 13 1 1 0 1
Sinal 14 1 0 0 1
Sinal 15 0 0 0 1
Sinal 16 1 0 0 1
Legenda: R (rugosidade); S (soprosidade); T (tensão) e I (instabilidade)
4.1.2 Voz normal com mudanças posturais
Foram analisados 30 trechos de sinais de voz de um mesmo sujeito, na
emissão confortável da vogal sustentada /a/ em três posturas: 1) 10 sinais na
postura neutra, 2) 10 sinais com anteriorização de cabeça com extensão do
pescoço e 3) 10 sinais com aumento da cifose toráxica com anteriorização de
cabeça.
89
Na análise perceptivo-auditiva as 10 vozes das três posturas
apresentaram grau 0 ou 1 para os 4 parâmetros avaliados. Sendo que nove
(90%) das amostras da postura 1 (postura neutra) foram avaliadas com todos
os parâmetros em 0 e um sinal com T grau 1. Na postura 2, cinco sinais (50%)
foram avaliados com todos os parâmetros em 0; três sinais (30%) com tensão
grau 1 e duas vozes (20%) com R grau 1. Na postura 3, duas amostras (20%)
foram classificadas com R grau 1 e as amostras restantes (80%) com todos os
parâmetros em 0. A tabela 4-2 mostra a avaliação perceptivo-auditiva de cada
amostra de voz nas três posturas.
Tabela 4-2: Avaliação perceptivo-auditiva dos sinais de voz com três posturas nos 10
dias de coleta.
POSTURA 1 POSTURA 2 POSTURA 3
Dia R S T I R S T I R S T I
1 0 0 0 0 0 0 0 0 0 0 0 0
2 0 0 0 0 0 0 0 0 0 0 0 0
3 0 0 0 0 0 0 0 0 0 0 0 0
4 0 0 0 0 0 0 0 0 0 0 0 0
5 0 0 0 0
1
0 0 0
1
0 0 0
6 0 0 0 0
1
0 0 0
1
0 0 0
7 0 0 0 0 0 0
1
0 0 0 0 0
8 0 0 0 0 0 0 0 0 0 0 0 0
9 0 0 0 0 0 0
1
0 0 0 0 0
10 0 0
1
0 0 0
1
0 0 0 0 0
Legenda: R (rugosidade); S (soprosidade); T (tensão) e I (instabilidade)
O teste não-paramétrico de Kruskal-Wallis mostrou que os valores de
H
corrigido
foram inferiores à H
crítico
de 5,99 para 0,05 de significância; por tanto se
aceita a hipótese nula e os três grupos podem ser considerados iguais.
90
4.1.3 Vozes patológicas
Foi realizada a análise perceptivo-auditiva de 46 amostras de vozes com
alterações patológicas. Destas amostras, 31 são sinais de voz com disfonia de
origem organofuncional (16 sinais de edema de Reinke e 15 de nódulos
vocais); e 14 amostras são vozes com disfonia de origem neurológica.
4.1.3.1 Vozes com disfonia organofuncional
Edema
Nove vozes (56,25%) foram avaliadas com grau 2 para rugosidade, seis
(37,5%) com rugosidade grau 1 e um sinal (6,25%) com rugosidade grau 0.
Para soprosidade três vozes (18,75%) apresentaram grau 2, onze vozes
(68,75%) grau 1 e duas vozes (12,5%) grau 0. Quinze amostras (93,75%)
foram classificadas com grau 0 de tensão e somente um sinal (6,25%)
apresentou tensão grau 2. Onze vozes (68,75%) receberam grau 1 de
instabilidade e cinco vozes (31,25%) instabilidade grau 2.
Na tabela 4-3 estão os resultados da avaliação perceptivo-auditiva das
vozes com edema de Reinke.
91
Tabela 4-3: Avaliação perceptivo-auditiva das vozes com edema de Reinke.
Sinal de Voz R S T I
paciente 1 1 2 0 2
paciente 2 1 0 0 1
paciente 3 1 1 0 1
paciente 4 2 1 0 2
paciente 5 2 1 0 2
paciente 6 1 2 0 1
paciente 7 2 1 0 1
paciente 8 2 1 2 2
paciente 9 0 0 0 1
paciente 10 2 1 0 1
paciente 11 2 1 0 1
paciente 12 1 1 0 1
paciente 13 2 1 0 1
paciente 14 2 1 0 2
paciente 15 1 2 0 1
paciente 16 2 1 0 1
Legenda: R (rugosidade); S (soprosidade); T (tensão) e I (instabilidade
Nódulos vocais
Neste grupo onze (73,33%) apresentaram rugosidade grau 1, duas
vozes (13,33%) grau 2, um sinal (6,66%) com grau 3 e um sinal (6,66%) com
grau 0. Para soprosidade nove vozes (60%) foram classificadas com grau 2 e
seis vozes (40%) com soprosidade grau 1. Nenhum sinal apresentou grau 0 ou
grau 3. Onze sinais (73,33%) foram classificados com grau 0 de tensão; três
sinais (20%) com grau 1 e uma voz (6,66%) com grau 2; não teve amostras
classificadas com tensão grau 3. Doze vozes (80%) foram avaliadas com
instabilidade grau 1, dois sinais (13,33%) com grau 2 e uma voz (6,66%) com
92
grau 0; nenhum amostra foi avaliadas com grau 3 de instabilidade. A avaliação
para cada sinal de voz encontra-se na tabela 4-4.
Tabela 4-4: Resultados da avaliação perceptivo-auditiva dos sinais com nódulo vocal.
Sinal de Voz R S T I
Paciente 1 1 2 0 1
Paciente 2 1 2 0 1
Paciente 3 1 2 0 1
Paciente 4 1 2 0 1
Paciente 5 1 1 0 1
Paciente 6 1 1 0 0
Paciente 7 2 2 2 2
Paciente 8 1 2 1 1
Paciente 9 1 1 0 1
Paciente 10 2 2 1 1
Paciente 11 1 1 0 1
Paciente 12 1 1 0 1
Paciente 13 3 2 1 2
Paciente 14 0 1 0 1
Paciente 15 1 2 0 1
Legenda: R (rugosidade); S (soprosidade); T (tensão) e I (instabilidade)
4.1.3.2 Vozes com disfonia orgânica de origem neurológica
Neste grupo, oito sinais (57,14%) apresentaram grau 1 para rugosidade;
cinco sinais (35,71%) com grau 2; e uma voz (7,15%) com grau 0. Para
soprosidade oito vozes (57,14%) foram avaliadas com grau 1, cinco (35,71%)
com grau 2 e um sinal (7,15%) com grau 0. Seis sinais (42,85%) foram
avaliadas com grau 0 de tensão, um sinal de voz (7,15%) com grau 2 e sete
vozes (50%) com grau 1 de tensão. Para instabilidade nove vozes (64,29%)
93
apresentaram grau 1 e cinco sinais de voz (35,71%) com grau 2. Nenhuma voz
foi avaliada com grau 3 para os quatro parâmetros analisados; e para
instabilidade nenhuma voz foi avaliada com grau 0. Os resultados desta
avaliação encontram-se na tabela 4-5.
Tabela 4-5: Avaliação perceptivo-auditiva das vozes com disfonia neurológica.
Sinal de Voz R S T I
Paciente 1 2 2 1 2
Paciente 2 1 1 2 1
Paciente 3 2 1 0 1
Paciente 4 1 1 0 1
Paciente 5 1 1 1 2
Paciente 6 2 2 0 1
Paciente 7 1 2 0 1
Paciente 8 0 1 0 1
Paciente 9 1 1 0 1
Paciente 10 1 0 1 1
Paciente 11 2 2 1 2
Paciente 12 1 1 1 2
Paciente 13 2 2 1 2
Paciente 14 1 1 1 1
Legenda: R (rugosidade); S (soprosidade); T (tensão) e I (instabilidade)
Foi aplicado o teste de KrusKal-Wallis para comparação dos grupos:
saudáveis, edema de Reinke, nódulos vocais e disfonia neurológica. O teste
mostrou que os H
corrigido
dos parâmetros de rugosidade, soprosidade, tensão e
instabilidade foram maiores ao H
tabela
de 7,81 para 0,05 de significância,
rejeitando-se então, a hipótese nula.
94
O procedimento de comparações múltiplas demonstrou que a diferença
para a rugosidade ocorreu para o grupo de saudáveis vs. Edema de Reinke
que obteve um Q
calculado
= 2,7221, maior que Q(0,05;4)= 2,64. Para soprosidade,
a diferença foi encontrada entre os grupos de saudáveis vs. nódulo com
Q
calculado
=4,3567; e para saudáveis vs. disfonias neurológicas com Q
calculado
=
2,9457, ambos valores superiores a Q(0,05;4)= 2,64. Para tensão a diferença
foi obtida para edema de Reinke vs. disfonia neurológica com Q
calculado
= 3,1156.
Para Instabilidade os grupos que diferiram foram edema de Reinke vs. disfonia
neurológica com Q
calculado
= 4,9271; e edema de Reinke vs. nódulos com
Q
calculado
= 3,7031. As restantes combinações dos quatro parâmetros analisados
obtiveram valores menores ao Q
tabela
de 2,64, e por tanto, foram considerados
sem diferença estatística.
4.2 Análise Acústica
A nova versão do programa Análise de voz (MONTAGNOLI, PEREIRA,
2009) considera que porcentagens iguais ou inferiores a 0,35% de jitter
(perturbação da frequência) e iguais ou inferiores a 2,25% de shimmer
(perturbação da amplitude) são os valores aceitáveis para vozes sem patologia
vocal. Os resultados dos parâmetros jitter e shimmer foram analisados com o
teste estatístico da variância ANOVA unilateral com 0,05 de significância; os
resultados da freqüência fundamental (F
0
) para os grupos de vozes normais,
edema de Reinke, nódulos e disfonia de origem neurológica não receberam
tratamento estatístico por serem grupos heterogêneos respeito ao gênero.
95
4.2.1 Vozes normais
Os valores encontrados para jitter foram: mínimo de 0,1%; máximo de
0,35%, média de 0,18% com desvio padrão de 0,05. Para shimmer os valores
médios foram: mínimo de 0,53%; máximo de 2,25%; média de 1,12% com
desvio padrão de 0,39%. O resultado da freqüência fundamental para as vozes
femininas foi mínimo de 193,80 Hz, máximo de 260,90 Hz; média de 219,70 Hz
com desvio padrão de 26,90 Hz. Os valores médios das vozes masculinas
foram: mínimo de 99 Hz; máximo de 133,90 Hz; média de 117,63 Hz com
desvio padrão de 10,49 Hz. Os valores médios para jitter, shimmer e freqüência
fundamental deste grupo encontram-se na tabela 4-6.
Tabela 4-6: Resultados de jitter, shimmer e F
0
das 16 vozes saudáveis.
Sinal de voz Jitter (%) Shimmer (%) F
0
(Hz)
Sinal 01
0,35 1,25 118,45
Sinal 02
0,10 0,53 116,30
Sinal 03
0,17 0,96 226,40
Sinal 04
0,20 1,12 197,70
Sinal 05
0,11 0,83 115,90
Sinal 06
0,19 0,93 99,00
Sinal 07
0,22 2,25 117,90
Sinal 08
0,24 1,08 107,40
Sinal 09
0,18 1,33 108,45
Sinal 10
0,14 0,91 122,90
Sinal 11
0,18 0,68 193,80
Sinal 12
0,15 0,94 219,70
Sinal 13
0,18 1,44 133,85
Sinal 14
0,18 1,43 133,90
Sinal 15
0,20 1,12 260,90
Sinal 16
0,15 1,23 119,90
96
4.2.2 Normais com diferentes posturas
Os valores médios de jitter foram para postura 1: máximo de 0,17 %;
mínimo de 0,11%; média de 0,126% e desvio padrão de 0,02%. Para postura 2,
máximo de 0,16%; mínimo de 0,11%; média de 0,13% e desvio padrão de
0,01%. Para a postura 3, os valores médios de jitter foram: máximo de 0,17%;
mínimo de 0,11%; média de 0,12% e desvio padrão de 0,01%. Os valores
médios de cada amostra das 3 posturas encontram-se na tabela 4-7.
Tabela 4-7: Valores médios de jitter (%) das amostras de voz nas três posturas.
Dia
Postura 1
(Jitter %)
Postura 2
(jitter %)
Postura 3
(jitter%)
Dia 1
0,170 0,160 0,150
Dia 2
0,160 0,130 0,110
Dia 3
0,115 0,130 0,130
Dia 4
0,120 0,125 0,120
Dia 5
0,120 0,125 0,110
Dia 6
0,125 0,150 0,110
Dia 7
0,110 0,115 0,120
Dia 8
0,120 0,140 0,170
Dia 9
0,110 0,130 0,110
Dia 10
0,110 0,120 0,110
O resultado do Teste Anova (unilateral), com significância de 0,05, para
jitter mostrou que para F = 0,55 o p-valor é 0,5816, e por tanto, sem diferença
estatística. A distribuição dos dados encontra-se na figura 4.1.
97
Figura 4.1: Gráfico de distribuição de valores de jitter para: 1- Postura neutra, 2- postura
com anteriorização de cabeça com extensão do pescoço e 3 postura com aumento da
cifose toráxica com anteriorização de cabeça.
Os valores médios para shimmer das três posturas foram: postura 1
máximo de 0,75%; mínimo de 0,36%; média de 0,58% e desvio padrão de
0,12%. Para a postura 2: máximo de 0,94%, mínimo de 0,32%, média de
0,55% e desvio padrão de 0,21%. Por último, para a postura 3, máximo de
0,87%, mínimo de 0,31%; média de 0,49% e desvio padrão 0,17%.
A tabela 4-8 apresenta os valores médios de shimmer para cada voz nas
três posturas avaliadas.
98
Tabela 4-8: Valores médios de shimmer (%) das amostras de voz nas três posturas.
dia
Postura 1
(shimmer %)
Postura 2
(shimmer %)
Postura 3
(shimmer %)
dia 1
0,71 0,92 0,74
dia 2
0,72 0,94 0,87
dia 3
0,52 0,49 0,34
dia 4
0,59 0,51 0,43
dia 5
0,36 0,32 0,31
dia 6
0,44 0,34 0,31
dia 7
0,75 0,51 0,55
dia 8
0,55 0,45 0,47
dia 9
0,66 0,42 0,41
dia 10
0,45 0,67 0,54
O Teste Anova com 0,05 de significância, mostrou que para F= 0,5 e o
p-valor é 0,6119, ou seja sem diferencia estatística. A figura 4.2 apresenta a
distribuição de valores encontrados para shimmer nas três posturas.
Figura 4.2: Gráfico de distribuição de valores de shimmer para: 1- Postura neutra, 2-
postura com anteriorização de cabeça com extensão do pescoço e 3 postura com
aumento da cifose toráxica com anteriorização de cabeça.
99
Para freqüência fundamental os valores médios foram para a postura 1:
máximo de 139,20 Hz; mínimo de 105,25 Hz; média de 123,03 Hz e desvio
padrão de 10,51 Hz. Para a postura 2, o máximo foi de 139,40 Hz; o mínimo de
111,40 Hz; a média de 125,88 Hz e desvio padrão de 9,85 Hz. Para postura 3,
a máxima de 140,90 Hz, a mínima de 114,05 Hz; a média de 127,95 Hz e
desvio padrão de 8,67 Hz. Na tabela 4-9 encontram-se os valores médios da
freqüência fundamental (F
0
) de cada amostra de voz nas três posturas
avaliadas.
Tabela 4-9: Valores da Freqüência fundamental F0 (Hz) das vozes nas três posturas.
Dia
Postura 1
(F
0
Hz)
Postura 2
( F
0
Hz)
Postura 3
(F
0
Hz)
Dia 1
113,10 113 119,20
Dia 2
105,25 111,40 114,05
Dia 3
119,80 125,45 128,25
Dia 4
114,10 113,15 115,80
Dia 5
117,10 124,55 126,25
Dia 6
125,40 127,60 133,40
Dia 7
129,20 136,45 131
Dia 8
139,20 139,40 138,25
Dia 9
129,35 132,30 132,40
Dia 10
137,85 135,50 140,90
O resultado do Teste Anova unilateral com 0,05 de significância, mostrou
que para F= 0,58 o p-valor é 0,566; por conseguinte, no há diferencia
estatística significante entre os três grupos. Na figura 4.3 se observa a
distribuição de valores médios para freqüência fundamental dos sinais de voz
nas três posturas.
100
Figura 4.3: Gráfico de distribuição de valores de freqüência fundamenta F0 para: 1-
Postura neutra, 2- postura com anteriorização de cabeça com extensão do pescoço e 3
postura com aumento da cifose toráxica com anteriorização de cabeça.
Em sínteses, os testes estatísticos não apresentaram diferenças
estatisticamente significantes para os parâmetros de jitter, shimmer e
freqüência fundamental (F
0
) em diferentes posturas.
4.2.3 Vozes patológicas
4.2.3.1 Vozes com disfonia organofuncional
Edema
Para jitter os valores foram: máximo de 1,48%; mínimo de 0,16%; media
de 0,35% e desvio padrão de 0,31%. Para o parâmetro de shimmer o valor
máximo foi de 11,05%; mínimo de 0,43%; valor médio de 1,80% e desvio
padrão de 2,51%. Os valores médios de jitter e shimmer não foram separados
segundo gênero.
101
Os valores médios de freqüência fundamental de todos os sinais de voz
(masculinos e femininos) com edema de Reinke foram: máximo de 224,80 Hz;
mínimo de 105,65 Hz; média 154,94 Hz e desvio padrão 42,32 Hz. Os valores
por gênero foram: para as vozes femininas (14 sinais de voz) mínimo de 107,75
Hz; máximo de 224,80 Hz; média de 159,00 Hz e desvio padrão de 44,80 Hz.
Para as vozes masculinas (2 sinais de voz) os valores foram: mínimo de 105,65
Hz; máximo de 161,30 Hz; média de 137,35 Hz e desvio padrão de 28,61 Hz.
Na tabela 4-10 têm-se os valores médios das 16 amostras de vozes com
edema de Reinke.
Tabela 4-10: Valores médios dos parâmetros acústicos jitter, shimmer, e F
0
para os 16
sinais de voz com edema de Reinke.
Paciente Jitter (%) Shimmer (%) F
0
(Hz)
Paciente 1 0,17 0,70 208,00
Paciente 2 0,30 1,78 155,40
Paciente 3 0,30 0,71 145,80
Paciente 4 0,16 1,54 109,90
Paciente 5 0,29 1,25 110,95
Paciente 6 0,17 0,43 134,00
Paciente 7 0,24 1,09 145,05
Paciente 8 0,34 1,71 105,65
Paciente 9 0,25 1,77 135,90
Paciente 10 0,23 0,54 221,05
Paciente 11 0,30 1,91 224,80
Paciente 12 0,22 1,05 224,00
Paciente 13 0,47 1,27 135,00
Paciente 14 1,48 11,05 161,30
Paciente 15 0,34 1,19 107,75
Paciente 16 0,33 0,76 154,50
102
Nódulos
Os valores médios para jitter foram: máximo de 1,94%; mínimo de
0,16%; média de 0,38 % com desvio padrão de 0,45%. Para shimmer o valor
máximo foi de 6,75%; mínimo de 0,62%; média de 1,74% e desvio padrão de
1,72%. Os valores médios da freqüência fundamental (F
0
), sem divisão por
gênero, foram: máximo de 277 Hz; mínimo de 109,2 Hz; média de 201,69 Hz e
desvio padrão de 50,97 Hz. Quando divididos por gêneros, os valores das
vozes femininas foram: máximo 277 Hz; mínimo 109,20 Hz; média de 213,06
Hz com desvio padrão de 50,06 Hz. Para as vozes masculinas o valor máximo
foi 200,80 Hz, o mínimo 125,55 Hz, média de 162,48 Hz com desvio padrão de
37,62 Hz. A tabela 4-11 apresenta os valores dos 15 sinais com nódulo.
Tabela 4-11: Valores médios de jitter, shimmer, e F
0
dos 15 sinais com nódulos vocais.
Sinal de Voz
Jitter (%) Shimmer (%)
F
0
(Hz)
Paciente 1 0,29 0,95 239,80
Paciente 2 0,35 0,87 232,55
Paciente 3 0,39 0,745 236,70
Paciente 4 0,28 1,83 204,40
Paciente 5 0,17 1,35 109,20
Paciente 6 0,16 0,99 164,10
Paciente 7 0,17 0,72 178,80
Paciente 8 0,17 0,78 139,10
Paciente 9 1,94 4,78 244,65
Paciente 10 0,25 6,75 125,55
Paciente 11 0,17 0,62 200,80
Paciente 12 0,66 1,99 270,70
Paciente 13 0,21 1,38 189,80
Paciente 14 0,20 1,04 212,20
Paciente 15 0,32 1,33 277
103
4.2.3.2 Vozes com disfonia orgânica de origem neurológica
Os valores médios do jitter foram: máximo de 1,72%; mínimo de 0,13%;
média de 0,39% e desvio padrão de 0,401%. Para shimmer, máximo de
13,18%; mínimo de 1,17%; média de 3,21% e desvio padrão de 2,99%. Para
freqüência fundamental masculina (7 sujeitos) os valores médios foram:
máximo de 250,30 Hz; mínimo de 105,80 Hz, media de 160,38 Hz e desvio
padrão de 48,32 Hz. Para mulheres (7 sujeitos) os valores médios foram:
máximo de 234,20 Hz; mínimo de 144,60 HZ; média de 190,98 Hz e desvio
padrão de 34,45 Hz. A tabela 4-12 apresenta os valores médios de jitter,
shimmer e F
0
de todos os sinais de voz de pacientes com alterações
neurológicas.
Tabela 4-12: Valores médios de jitter, shimmer e freqüência fundamental de vozes de
pacientes com disfonia neurológica.
Sinal de voz Jitter (%) Shimmer (%) F
0
(Hz)
Paciente 1 0,300 2,41 200,7
Paciente 2 0,170 1,85 174,2
Paciente 3 0,560 3,07 105,8
Paciente 4 0,270 2,14 129
Paciente 5 1,720 13,18 234,2
Paciente 6 0,185 1,17 187,75
Paciente 7 0,270 2,37 208,2
Paciente 8 0,160 1,88 139
Paciente 9 0,180 2,70 223,7
Paciente 10 0,130 1,36 136,65
Paciente 11 0,200 4,02 250,3
Paciente 12 0,470 1,78 144,6
Paciente 13 0,515 3,59 167,7
Paciente 14 0,450 3,50 157,8
104
Foi realizado o teste estatístico de variância ANOVA unilateral com 0,05
de significância, com objetivo de comparar os resultados de jitter e shimmer
dos grupos de vozes saudáveis, edema de Reinke, nódulos e disfonias
neurológicas. Para jitter o p-valor foi de 0,279; deste modo sem diferencia
estatística entre grupos. A figura 4.4 mostra a distribuição dos valores médios
de jitter para os quatro grupos.
Figura 4.4: Gráfico de distribuição de valores de jitter para: grupo 1- vozes saudáveis,
grupo 2- edema de Reinke; grupo 3- nódulos vocais e grupo 4- disfonia orgânica de
origem neurológico.
Para shimmer a ANOVA calculou um p-valor de 0,0644, isto indica uma
tendência dos grupos serem diferentes, mas essa diferença não é
estaticamente significativa. A figura 4.5 apresenta a distribuição dos valores
médios dos quatro grupos.
105
Para o parâmetro de freqüência fundamental (F
0
) não foi realizado o
teste ANOVA, devido à diferença existente na quantidade de sujeitos quando
divididos por gênero.
Figura 4.5: Gráfico de distribuição de valores de shimmer para: grupo 1- vozes
saudáveis , grupo 2- edema de Reinke; grupo 3- nódulos vocais e grupo 4- disfonia
orgânica de origem neurológico.
Em síntese, a análise acústica das medidas de perturbação de
freqüência e amplitude – jitter e shimmer –não apresentou significância
estatística para os quatro grupos comparados.
4.3 Análise qualitativa dos Padrões Visuais da Dinâmica Vocal
4.3.1 Vozes normais
A análise qualitativa descritiva da configuração dos PVDV foi realizada
levando em conta: número de laços ou loops, regularidade e convergência dos
106
traçádos. Os resultados receberam tratamento estatístico com os testes não
paramétricos de Kruskal-Wallis e o teste de comparação múltipla, ou teste de
Dunn, ambos com 0,05 de significância.
Com esta técnica, espera-se que dependendo da vogal sustentada
analisada, os PVDV apresentem configurações de laços similares, refletindo
uma dinâmica semelhante para um determinado gesto vocal, neste caso, a
emissão da vocal /a/. Na tabela 4-13 encontram-se a avaliação qualitativa
descritiva dos PVDV dos 16 sinais de voz saudáveis.
Tabela 4-13: Avaliação qualitativa dos PVDV das vozes saudáveis
Sinal de Voz LOOPS REGULARIDADE CONVERGÊNCIA
Sinal 1 3 4 3
Sinal 2 4 5 3
Sinal 3 3 5 3
Sinal 4 4 4 2
Sinal 5 4 4 3
Sinal 6 4 4 3
Sinal 7 4 4 3
Sinal 8 4 4 4
Sinal 9 4 4 2
Sinal 10 4 4 4
Sinal 11 3 4 4
Sinal 12 3 4 4
Sinal 13 4 5 3
Sinal 14 4 4 3
Sinal 15 3 3 2
Sinal 16 4 4 4
As 16 vozes saudáveis apresentaram configurações similares em
relação ao formato e número de laços, sendo que todas as amostras foram
107
avaliadas com grau 4 ou grau 3. Onze sinais (68,75%) apresentaram laços
grau 4, ou seja mais de 3 loops; e 5 sinais (31,25%) com laços grau 3
(configurações com três loops).
Doze (75%) PVDV foram avaliados com regularidade de traçados grau 4
(traçados regulares com um foco de irregularidade); três (18,75%) PVDV com
grau 5 (traçados regulares globais) e somente um sinal (6,25%) foi avaliado
com grau 3 (regularidade intermitente).
Na avaliação qualitativa da convergência dos traçados, oito (50%) PVDV
foram avaliados com grau 3 (Convergência de forte a média); cinco (31,25%)
PVDV com grau 4 (forte convergência) e 3 PVDV (18,75%) com grau 2
(convergência média).
A figura 4.6 apresenta seis exemplos de padrões visuais de dinâmica
vocal de sinais de voz sem alteração ou queixa vocal. Nestes PVDV pode-se
observar uma configuração similar de loops – vários laços concêntricos de
diferentes tamanhos – o que indica que se trata de uma vogal /a/ com
componentes harmônicas de diferente amplitude.
108
Figura 4.6: Exemplos de PVDV de trechos de 200 milissegundos da vogal sustentada /a/
de vozes saudáveis.
Todas as amostras de voz deste grupo apresentaram características
similares as dos exemplos ilustrados na figura 4.6, evidenciando a natureza de
dinâmica não linear dos sinais de voz, que normalmente apresentam variações
de ciclo a ciclo, mas com um padrão de comportamento semelhante.
109
4.3.2 Voz normal com mudanças posturais
Neste grupo foram considerados os laços ou loops, a regularidade e a
convergência dos traçados, assim como a estabilidade da configuração dos
PVDV ao longo dos dias de avaliação. Foi aplicado o teste não paramétrico de
Kruskal-Wallis e o teste de comparações múltiplas de Dunn com 0,05 de
significância.
A fim de exemplificar esta avaliação qualitativa a figura 4.7 mostra os
PVDV de trechos de voz de 200 milissegundos nas três posturas avaliadas; do
lado direito se apresenta uma aproximação de um segmento do traçado. Nesta
figura é possível visualizar o comportamento diferencial dos traçados e
configurações para cada uma das posturas. Para este tipo de avaliação
qualitativa é fundamental a observação detalhada de todo o percurso de
traçados dos PVDV.
No exemplo da figura 4.7 o PVDV da postura 1 foi avaliado com laços
grau 4 (mais que 3 loops) com traçados regulares (grau 5) e uma forte
convergência de traçados (grau 4). Na postura 2, a configuração de número de
laços se mantém estável em relação a postura 1, mas os traçados apresentam
regularidade intermitente (grau 3), e a convergência foi classificada com grau 2
(convergência media), em outras palavras, trajetórias mais espalhadas
uniformemente. Para a postura 3 a dinâmica de loops e de regularidade de
traçado é similar à postura 1, mas a convergência muda para grau 3, de forte a
média.
110
Figura 4.7: PVDV para as três posturas avaliadas. 1- Postura neutra, 2- postura com
anteriorização de cabeça com extensão do pescoço e 3- postura com aumento da cifose
toráxica com anteriorização de cabeça.
Os resultados para este grupo mostraram que para postura 1 (postura
neutra) os dez sinais (100%) foram avaliados com grau 4, ou seja,
configurações com mais de 3 loops. Para regularidade dos traçados, quatro
amostras de voz (40%) foram classificadas com grau 4, três amostras (30%)
com grau 5 e as três amostras restantes (30%) com grau 3; em outras
111
palavras, o comportamento dos traçados foi de regular global a regular
intermitente. Na avaliação de convergência de traçados seis sinais (60%)
apresentaram grau 4 (forte convergência) e quatro sinais (40%) grau 3
(convergência de forte a média).
A Figura 4.8 ilustra quatro exemplos de PVDV para a postura neutra.
Nos PVDV é possível perceber uma dinâmica similar para as três
características avaliadas, mais de três laços, traçados retilíneos, regulares com
convergência forte e homogênea em todo o percurso dos traçados.
Figura 4.8: Exemplos de PVDV para a postura 1 ou Postura neutra correspondentes as
amostras dos dias 1, 5, 7 e 9.
112
Na avaliação dos PVDV da postura 2 , seis vozes (60%) apresentaram
configurações com mais de 3 laços (grau 4); três vozes (30%) com loops grau 3
e uma voz com loops grau 2. Dois sinais (20%) foram avaliadas com traçados
grau 4 (regulares com uma porção de irregularidade); quatro sinais de voz
(40%) com traçados de regularidade intermitente ou grau 3 e quatro sinais
(40%) foram avaliadas como levemente irregulares ou grau 2 de regularidade.
Na avaliação da convergência 3 PVDV (30%) foram classificados com grau 4
(forte convergência); 6 PVDV (60%) com grau 3 (convergência de forte a
média) e 1 PVDV (10%) com grau 2 (convergência média).
Os exemplos da Figura 4.9 correspondem a PVDV da postura 2 ou
postura com anteriorização de cabeça e com extensão do pescoço. Os quatro
exemplos apresentam uma dinâmica de configuração e de traçados claramente
diferente em relação às amostras da postura neutra.
113
Figura 4.9: Exemplos de PVDV para a postura 2 ou postura com anteriorização de
cabeça e com extensão do pescoço. Os quatro PVDV correspondem aos dias 1, 5, 7 e 9.
Para a postura 3, cinco vozes (50%) foram classificadas com laços grau
4, dois sinais (20%) com grau 3 e três sinais de voz (30%) com loop grau 2. Na
avaliação dos traçados: dois sinais (20%) mostraram traçados completamente
regulares ou grau 5; uma voz (10%) apresentou traçados regulares com uma
porção de irregularidade (grau 4) e sete (70%) dos PDVD foram avaliados com
grau 3 ou regularidade intermitente. Quatro PVDV (40%) apresentaram
convergência grau 4 (forte convergência) e seis sinais de voz (60%)
convergência grau 3 ( forte a média convergência).
Para ilustrar os resultados da postura 3 a Figura 4.10 apresenta quatro
exemplos de PVDV. Nestes exemplos, observam-se algumas diferenças com
114
respeito ao grupo de postura neutra, principalmente na dinâmica dos traçados
e na configuração de laços.
Figura 4.10: Exemplos de PVDV para a postura 3 ou postura com aumento da cifose
toráxica. Os PVDV correspondem aos dias 1, 5, 7 e 9.
Tomando como padrão de referencia os PVDV da postura 1, pode-se
observar diferenças em uma ou mais características dos PVDV das posturas 2
e 3. Sendo que o grau de laços e de traçados foram as características com
dinâmica diferencial. Comparando a postura 1 e a postura 2, quatro PVDV
(40%) da postura 2 apresentaram uma configuração de laços com menor grau
e os restantes seis mantiveram a mesma classificação. Nove PVDV (90%) da
postura 2 foram avaliados com menor grau de traçados e somente uma
manteve o mesmo grau. Seis PVDV (60%) apresentaram menor grau de
115
convergência, dois PVDV aumentaram de grau 3 para grau 4 de convergência
e dois PVDV mantiveram o mesmo grau de convergência.
A comparação dos resultados da postura neutra e da postura 3
evidenciou que cinco sinais de voz (50%) não apresentaram diferença no grau
de laços de uma postura para outra e os restantes, cinco sinais de voz (50%),
mostraram menor grau de laços. Na avaliação dos traçados, seis PVDV (60%)
mantiveram o mesmo grau em ambas as posturas, e quatro PVDV (40%)
diminuíram o grau de regularidade dos traçados. O grau de convergência
permaneceu igual para quatro PVDV (40%), diminuiu para dois sinais (20%) e
aumentou para dois PVDV (20%). Os resultados comparativos dos PVDV das
três posturas encontram-se detalhados para as três características avaliadas
na tabela 4-14.
Tabela 4-14: Avaliação em graus da configuração de laços, regularidade e convergência
dos traçados dos PVDV nas diferentes posturas.
LAÇOS TRAÇADO CONVERGÊNCIA
Dia P1 P2 P3 P1 P2 P3 P1 P2 P3
1
4
4 (=) 4 (=)
4
4 (=) 4 (=)
4
3 (-) 3 (-)
2
4
4 (=) 4 (=)
4
3 (-) 3 (-)
3
2 (-) 3 (=)
3
4
4 (=) 2 (-)
3
2 (-) 3 (=)
3
4 (+) 4 (+)
4
4
4 (=) 4 (=)
4
3 (-) 3 (-)
3
3 (=) 3 (=)
5
4
2 (-) 2 (-)
3
2 (-) 3 (=)
3
4 (+) 4 (+)
6
4
3 (-) 3 (-)
4
2 (-) 3 (-)
4
3 (-) 4 (=)
7
4
3 (-) 4 (=)
5
3 (-) 5 (=)
4
3 (-) 3 (-)
8
4
4 (=) 3 (-)
5
4 (-) 5 (=)
4
4 (=) 3 (-)
9
4
3 (-) 2 (-)
5
3 (-) 3 (-)
4
3 (-) 3 (-)
10
4
4 (=) 4 (=)
3
2 (-) 3 (=)
4
3 (-) 4 (=)
Legenda: P1: postura 1; P2: postura 2 e P3: postura 3. (=) o grau se mantém igual; (-): menor
grau e (+) maior grau que a postura de referencia.
116
Para o teste de Kruskal-Wallis os parâmetros de laços e regularidade de
traçados demonstraram valores de H
corrigido
superiores ao H
tabela
= 5,99, por
tanto se rejeita a hipótese nula, e os grupos são considerados diferentes. Com
o teste de comparações múltiplas obteve-se que para o parâmetro de laços a
diferença estatística se encontra nos grupos de postura 1 vs. postura 3 com
Q
calculado
=2,4516. Para regularidade dos traçados a diferença foi obtida na
postura 1 vs. postura 2 com Q
calculado
=2,8782. Para convergência o H
calculado
de
2,82353, menor que H
tabela
= 5,99. As restantes combinações de parâmetros
apresentaram valores menores ao Q
tabela
de 2,394, por tanto sem significância
estatística.
4.3.3 Vozes patológicas
São apresentados nesta subseção os resultados qualitativos dos três
grupos de sinais de voz com disfonia – edema de Reinke, nódulos vocais e
disfonia de origem neurológica. Os resultados destes três grupos foram
comparados com os resultados do grupo vozes saudáveis e tratados
estatisticamente com os testes não-paramétricos de Kruskal-Wallis e de
comparações múltiplas ou teste de Dunn.
117
4.3.3.1 Vozes com disfonia organofuncional
Edema de Reinke
Na análise qualitativa dos PVDV dois sinais (12,5%) foram classificadas
com laços grau 4 (mais de 3 loops); quatro vozes (25%) com grau 3; cinco
vozes (31,25%) com grau 2; e os cinco sinais restantes (31,25%) com 1 laço.
Nenhum PVDV deste grupo foi avaliado com grau 0 de laços.
A regularidade dos traçados foi avaliada com três PVDV (18,75%) com
grau 4 (regular com um foco de irregularidade); seis PVDV (37,5%) com grau 3
(regularidade intermitente); quatro (25%) com regularidade de traçados grau 2
(irregularidade leve global); um sinal de voz (6,25%) apresentou regularidade
grau 1 e dois PVDV (12,5%) com traçados irregulares globais (grau 0). Neste
grupo, todos os PVDV apresentam traçados com irregularidades de diferentes
graus.
Em relação ao grau de convergência, oito PVDV (50%) foram avaliadas
com grau 3 (convergência de forte a média); cinco PVDV (31,25%) com grau 2
(convergência media) e três PVDV (18,75%) com grau 1 (convergência de
média a fraca). Nenhum PVDV deste grupo foi avaliado com grau 4 ou grau 0.
Na tabela 4-15 são apresentados os resultados da avaliação qualitativa dos
PVDV do grupo de edema de Reinke.
118
Tabela 4-15: Resultados da avaliação dos PVDV das vozes com edema de Reinke.
Paciente Laços Regularidade Convergência
Paciente 1 1 2 1
Paciente 2 3 3 2
Paciente 3 2 3 2
Paciente 4 2 3 2
Paciente 5 3 2 3
Paciente 6 1 2 3
Paciente 7 3 1 2
Paciente 8 2 3 3
Paciente 9 3 4 3
Paciente 10 1 4 3
Paciente 11 2 0 1
Paciente 12 4 3 3
Paciente 13 1 0 1
Paciente 14 4 2 2
Paciente 15 1 3 3
Paciente 16 2 4 3
Como exemplo a figura 4.11 apresenta seis PVDV de sinais com edema
de Reinke.
119
Figura 4.11: Exemplos de PVDV de seis sinais de voz com edema de Reinke.
Do ponto de vista de uma avaliação comparativa com um grupo
referencial – neste caso as vozes sem disfonia ou queixa vocal – a diferença do
comportamento dinâmico entre os grupos fica evidente. Enquanto as vozes
sem alteração apresentam PVDV com configurações complexas de 3 ou mais
laços, com traçados retilíneos e tendência a forte convergência; os PVDV das
120
vozes com edema de Reinke têm configurações menos complexas com menor
regularidade e convergência dos traçados.
Nos exemplos 01 e 10 da Figura 4.11 os PVDV mostraram a perda de
complexidade de laços – somente um – e também evidenciaram a presença de
irregularidade (grau 2 e 4, respectivamente) e menor grau de convergência
(grau 1 e 3, respectivamente), com traçados irregulares e espalhados.
Nos exemplos 09 e 12 os PVDV conservaram a complexidade de laços
(grau 3 e grau 4), mas a dinâmica das trajetórias mostraram menor grau de
convergência (grau 3 para ambos os casos) com traçados dispersos embora
regulares (regularidade grau 4 e grau 3 respectivamente). A figura 4.12 mostra
uma porção do PVDV onde é possível observar em detalhes a dinâmica da
regularidade dos traçados e da convergência.
Figura 4.12: Exemplo 09 e uma aproximação de PVDV de uma voz com edema de Reinke.
Os PVDV dos sinais 07 e 14 foram classificados com grau de laços
compatível com as vozes saudáveis (grau 3 e 4), mas a avaliação da
regularidade dos traçados foi baixa (grau 1 e grau 2) com traçados irregulares
121
ao longo de todo o percurso, ou levemente irregulares com focos de
irregularidade. Estes PVDV também apresentaram menor grau de
convergência (grau 2) ao longo de todo o percurso. A Figura 4.13 apresenta
uma aproximação do PVDV do sinal 07 a fim de uma melhor visualização da
dinâmica irregular dos traçados.
Figura 4.13: Exemplo 07 e uma aproximação de PVDV de uma voz com edema de Reinke.
Nódulos vocais
Os resultados da análise qualitativa dos PVDV de sinais com nódulo
foram: seis PVDV (40%) com 1 laço; quatro PVDV (26,66%) com 2 laços, dois
PVDV (13,33%) com 3 loops e dois PVDV (13,33%) com 4 loops; somente um
PVDV (6,66%) foi avaliado com loop grau 0. Referente à regularidade dos
traçados, quatro PVDV (26,66%) apresentaram traçados grau 3 (regularidade
intermitente); quatro PVDV (26,66%) com grau 2 (traçados irregulares leves
global); quatro (26,66%) com grau 1 (irregularidade leve com focos de
irregularidade e três PVDV (20%) com traçados grau 0 (irregularidade global).
122
Na avaliação da convergência nove PVDV (60%) apresentaram
convergência de traçados de forte a média (Grau 3); dois PVDV (13,33%)
convergência média (grau 2); dois PVDV (13,33%) com convergência de média
a fraca, e dois PVDV (13,33%) com convergência grau 0 (fraca convergência).
A tabela 4-16 apresenta os resultados qualitativos da análise dos PVDV dos
sinais de voz com nódulos vocais.
Tabela 4-16: Resultados qualitativos dos PVDV das vozes com nódulos vocais.
Sinal de voz Laços Regularidade Convergência
Paciente 1 3 2 3
Paciente 2 1 0 3
Paciente 3 1 0 3
Paciente 4 1 1 3
Paciente 5 4 3 3
Paciente 6 4 3 3
Paciente 7 3 3 2
Paciente 8 1 2 1
Paciente 9 0 0 0
Paciente 10 2 1 0
Paciente 11 2 3 3
Paciente 12 1 1 2
Paciente 13 2 2 1
Paciente 14 1 2 3
Paciente 15 2 1 3
A figura 4.14 mostra 6 PVDV de sinais de voz com nódulo vocal, cada
PVDV mostra a dinâmica diferenciada dos sinais de voz deste grupo.
123
Figura 4.14: Exemplos de PVDV de seis vozes com nódulos vocais.
De modo particular, os PVDV 01 e 05 da figura 4.14 mostraram uma
dinâmica similar à das vozes saudáveis com referência à configuração de laços
(3 ou mais laços) mas em contrapartida apresentam menores graus de
regularidade e a convergência, comparadas com as vozes saudáveis.
Nos exemplos 02 e 12 os PVDV mostraram um tipo de traçado com
diferentes graus de irregularidade (grau 0 e grau 1, respectivamente) que
124
evidência a proporção de ruído no sinal de voz. Nestes exemplos é possível ver
a perda de laços na configuração – relacionada com menor quantidade de
harmônicos do sinal de voz – e uma convergência média. A Figura 4.15
apresenta uma aproximação de uma porção do PVDV do sinal 12, nesta
imagem é possível apreciar as características de dinâmica irregular de sinais
com nódulos vocais.
Figura 4.15: Exemplos de PVDV de seis vozes com nódulos vocais.
Os PVDV das vozes de nódulos 08 e 09 ilustram mais uma característica
desviada, o grau de convergência. Nestas figuras é possível apreciar PVDV
com configuração de loops grau 1, alta irregularidade dos traçados (Irregular
leve global e Irregular global) e baixos graus de convergência (média a fraca, e
fraca global). A figura 4.16 mostra em detalhe uma porção do PVDV da voz 08;
nela é possível observar a irregularidade e a dispersão de traçados na
dinâmica de uma voz com nódulos.
125
Figura 4.16: Exemplos de PVDV de seis vozes com nódulos vocais.
4.3.3.2 Vozes com disfonia orgânica de origem neurológica
A análise qualitativa dos padrões visuais de dinâmica vocal do grupo de
vozes com alterações neurológicas resultou em: seis PVDV (42,85%) com
laços ou loops grau 0; um PVDV (7,14%) com 1 laço; três PVDV (21,42%) com
2 laços e três PVDV com três laços, e um PVDV (7,14%) com mais de 3 laços
(grau 4). Relativo ao traçado das órbitas, oito PVDV (57,14%) apresentaram
regularidade intermitente (grau 3); dois PVDV (14,28%) com grau 2 e dois
(14,28%) PVDV com grau 0; um PVDV (7,41%) com traçado (grau 1) e um
PVDV (7,41%) com traçado irregular (grau 4). A convergência foi avaliada com
quatro PVDV (28,57%) com grau 0 e quatro PVDV (28,57%) com grau 1 de
convergência; um PVDV ( 7,14%) apresentou grau 3 e cinco PVDV (35,71%)
com grau 2. A tabela 4-17 apresenta os resultados completos da avaliação
qualitativa deste grupo.
126
Tabela 4-17: Avaliação qualitativa dos PVDV das vozes com disfonia neurológica.
Pacientes Laços Regularidade Convergência
Paciente 1 0 3 0
Paciente 2 2 3 1
Paciente 3 0 0 0
Paciente 4 0 3 2
Paciente 5 0 3 0
Paciente 6 4 3 3
Paciente 7 3 2 2
Paciente 8 3 3 2
Paciente 9 0 2 1
Paciente 10 3 3 2
Paciente 11 0 4 0
Paciente 12 1 0 2
Paciente 13 2 3 1
Paciente 14 2 1 1
A figura 4.17 mostra seis exemplos PVDV de vozes com alterações
neurológicas. Nesta figura pode-se apreciar a dinâmica dos sinais com
traçados de convergência média a fraca, nas quais é difícil avaliar a
configuração geral e o número de laços ou loops.
127
Figura 4.17: Exemplos de PVDV de vozes de pacientes com alterações neurológicas.
Na maioria dos casos que a convergência é fraca o número de laços
também se encontra classificado com grau 0, já que formato e loops ficam
prejudicados na projeção do PVDV, como mostram os exemplos 01, 05 e 11 da
Figura 4.17. Estes PVDV embora com baixos graus de convergência e de laços
apresentam trajetórias com grau de regularidade intermitente e regularidade
com foco de irregularidade como mostra em detalhe da figura 4.18.
128
Figura 4.18: Exemplo 11 e uma aproximação de PVDV de uma voz com disfonia de
origem neurológica.
No caso dos exemplos 03 e 12, ambas foram avaliadas com traçados de
irregularidade global (grau 0) mas diferentes graus de convergência e loops, a
característica mais notória é a irregularidade como mostra a aproximação na
figura 4.19.
Figura 4.19: Exemplo 12 e uma aproximação de PVDV de uma voz com disfonia de
origem neurológica.
Na avaliação geral dos sinais com disfonia neurológica foram
observadas mudanças do formato e número de laços ou loops, da regularidade
e da convergência dos traçados, se comparadas com as vozes saudáveis e
também com os outros grupos de sinais com disfonia organofuncional.
129
Conseqüentemente, as vozes com disfonia metrológica apresentam uma
dinâmica característica que as diferencia dos outros grupos
Avaliação comparativa dos 4 grupos de vozes.
A tabela 4-18 apresenta comparativamente as porcentagens de
ocorrência de grau de laços ou loops para cada grupo.
Tabela 4-18: Comparação de porcentagens de graus de laços dos 4 grupos de vozes
Saudáveis Edema de Reinke Nódulos D. Neurológica
Loops
% N % N % N % N
Grau 4
68,75 11 12,5 2 13,34 2 7,14 1
Grau 3
31,25 5 25 4 13,34 2 21,43 3
Grau 2
- - 31,25 5 26,66 4 21,43 3
Grau 1
- - 31,25 5 40 6 7,14 1
Grau 0
- - - - 6,66 1 42,86 6
Legenda: N= número de amostras
Quando realizado o tratamento estatístico do parâmetro de laços ou
loops, encontrou-se que um H
corrigido
= 18,7512 superior à o H
tabela
=7,81 para
0,05 de significância, por tanto rejeita-se a hipótese nula e os quatro grupos
podem ser considerados diferentes. O teste de Dunn evidencio que existe
diferença entre os grupos de: saudáveis vs. edema de Reinke com um
Q
calculado
=3,6393; saudáveis vs. nódulos com Q
calculado
=3,8636 e saudáveis vs.
disfonia neurológica com Q
calculado
= 4,50649, todos valores superiores ao
Q(0,05;4)=2,64. As combinações entre patologias mostraram valores de
Q
calculado
inferiores ao Q
tabela.
Tomando como referência o grupo de vozes saudáveis, na avaliação da
regularidade dos traçados, também foi observada uma dinâmica diferencial
130
entre os grupos. O parâmetro de regularidade dos traçados teve um
comportamento similar ao de loops. Mostrando semelhanças entre os grupos
de edema de Reinke e nódulos, que apresentaram PVDV sem graus 5 e 4; com
uma distribuição mais uniforme de graus e com maior concentração nos grau 3
e 2. Nenhuma das vozes com disfonia neurológica apresentou traçados
regulares; este grupo teve maior concentração de casos para o grau 3
(regularidade intermitente). A tabela 4-19 apresenta as porcentagens e número
de casos para o grupo.
Tabela 4-19: Comparação de porcentagens de graus de regularidade de traçados dos 4
grupos de vozes
Saudáveis Edema de Reinke Nódulos D. Neurológica
Regularidade
% N % N % N % N
Grau 5
18,75 3 - - - - - -
Grau 4
75 12 18,75 3 - - 7,15 1
Grau 3
6,25 1 37,50 6 26,66 4 57,14 8
Grau 2
- - 25 4 26,66 4 14,28 2
Grau 1
- - 6,25 1 26,66 4 7,15 1
Grau 0
- - 12,5 2 20 3 14,28 2
No teste estatístico, a regularidade dos traçados dos quatro grupos
apresentou um H
calculado
= 32,89441 superior ao H
tabela
= 7,81; então é rejeitada a
hipótese nula e os grupos são considerados estatisticamente diferentes. O
teste de Dunn mostrou que os grupos com diferença foram: saudáveis vs.
Edema de Reinke com Q
calculado
= 3,860021; saudáveis vs. nódulos com
Q
calculado
=5,455822 e saudáveis vs. disfonia neurológica com Q
calculado
=
3,918488 As combinações entre patologias apresentaram valores inferiores ao
Q
tabela
= 2,64.
131
Para o parâmetro de convergência de traçados, os sinais saudáveis
foram avaliados em sua maioria com grau 4 e 3, enquanto os sinais de vozes
patológicas tiveram maior ocorrência de dispersão, principalmente nos
pacientes com disfonia neurológica. Vozes saudáveis, de edema e de nódulos
apresentaram maior número de casos para o grau 3, mas a distribuição dos
restantes sinais foi diferente para nódulos e edema. A tabela 4-20 apresenta
comparativamente as porcentagens de ocorrência de grau de convergência
para cada grupo.
Tabela 4-20: Comparação de porcentagens de graus de convergência para os 4 grupos
Saudáveis Edema de Reinke Nódulos D. Neurológica
Convergência
% N % N % N % N
G4
31,25 5 - - 0 0 - -
G3
50 8 50 8 60 9 7,14 1
G2
18,75 3 31,25 5 13,33 2 35,71 5
G1
- - 18,75 3 13,33 2 28,57 4
G0
- - - - 13,33 2 28,57 4
Para grau de convergência, o teste não paramétrico de Kruskal- Wallis,
mostrou diferença estatística entre os grupos, com um H
calculado
= 22,11417,
superior ao H crítico= 7,81 para α=0,05. O teste de Dunn evidenciou diferenças
entre os grupos: saudáveis vs. disfonia neurológica com Q
calculado
=4,698701;
edema de Reinke vs. disfonia neurológica com Q
calculado
=2,714065 e entre
nódulos vs. disfonia neurológica com Q
calculado
= 2,691783, valores de Q
calculado
superiores ao Q(0,05;4)=2,64. As comparações restantes foram inferiores ao Q
crítico e, portanto, sem diferença estatisticamente significante.
Para avaliar a associação de variáveis das três técnicas utilizadas –
avaliação perceptivo-auditiva, acústica e de PVDV – foi aplicado o coeficiente
132
de correlação (r), avaliado qualitativamente quanto à intensidade segundo os
critérios propostos por CALLEGARI-JACQUES (2003). Para validar os
coeficientes de correlação foi aplicado o teste T, com um nível de significância
de α=0,05, o t
tabela
foi de 1,98. Todos os coeficientes de correlação (r) e os
valores de t
calculado
encontram-se na tabela 4-21.
Tabela 4-21: Coeficiente de correlação (r) para as três técnicas de análise de voz
Acústica x Perceptiva
r
Grau de correlação T calculado
Jitter x Rugosidade 0,2912 Fraca 2,8716*
Jitter x Soprosidade 0,243 Fraca 2,3633*
Jitter x Tensão 0,0603 Fraca 0,5699
Jitter x Irregularidade 0,3952 Regular 4,0581*
Shimmer x Rugosidade 0,3471 Regular 3,4916*
shimmer x Soprosidade 0,2791 Fraca 2,742*
Shimmer x Tensão 0,2093 Fraca 2,0193*
Shimmer x Irregularidade 0,4756 Regular 5,1006*
Acústica x PVDV
r
Grau de correlação T calculado
jitter x Loop (laço) -0,4089 Regular 4,2271*
JItter x Regularidade -0,3812 Regular 3,89*
Jitter x Convergência -0,484 Regular 5,2179*
Shimmer x Loop (laço) -0,322 Regular 3,2086*
Shimmer x Regularidade -0,2278 Fraca 2,2071*
Shimmer x Convergência -0,5729 Regular 6,5941*
Perceptiva x PVDV
r
Grau de correlação T calculado
Rugosidade x Loop (laço) -0,4589 Regular 4,8726*
Rugosidade x Regularidade -0,3987 Regular 4,1014*
Rugosidade x Convergência -0,5281 Regular 5,8669*
Soprosidade x Loop (laço) -0,5684 Regular 6,5175*
Soprosidade x Regularidade -0,4377 Regular 4,5925*
Soprosidade x Convergência -0,5113 Regular 5,6127*
Tensão x Loop (laço) -0,1643 Fraca 1,5714
Tensão x Regularidade -0,0663 Fraca 0,6269
Tensão x Convergência -0,3427 Regular 3,4414*
Irregularidade x Loop (laço) -0,5095 Regular 5,5860*
Irregularidade x Regularidade -0,2893 Fraca 2,8512*
Irregularidade x Convergência -0,5661 regular 6,4786*
Legenda: r= coeficiente de correlação
* significância estatística maior que T
tabela
de 1,98.
133
5 DISCUSSÃO
Neste trabalho foram processados 91 sinais de voz, separados em 4
grupos: vozes saudáveis, vozes com edema de Reinke, vozes com nódulos e
vozes com disfonia neurológica. Também foi incluído um subgrupo para as
vozes saudáveis: vozes saudáveis com alteração postural, este grupo foi
incluído com o objetivo de avaliar mais profundamente as possibilidades das
técnicas. Foram empregadas duas ferramentas tradicionais da clínica
fonoaudiológica (avaliação perceptivo-auditiva e análise acústica) em conjunto
com a nova técnica de análise dos padrões visuais de dinâmica vocal (PVDV).
Por aplicar um conjunto de ferramentas, esta pesquisa proporcionou um
panorama geral da abrangência da análise qualitativa dos PVDV, evidenciando
seus alcances e limites; ademais de estabelecer associações e interferências
entre parâmetros e técnicas.
Avaliação perceptivo-auditiva
Para o grupo de vozes sem alteração vocal, a análise perceptivo-auditiva
apresentou resultados esperados e compatíveis com os encontrados na
literatura. Embora alguns problemas com a terminologia comprometem o
consenso e a comparação de resultados (KURDUK, 2009), as vozes saudáveis
produzem ciclos glóticos quase-periódicos, porque a integridade da margem
134
vibratória das pregas vocais produz uma boa qualidade vocal (SATALOFF,
1997).
Embora alguns autores (SCHNEIDER, DENNEHY, SAXON, 1997) e
(KYRILLOS, CORTES, FEIJÓ, 2003) enfatizam que uma postura correta pode
fazer grande diferença no resultado da produção vocal, o subgrupo de vozes
saudáveis alteração postural, não apresentou diferença estatística na avaliação
perceptivo-auditiva entre os três grupos avaliados, resultados semelhantes aos
achados por CARNEIRO ET AL (2008) e CARNEIRO (2009). O trabalho de
ARBOLEDA e FREDERICK (2008) afirma que a postura da coluna cervical esta
diretamente relacionada à ressonância. Este aspecto não foi contemplado
neste trabalho, portanto é sugerido que seja considerado em trabalhos futuros.
Os grupos de vozes com disfonias organofuncionais e orgânicas
mostraram que o parâmetro de rugosidade foi um diferencial quando
comparadas vozes saudáveis com vozes com edema de Reinke. Esta
rugosidade percebida nas vozes com edema de Reinke pode ser ocasionada
nos movimentos assimétricos das pregas vocais com sucessivas vibrações
aperiódicas (HIRANO & BLESS, 1997).
A soprosidade mostrou ser uma característica distintiva quando
comparadas vozes saudáveis e vozes de nódulos, assim como para, vozes
saudáveis e vozes com disfonia neurológica. De acordo com KARKOS;
MCCORMICK (2009) os nódulos são lesões que interferem no fechamento
glótico causando principalmente rugosidade e ocasionalmente soprosidade; no
135
caso das disfonias de origem neurológicas a soprosidade pode ser uma das
principais características em diversas patologias neurológicas (COLTON,
CASPER, LEONARD, 2010).
A tensão e a irregularidade foram aspectos diferenciais na comparação
de sinais de edema de Reinke e disfonias neurológicas. Nas vozes com edema
de Reinke a massa da cobertura aumenta, enquanto sua rigidez diminui, e tal
redução da rigidez permite maiores amplitudes de vibração com pouca ou
mínima tensão vocal. De modo contrario, algumas das patologias neurológicas
produzem disfonias espásticas, com maior tono muscular e reflexos
hiperativos, assim como disfonias hipercinéticas, que produzem movimentos
acelerados e descontrolados (BEHLAU, 2005). A irregularidade foi distintiva,
entre os grupos de edema de Reinke e nódulos vocais, estas últimas lesões, se
caracterizam por um fechamento glótico incompleto e dependendo do tamanho
podem produzir maior irregularidade dos ciclos glóticos (KARKOS;
McCORMICK, 2009).
A avaliação perceptivo-auditiva com uma escala de graus não
apresentou diferenças estatisticamente significantes. Resulta importante
mencionar que avaliações perceptivo-auditivas que empregam escalas
analógicas, como por exemplo, a escala CAPE-V (ASHA, 2002), podem
fornecer resultados diferentes aos encontrados neste estudo.
136
Avaliação Acústica
Na avaliação acústica do grupo de vozes saudáveis encontrou-se
porcentagens menores a 2,25% de shimmer e 0,3% de jitter. De acordo com
(BEHLAU, 2001) vozes saudáveis apresentam simetria de amplitude e fase,
periodicidade, e uma boa coaptacão glótica, que favorecem um sinal de voz
estável com qualidade vocal e baixa porcentagem de perturbação de amplitude
e freqüência. O mesmo aconteceu com as vozes com alterações posturais, que
não apresentaram diferença estatística para a avaliação acústica, resultados
similares aos de CARNEIRO ET AL (2008).
Em contrapartida, as vozes com disfonia tanto organofuncional quanto
orgânica apresentaram valores maiores de jitter e shimmer, mas estas
diferenças não foram estatisticamente significantes. Este resultado é similar ao
encontrado no trabalho de DOUGLAS EL AT (2005), que analisou vozes sem
alteração e vozes com doença de Parkinson. Algumas vozes com edema de
Reinke e com nódulos apresentaram parâmetros acústicos compatíveis com os
valores de vozes consideradas como saudáveis. Isto pode ser devido ao fato
de as vozes com edema de Reinke e nódulos vocais pertencerem a diferentes
estágios evolutivos. Para o grupo das disfonias neurológicas, é possível que a
variedade de doenças consideradas neste grupo, seja um fator de interferência
aumentando a heterogeneidade dos valores de jitter e shimmer. É sugerido
que em próximos trabalhos sejam avaliadas vozes com um tipo de doença
neurológica.
137
Avaliação qualitativa dos PVDV
As vozes saudáveis, que foram avaliadas sem desvio da qualidade e
com baixas porcentagens de perturbação de freqüência e amplitude,
apresentaram PVDV com graus 4 e 3 para laços ou loops e convergência, e
graus 5 e 4 para regularidade de traçados. De igual modo que em trabalhos
anteriores, estas configurações foram tomadas como referenciais
(SCALASSARA ET AL, 2009) e (DAJER, SOBRINHO, PEREIRA, 2010). As
características da configuração de loops encontram-se relacionadas com a
quantidade de formantes e suas respectivas amplitudes. Na vogal /a/ o gesto
vocal proporciona a ressonância de várias freqüências harmônicas devido à
cavidade bucal expandida (MAGRI, 2007).
Os resultados do parâmetro de regularidade das vozes saudáveis são
similares aos achados por MAC CALLUM (2009), e sugerem que os sinais são
altamente estacionários e com baixos índices de perturbações e ruído. O
comportamento convergente das trajetórias é mais característico em sinais
estacionários, onde as órbitas tendem a passar repetidamente pelo mesmo
ponto ou muito próximo dele (KANTZ E SCHREIBER, 2003). Os traçados
regulares, ou com uma pequena porção de irregularidade, indicam uma baixa
proporção de ruído no sinal. A característica de forte convergência de traçádos,
quando as trajetórias passam a cada ciclo pelo mesmo ponto ou muito próximo
dele, refere-se à estacionaridade do sinal, e apresenta baixos índices de
perturbação em freqüência e amplitude. Achados similares foram mencionados
nos trabalhos com vozes saudáveis e patológicas de MAC CALLUM (2009),
138
JIANG ET AL (2009), SCALASSARA ET AL (2009), DAJER, SOBRINHO,
PEREIRA (2010) e MARRARA (2010).
A análise qualitativa dos PVDV do subgrupo de alterações posturais
mostrou diferenças na dinâmica de loops, regularidade e convergência de
traçados, se comparados os três grupos de posturas. A configuração de loops
e a convergência foram diferentes para os grupos de postura 1 e postura 3; a
regularidade apresentou diferenças para os grupos de postura1 e postura 2. Os
efeitos destas mudanças encontram-se justificadas nos trabalhos de
ARBOLEDA, (2008) e CARNEIRO (2009).
Nos sinais com edema de Reinke foi observada maior divergência nas
configurações. Ainda que, todos os sinais pertençam ao mesmo grupo (mesma
classificação por patologia), cada um deles tem uma dinâmica particular, e
conseqüentemente, um PVDV único. Isto pode ser devido a: 1) cada voz é
única e possui características próprias, que podem ser semelhantes a outras,
mas nunca idênticas; e 2) os sinais de voz pertencem à pacientes em
diferentes etapas evolutivas da patologia. MARTINS ET AL (2009) observaram
que diversas lesões que aparecem nas pregas vocais com edema de Reinke
também podem ser vistas em outras patologias como nódulos e pólipos. Estes
motivos podem justificar que vozes com a mesma patologia apresentem um
comportamento dinâmico semelhante, mas com diferenças de grau.
O grupo de nódulos foi avaliado com configurações menos complexas e
menor quantidade de laços, o que está relacionado com a perda de freqüências
139
harmônicas das vozes com lesões de massa. Também apresentou menor grau
de regularidade e convergência de traçados, o que está relacionado com a
quantidade de ruído no sinal e perturbação da freqüência e amplitude. Num
estudo com técnicas não lineares aplicadas na análise de vozes saudáveis,
nódulos e pólipos, JIANG ET AL (2009) acharam que as vozes saudáveis
apresentaram espaços de fase com trajetórias regulares e próximas enquanto
vozes patológicas mostraram espaços de fase irregulares.
Nas vozes com disfonia neurológica as configurações de PVDV
refletiram a presença de ruído e instabilidade do sinal de voz deste tipo de
patologia. Este grupo se caracterizou pela perda de loops, devido à perda de
freqüências harmônicas do sinal, e flutuação de traçados que provocam
desorganização na configuração e está relacionada com a instabilidade
característica deste tipo de disfonia (BEHLAU, 2005). No estudo de MARRARA
(2010) foi encontrado um comportamento dinâmico semelhante em pacientes
com patologia neurológica, cabe mencionar que neste trabalho também foram
consideradas diversas patologias de origem neurológica. É sugerido realizar
trabalhos futuros com uma patologia especifica para evitar a interferência da
diversidade de comportamentos.
Em síntese, a dinâmica dos PVDV das vozes de pacientes com disfonia
organofuncional – como as de edema de Reinke e nódulos vocais,
apresentadas neste trabalho – podem estar correlacionadas com as
características anatomo-fisiológicas deste tipo de lesões. Nestas patologias a
presença de uma massa interfere no fechamento da borda livre das pregas
140
vocais; produzem escape de ar devido à presença da lesão (BEHLAU, 2001), e
diminui a onda mucosa por alterações histológicas nas camadas das pregas
vocais (MADRUGA ET AL, 2003). Os fatores mencionados produzem uma
coaptação glótica insuficiente aumentando o ruído na fonte glótica e
perturbação de freqüência e amplitude; o que no PVDV é representado pela
irregularidade dos traçados, baixa convergência e perda de complexidade na
configuração de laços ou loops.
Quando comparados os grupos de vozes normais, vozes com edema de
Reinke, vozes com nódulos e vozes com disfonia neurológica, a análise
qualitativa dos PVDV mostrou diferenças de dinâmica de loops, regularidade e
convergência de traçados. Para os parâmetros de loops e de regularidade as
vozes saudáveis comparadas com as de edema de Reinke, com as de nódulos
e com as de disfonia neurológica apresentaram diferenças estatísticas,
deixando evidente o comportamento característico de cada grupo. Mas
comparando as vozes de edema de Reinke com as vozes de nódulos o
comportamento foi semelhante entre si. Isto pode ser em decorrência de
ambas serem lesões de massa com algumas características em comum, como
por exemplo, perda de freqüências harmônicas, o que é refletido em PVDV
com menor quantidade de loops.
O comportamento convergente foi diferencial para as vozes saudáveis e
com disfonia neurológica, para as vozes de edema de Reinke e disfonia
neurológica e para as vozes de nódulos e disfonia neurológica. Este parâmetro,
141
diferente dos outros, foi capaz de distinguir o comportamento entre vozes com
alterações patológicas, portanto deve ser mais explorado em trabalhos futuros.
Correlação de parâmetros perceptivos, acústicos e dinâmicos
Na associação dos parâmetros acústicos e perceptivos, encontramos
uma correlação positiva de grau regular ou moderado, entre jitter e
irregularidade, a medida que aumenta a porcentagem de jitter, as vozes são
percebidas como mais irregulares. O mesmo tipo de correlação foi encontrado
entre shimmer e rugosidade, e entre shimmer e irregularidade, ou seja, quanto
maior a porcentagem de shimmer as vozes foram percebidas como mais
rugosas e irregulares. Embora medidas acústicas e perceptivas sejam
comumente usadas na clínica vocal, de acordo com o trabalho de meta-análise
de MARYN ET AL (2009), as correlações entre parâmetros ainda são
questionáveis.
Para os parâmetros acústicos e dinâmicos de PVDV, foi observada uma
correlação negativa de grau moderado entre jitter e convergência, jitter e loops
e entre jitter e regularidade, ou seja, o aumento de jitter está relacionado à
perda de laços ou loops, menor grau de convergência e regularidade de
traçados. O parâmetro de shimmer também apresentou correlação negativa de
grau regular quando associado à convergência e loop, desta forma, na medida
em que aumenta a porcentagem de shimmer diminui o grau de convergência e
de laços do PVDV.
142
Quando associados os parâmetros perceptivo-auditivos com os
dinâmicos de PVDV, encontramos que rugosidade e soprosidade apresentaram
uma correlação negativa de grau moderado com os três parâmetros dinâmicos;
tensão e convergência também apresentaram o mesmo tipo de correlação; e
irregularidade mostrou correlação negativa de grau moderado com
convergência e loops.
Embora existam métodos que permitam quantificações dos Padrões
Visuais de Dinâmica Vocal (como seção de Poincaré, Máximo Expoente de
Lyapunov), a análise qualitativa descritiva dos PVDV tem um valor clínico que
pode ser comparável com outras técnicas diagnósticas na área da saúde, como
o ECG (eletrocardiograma), raios X, ou espectrograma. Este tipo de ferramenta
evita valores médios – às vezes pouco representativos quando se fala em
vozes patológicas – e permite ter uma visão geral dinâmica e descritiva de um
sinal de voz, sem necessidade de uma prática invasiva.
Em contrapartida a outras ferramentas não invasivas de avaliação vocal,
os PVDV permitem observar detalhadamente a dinâmica envolvida na
produção de sinais de voz. Ademais fornecem, de forma rápida, econômica e
não invasiva, informações complementares aos dados acústicos e perceptivos
convencionais; o que possibilita caracterizar de forma mais acurada a dinâmica
diferencial de cada sinal de voz, seja este considerando normal ou patológico.
Na avaliação e no tratamento de patologias vocais, este tipo de
ferramenta fornece ao paciente outra via de informação – informação visual –
143
que na maioria dos casos de pacientes com disfonia, causa maior impacto na
conscientização da alteração vocal. Também podem ser úteis no processo
terapêutico de disfonias, assim como, no treinamento vocal de profissionais da
voz.
Com esta análise conjunta concluímos que embora as técnicas
tradicionais de avaliação de voz proporcionem valores subjetivos e médios de
grande valia e comparáveis com aqueles encontrados na bibliografia, a análise
dos PVDV, por funcionar como parâmetro dinâmico e não depender da
determinação da freqüência fundamental é uma ferramenta promissora para
ser incorporada na clínica fonoaudiológica.
144
145
CONCLUSÕES
A análise qualitativa descritiva dos PVDV mostrou resultados diferenciais
para cada um dos grupos avaliados. Mostrando que configuração, regularidade
e convergência dos traçados das vozes normais apresentam uma dinâmica
diferencial em relação às vozes disfônicas. As características avaliadas nos
traçados e na configuração dos Padrões Visuais de Dinâmica Vocal podem ser
associadas e correlacionadas com aspectos da qualidade vocal e com as
medidas de perturbação jitter e shimmer, oferecendo desta forma uma análise
mais apurada e completa para o profissional e o paciente.
A associação entre técnicas mostra maiores índices para a correlação
de parâmetros acústicos com PDVD, e para parâmetros perceptivos com
PVDV. Entanto, a correspondência de variáveis acústicas e perceptivas obteve
os menores índices. Mais especificamente, nas técnicas acústica e dinâmica, a
maioria de sinais de voz com porcentagens elevadas de jitter são classificados
com menor grau de convergência, assim como graus inferiores de regularidade
de traçados e de loops. Sinais de voz com altas porcentagens de shimmer
evidenciam PVDV com baixos graus de convergência e loops (laços).
A maioria das vozes avaliadas com grau elevado de rugosidade fornece
PVDV com menores graus de regularidade, convergência e loops. Sinais com
146
grau mais elevado de soprosidade correspondem a configurações com graus
inferiores para loops, regularidade e convergência. Elevados graus de tensão
estão associados a configurações com menor grau de convergência. Vozes
com maior grau de irregularidade as configurações de PVDV apresentam
menor grau de loops (laços) e de convergência.
A análise dos PVDV ainda é uma ferramenta em desenvolvimento,
portanto sugerimos trabalhos futuros com maior número de vozes, com
diferentes patologias, com associação de outros métodos não lineares e
inclusive, pesquisas que combinem análise do sinal de voz com imagem
laríngea, a fim de correlacionar os mecanismos de produção vocal com os
achados da análise dinâmica. Contudo, os resultados obtidos até o momento
fazem pensar que a análise qualitativa descritiva dos Padrões Visuais da
Dinâmica Vocal é uma importante ferramenta para triagens de voz, avaliação e
acompanhamento de distúrbios da voz.
147
6 REFERÊNCIAS BIBLIOGRÁFICAS
AMERICAN SPEECH-LANGUAGE-HEARING ASSOCIATION. Consensus
Auditory-Perceptual Evaluation of Voice (CAPE-V). Rockville Pike, American
Speech-Language-Hearing Association, 2002.
ARBOLEDA, BMW; FREDERICK, AL. Considerations for Maintenance of
Postural Alignment for Voice Production. Journal of Voice, Vol. 22, Issue 1, pp.
90-99. 2008.
AWREJCEWICZ, J. Bifurcation Portrait of the Human Vocal Cord Oscillations.
Journal of Sound and Vibration, 136 (1) pp. 151-156.1990.
BAKEN, RJ; ORLIKOFF, RF. Clinical Measurement of Speech and Voice. San
Diego, CA: Singular Publishing Group, 2000.
BAKEN, RJ. Irregularity of vocal period and amplitude: A first approach to the
fractal analysis of voice. Journal of Voice; Vol. 4: pp. 185–197; 1990.
BEHLAU, M. A Voz. O livro do especialista. Vol. I. Revinter, 2001.
BEHLAU, M. A Voz. O livro do especialista. Vol. II. Revinter, 2005.
BEHLAU, M. Oficina de técnicas de avaliação de voz. In: XV Congresso
Brasileiro de Fonoaudiologia. Campos de Jordão, São Paulo, 2008.
BEHLAU, M; TOSI, O; PONTES, P. Determinação da freqüência fundamental e
suas variações em altura (jitter), em intensidade (shimmer) para falantes do
português brasileiro. Acta AWHO 4: pp. 5-9; 1985.
BEHRMAN, A. Common practices of voice therapists in the evaluation of
patients. Journal of Voice. 19:pp. 454–469. 2005.
BERRY, D; HERZEL, H; TITZE, IR; Story BH. Bifurcations in excised larynx
experiments. Journal of Voice. Vol. 10, pp. 129- 138. 1996.
148
BHUTA, T; PATRICK, L; GARNETT, JD. Perceptual Evaluation of Voice Quality
and its Correlation with Acoustic Measurements. Journal of Voice, Vol. 18, No.
3, pp. 299–304. 2004.
CALLEGARI-JACQUES, SM. Bioestatística: princípios e aplicações. Artemed
Editora AS. São Paulo, 2003.
CARDING, P; CARLSON, E; EPSTEIN, R; MATHIESON, L; SHEWELL, C.
Formal perceptual evaluation of voice quality in the United Kingdom. Logoped
Phoniat Vocol.;25: pp. 133–138. 2000.
CARNEIRO, PR. Características acústicas da voz em diferentes posturas
corporais. Dissertação (Mestrado) – Programa de Pós-Graduação
Interunidades em Bioengenharia/ EESC/ FMRP/ IQSC. Universidade de São
Paulo, São Carlos, 2009.
CARNEIRO, PR; DAJER, ME; MARRARA, JL; MARQUES, RM; TELES, LCS.
Análise da qualidade vocal em profissionais da voz relacionada a diferentes
posturas corporais. XV Congresso Brasileiro de Fonoaudiologia. Campos de
Jordão, São Paulo, 2008.
CARSON, CP; INGRISANO, DRS; EGGLESTON, KD. The Effect of Noise on
Computer-Aided Measures of Voice: A Comparison of CSpeechSP and the
Multi-Dimensional Voice Program Software Using the CSL 4300B Module and
Multi-Speech for Windows”. Journal of Voice, Vol. 17, No. 1, pp. 12–20, 2003.
CHAN, KMK; YIU, EML. A Comparison of Two Perceptual Voice Evaluation
Training Programs for Naive Listeners. Journal of Voice, Volume 20, Issue 2,
pp. 229-241. 2006.
COLTON, RH; CASPER, JK; LEONARD, R. Compreendendo os problemas de
voz: uma perspective fisiológica no diagnóstico e tratamento das disfonias. Ed.
Revinter, 2010.
COMITÊ PARA TESTES DE FUNÇÃO FONATÓRIA DA SOCIEDADE
JAPONESA DE LOGOPEDIA E FONIATRIA - Fita de Vídeo ilustrativo da
“GRBAS”, 1969.
DAJER, ME; MACIEL, CD; PEREIRA, JC. Chaos tool implementation for non-
singer and singer voice comparison (Preliminary study). Journal of Physics:
Conference Series (JPCS). Vol.90, (012082). http://www.iop.org/EJ/toc/1742-
6596/90/1. 2007
DAJER, ME; ANDRADE, FS; PEREIRA, JC. Qualitative and quantitative
analysis of vocal dynamic visual patters. IALP congress, 2010.(NO PRELO)
149
EADIE, TL; BAYLOR, CR. The Effect of Perceptual Training on Inexperienced
Listeners' Judgments of Dysphonic Voice. Journal of Voice, Vol.20, Issue 4,
pp. 527-544. 2006.
ESPANHOL, DR. Determinadores de Pitch. 2004. Dissertação (Mestrado em
Engenharia Elétrica), Depto de Engenharia Elétrica, EESC – USP, 2004
FANT, G. Acoustic Theory of Speech Production. 2nd ed. The Hague: Mouton;
15–26.134-1140. 1970.
FLANAGAN, JL. Speech analysis, synthesis and perception. Springer-Verlag,
New York, 2da Ed. 1972.
FRASER, AM; SWINNEY, HL. Independent coordinates for strange attractors
from mutual information. Phys Rev Lett. ;33:1134-1140. 1986.
FUKUYAMA, EE. Análise acústica da voz captada na faringe próximo ä fonte
glótica através de microfone acoplado ao fibrolaringoscópio. Rev Bras
Otorrinolaringol, 67:776-86l, 2001.
GERRATT, BR; KREIMAN, J. Measuring vocal quality with speech synthesis. J
Acoust Soc Am. 110:2560–2566. 2001.
GIOVANNI, A; OUAKNINE, M; TRIGLIA, JM. Determination of largest Lyapunov
exponents of vocal signal: application to unilateral laryngeal paralysis. Journal
of Voice, vol. 13, pp. 341–354. 1998.
GRAY, SD; HIRANO, M; SATO, K. Molecular and cellular structure of vocal fold
tissue. In: TITZE, IR. Vocal Fold physiology: frontiers of basic science. San
Diego: Singular Publishing Group, 1993.
GUARINELO, CS; BEHLAU, M. O impacto de uma eventual perda de voz na
vida diária dos indivíduos normais. IN: BEHLAU. M. A voz do especialista II.
Ed. Revinter Ltda. RJ. 2001
HAMMARBERG, B. Voice research and clinical needs. Folia Phoniat. Et
Logop., 52: pp. 93-102. 2000.
HAMMARBERG, B; GAUFFIN, J. Perceptual and acoustics characteristics of
quality differences in pathological voices as related to physiological aspects. In:
FUJIMURA O, HIRANO, M. Vocal fold physiology. San Diego, Singular
Publishing Group Inc., 1995.
HEGGER, R; KANTZ, H; SCHREIBER, T. Practical implementation of nonlinear
time series methods: The TISEAN package. Chaos. Volume 9, Issue 2, pp.
413-435. 1999
150
HENICK, DH; SATALOFF, R. Laryngeal Embryology and Vocal Development.
In SATALOFF,RT. Professional Voice: the Science and Art of Clinical
Care.2dn Edition. San Diego: Singular, 1997.
HERZEL, H; BERRY, D; TITZE, IR; SALEH, M. Analysis of vocal disorders with
methods from nonlinear dynamics. Journal of Speech and Hearing Research,
37, pp 1001-1007. 1994.
HIRANO, M. Clinical examination of voice. New York: Springer Verlag, 1981.
HIRANO, M. Laryngeal Histopathology. In: COLTON, R; CASPER, J:
Understanding Voice Problems, a Physiological Perspective for the
diagnosis and Treatment. 2nd Edition. Baltimore: Williams & Wilkins, 1996
HIRANO, M; BLESS, DM. Exame Videoestroboscópico da Laringe. Porto
Alegre: Artes médicas, 1997.
HIRANO, M; KAKITA, Y. Cover-body theory of vocal fold vibration. In:
DANILOFF, RG. Speech Science: recent advances. San Diego: College-Hill
Press; 1985.
HIRANO, M; YOSHIDA, T; TANAKA, S; HIBI, S. Sulcus vocalis: functional
aspects. Ann. Otol. Rhinol. Laryngol.; 99:679-83.1990
HORNERO, R; ALONSO, A; JIMENO, N; JIMENO, A; LOPEZ, M. Nonlinear
analysis of time series generated by schizophrenic patients. IEEE Eng Med
Biol Mag. ;3: pp. 84–90. 1999.
ISSHIKI, N. Recent advances in phonosurgery. Folia Phoniatrica. (Basel),
32:119-54, 1980.
JIANG, JJ; ZHANG, Y. Nonlinear dynamic analysis of speech from pathologic
subjects. Electron Letters. 38:294–295. 2002.
JIANG, JJ; ZHANG, Y. Modeling of chaotic vibrations in symmetric vocal folds.
J. Acoust. Soc. Am. 110 (4). 2001
JIANG, JJ; ZHANG, Y; MCGILLIGAN, C. Chaos in voice, from modeling to
measurement. Journal of Voice. 20: pp. 2–17. 2006.
JIANG, JJ; ZHANG, Y; MACCALLUM, J; SPRECHER, A; ZHOU, J. Objective
Acoustic Analysis of Pathological Voices from Patients with Vocal Nodules and
Polyps. Folia Phoniatr Logop;61: pp. 342–349. 2009
KATZ M. Fractals and the Analysis of Waveforms. Comput Biol Med,
18(3):145–156, 1988.
151
KANTZ, H; SCHREIBER, T. Nonlinear time series analysis. 2
nd
ed. Cambridge
University Press. 2003.
KARKOS, PD; MC CORMICK, M. The etiology of vocal fold nodules in adults
Current Opinion in Otolaryngology & Head and Neck Surgery: December -
Volume 17 - Issue 6 – pp. 420-423. 2009
KARNELL, MP; MELTON, SD; CHILDES, JM; COLEMAN, TC; DAILEY, SA;
HOFFMAN, HT. Reliability of clinician-based (GRBAS and CAPE-V) and
patient-based (V-RQOL and IPVI) documentation of voice disorders. Journal of
Voice. 21(5):pp. 576-90, 2007.
KREIMAN, J; GERRATT, BR. Validity of rating scale measures of voice quality.
J of the Acoustical Society of America. 104, pp. 1598-1608, 1998.
KUNDUK, M; McWHORTER, AJ. True vocal folds nodules: the role of
differencial diagnosis. Curr Opin Otolaryngol Head Neck Surg 17:pp. 449-52.
2009.
LAVER, J. The phonetic description of voice quality. Cambridge University
Press, Cambridge, 1980.
LE HUCHE, F.; ALLALI, A. La voz anatomía y fisiología patología terapéutica.
Barcelona: Masson, 1993.
MAC CALLUM, JK; CAI, LI; ZHOU, L; ZHANG, Y; JIANG, JJ. Acoustic analysis
of aperiodic voice: Perturbatin and nonlinear dynamic properties in esophageal
phonation. Journal of Voice. Vol 3,N3 283-290. 2009.
MADRUGA, ECM; LEMOS, M; ARAGÃO, XFJ; SENNES, L; NASCIMENTO,
PHS; TSUJI, DH. Distribution of collagen in the lamina propria of the human
vocal fold. Laringoscope; 113 (12): 2187-19, 2003.
MAGRI, A; CUKIER-BLAJ, S; FRAGA E KARMAN, D; CAMARGO, ZA.
Correlatos perceptivos e acústicos dos ajustes supraglóticos na disfonia. Rev
CEFAC, São Paulo, v.9, n.4, 512-518. 2007
MARTIN, D; FITCH, J; WOLFE, V. Pathological voice type and the acoustic
prediction of severity. J Speech Hear Res.; 38:765–771. 1995
MARTINS, RMG; FABRO, AT; DOMINGUES, MAC; CHI, AC; GREGORIO, EA
Is Reinke’s Edema a Precancerous Lesion? Histological and Electron
Microscopic Aspects. Journal of Voice, Vol. 23, 722 No. 6, 2009
MARYN, Y; ROY, N; DE BODT, M; VAN CAUWENBERGE, P; CORTHALS, P.
Acoustic measurement of overall voice quality: a meta-analysis. J. Acoust.
Soc. Am. 126 (5), 2009.
152
MATASSINI, L; HEGGER, R; KANTZ, H; MANFREDI, C. Analysis of vocal
disorder in a feature space. Medical Engineering & Physics 22: pp. 413-418;
2000.
MENDEL, W; HERZEL, H; WEMKE, K. Bifurcations and chaos in newborn
infant cries. Phys Letters A. vol. 145, pp. 418–424, 1990.
MONTAGNOLI, AN. Análise Residual do sinal de voz. Dissertação (Mestrado
em engenharia Elétrica), Depto de Engenharia Elétrica, EESC – USP
Universidade de São Paulo – Campus de São Carlos, 1998.
MONTAGNOLI, NA; PEREIRA JC. [Análise de Voz, Versão 4.10]. Sistema de
Auxílio à Análise Acústica da Voz. 2009.
NAYFEH AH, BALACHANDRAN B. Applied nonlinear dynamics. Wiley series in
nonlinear Science. p.1-31. 1994
NUNES, MV; COSTA, LLR. Avaliação Acústica na Prática Fonoaudiológica. In:
PINHO, S; TSUJI, DH; BOHADANA, SC. Fundamentos em laringologia e
Voz. Ed. Revinter, Rio de Janeiro, 2006.
OATES, J. Auditory-Perceptual Evaluation of Disordered Voice Quality. Folia
Phoniatr Logop;61: pp. 49–56. 2009
OTT, E; SAUER, T; YORKE, JA. Coping with Chaos. New York: Wiley eds.
1994.
PACKARD, NH; CRUTCHFIELD, JP; FARMER, JD, SHAW, RS. Geometry
from a time series. Phys Rev Lett.;45:712; 1980.
PINHO, S; PONTES, P. Escala de avaliação perceptiva da fonte glótica:
RASAT. Vox Brasilis - Ano 8 - nº 3. 2002.
PONTES, P; BEHLAU, M; BRASIL, O. Minor structural alterations of the larynx:
an attempt of classification. 6
th
International Symposium of Phonosurgeons.
Anais Veneza. 2000
POON, CS; MERRILL, CK. Decrease of cardiac chaos in congestive heart
failure. Nature. ;389: pp. 492–495.1997.
RABINER, LRE; JUANG, BH. Fundamentals of Speech Recognition, Prentice
Hall, Nova Jersey. 1993.
RAHN, DA; CHOU, M; ZHANG, Y; JIANG, JJ. Phonatory impairment in
Parkinson's disease: Evidence from nonlinear dynamic analysis and
perturbation analysis, Journal of Voice 21 pp. 64–71; 2007.
153
RICHTER, M; SCHREIBER, T. Phase space embedding of electrocardiograms.
Phys. Rev. E 58, pp. 6392 – 6398. 1998.
ROSEN, DP; SATALOFF, RT. Voice disorders; Psychological aspects; Patients;
Rehabilitation; psychology. Singular Pub. Group; San Diego, 1997.
RUBIN, JS; MATHIESON, L; BLAKE, E. Posture and voice. Journal of
Singing. ;60: pp. 271–275, 2004.
SATALOFF, RT. Professional voice: the science and art of clinical care. 2nd ed.
San Diego, Calif: Singular Publishing Group; 1997.
SATALOFF, RT; HAWKSHAW, M. Chaos in Medicine: Source Readings. San
Diego, CA: Singular Publishing Group. 2001.
SCALASSARA, PR; DAJER, ME; MACIEL, CD; CAPOBIANCO, R; PEREIRA,
JC Relative entropy measures applied to healthy and pathological voice
characterization Applied Mathematics and Computation 207 pp. 95–108,
2009.
SCHNEIDER, CM; DENNEHY, CA, SAXON, KG, Exercise physiology principles
applied to voice performance: the improvement of postural alignment. Journal
of Voice. 11:pp. 332–333. 1997.
SHRIVASTAV, R. Multidimensional Scaling of Breathy Voice Quality: Individual
Differences in Perception. Journal of Voice, Volume 20, Issue 2, pp. 211-222,
2006.
SMITS, I; CEUPPENS, P; DE BODT, MS. A Comparative Study of Acoustic
Voice Measurements by Means of Dr. Speech and Computerized Speech Lab.
Journal of Voice, Vol. 19, No. 2, pp. 187–196. 2005.
SÖDERSTEN, M; LINDESTAD, PA; HAMMARBERG. Vocal fold closure,
perceived breathiness, and acoustic characteristics in normal adult speakers.
In: GAUFFIN, J; HAMMARBERG, B. Vocal fold physiology. Acoustic,
perceptual and physiological aspects of voice mechanisms. San Diego:
Singular; 1991.
TAKENS, F. Dynamical systems and turbulence, Lecture Notes in Mathematics.
Berlin, Germany: Springer-Verlag, vol. 898, pp. 366–381; 1981.
TEAGER,H; TEAGER, S. Evidence for nonlinear sound production mechanisms
in the vocal tract. In: Proc. NATO ASI on Speech Production and Speech
Modeling, pp. 241-261, 1990.
TITZE, IR. Principles of Voice Production. 2nd ed. Iowa City, IA: NCVS; 2000.
154
TITZE, IR; BAKEN, R; HERZEL, H. Evidence of chaos in vocal fold vibration.
New Frontiers in Basic Science, ed. Vocal Fold Physiology, Singular Publishing
Group, San Diego, CA, 1993.
TOSI, O. Voice identification: theory and legal applications. University Park,
Baltimor, 1979.
TSUJI, D; INAMURA, R; UBIRAJARA, LS. Fisiologia da laringe. In: PINHO, S;
TSUJI, DH; BOHADANA, SC. Fundamentos em laringologia e Voz. Ed.
Revinter, Rio de Janeiro, 2006.
TUCKER, H. Anatomy of the larynx. IN: TUKER, H. The Larynx. New York:
Thieme, 1993.
UMAPATHY, K; KRISHNAN, S; PARSA, V; JAMIESON, DG. Discrimination of
pathological voices using a time-frequency approach. IEEE. Transactions On
Biomedical Engineering, Vol. 52, NO. 3, pp: 421- 430. 2005.
ZHANG, Y; JIANG, JJ. Chaotic vibrations of a vocal-fold model with a unilateral
polyp. J Acoust Soc Am. 115: pp. 1266–1269. 2004.
ZHANG, Y; JIANG, JJ; BIAZZO, L; JORGENSEN, M; BERMAN, M.
Perturbation and nonlinear dynamic analyses of voices from patients with
unilateral laryngeal paralysis. Journal of Voice. 19(4): pp. 519-28I; 2005.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo