Download PDF
ads:
UNIVERSIDADE DE SÃO PAULO
FACULDADE DE FILOSOFIA, CIÊNCIAS E LETRAS DE RIBEIRÃO PRETO
DEPARTAMENTO DE PSICOLOGIA E EDUCAÇÃO
PROGRAMA DE PÓS-GRADUAÇÃO EM PSICOBIOLOGIA
PERCEPÇÃO DE FALA: ANÁLISE DAS VOGAIS DO PORTUGUÊS
BRASILEIRO EM TEMPO COMPRIMIDO
Joseane dos Santos
Dissertação apresentada à Faculdade de
Filosofia, Ciências e Letras de Ribeirão Preto
da USP, como parte das exigências para a
obtenção do título de Mestre em Ciências.
Área: Psicobiologia.
Ribeirão Preto - SP
2006
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
UNIVERSIDADE DE SÃO PAULO
FACULDADE DE FILOSOFIA, CIÊNCIAS E LETRAS DE RIBEIRÃO PRETO
DEPARTAMENTO DE PSICOLOGIA E EDUCAÇÃO
PROGRAMA DE PÓS-GRADUAÇÃO EM PSICOBIOLOGIA
PERCEPÇÃO DE FALA: ANÁLISE DAS VOGAIS DO PORTUGUÊS
BRASILEIRO EM TEMPO COMPRIMIDO
Joseane dos Santos
Orientador: Prof. Dr. José Aparecido da Silva
Dissertação apresentada à Faculdade de
Filosofia, Ciências e Letras de Ribeirão Preto
da USP, como parte das exigências para a
obtenção do título de Mestre em Ciências.
Área: Psicobiologia.
Ribeirão Preto - SP
2006
ads:
FICHA CATALOGRÁFICA
Santos, Joseane
Percepção de fala: análise das vogais do Português Brasileiro
em tempo comprimido. Ribeirão Preto, 2006.
104 p.: il. ; 30 cm
Dissertação de Mestrado, apresentada à Faculdade de Filosofia,
Ciências e Letras de Ribeirão Preto/USP – Área de concentração:
Psicobiologia.
Orientador: Da Silva, José Aparecido.
1.Inteligibilidade de fala. 2. Taxa de elocução. 3. Psicofísica. 4.
Análise acústica.
DEDICATÓRIA
Aos meus pais Nelson e Juraci pelo amor
dedicado durante toda minha vida, por toda
entrega dos próprios sonhos pelos meus.
AGRADECIMENTOS
A Deus pelo dom da vida.
Ao Prof. José Aparecido da Silva, pela oportunidade oferecida, incentivo e
confiança em mim depositada, pela sua orientação neste trabalho, por ensinar o caminho da
ciência, e pela amizade.
Ao Prof. Claret, pelo auxilio durante todo mestrado, pela amizade.
Ao Prof. Plínio Barbosa por ter me acolhido em seu laboratório, por me revelar o
conhecimento de uma maneira agradável e disponibilizar seu tempo.
Ao LAFAPE por disponibilizar o espaço físico para o estudo e pelo crescimento
cientifico.
Aos alunos do LAFAPE que durante o tempo que estive no laboratório me
ajudaram nos experimentos e proporcionaram um tempo muito agradável, ensinando como é
um verdadeiro grupo, em especial ao aluno de pós-graduação Pablo Arantes que tanto me
ajudou.
Aos amigos de muitas horas e de diversas formas: Veridiana, Roberta, Marisa,
Andréia, Cíntia, Paula Carol, Ana Laura, Luciana Nelson, Carlo e Júlia.
A Coordenadora do Curso de Fonoaudiologia: Patrícia Mandrá.
A UNAERP por permitir que os experimentos pudessem ser feitos em suas
dependências.
Aos meus colegas de laboratório: Junior, José Ricardo, Beatriz, Marcelo,
Catarina, Ana Paula, Alessandra, Débora Elisângela, Paola, e Márcio, pelos momentos de
aprendizagem e por todo auxílio durante o mestrado.
Aos funcionários da Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto,
em especial a Renata B. Vicentini, a Regina Teles e ao Igor Douchkin, que prontamente
resolveram quaisquer problemas que se interpuseram no curso desta pós-graduação.
A CAPES pelo auxilio a pesquisa.
Muito Obrigado!!
Para tudo há um tempo, para cada coisa há um momento debaixo dos céus:
tempo de nascer, e tempo de morrer;
tempo de plantar, e tempo de arrancar o que foi plantado;
tempo de matar, e tempo de sarar;
tempo de demolir, e tempo para construir;
tempo de chorar, e tempo de rir;
tempo de gemer, e tempo de dançar;
tempo para atirar pedras e tempo para ajunta-las;
tempo para dar abraços, e tempo para apartar-se;
tempo para procurar, e tempo para perder;
tempo para guardar, e tempo de jogar fora;
tempo para rasgar, e tempo para costurar;
tempo para calar, e tempo para falar;
tempo para amar, e tempo de odiar;
tempo para guerra, e tempo para paz.
Eclesiastes, 3:1-8
SUMÁRIO
ABREVIAÇÕES E SÍMBOLOS i
LISTA DE FIGURAS ii
LISTA DE TABELAS iii
RESUMO iv
ABSTRACT v
1. INTRODUÇÃO 01
2. OBJETIVOS 04
3. REVISÃO DA LITERATURA 06
4. DELINEAMENTO EXPERIMENTAL 36
5. EXPERIMENTOS 41
6. DISCUSSÃO 76
7. CONCLUSÃO 84
8. REFERÊNCIAS BIBLIOGRÁFICAS 86
ANEXOS 93
i
ABREVIAÇÕES E SÍMBOLOS
% – porcentagem
ANOVA – análise de variância
CID – Central Institute of the Deaf
CVC – Consoante- vogal- consoante
DP – desvio padrão
F
1
– primeiro formante
F
2
– segundo formante
FFT- Fast- Fourier Transform
IEL - Institudo de Estudos da Linguagem
LAFAPE - Laboratório de Fonética e Psicolingüística
LPC- Linear Predictive Code
Ms – milissegundos
PB – português brasileiro
r
2
– coeficiente de determinação
RCID – CID revisado
SNAC - Sistema nervoso auditivo central
USP – Universidade de São Paulo
ii
LISTA DE FIGURAS
Figura 1 – Habilidades Auditivas para Tarefas de Percepção da Fala 14
Figura 2 - Diagrama da teoria fonte-filtro para vogais 23
Figuras 3 - Vogais do PB 24
Figura 4 – Posicionamento das vogais no trato vocal e a analise das mesmas 25
Figuras 5 – Vogais do PB que foram utilizadas no experimento 25
Figura 6 – Janela onde são feitas as principais medidas acústicas de um sinal 34
Figura 7 Duração das frases escolhidas dentre as 5 repetições de cada vogal, na taxa
normal e taxa rápida
45
Figura 8 – Média das durações das frases em taxa normal e taxa rápida. Diferença
estatística muito significativa entre as duas taxas.
47
Figura 9 - Média das durações dos fones das vogais em taxa de elocução normal. 49
Figura 10 - Média das durações dos fones das vogais em taxa de elocução rápida. 50
Figura 11 - Taxa de elocução normal e rápida. 51
Figura 12 – Duração das frases escolhidas dentre as 5 repetições de cada vogal, na taxa
normal e taxa rápida.
54
Figura 13 – Média das durações das frases em taxa normal e taxa rápida 2. Diferença
estatística muito significativa entre as duas taxas
55
Figura 14 – Duração das vogais na taxa de elocução rápida 57
Figura 15 – Duração das três taxas de elocução 58
Figura 16 – tendência de linha de potência com os três resultados obtidos pelos sujeitos
do experimento I
66
Figura 17 -. média dos julgamentos de estimação de magnitude das 28 frases com taxa
de elocução normal e rápida.
69
Figura 18: tendência de linha de potência da média dos comprimentos de linha julgado
pelos 16 sujeitos.
74
Figura 19-média dos julgamentos de estimação de magnitude das 28 frases com taxa de
elocução normal e mais rápida.
76
iii
LISTA DE TABELAS
Tabela 1 – Duração (ms) das frases escolhidas com as vogais alvo.
44
Tabela 2 – Porcentagem aumento da taxa rápida em relação à taxa normal.
45
Tabela 3 - Duração (ms) das vogais em taxa de elocução normal e rápida.
49
Tabela 4 - Duração (ms) das frases escolhidas com as vogais alvo. Escolha das frases
segundo a média aritmética das 5 repetições em cada taxa (normal/rápida)
53
Tabela 5 - Porcentagem aumento da taxa rápida 2 em relação à taxa normal e
porcentagem do aumento da taxa da taxa rápida 2 em relação à taxa rápida I
54
Tabela 6 - Médias aritméticas da duração das vogais.
56
Tabela 7 - Comprimento de linha e valores esperados. O 4° comprimento de linha foi
escolhido para ser o estímulo padrão e o valor numérico foi estabelecido em 100. Pode-
se observar os comprimentos de linha e os valores numéricos esperados.
64
Tabela 8 - correlação dos valores do julgamento do comprimento de linha
66
Tabela 9 - correlação dos valores do julgamento do comprimento de linha dos sujeitos do
II experimento
73
iv
RESUMO
Santos, J. (2006). Percepção de fala: análise das vogais do Português Brasileiro em tempo
comprimido. Dissertação (mestrado) – Faculdade de Filosofia, Ciências e Letras de Ribeirão
Preto, Universidade de São Paulo, Ribeirão Preto, 101p.
O aspecto temporal da fala é um dos fatores que interferem na inteligibilidade de fala, assim,
o presente estudo teve como objetivo estudar a percepção das vogais do português brasileiro
(PB) em diferentes taxas de elocução por meio de análise acústica e metodologia psicofísica.
Na análise acústica foi averiguado a duração das frases contendo as vogais alvo e,
posteriormente, apenas as vogais. No experimento I - a ANOVA mostrou que existe diferença
significativa apenas entre a duração das frases nas duas taxas de elocução normal e rápida,
enquanto na análise da duração das vogais há diferença estatística entre as taxas de elocução e
também entre as vogais. No experimento II- o resultado da ANOVA mostrou que as frases
são estatisticamente diferentes em relação a taxa de elocução, normal e mais rápida, mas não
difere quanto as diferentes vogais alvo das frases, entretanto, o resultado das vogais na taxa de
elocução mais rápida mostrou que há diferença entre as mesmas. A análise dos três conjuntos
de vogais dos dois experimentos anteriores, mostrou que há diferença estatisticamente
significativa nas taxas de elocução e também nas 7 vogais do PB. O julgamento psicofísico da
fala comprimida foi realizado por meio de 28 frases aleatorizadas quanto as 7 vogais do PB,
duas taxas de locução (normal e rápida) e duas apresentações para fidedignidade do teste. A
amostra foi composta de 32 sujeitos, distribuídos em dois experimentos. No experimento I
(n=16) os sujeitos não perceberam qualquer dificuldade na inteligibilidade de fala. No
segundo experimento (n=16) a taxa de elocução das frases rápidas foi modificada em torno de
v
30% da taxa normal. O resultado mostrou que os sujeitos perceberam diminuição na
inteligibilidade de fala devido a taxa de elocução, entretanto não encontraram qualquer
dificuldades devido as vogais. Os resultados sugerem a taxa de elocução interfere na
inteligibilidade de fala.
Palavras-chave: Inteligibilidade de fala; taxa de elocução; psicofísica e análise acústica.
vi
ABSTRACT
Santos, J. (2006). Speech perception analysis of the vowels of the Brazilian Portuguese in
time-compressed. . Dissertação (mestrado) – Faculdade de Filosofia, Ciências e Letras de
Ribeirão Preto, Universidade de São Paulo, Ribeirão Preto, 101p.
The temporal aspect of speech is one of the factors that affect the intelligibility of speech.
Thus, the aim of the present study was to investigate the perception of Brazilian Portuguese
(BP) vowels in different speech rates through acoustic analysis and psychophysical tests. In
the acoustic analysis, we investigated the sentences duration containing target vowels and,
subsequently, only the vowels. In Experiment I, there was a significant difference between the
duration of sentences in both speech rates (normal and fast), and in the duration of the vowels
there was a significant difference between the speech rates and between the vowels. In
Experiments II, the results showed differences between the sentences concerning the speed
rate, normal and ‘faster”, but not between the target vowels in the sentences. However, in the
“faster” speech rate showed difference between the vowels. The analyses of the 3 sets of
vowels in both experiments revealed a significant difference in speed rates as well as in the 7
vowels of the BP. The psychophysical judgment of compressed speech was done using 28
randomized sentences with 7 BP vowels, 2 speed rates (normal and fast) and 2 repetitions
(test and retest) to evaluate the test reliability. The sample was composed by 32 subjects
distributed in 2 experiments. In Experiment 1 (n=16) the subjects did not have difficulty in the
speech intelligibility In Experiment II (n=16) the speed rate of “faster” sentences was
increased in 30% in relation to the normal rate. The results showed that the subjects noticed
that there was a decrease in the speech intelligibility due to the speed; however, they did not
vii
find difficulties due to the vowels. Taken together, our results suggest that the speech rate
interferes in the speech intelligibility.
Key words: Speech intelligibility, speech rate, psychophysics and acoustic analysis
1-INTRODUÇÃO
2
INTRODUÇÃO
A fala é o meio de interação social do ser humano, por meio dela é possível
exprimir pensamentos, emoções além de passar conhecimentos. Uma das habilidades
adquiridas junto à fala é a inteligibilidade de fala que tem por finalidade permitir que as
pessoas (ouvintes) entendam o que outras (falantes) querem expressar. Entretanto para que
esta via de comunicação seja efetiva é necessário que a produção e a percepção da mensagem
estejam integrados e interligados.
A percepção dos sons da fala envolve um sistema de interação complexa. O
estímulo de fala precisa ser identificado, categorizado e reconhecido em sua forma, contudo,
ela pode ainda ser distinguida em dois processos: a sensação da audição e o processo de
percepção da emissão. Já a produção de fala se detém ao mecanismo de como expor o
pensamento, ou mesmo, a mensagem que se pretende comunicar, contudo, envolve centros de
controle específicos da fala no córtex cerebral que culminam no controle mecânico da
produção dos sons da fala.
Entretanto, o indivíduo para ter uma comunicação adequada não basta ser capaz de
produzir fala e de percebê-la, pois há inúmeros outros fatores que interferem na
inteligibilidade de fala, como fatores subjetivos como quantidade de informação lingüística
disponível, o tipo e a quantidade de experiência auditiva anterior e a qualidade das
características acústicas do sinal. Além dos aspectos segmentais e supra-segmentais da língua.
Muitos estudos têm demonstrado que estes fatores citados acima estão ligados ao
funcionamento do sistema nervoso auditivo central (SNAC) e que algumas diminuições das
3
redundâncias acerca da fala podem revelar importantes achados para o indivíduo. A facilidade
com que um indivíduo é capaz de perceber a fala, em parte, é devida a uma redundância
dentro do sistema auditivo (intrínseca) e em parte da redundância dentro sinal da fala
(extrínseca). Dentre as possíveis reduções de redundância, que é a retirada do excesso de
informações da fala que garantem a efetividade da comunicação, está presente a fala
comprimida que foi utilizada no presente estudo.
A fala comprimida ou fala com taxa de elocução aumentada é bastante utilizada
para avaliar a inteligibilidade de fala e também de possíveis problemas no SNAC.
No estudo da fala ainda deve-se levar em consideração ainda o conteúdo
lingüístico que permite a distinção entre as línguas, desde o nível semântico ao fônico.
As vogais constituem o núcleo da sílaba e o exame das mesmas é um dos meios de
se analisar uma língua. Esse estudo é básico no campo das ciências da Comunicação e uma de
suas funções é a de fornecer subsídios para o diagnóstico e o tratamento de pacientes
portadores de distúrbios da comunicação oral
Uma maneira prática para estudar a fala é análise acústica por meio da
espectrografia, que fornece informações importantes para a análise da fala. Contudo para a
avaliação de atributos perceptuais da fala muitos autores afirmam que os testes psicofísicos
devem ser empregados, pois não há medidas físicas com resultados em valores que
quantifiquem estes atributos.
A estimação de magnitude numérica é um dos métodos dentro dos testes
psicofísicos mais utilizados nos estudos da percepção da fala.
Assim, esta pesquisa tem como objetivo avaliar a inteligibilidade das vogais do PB
em tempo comprimido por meio de procedimentos objetivos e subjetivos, e por meio destes
dois procedimentos verificar se o método subjetivo, por meio do julgamento psicofísico, é
válido para avaliar a inteligibilidade de fala neste estudo.
2-OBJETIVOS
5
2- OBJETIVOS
O presente estudo tem por objetivo verificar se a inteligibilidade de fala é
afetada pela compressão da duração de frases.
Objetivos específicos:
1- verificar se a inteligibilidade de fala é influenciada pelas vogais do
português brasileiro (PB);
2- investigar se a estimação de magnitude é um procedimento adequado para
avaliação da inteligibilidade de fala em tempo comprimido
6
3- REVISÃO DA LITERATURA
7
3.1-PSICOFÍSICA
A psicofísica sensorial é um ramo da psicologia experimental que visa
conhecer a relação funcional entre os estímulos físicos e as respostas que eles provocam
(Anderson, 1975), ou seja, buscam as relações existentes entre as características físicas do
estímulo e suas características psicológicas, ou a maneira como percebemos o estímulo
(Manning & Rosenstock, 1974).
De acordo com a psicofísica sensorial, os estímulos podem ser julgados quanto
à sua qualidade e/ou quantidade (Stevens, 1975). Se o estímulo possui propriedade
quantitativa ele comportará ambos os tipos de julgamentos, porém se este for qualitativo,
apenas esta propriedade poderá ser julgada.
Estímulos que compõem um contínuo com propriedades quantitativas são
chamados de protéticos, pois, a sensação adiciona-se à anterior, um exemplo é a intensidade
do som.
Os métodos psicofísicos mais apropriados para julgamentos de contínuos
protéticos são os de razão, como: estimação de magnitude numérica, emparelhamento com
comprimentos de linha e fracionamento (Stevens, 1975).
Por outro lado, os que compõem um contínuo com propriedades qualitativas
são chamados metatéticos, pois, a sensação substitui a precedente, e somente podemos julgar
a diferença entre os estímulos. Desta maneira, os métodos mais adequados são os intervalares
e de comparação de pares. A freqüência do som é um exemplo de continuo metatético
(Stevens & Galanter, 1957; Stevens, 1975).
8
A distinção entre estes dois tipos de contínuos é fundamental dentro da teoria
psicofísica moderna, pois, diferentes leis gerais parecem governar estes dois tipos de reações
sensoriais (Engelman, 1966).
Quando o contínuo sensorial é metatético a relação entre o estímulo e a
resposta é representada por uma função linear do logaritmo da intensidade do estímulo,
representada pela fórmula (R=K.log E) que foi elaborada por Fechner (Stevens & Galanter,
1957).
Para contínuos sensórios protéticos a relação entre estímulo e resposta é
representada pela função que descreve uma situação, em que um aumento geométrico na
escala física dos estímulos corresponde a um aumento geométrico na escala subjetiva ou
psicológica (Stevens, 1966). Assim, a cada modalidade sensória a sensação é uma função
potência do estimulo (Stevens, 1975). A conhecida lei de Stevens é representada pela relação
entre magnitude psicológica e a magnitude física (E), ou pela fórmula: R=K. E
n,
em que K é
um fator escalar que depende da unidade de medida empregada e “n” é um parâmetro que
depende da modalidade perceptiva (Engelman, 1966; Da Silva & Macedo, 1993; Da Silva,
1985).
O expoente “n” da função potência representa o índice de sensibilidade para
cada modalidade perceptiva, sendo, portanto, o parâmetro mais importante desta função. Seu
valor determina a forma da curva em coordenadas lineares, em que “R” é projetado em função
de “E”. Quando o expoente “n” tiver valor 1,0, a função segue uma linha reta; se “n” é maior
que 1,0, a linha que representa esta função apresenta uma concavidade ascendente, e se o
expoente “n” é menor que 1,0, a concavidade apresentada torna-se descendente (Stevens,
1975).
Stevens (1964) indicou que a escala de magnitude em geral e o escalonamento
de estimação de magnitude em particular é mais produtivo para o uso quando a mensuração é
9
percepção sensorial. O método de escalonamento de estimação de magnitude tem sido usado
com sucesso em muitas funções sensoriais diferentes. Stevens (1964) resume algumas funções
sensoriais que têm sido testadas através do uso de estimação de magnitude. Esta linha inclui:
som, sabor, odor, tempo, brilho, temperatura, etc.
Há várias vantagens do método de escalonamento de estimação de magnitude,
a medida é de fácil compreensão, os sujeitos podem ser de qualquer idade, realizando os
julgamentos sem qualquer treinamento anterior ou experiência prévia, as instruções são
breves e simples, além de diferentes estímulos poderem ser escalonados pela estimação de
magnitude (Hellman & Zwislocki, 1963, 1964; Poulton, 1968, 1979).
A estimação de magnitude pode ser realizada com presença do módulo ou
módulo livre. Quando a estimação de magnitude é realizada com módulo o experimentador
apresenta um estímulo com valor numérico determinado que é denominado de estímulo
padrão e, a partir dele os sujeitos deverão julgar os estímulos subseqüentes, atribuindo-lhe
números proporcionais ao módulo, de acordo com sua percepção. Este método quando
empregado com módulo livre, isto é, o próprio sujeito estima o primeiro estimulo e a partir
dele realiza emparelhamentos proporcionais. Os números deverão refletir as razões entre as
intensidades percebidas (Stevens, 1971).
O método de estimação de magnitudes tem sido freqüentemente utilizado
devido à facilidade de aplicação e de boa compreensão para os observadores adultos. Stevens
(1971) denominou este método de emparelhamento numérico, no qual os números são
equiparados aos estímulos. O emparelhamento intermodal é considerado o método mais
elegante criado por Stevens e colaboradores (Stevens, 1959; Stevens et al., 1960) para
confirmar a Lei de Potência e validar as escalas de magnitudes.
Neste procedimento psicofísico, o observador faz o escalonamento, utilizando
estimativas de magnitude para dois tipos de contínuos sensórios, por exemplo: força
10
dinamométrica e som e obtém-se os expoentes para cada um das modalidades perceptivas.
Quando os valores são projetados em coordenadas logarítmicas, uma linha reta é obtida, ou
seja, uma função potência com inclinação igual a razão dos expoentes de força dinamometrica
e sonoridade. Como os expoentes podem ser calculados a partir de dados observáveis, esta
relação é possível de ser testada, além de ser realizada em ambas direções (Faleiros-Souza,
1993); como no exemplo citado, força dinamométrica emparelhada a som e vice-versa. Este
procedimento inverso é chamado de produção de magnitude. Foi encorajado por Stevens
(1975), para corrigir o efeito de regressão, ou seja, a tendência que os observadores tem de
comprimir a variável que está sob o seu controle.
O emparelhamento intermodal possibilitou o uso de escalas psicofísicas
também para contínuos não sensórios, já que neste caso a grandeza física não é passível de ser
medida em função das estimativas de magnitude diretamente. O expoente deverá ser
calculado, como também os outros parâmetros da função potência, através dessa metodologia,
só que com algumas modificações (Felício, 1996).
Solicita-se ao sujeito, por exemplo, emparelhar duas modalidades sensoriais
como o som e o comprimento de linha a diferentes atributos não métricos. Em seguida
projetam-se os resultados destes valores emparelhados para os atributos não métricos destas
duas dimensões físicas, um em função do outro, corrigindo o efeito de regressão, obtendo-se
assim o expoente mais próximo do esperado (Stevens, 1975). Estes valores podem ser
comparados com os valores originados do emparelhamento entre as duas modalidades
puramente sensoriais.
O paradigma do emparelhamento intermodal pode ser aplicado a atributos
sociais e clínicos (Faleiros-Souza E Da Silva, 1996).
A lógica e os métodos para utilização da estimativa numérica no
escalonamento de magnitude dos estímulos sociais em uma dimensão sócio-patológica são os
11
mesmos utilizados quando os estímulos físicos que agora são substituídos por atributos
(palavras ou frases) que descrevem os objetos ou eventos sociais (Faleiros-Souza, 1993).
Quando estamos diante de atributos sociais e clínicos, isto é, que não possuem
uma variável passível de ser medida fisicamente, o tipo de contínuo será determinado pela
relação entre a escala intervalar e a razão, obtidas a partir do julgamento do mesmo conjunto
de estímulos. Se esta relação for apresentada por uma curva com concavidade descendentes,
em coordenadas lineares ou a curva apresentar uma ligeira concavidade ascendente, em
coordenadas monologarítmicas, o contínuo possuirá características protéticas (Faleiros-Souza,
1993).
Dentre os estímulos não métricos está a fala que foi estudada por vários
autores, como Schiavetti, Metz e Sitler (1981), Ellis e Fucci (1992), Felício (1996),
Mantelatto (1998) e comprovaram que a fala é um continuo protético, portanto, atualmente
outros estudos estão sendo realizados em diferentes domínios da fala, como inteligibilidade de
fala, percepção da voz, percepção acústica.
12
3.2- PERCEPÇÃO DA FALA
O processo de comunicação depende de várias etapas de processamento da
informação, assim, a produção da mensagem e sua percepção são essenciais para este
processo. Contudo, a produção e a percepção da mensagem ou da fala (mensagem verbal)
formam uma via interligada e interdependente (Balen, 1997; Gama, 1994).
A percepção da fala apresenta uma série de etapas, iniciando-se com a
audibilidade, isto é, com a detecção do som. A partir da audibilidade temos a recepção da
informação sonora, a discriminação entre sons de diferentes espectros, o reconhecimento ou a
comparação do que foi ouvido com experiências anteriores, a memória ou retenção e
evocação de elementos da fala e, finalmente, a compreensão da mensagem falada (Russo &
Behlau, 1993).
A via perceptual pode ser distinguida em dois processos: a sensação – a
audição- que é o caminho percorrido pelo estímulo auditivo do periférico até o cérebro do
ouvinte e, o processo de percepção, que seria a decodificação e compreensão do evento
acústico recebido.
Sanders (1977) explica que a onda sonora, após impregnar o sistema auditivo
periférico, caminha pela via auditiva até o cérebro. As mudanças efetuadas no sistema
auditivo periférico serão modeladas no centro nervoso de modo equivalente ou similar à onda
sonora recebida e nunca de modo idêntico. Essa equivalência de modelos de entrada e saída
preserva a continuidade da informação recebida.
13
Segundo o autor o que recebemos é uma informação relativa de como o evento
acústico modifica o sistema auditivo e como este processa tal informação. Os sinais acústicos
de fala não conduzem mensagens em si – conduzem informações que serão reconstituídas
pelo ouvinte. Assim, a percepção auditiva é um processo de interpretação de instruções
impressas, pelo falante, sobre a onda sonora em um determinado período de tempo.
Depois da transformação inicial do sinal de fala pelo sistema auditivo
periférico, informações acústicas sobre a estrutura do espectro, freqüência fundamental,
mudanças na fonte, intensidade e duração do sinal, assim como da amplitude, são extraídos e
codificados pelo sistema auditivo (Stevens, 1980).
Estes padrões temporais e de espectro do sinal de fala são preservados na
memória sensorial por um breve período de tempo, durante o qual é feita a análise. O
resultado desta análise provê as pistas acústicas da fala, ou seja, as representações auditivas
do sinal da fala que são subseqüentemente usadas para classificação fonética.
Erber (1982) propõe quatro categorias de percepção da fala, uma matriz de
pistas auditivas que demonstram os diferentes níveis de tarefas perceptuais possíveis e uma
complexidade progressiva dos estímulos apresentados. Para ele, no primeiro estágio ocorreria
a detecção da presença ou ausência de um estímulo verbal; já no segundo, ocorreria a
discriminação entre estímulos verbais diferentes ou iguais no terceiro, haveria o
reconhecimento das características da fala e, por fim, a compreensão, o entendimento das
palavras ou unidades de maior domínio da fala. Assim, a detecção seria a sensação da
presença de um estímulo da fala e os estágios seguintes seriam os níveis mais complexos,
abrangendo a aprendizagem e o pensamento.
Essas mesmas etapas do processamento dos sons de fala podem ser,
generalizadas, ao processamento dos sons, em geral. Além dessas quatro etapas, outros
componentes no processamento auditivo estão presentes e desempenham um importante papel
14
no ato de ouvir. São eles: a localização da fonte de produção do som, a atenção seletiva e a
memória mediata (armazenamento temporário de eventos ocorridos recentemente) e imediata
(armazenamento permanente de eventos ocorridos no passado).
Compreensão Reconhecimento Discriminação Detecção
Discurso * * *
Sentença * * *
Palavra * * *
Sílaba * * *
Fonema Isolado * *
Figura 1: Habilidades Auditivas para Tarefas de Percepção da Fala (Erber, 1982)
Russo e Behlau (1993) enfatizaram que para a compreensão da fala pelo
ouvinte depende de processos supraliminares a ela relacionados: atenção à mensagem;
intensidade da mensagem; intensidade do ruído ambiental; tipo de material de fala utilizado
nos testes; coarticulação e fatores supra-segmentais; sensação de freqüência (“pitch”);
sensação de intensidade (“loudness”); qualidade vocal do falante; articulação e pronúncia, e
fatores temporais: ritmo e taxa de elocução.
O estudo da percepção da fala propõe-se a entender de que modo o ouvinte
decodifica a mensagem recebida. Para que ocorra a decodificação da mensagem há
necessidade de desenvolvimento da audição e linguagem, integridade do sistema auditivo
periférico e central, áreas cognitivas, lingüísticas e psíquicas, de experiências do indivíduo
durante a vida e a importância dos estímulos auditivos individualmente (Balen, 1997; Gama,
1994).
A percepção dos sons da fala envolve um sistema de interação complexa. O
estímulo de fala precisa ser identificado, categorizado e reconhecido em sua forma. Assim, o
15
processo de percepção da fala possui uma estreita relação com a atividade motora cognitiva
envolvida em sua produção. (Russo & Behlau, 1993).
Os sons da fala ou como descreve Callou e Leite (2003), as unidades
constitutivas do contínuo sonoro, são produzidas por um mecanismo fisiológico específico a
que se convencionou chamar aparelho fonador, e do qual fazem parte os pulmões, a laringe, a
faringe, as cavidades oral e nasal.
A produção dos sons é assim estudada de três ângulos diversos: 1- partindo-se
do falante (da fonte) e examinando-se o que se passa no aparelho fonador; 2- focalizando-se
os efeitos acústicos da onda sonora produzida pela corrente de ar em sua passagem pelo
aparelho fonador ou, então 3- examinando-se a percepção da onda sonora pelo ouvinte, isto é,
o estudo das impressões acústicas e de suas interpretações no processo de decodificação
(Callou & Leite, 2003).
Ao se estudar a percepção de fala, deve-se levar em consideração que se trata
de um conteúdo lingüístico, então, não se pode esquecer das características físicas da
mensagem, em relação a sua informação acústica (Balen, 1997).
16
3.3- JULGAMENTO PSICOFÍSICO E INTELIGIBILIDADE DE FALA
Segundo Pavlovic, Rossi, Espesser, Lawson e Chial, (1990), como não há
medidas físicas com resultados em valores que quantifiquem os atributos perceptuais da fala,
testes psicofísicos necessitam ser empregados para tais medidas.
Schiavetti, Metz e Sitler (1981) analisaram o uso da escala de estimação de
magnitude e da escala intervalar para investigar a inteligibilidade de fala de deficientes
auditivos adultos, e para determinar se o tipo de continuo era protético ou metatético.
Amostras de 20 pacientes deficientes foram avaliadas por 40 sujeitos sendo que 20 deles
realizaram estimação de magnitude e 20 estimação de categoria. A escala intervalar colocada
em função da estimação de magnitude resultou em uma curva exponencial com concavidade
descendente, indicando que o continuo é protético. Sendo assim, a estimação de magnitude
tem melhor constructo de validade para julgamento de inteligibilidade de fala.
Segundo os mesmos autores a estimação de magnitude pode ser utilizada em
outros trabalhos de inteligibilidade de fala variando outros domínios da fala como: tipo de
erro, duração, freqüência e intensidade, analisando os efeitos da inteligibilidade de fala, pois,
esta escala se mostrou vantajosa no teste-reteste de inteligibilidade de fala simples, realizada
com diferente número de fonemas consonantais produzidos corretamente (Schiavetti, Metz, &
Sitler, 1981).
Purdy e Pavlovic (1992) em suas investigações sobre a relação entre a validade
e sensitividade de diferentes procedimentos escalares psicofísicos para a inteligibilidade de
17
fala de usuários de aparelhos auditivos encontrou uma validade moderadamente alta nas
condições de teste-reteste.
Através das investigações sobre o procedimento para medir a inteligibilidade
de fala, Fucci, Ellis e Petrosino (1990), encontraram que os métodos mais utilizados são:
identificação e métodos escalares, sendo que os métodos escalares mais usados são estimação
de magnitude e escala intervalar.
Portanto, os pesquisadores investigaram a validade da escala de estimação de
magnitude como medida para a inteligibilidade/ inteligibilidade de fala simples em que o
número de fonemas consonantais produzidos corretamente são sistematicamente variados. O
resultado sugere que a escala de estimação de magnitude (sem módulo) é um método válido
para mensurar a inteligibilidade da fala simples.
Ellis e Fucci (1992) investigaram os efeitos das experiências dos ouvintes em
julgar a inteligibilidade de fala por meio de registro da escrita e pelo método de estimação de
magnitude. Estes dois métodos foram selecionados por representar duas categorias diferentes
de métodos usadas para estimar a inteligibilidade de fala.
O estudo mostrou que ouvintes experientes e não experientes não diferiram
significantemente no julgamento de estimação de magnitude ou na identificação escrita de
inteligibilidade de fala simples, mostrando a validade da escala de estimação de magnitude
para mensuração de inteligibilidade de fala.
Fucci et al. (1993) se propuseram a estudar o efeito da preferência de música
rock no volume através da escala de estimação de magnitude em adultos jovens.
O resultado mostrou que a preferência por rock tem efeito na percepção do
volume, pois o grupo de sujeitos que gostam de rock consistentemente forneceu respostas
numéricas mais baixas do que sujeitos que não gostam de rock, mostrando que estes sujeitos
percebem o volume com maior intensidade que os sujeitos que gostam de rock.
18
Fucci, Domyan, Ellis e Harris (1994) explicaram que a habilidade para
perceber a fala é dependente de fatores subjetivos como quantidade de informação lingüística
disponível, o tipo e a quantidade de experiência auditiva anterior e a qualidade das
características acústicas do sinal.
Em seus estudos examinaram habilidade de ouvintes julgarem os parâmetros
subjetivos da “qualidade de fala” quando afetada por processos de filtragens de fala, usando a
escala de estimação de magnitude.
A escala de estimação de magnitude mostrou ser uma medida efetiva de
qualidade de fala afetada por filtros de fala. Nas duas condições experimentais passa
alto/baixo a produção de estimação de magnitude foi similar e ambas produziram
aproximadamente uma função potência.
O efeito da personalidade (extroversão/ introversão) foi pesquisado por Fucci
et al. (1994), utilizando a escala de estimação de magnitude, com estímulos auditivos
complexos. A música de rock foi o estímulo acústico escolhido porque ela permite a seleção
das característica de personalidade de sujeitos baseados em suas preferências (gosto/ não
gosto) para este particular estímulo.
Os dois grupos tiveram desempenho sem diferença significativa no teste de
escalonamento de estimação de magnitude, fornecendo repostas numéricas similares. Assim,
este estudo demonstra que as diferenças de personalidade não afetam o escalonamento de
estimação de magnitude.
Fucci, Betteagere, Gonzalez, Reynolds e Petrosino (1995) examinaram o efeito
da familiaridade de duas línguas, inglês e hindi, no volume, por meio da escala de estimação
de magnitude em adultos jovens. A escala de estimação de magnitude (sem módulo) mostrou
ser uma medida efetiva de loudness seja para ouvintes familiarizados ou não a língua, para
mensurar a inteligibilidade da fala simples.
19
Ellis, Reynolds, Fucci, e Benjamin (1996) estudaram o efeito do julgamento de
homens e mulheres na inteligibilidade de fala. Este julgamento foi determinado pelo uso de
escala de estimação de magnitude (sem módulo) e mostrou ser uma medida efetiva de
loudness seja para ouvintes familiarizados ou não com a língua, para mensurar a
inteligibilidade de fala simples.
Ellis et al. (1996), estudaram o efeito do julgamento de homens e mulheres na
inteligibilidade de fala. Este julgamento foi determinado pelo uso de escala de estimação de
magnitude e pela resposta verbal dos ouvintes. Por fornecer duas diferentes medidas de
inteligibilidade, estimação de magnitude numérica e respostas subjetivas os investigadores
puderam estabelecer a validade da escala de estimação de magnitude.
Os resultados mostraram não haver diferenças significativas entre as
estimativas dos estímulos entre ouvintes homens e mulheres, assim como mostrou a validade
do método escalonar, devido ao uso dos dois métodos empregados.
Fucci, Leach, Mackenzie e Gonzales, (1998) examinaram os efeitos do
loudness em ouvintes de diferentes idades com estímulo auditivo complexo, rock, através da
escala de estimação de magnitude. Todos ouvintes não gostavam de música rock.
Os estudos mostraram que as respostas do grupo de sujeitos mais velhos
significativamente mais altos do que a de adultos jovens para cada estímulo de intensidade
empregado, assim, pode-se verificar que os sujeitos idosos percebem a música mais intensa
que os sujeitos jovens.
Ellis (1999) pesquisou a inteligibilidade e aceitabilidade de fala de amostras de
fala variando sistematicamente o número de consoantes produzido corretamente, utilizando
julgamentos escalares como estimação de magnitude. As análises dos dados não indicaram
diferença estatisticamente significativa entre os julgamentos de inteligibilidade e
aceitabilidade de fala. No entanto, os ouvintes tenderam a julgar como mais aceitáveis as
20
sentenças que continham mais de 50% de consoantes corretas e menos aceitáveis do que
inteligíveis quando as sentenças continham menos de 50% consoantes corretas.
Ellis, L. W., Spiegel, B. e Benjamin, B. (2002) propuseram- se a estudar os
efeitos das características particulares em relação ao gênero dos ouvintes por meio de
julgamentos de inteligibilidade ou de aceitabilidade de fala simples por meio de síntese de fla
DEC talk (voz “perfeita Paulo”).
O resultado deste estudo estende os resultados de Ellis (1999), mostrando que
não há diferença significativa entre os julgamentos de ouvintes homens e mulheres para
inteligibilidade de fala com estímulos de fala simples produzidos pelo DEC talk.
21
3.4- ASPECTOS SEGMENTAIS DA FALA
A facilidade com que o indivíduo é capaz de perceber a fala, em parte é devida
a uma redundância extrínseca dentro do sinal da fala e da redundância extrínseca dentro do
sistema auditivo (Bocca & Calearo, 1963). A redundância extrínseca refere-se às numerosas
pistas sobrepostas, dentro da própria fala (ex.: duração dos sons, estrutura gramatical,
repetição). A redundância intrínseca refere-se às múltiplas vias do SNAC e às fontes de
informação que o sistema humano possui para processar a fala. Muito freqüentemente, os
indivíduos desempenham normalmente uma tarefa de processamento da fala se somente um
destes dois tipos de redundância tiver sido reduzido. Se, entretanto, a redundância extrínseca e
intrínseca, ambas diminuírem, freqüentemente ocorre um desempenho anormal. Esta
interação é a base subjacente para o uso da logo-audio-metria para a detecção de disfunções
do SNAC (Maj, 1989).
Os aspectos segmentais da fala são constituídos por vogais e consoantes. As
vogais são os sons produzidos pela abertura total do trato vocal, enquanto as consoantes são
produzidas pela constrição parcial ou total do trato vocal (Creaghead & Newman, 1989).
Os sons, segundo Callou e Leite (2003), são produzidos pela corrente de ar
egressiva, que ocorre durante a expiração e provoca variações de pressão subglótica. Esta
corrente de ar ao chegar à laringe, atravessa as pregas vocais podendo gerar ou não vibração,
os sons sonoros ou vozeados são gerados pela vibração enquanto os sons surdos ou não-
vozeados são advindos da não vibração das pregas vocais.
22
As vogais, de acordo com Malmberg (1954) e Callou e Leite (2003), são sons
produzidos por vibrações periódicas complexas. Constituem o núcleo da sílaba e nelas pode
incidir acento de altura e intensidade, o que as diferencia das consoantes.
Segundo Fant (1960), há três componentes separados e independentes que
afetam a realização da vogal: a complexidade da onda da laringe (a fonte), a ressonância da
cavidade do trato (o filtro) e a radiação do som deixando a cavidade e se dispersando no ar. A
fonte seria a vibração das pregas vocais nas freqüências de 120 Hz a 220HZ em adultos. As
diferenças acústicas das vogais são percebidas durante a audição e são causadas pelos efeitos
dos filtros no aparelho ressoador. Cada vogal tem formantes distintos que são o resultado da
ressonância do trato vocal, sendo que F1 é a menor freqüência seguida de F2, F3, etc. os
formantes de maior importância para as vogais são F1 e F2, pois sua relação determina as
características acústicas da vogal. O grau de abertura de uma vogal tem relação direta com a
freqüência do primeiro formante (F1) e o grau de anteriorização com o segundo formante (F2)
(Ladefoged, 1962).
As principais características acústicas das vogais, segundo Kent e Read (1992),
são: a configuração dos formantes e a sua duração. Em relação à configuração dos formantes,
as vogais baixa tem F1 alto e as vogais altas têm F1 baixo. As vogais posteriores têm F2
baixo e pequena diferença na transição F1 e F2, enquanto as vogais anteriores têm F2 alto e
grande diferença na transição F1 e F2. A duração das vogais auxilia na distinção de suas
similaridades espectrais. Os autores citam ainda o padrão espectral, a freqüência fundamental,
a largura de banda e a amplitude do formante, como outras características acústicas
determinantes das vogais.
RESUMO DA TEORIA FONTE-FILTRO PARA VOGAIS- A vibração das
pregas vocais produz a fonte de energia conhecida como vozeamento. Esta fonte tem um
espectro harmônico em que a energia dos componentes harmônicos caem, grosso modo, na
23
taxa de 12 dB/oitava. Esta energia ativa as ressonâncias (formantes ou pólos) do aparelho
fonador. As ressonâncias agem como um filtro, de modo que a energia nos vários harmônicos
da fonte não é transmitida igualmente. Embora haja teoricamente um número infinito de
formantes, lidaremos principalmente com os três primeiros, F1, F2, e F3. Quando a energia
acústica é radiada dos lábios, o espectro de saída também é influenciado pelo efeito do filtro
de passa-alta conhecido como característica de radiação.
Figura 2: Diagrama da teoria fonte-filtro para vogais. O espectro da fonte laríngea U(s), é
filtrado pela função de transferência do aparelho fonador, T(s), e a característica de
radiação, R(s), para resultar no espectro de saída, P(s). Matematicamente, P(s) é um co-
produto de U(s), T(s) e R(s), em que s= freqüência.
Essas vogais podem ser dispostas em um quadrilátero, segundo sua forma
acústica e articulatória. Do ponto de vista articulatório, as medidas são obtidas colocando-se
na ordenada os dados de altura do ponto de constrição máxima e na abscissa a distância dos
lábios. Do ponto de vista acústico, as medidas da ordenada são o inverso dos valores dos
primeiro formante e na abscissa o inverso da medida do segundo formante (Maia, 1985). No
24
português temos um quadro formado por 7 vogais orais e 5 nasais. Os traços distintivos são: a
localização articulatória, a abertura da boca e o arredondamento ou não dos lábios.
No Português do Brasil existem sete fonemas vocálicos, depreendidos em
sílabas tônicas- contexto em que há maior estabilidade articulatória, encontrando-se oposição
entre sala, s, sΕla, sede, sΕde, mira, mura, ca, oca e assim sucessivamente. O sistema
vocálico organiza-se de forma triangular, pelo fato de a vogal [a] não constituir uma dualidade
opositiva, ocupando o vértice mais baixo de um triângulo de base para cima.
Análise das vogais portuguesas mais abrangentes é de Mattoso Câmara Jr. apud
Callou e Leite (2003), tomando por base a localização articulatória, a elevação gradual da
língua (correspondente à abertura bucal) e o arredondamento dos lábios, apresenta o autor a
seguinte classificação:
VOGAIS
Anterior Central Posterior
Altas i u
e o
Médias
Ε
Baixas a
Não arredondadas Arredondadas
Figura 3: Vogais do PB (Mattoso Câmara Jr. apud Callou e Leite, 2003).
Barbosa e Albano (2004) em seu trabalho sobre português brasileiro (Brazilian
Portuguese), selecionaram sete palavras do PB com significado que apresentam as sete
diferentes vogais orais do PB. As palavras são:
25
i
σiκΥ
sico
e
σeκΥ
seco
Ε σΕκΥ
seco
a
σaκΥ
saco
o
σoκΥ
soco
σκΥ
soco
u
σuκΥ
suco
Figura 4: Vogais do PB que foram utilizadas no experimento.
A oposição é gradativa - abertura mínima a máxima. Para as médias estabelece
ainda graus, considerando as vogais /Ε/ e // como de 1° grau e /e/ e /o/ de 2° grau. O
arredondamento dos lábios, como se pode facilmente observar pelo quadro, não constitui um
traço distintivo, pois as vogais anteriores e central são não-arredondadas e as posteriores são
sempre arredondadas.
Figura 5: Posicionamento das vogais no trato vocal e a analise
das mesmas (Slide de aula Knobel, 2004).
26
O estudo das vogais é um dos meios de se definir uma língua. Esse estudo é
básico no campo das ciências da Comunicação e uma de suas funções é a de fornecer
subsídios para o diagnóstico e o tratamento de pacientes portadores de distúrbios da
comunicação oral.
O trabalho clássico na análise das vogais é o de Peterson e Barney (1952) que,
num programa dos “Bell Telephone Laboratories”, dos Estados Unidos da América,
apresentam uma análise perceptual, com a identificação, pelos ouvintes, de determinados
monossílabos emitidos pelos falantes, previamente registrados em fita magnética, e também
uma análise espectrográfica dos três primeiros formantes das vogais em questão. Esse estudo
foi realizado com 76 falantes e 70 ouvintes, nativos e não nativos, do inglês americano,
utilizando-se palavras com 10 vogais desta língua.
As consoantes, de acordo com Malmberg (1954), Ladefoged (1975) e Callou e
Leite (2003), são os sons produzidos por vibrações aperiódicas e por um fechamento ou
constrição da passagem do ar. Podem ser caracterizados pelo modo e ponto articulatório, bem
como pela presença ou não de vozeamento. O modo articulatório é caracterizado pelas
modificações que ocorrem na corrente de ar, através da sua passagem pelas cavidades
supraglóticas. Os articuladores podem fechar completamente o trato vocal por um instante ou
por um período relativamente longo, produzindo um espaço consideravelmente estreito, ou
simplesmente modificar a forma do trato pela aproximação de um articulador do outro. O
ponto de articulação é caracterizado pelo local em que os articuladores entram em contato.
Maia (1991) descreveu os sons consonantais de acordo com seu modo e ponto
de articulação. Em relação ao modo de articulação, os sons podem ser plosivos ou oclusivos,
fricativos, nasais, vibrantes e laterais. Na produção dos sons plosivos há interrupção total da
corrente de ar, gerando um silêncio seguido de uma breve explosão. Os sons fricativos são
27
produzidos pelo estreitamento da corrente de ar, provocado por dois articuladores, gerando
um ruído friccional. Os sons nasais são produzidos pelo abaixamento do véu palatino e
abertura da cavidade nasal. Na produção dos sons vibrantes, os articuladores (língua ou úvula
sobre o palato), vibram, obstruindo a passagem de ar de forma intermitente. Os sons laterais
são produzidos pelo escape lateral na cavidade bucal, devido à colocação dos articuladores no
centro da passagem. Em relação ao ponto de articulação, os sons podem ser em bilabiais- os
dois lábios como articuladores; labiodentais – dentes e lábios inferiores; dento-alveolares –
colocação da língua contra os dentes; palato-alveolares – língua mais para frente contra os
alvéolos; palatais – parte frontal da língua contra o palato duro e velares – dorso da língua
contra o véu palatino.
O estudo dos sons do português falado no Brasil, realizado por Russo e Behlau
(1993) mostrou a faixa de freqüência e a intensidade deste sons para língua portuguesa. Os
mesmos foram dispostos num gráfico (audiograma), tendo como critério a utilização apenas
do formante mais intenso. Assim, os sons do português ficaram dispostos numa faixa de
intensidade de 15 dB (os mais fracos: [f], [v]) até 45 dB (os mais intensos: [a], []). Com
relação à freqüência, ficaram dispostos entre 250 Hz (os mais graves: [m], [n], [y] e [l]) e
7000 Hz (os mais agudos: [f], [v], [s] e [z]).
28
3.5- ASPECTO TEMPORAL – TAXA DE ELOCUÇÃO
Os primeiros pesquisadores a utilizarem a fala comprimida em estudos de
inteligibilidade foram os italianos Calearo e Lazzaroni (1957) e Bocca (1958).
Calearo e Lazzaroni (1957) propuseram um teste de inteligibilidade da fala
com modificação da taxa de elocução, a fim de definir a relação entre a duração e intensidade
da fala, tanto em condições normais quanto patológicas. Assim, quando ocorre diminuição na
duração da fala, a inteligibilidade da mesma é compensada pelo princípio da redundância;
porém, quando ocorrem diminuições na duração da fala, a inteligibilidade terá que ser
compensada pelo aumento simultâneo da intensidade.
O teste de inteligibilidade da fala com modificação da taxa de elocução
proposto por Calearo e Lazzaroni (1957) foi composto de listas de pequenas sentenças em três
taxa de elocução diferentes: 140 palavras por minuto (taxa de elocução normal da língua
italiana), 250 e 350 palavras por minuto. A partir dos resultados encontrados nessa população,
os autores concluíram que a discriminação da fala em taxa de elocução acelerada só é possível
quando os mecanismos auditivos superiores não estão prejudicados. Sendo assim, este teste
pode ser adotado na prática audiológica com a finalidade de avaliar aspectos auditivos das
vias auditivas centrais.
Bocca (1958), na International Conference on Audiology em Milão, relatou os
aspectos clínicos da surdez cortical. O autor revisou, inicialmente, o princípio da redundância
contida na fala, que propicia o seu reconhecimento, apesar de transmissões imperfeitas.
Porém, quando a qualidade de transmissão da mensagem é associada a alterações das
estruturas sensório-neurais, intensidade, freqüência e tempo, pode também ser alterada a
29
qualidade das informações transmitidas e recebidas. Através desta concepção, o autor e sua
equipe da Universidade de Milão, na Itália, desenvolveram os seguintes testes de fala
sensibilizada: voz distorcida, voz interrompida, voz acelerada, mensagens longas, sentenças
com significado e alterações no ritmo.
Estes primeiros pesquisadores usaram inicialmente dissílabos ou sentenças
como sinais de fala. Entretanto, recentemente os monossílabos estão sendo mais utilizados
como material mais comum para a compreensão. Muitos trabalhos tem utilizado o
procedimento eletromecânico desenvolvido por Fairbanks, Everitt e Jaerger, (1954) para
alterar o tempo de fala.
Segundo Konkle, Beasley e Bess (1977), a fala em tempo comprimido pode ser
utilizada como parte da bateria de testes, que auxiliarão o fonoaudiólogo no efetivo
delineamento de alterações de processamento auditivo central e periférico em função da
idade, pois o processamento temporal e a resolução temporal do sistema nervoso central são
de extrema importância para a percepção de fala.
Beasley, Brat e Rintelmann (1972) avaliaram a inteligibilidade de fala para
monossílabos consoante- vogal- consoante (CVC) comprimidos em 0, 30, 40, 50, 60, 70%, de
96 sujeitos com audição normal e obtiveram resultados demonstrando que há uma diminuição
da inteligibilidade com o aumento do tempo de compressão. No entanto, quando o nível de
sensação aumenta a inteligibilidade também aumenta. Com relação às listas utilizadas no
experimento, houve aumento da variabilidade de inteligibilidade entre as listas com o
aumento da compressão e diminuição desta variabilidade com o aumento da intensidade.
Segundo os autores este teste de fala modifica no aspecto temporal é mais vantajoso de ser
utilizado que outros testes, e isto pode estar relacionada com a influência que o aspecto
temporal tem na percepção da fala.
30
Beasley, Forman e Rintelmann (1972) estudaram as respostas para o teste de
fala comprimida em 7 diferentes condições (0 a 70%) em universitários com audição normal
para estabelecer dados normativos para serem utilizados na clínica. Os resultados mostraram
que o aumento do tempo de compressão diminui a inteligibilidade de fala.
Beasley, Brat e Rintelmann, (1980) avaliaram sujeitos jovens com audição
normal, a fim de determinar os efeitos do tempo de compressão na inteligibilidade de três
diferentes tipos de sentenças. As sentenças foram gravadas com voz masculina e comprimidas
a 0, 40, 60 e 70%, através do compressor “Lexicon Verspeech I”. Este estudo mostrou que
com compressão da duração há diminuição da inteligibilidade quando há diminuição do nível
de sensação sonora e aumento da compressão e que as sentenças de terceira ordem tem pior
inteligibilidade com relação às duas outras sentenças: listas do “Central Institute of the Deaf”
e nas listas do CID revisado (RCID).
Riensche, L.L., Beasley, D.S. e Lamb, (1983) investigaram o padrão normativo
de sujeitos jovens com audição normal, na inteligibilidade de sentenças rimadas em tempo
comprimido de 0 a 60% com intensidade de 40 dB NS e com mascaramento ipsilateral a 65
dB NS. Os resultados mostraram efeito significado com o tempo comprimido em 60% e com
o mascaramento, assim como a orelha também demonstrou efeito significante, a orelha direita
teve pior desempenho do que à esquerda.
Konkle et al. (1977) e Schmitt (1983) não evidenciaram diferença significante
entre os sexos na inteligibilidade de fala em tempo comprimido.
Zemlim, Daniloff, e Shriner (1968), investigando o efeito dos falantes de
diferentes gêneros no julgamento de inteligibilidade de fala em tempo comprimido, encontrou
diferença significativa entre o material de fala gravado por homens e mulheres, mostrando
que a voz masculina é mais inteligível do que a feminina. Os autores acreditam que uma
possibilidade seja a freqüência fundamental mais alta da voz feminina.
31
3.6 - ANÁLISE ACÚSTICA
As técnicas de análise acústicas passaram por grandes desenvolvimentos desde
sua concepção, por volta da Segunda Guerra Mundial. As possibilidades de decompor o sinal
sonoro, oferecendo uma representação tridimensional, relativa aos eventos de freqüência,
duração e intensidade representaram uma nova era nas técnicas de comunicação a distancia e
passaram a encantar os que se ocupavam do estudo da produção sonora pelo aparelho fonador
humano (Camargo, 2002).
Outro marco fundamental para se elaborar o estado atual dessa área é a
descrição da Teoria Acústica da Produção da Fala por FANT (1906), a qual veio fundamentar
e possibilitar uma aplicação mais ampla dessa tecnologia para nossa área de atuação. Desse
corpo teórico, destaca-se o modelo fonte-filtro para a produção das vogais.
Concebidas dessa maneira, as modalidades de análise acústica permitem a
decomposição do sinal de fala captado a partir da boca do falante em seus principais atributos
físicos, permitindo tecer, com o devido respaldo teórico, importantes correspondências entre
os ajustes do trato vocal e a qualidade sonora resultante.
A análise acústica permite a integração das esferas fisiológica e perceptiva
auditiva.
A partir desse ponto, as observações relativas à avaliação acústica passam a ser
destacadas nos mecanismos relacionados à fonte e ao filtro para a produção das vogais. Na
fonte, a atividade das pregas vocais gera componentes de energia sonora tidos como
harmônicos, os quais guardam entre si uma relação de múltiplos, vinculados ao fenômeno
32
regular, “quase periódico” da ação de pregas vocais, e são geralmente considerados como
parciais de vibração das pregas vocais. A abordagem da estrutura harmônica guarda, portanto,
relação direta com a periodicidade do sinal.
No filtro, a ação de todo o restante do trato vocal transfere, ou melhor,
modifica a energia que saiu da fonte, graças ao efeito de ressonância, impondo ganho de
amplitude a alguns componentes de freqüência (harmônicos) do sinal, gerando os formantes
da emissão.
33
ESPECTROGRAFIA
A espectrografia é um método instrumental objetivo para avaliar o resultado
acústico de uma emissão vocal (Ball, 1993; Callou & Leite, 2003; Fant, 1958; Russo &
Behlau, 1993)
Fisicamente, a espectrografia, são gráficos tridimensionais da representação
sonora, que dispõem no eixo horizontal a duração, expressa em Hz ou kHz; a intensidade,
geralmente expressa em dB, é representada pela variação das cores ou tonalidades. São
divididas em duas modalidades de acordo com o processo de filtragem de freqüências e,
conseqüentemente, do procedimento computacional usado para gerá-los: banda estreita:
procedimento “fast Fourier Transform”.
Vieira (2003) relata acerca da espectrografia computadorizada que esta
ferramenta é versátil na análise vocal, além de consideravelmente flexível, possibilitando
mudar o tipo de análise, a extensão das freqüências, as escalas temporais, os tamanhos de
banda de freqüência efetivos e outros parâmetros.
PROGRAMA PRAAT
Praat é um programa para análise acústica e síntese de fala, desenvolvido por
Paul Boersma e David Weenink no Department of Phonetics of the University of Amsterdam.
34
Este é de fácil acesso, constantemente atualizado sendo que uma nova versão é publicada
quase semanalmente, além da fácil aquisição, pois pode ser obtido no seguinte endereço:
www.praat.org, por meio de download gratuitamente. O programa tem a possibilidade de
trabalhar com arquivo de som , longo e curto, bem como com arquivos mono e stereo.O Praat
salva e lê vários formatos de sons.
A figura abaixo nos mostra a janela de edição na qual são realizadas as
principais medidas acústicas de um sinal (duração, freqüência formântica, pitch, jitter e
shimmer, etc).
Figura 6: Janela onde são feitas as principais medidas acústicas de um sinal.
35
Algumas funções do programa Praat:
Spectrum: Reúne as funções correspondentes ao espectrograma, entre elas torná-lo
visível sob a forma da onda e ajustar os parâmetros para cada observação.
Pitch: Reúne as funções correspondentes ao pitch. Quando em uma seleção, possui a
função de mover o cursor para o maior ou menor valor do pitch ou ainda mostra o
valor do máximo ou mínimo pitch. Tamm é possível deixá-lo visível sobre o
espectrograma na forma de uma linha azul e ajustar os parâmetros para cada
observação.
Intensity: Reúne as funções correspondentes à intensidade, como: tornar a intensidade
visível sobre o espectrograma na forma de uma linha amarela e ajustar os parâmetros
para cada observação.
Formants: Reúne as funções correspondentes aos formantes, como: torna- los visíveis
sobre o espectrograma na forma de bolinhas vermelhas, e ajustar os parâmetros para
cada análise. Quando estão visíveis, tem-se a possibilidade de se obter os valores tanto
das freqüências dos formantes quanto de suas larguras de banda no ponto onde está
localizado o cursor ou de uma seleção.
Pulses: Reúne as funções correspondentes aos pulsos, como a possibilidade de torná-
los visíveis sobre a forma da onda sob a forma de linhas azuis verticais e fornecer
valores de jitter e shimmer.
Os dados referentes ao Programa Praat foram retirados do Material desenvolvido por Ingrid Samcuk, IC –
PIBIC/CEPE –LIAACC/LAEL – PUC-SP, com base no manual para iniciantes disponibilizado na internet por
Sidney Wood, no site http://www.ling.lu.se/persons/Sidney/praate.frames.html, e nas muitas horas passadas com
a orientadora Profa. Dra. Aglael Gama Rossi durante a fase inicial de desenvolvimento do projeto de Iniciação
Científica.
36
4-DELINEAMENTO EXPERIMENTAL
37
DELINEAMENTO EXPERIMENTAL
Este procedimento foi adotado para facilitar o entendimento dos
experimentos.
O presente estudo foi aprovado pela Comissão de ética da Universidade
de Ribeirão Preto (UNAERP) em 21/09/2005 sob o protocolo de Pesquisa n° 019/05
(Anexo 1).
Os critérios para inclusão dos participantes para o julgamentos de
percepção da fala foram: sujeitos falantes nativos do português brasileiro, com idade
entre 18 a 26 anos, estudantes universitários, inexperientes em julgamentos psicofísicos,
e possuírem sensitividade auditiva dentro dos padrões de normalidade.
AUDIOMETRIA
Foi realizado meatoscopia e audiometria aérea nas freqüências de 250 a
8000Hz (padrão ANSI 69), para a averiguação de normalidade auditiva e condições de
recepção da fala dos participantes.
38
Materiais
- Cabine acústica
- Otoscópio
- Audiômetro Praitronic- modelo MA- 31
Procedimento
Todos os sujeitos foram submetidos a meatoscopia e logo em seguida iniciava-
se a audiometria.
O sujeito recebia a instrução para responder a audiometria tonal limiar. Os
fones eram colocados. O método utilizado para pesquisa de limiar foi o descente. O teste era
sempre iniciado pela orelha direita. A pesquisa do limar da via aérea começava na freqüência
de 1kHz, seguido por 2 kHz, 3 kHz, 4 kHz, 6 kHz, 8 kHz, 500 Hz e 250 Hz, em ambas as
orelhas. Os resultados foram anotados no audiograma e considerados normais quando os
limiares auditivos eram inferiores a 25 dB NA de acordo com os critérios apresentados por
Russo & Santos (1986).
39
Resultados
A pesquisa dos limiares auditivos mostraram-se dentro do padrão de normalidade, sendo igual
ou inferior a 25 dB NA, demonstrando que os sujeitos tem “acuidade” auditiva para a
percepção da fala.
EXPERIMENTOS:
Os experimentos foram divididos em duas partes: Análise acústica e
Julgamento psicofísico.
Análise acústica:
No experimento I foi realizado a analise acústica:
Dois grupos de estímulos acústicos que estavam em taxa de elocução diferente: normal e
rápida;
Análise estatística das frases com as duas taxas de elocução e as frases contendo as
vogais alvo.
Das vogais contidas nas frases:
Análise estatística das durações das vogais com taxa de elocução normal;
Análise estatística das durações das vogais com taxa de elocução rápida;
40
Análise estatística das durações das vogais com as duas taxas de elocução e das
diferenças das vogais.
Experimento II:
Análise acústica das frases em taxa de elocução mais rápida;
Análise estatística das frases com taxa de elocução mais rápida e das frases com as
vogais alvo;
Análise acústica das vogais contidas nas frases com as vogais alvo;
Análise estatística das vogais com taxa de elocução mais rápida;
Análise estatística das três taxas de elocução e das vogais
Julgamento psicofísico.
Experimento I e II:
Parte I-
¾ Seleção dos estímulos acústicos;
¾ Gravação dos estímulos acústicos;
Parte II
¾ Estimação de Psicofísica
Estimação de magnitude do comprimento de linha;
analise preliminar dos comprimentos de linha;
Julgamento psicofísico de estimação de magnitude das 28 frases;
analise estatística das frases: taxa de elocução e diferença entre as frases;
41
5-EXPERIMENTOS
42
5.1 - ANÁLISE ACÚSTICA
EXPERIMENTO I
Análise acústica das frases com taxa de elocução normal e rápida
A análise acústica realizada foi o cálculo da duração dos fones em cada frase,
através do programa Praat. Os fones foram etiquetados e obtida a duração correspondente, a
qual foi colocado em uma tabela de duração. A partir desta foi possível realizar a análise
estatística para verificar se a taxa normal era diferente da taxa rápida e se as frases contendo
as vogais alvo diferem em relação a duração.
A partir das durações dos fones foi realizada a análise descritiva dos dados para
a escolha do estímulo acústico para elaboração da escala de frases com as vogais alvo para o
julgamento da estimação de magnitude de inteligibilidade de fala.
Após a análise descritiva dos dados foi possível obter a média das durações das
frases, assim, foi escolhido o estímulo que mais se aproximava da média. Este procedimento
foi aplicado devido às condições do experimento que tinha a produção do locutor como um
requisito para esta análise, pois quando a taxa de elocução é aumentada por software há
distorção nas frases e por conseqüência a percepção da frase seria prejudicada. A duração
média de cada frase com as palavras alvo com as diferentes vogais foi um direcionamento
para a escolha do estímulo acústico para o julgamento psicofísico.
43
Realizou-se também uma comparação em porcentagem para verificar quanto
que a taxa rápida teve diminuição da duração em comparação com a taxa normal que
consideramos o padrão de normalidade para este experimento.
Também foi realizado o teste estatístico análise de variância (ANOVA)
factorial, sendo dois fatores (vogal e taxa de elocução) e uma variável dependente (duração).
Objetivamos verificar se ocorreram diferenças entre as duas taxas e as sete vogais, e se existe
interação entre taxa e vogal.
RESULTADOS:
Estatística descritiva
Por meio da análise estatística descritiva pudemos obter a média aritmética das
durações das frases emitidas pelo locutor e após este procedimento foi possível escolher uma
frase com cada vogal e em cada taxa para a elaboração da escala de frases com as sete vogais
e as duas taxas para o julgamento psicofísico.
Descreveremos quais as frases escolhidas segundo o bloco de repetição emitida
pelo locutor e a taxa correspondente, a partir das repetições do locutor e da análise da
estatística descritiva que estão no anexo 2 e 3 respectivamente. Utilizaremos apenas nas
descrições as palavras vogais e taxa, pois é o nosso interesse na pesquisa ou invés de
utilizarmos as frases que contém a vogal (a/u) na taxa (normal/rápida).
44
Duração das frases escolhidas (ms) Frases com as
Vogais alvo
Taxa normal Taxa rápida
a 1134 937
ε
1110 894
Ε
1192 936
ι
1102 884
ο
1081 919
1106 916
υ
1108 900
Tabela 1: Duração (ms) das frases escolhidas com as vogais alvo .
Para a vogal /a/ foi escolhido a repetição da frase do quinto bloco de repetição
na taxa normal e na taxa rápida a frase escolhida foi a do primeiro bloco de repetição. Na taxa
normal a vogal /ε/ escolhida foi a do bloco 5 e a na taxa rápida o bloco de repetição escolhido
foi o 4. A vogal /Ε/ escolhida na taxa normal encontra-se no bloco 2 e na taxa rápida a
escolhida está no bloco 4. A repetição escolhida na vogal /ι/ encontra-se no bloco 4 na taxa
normal e no bloco 5 quando a taxa é rápida, o bloco da vogal /ο/ escolhido foi idêntico à
escolha da vogal /i/. O bloco de repetição da vogal // e da vogal /u/ na taxa normal foi igual
às outras duas vogais anteriores, porém na taxa rápida o bloco de repetição da vogal //
escolhido segundo a proximidade da média aritmética das 5 repetições foi o primeiro bloco, e
da vogal /υ/ foi o último bloco, ou seja, o quinto.
Podemos observar que a maioria dos blocos selecionados estão entre os últimos
dois blocos, sendo possivelmente quando locutor já havia se adaptado á repetição das frases
sendo capaz nos últimos blocos controlar e manter o mesmo ritmo de repetição.
45
Figura 7: Duração das frases escolhidas dentre as 5 repetições de cada
vogal, na taxa normal e taxa rápida.
A relação das porcentagens do aumento de taxa nas frases de repetição rápida
comparado a taxa normal está exposta na tabela abaixo.
Frases com as Vogais
alvo
Porcentagem
a
18,5
ε
19,1
Ε
18,4
ι
19,2
ο
15,4
18,3
υ
19,7
Tabela 2: Porcentagem aumento da taxa rápida em
relação à taxa normal.
800
850
900
950
1000
1050
1100
1150
1200
a e eh i o oh u
Taxa de Elocução
duração (ms)
vel. Nl vel. Rp
46
Compreendemos que o aumento da taxa de elocução seja correspondente à
diminuição da duração do tempo de fonação das frases, assim, comparamos a duração das
médias aritméticas obtidas pelas cinco repetições de cada vogal (frase contendo a vogal alvo)
e fizemos a porcentagem de quanto à duração da taxa normal foi menor que a da taxa normal,
podendo dizer portanto o quanto em porcentagem foi o aumento de taxa.
Podemos verificar que o aumento da taxa em geral está próximo de 18 a 19%,
pois as vogais /Α/, /Ε/ e // obtiveram aumento de taxa de aproximadamente 18,5%, e as
vogais /e/, /i/ e /u/ aumento de taxa em torno de 19,5% sendo que apenas a vogal /o/ obteve
um aumento de taxa abaixo destas descritas, 15,5%.
Quando observamos a média da duração da frase contendo a vogal /o/
verificamos que na taxa normal ela tem a menor média de duração dentre as 7 vogais, no
entanto, na taxa rápida esta vogal tem a maior média de duração, ou seja, a variação da taxa
foi menor do que as outras vogais. Esta variação menor pode ser decorrente da limitação de
emissão do locutor pela característica própria da vogal.
Estatística inferencial: teste ANOVA
Nos resultados da ANOVA verificamos que a taxa normal difere
estatisticamente da taxa rápida, pois pôde-se observar uma diferença estatística muito
significativa{F (1, 56) = 278,94, p<0,001. No entanto, não houve qualquer diferença entre as
frases contendo as vogais alvo e nem interação entre as frases e a taxa.
47
700
800
900
1000
1100
1200
vel. Nl vel. Rp
Velocidade
duração (ms)
*
Figura 8: Média das durações das frases em taxa normal e taxa
rápida. Diferença estatística muito significativa entre as duas taxas.
48
Análise acústica das vogais em taxa de elocução normal e rápida:
O objetivo desta analise foi verificar se existe diferença entre as sete vogais do
PB utilizadas nas frases que foram os estímulos acústicos. A duração das vogais foi retirada
da duração dos fones das frases etiquetadas.
RESULTADO
Estatística descritiva
A análise estatística descritiva mostra uma média de duração dos fones das
vogais na taxa de elocução normal bastante divergentes, sendo que as vogais // 118,9 (ms) e
/Ε/ 119, 8 (ms) tiveram uma duração maior que as demais vogais, em seguida a de maior
duração foi a vogal /a/ 108,8 ms, a vogal /o/ teve 93,0 (ms) de duração, a vogal /e/ teve 86,8
(ms), a vogal /u/ 73,6 (ms) e a vogal com menor duração foi a /i/ com 68,2 (ms). Na taxa de
elocução rápida a maior duração foi da vogal /a/ o que difere da taxa normal. Contudo as
vogais // e /Ε/ nesta taxa de elocução apresentaram segunda e terceira maior duração, com
isso pode-se observar que nas duas taxas de elocução estas duas vogais apresentaram grande
duração, da mesma forma que a vogal nas duas taxas apresentou a menor duração dentre o
tempo dos fones. Portanto, verificou-se que apenas a vogal /a/ difere nas duas taxas de
elocução as demais vogais seguem um mesmo padrão de duração, ou seja, a mesma ordem.
49
Tabela 3: Duração (ms) das vogais em taxa de elocução normal e rápida.
Vogais Média das durações
(ms) taxa normal
Média das durações
(ms) taxa rápida
a 108,8 97,6
ε
86,8 71,0
Ε
119,8 86,4
ι
68,2 58,0
ο
93,0 81,8
118,2 91,2
υ
73,6 64,2
Estatística inferencial: teste ANOVA
A ANOVA das durações dos fones das vogais na taxa de elocução normal
mostra que são estatisticamente diferentes {F (6, 28) = 9,94, p<0,001}
Figura 9: Média das durações dos fones das vogais em taxa de
elocução normal. Diferença estatística significativa.
a e eh i o oh u
Vogais
40
50
60
70
80
90
100
110
120
130
140
150
Duração (ms)
50
a e eh i o oh u
Vogais
40
50
60
70
80
90
100
110
120
Duraçao (ms)
Aplicando-se o Post-hoc Scheffé , foram estatisticamente significativos as
vogais: /a/ e /i/; /Ε/ e /i/; /Ε/ e /u/; /i/ e //; e // e /u/, mostrando que as diferenças
encontradas em relação a duração foram produzidas por estas vogais.
Na análise das durações dos fones das vogais em taxa de elocução rápida
mostrou ser também estatisticamente significativa {F (6, 28) = 8.57, p<0,001}.
Figura 10: Média das durações dos fones das vogais em taxa de
elocução rápida. Diferença estatística significativa.
Aplicando-se o Post-hoc Scheffé , foram estatisticamente significativos as
vogais: /a/ e /i/; /a/ e /u/; /Ε/ e /i/ e /i/ e //.
Pode-se notar que na análise das durações dos fones das vogais nas duas
situações foram estatisticamente significativa, ou seja, as vogais diferem em relação à
duração. E quando observamos as vogais que diferem nas duas de taxas de elocução nota-se
que independentemente da taxa as vogais /a/ e /i/; /Ε/ e /i/ e /i/ e // se diferem. Ainda na taxa
51
de elocução normal as vogais /Ε/ e /u/ e // e /u/ diferem o que não acontece com a taxa mais
rápida, e esta diferença foi demonstrada pela pelas vogais /a/ e /u/.
Foi realizada também a análise estatística das duas taxas de elocução conjuntas.
Figura 11: Taxa de elocução normal e rápida.
A ANOVA mostra que há diferença estatisticamente muito significativa em
relação á taxa de elocução normal e rápida {F (6, 56) = 17,56, p<0,001} e também quando
analisado as vogais também há diferença estatística {F (6, 56) = 29,22, p<0,001}. Entretanto
não há qualquer diferença estatística na interação entre taxa de elocução e vogais {F (6, 56) =
1,3, p>0,001}.
Foi realizado o post-hoc Scheffé para verificar quais as diferenças das vogais:
/a/ e /e/; /a/ e /i/; /a/ e /u/; /e/ e /Ε/; /e/ e //; /Ε/ e /i/, /Ε/ e /u/, /i/ e /o/, /i/ e // e // e /u/.
a e eh i o oh u
Vogais
30
40
50
60
70
80
90
100
110
120
130
140
150
Duração (ms)
Taxa elocução normal
Taxa elocução rapida 1
52
EXPERIMENTO II
Análise acústica das frases com taxa de elocução normal e mais rápida
A análise acústica deste segundo experimento foi realizada com os mesmos
procedimentos do experimento I, assim realizou-se a análise estatística descritiva para a
escolha da frase que será apresentada aos sujeitos em seguida à análise estatística inferencial
usando o teste estatístico de análise de variância (ANOVA).
RESULTADO
Estatística descritiva
Da mesma maneira foi realizada a estatística descritiva e por meio dela foi
possível à escolha das frases para o julgamento das mesmas pela estimação de magnitude
numérica.
Podemos observar abaixo as durações das frases que serão posteriormente
julgadas pelos sujeitos.
53
Frases com as Vogais alvo Taxa normal
a 743
ε
756
Ε
809
ι
736
ο
739
776
υ
735
Tabela 4: Duração (ms) das frases escolhidas com
as vogais alvo.Escolha das frases segundo a média
aritmética das 5 repetições em cada taxa
(normal/rápida).
A escolha da vogal /a/ foi obtida do quinto bloco de repetição, enquanto a
vogal /e/ está no terceiro bloco de repetição, dentre as 5 repetição da vogal /Ε/ duas tiveram a
mesma duração e estas são próximas da duração da média das repetições, ou seja, a duração
escolhi está nos blocos 2 e 4, o bloco de repetição escolhido para a vogal /i/ foi o quinto assim
como foi o mesmo bloco para a vogal /u/, para a vogal /o/ a escolha foi o quarto bloco e da
vogal // o terceiro.
Percebemos que semelhante às outras taxas as escolhas dos blocos estão
próximos das ultimas repetições, referente ao quarto e quinto bloco.
Abaixo podemos verificar a diminuição da duração destas frases escolhidas
para compor a escala de vogal, decidimos colocar as taxas para ficar a mostra a diminuição da
duração, ou seja, o aumento da taxa desta segunda taxa rápida (taxa rápida 2).
54
500
600
700
800
900
1000
1100
1200
a e eh i o oh u
Vogais
duração (ms)
vel. Nl vel. Rp 2
Figura 12: Duração das frases escolhidas dentre as 5 repetições de
cada vogal, na taxa normal e taxa mais rápida.
Foi realizado a análise em porcentagem do aumento de taxa da repetição das
frases na taxa rápida 2 em relação ás repetições da frases na taxa normal e também a
comparação em porcentagem de quanto foi o aumento deste taxa para a taxa rápida do
experimento I.
Frases com as
Vogais alvo
Taxa mais rápida x
Taxa normal
Taxa mais rápida x
Taxa rápida
a
33,9% 18,8%
ε
31,5% 15,3%
Ε
28,6% 12,5%
ι
31,9% 15,7%
ο
31,8% 19,4%
30,1% 14,5%
υ
33,9% 17,6%
Tabela 5: Porcentagem aumento da taxa rápida 2 em relação à
taxa normal e porcentagem do aumento da taxa da taxa rápida 2
em relação à taxa rápida I
55
Pode-se verificar que o aumento da taxa em relação à taxa padrão (taxa
normal) teve menor variação do que quando relacionada à taxa rápida 1, pois a porcentagem
de aumento de taxa foram muito próximas em torno de 30 a 33%, exceto a vogal /o/ que
obteve menor porcentagem, no entanto, esta mesma vogal também obteve a menor
porcentagem quando relacionados esta nova taxa e a taxa rápida 1.
Estatística inferencial: teste ANOVA
De acordo com a ANOVA a taxa normal é estatisticamente diferente da taxa
rápida 2 {F (1, 56) = 768,83, p<0,001}. No entanto, não houve qualquer diferença entre as
frases com as vogais alvo e nem interação entre as frases e a taxa.
700
800
900
1000
1100
1200
vel. Nl vel. Rp 2
Velocidade
duração (ms)
*
Figura 13: Média das durações das frases em taxa normal e taxa
rápida 2. Diferença estatística muito significativa entre as duas
taxas.
56
Análise acústica das vogais em taxa de mais rápida (taxa rápida dois):
A primeira análise é referente a taxa de elocução mais rápida (taxa rápida dois)
pois a taxa normal já obtemos os resultados anteriormente, sendo realizada logo em seguida
analise das três taxas de elocução e a análise das vogais e a interação entre estes dois fatores.
A análise descritiva da duração das vogais na taxa de elocução rápida dois
estão descritas na tabela abaixo.
Vogais
Duração da Taxa
Rápida dois (ms)
a 75,6
ε
64,4
Ε
81,0
ι
44,8
ο
70,4
82,0
υ
37,6
Tabela 6- Média aritméticas da duração das
vogais.
Estatística inferencial: teste ANOVA
A ANOVA das durações dos fones das vogais na taxa de elocução rápida dois
mostra que são estatisticamente diferentes {F (6, 28) =10,34, p<0,001}.
57
Figura 14- Duração das vogais na taxa de elocução mais rápida.
Aplicando-se o Post-hoc Scheffé , foram estatisticamente significativos as
vogais: /a/ e /i/; /a/ e /u/; /Ε/ e /i/; /Ε/ e /u/, /i/ e //, /o/ e /u/ e // e /u/.
Com objetivo de relacionar os experimentos foi realizado a ANOVA para dois
fatores (taxa de elocução e vogais) e uma variável dependente (duração).
A ANOVA mostra que há diferença estatisticamente muito significativa em
relação á taxa de elocução {F (2, 84) = 49,59, p<0,001}, também as vogais foram
estatisticamente significativas{F (6, 84) = 27,03, p<0,001}. Entretanto não há qualquer
diferença estatística na interação entre taxa de elocução e vogais {F (12, 84) = 1,03,
p>0,001}.
Foi realizado o post-hoc Scheffé para verificar quais as diferenças das vogais:
/a/ e /e/; /a/ e /i/; /a/ e /u/; /e/ e /Ε/; /e/ e /i/; /e/ e //; /Ε/ e /i/, /Ε/ e /u/, /i/ e /o/, /o/ e /u/, // e
/u/ e // e /u/.
a e eh i o oh u
Vogais
10
20
30
40
50
60
70
80
90
100
Duraçao
58
O post-hoc também foi realizado para as taxas de elocução e pode-se verificar
que há diferenças entre a taxa normal com a rápida e também com a taxa mais rápida (dois) e
as duas taxas rápidas também se diferem.
Figura 15- Duração das três taxas de elocução.
taxa nl taxa rapida 1 taxa rapida 2
Taxa elocução
55
60
65
70
75
80
85
90
95
100
105
Duração (ms)
59
5.2 JULGAMENTO PSICOFÍSICO DA PERCEPÇÃO DA FALA
COMPRIMIDA
EXPERIMENTO I
PARTE 1: Gravação dos estímulos acústicos
Objetivo: gravação dos estímulos acústicos em duas taxas de elocução, a
primeira gravação foi realizada em taxa de elocução considerada “normal” ou confortável
para o locutor e a segunda gravação foi realizada em taxa de elocução mais rápida do que
anterior, pedimos para que o locutor falasse mais rapidamente.
Instituição: foi realizado no Laboratório de Fonética e Psicolingüística
(LAFAPE) do Departamento de Lingüística, IEL-UNICAMP Campinas.
Escolha dos estímulos
Procedimento para escolha dos estímulos: foram escolhidas sete palavras do
português brasileiro (PB) selecionadas por Barbosa e Albano (2004) que corresponde ao
objetivo da pesquisa. A partir destas sete palavras foi possível avaliar apenas as sete vogais
orais do PB, pois elas tem o mesmo contexto fonético, todas têm significado dentro do PB
60
entretanto se diferem nas vogais acentuadas. As sete palavras são: saco, séco, seco, sico, soco,
sóco, suco.
Sujeito: a gravação foi realizada por um locutor do sexo masculino, 23 anos de
idade, estudante de lingüística do Instituto de Estudo de Linguagem (IEL) UNICAMP, falante
nativo do português brasileiro.
Procedimento: a gravação foi realizada em cabine acústica adequada e sala
equipada para a mesma. Foi utilizado um microfone unidirecional, situado a 15 cm do locutor.
A voz do locutor foi gravada inicialmente em uma fita DAT 20’ e logo depois digitalizada
para maior qualidade do som.
O locutor durante a gravação permaneceu dentro da cabine acústica enquanto a
pesquisadora esteve ao lado da cabine, ambos dentro da sala de gravação. As sete palavras
selecionadas foram aleatorizadas e apresentadas de forma escrita em uma folha sulfite e
caneta de cor azul.
A gravação foi realizada em duas etapas, a primeira em taxa confortável que
chamamos de taxa normal e outra com o locutor falando em taxa aumentada. O locutor antes
de falar a palavra contida na folha apresentada introduzia a palavra: DIGA, logo após dizia a
palavra contida na folha e terminava a frase com a palavra BAIXINHO, (frase: Diga S*co
Baixinho) este procedimento foi realizado nas duas etapas já definidas. Cada seqüência das
sete palavras foi repetida cinco vezes, sendo cinco blocos em cada taxa, totalizando 35 frases
aleatórias em cada etapa, totalizando 70 frases.
61
As sete palavras selecionadas foram introduzidas dentro de uma frase, pois a
redução apenas das palavras é inviável pela curta duração.
62
PARTE 2: julgamento psicofísico
A segunda etapa foi apresentada em duas partes, à primeira delas foi realizado
um treinamento de julgamento de magnitude por meio de estimação de comprimento de linha,
além de ser um parâmetro para averiguação de que os sujeitos eram capazes de fazer
julgamentos proporcionais, e logo em seguida se eles demonstrasse capacidade de julgamento
de magnitude dava-se inicio ao julgamento de percepção de taxa e de percepção das vogais do
PB.
Objetivo: verificar se existe diferença perceptiva entre as duas taxas de
elocução e entre as frases.
Sujeitos: participaram 16 estudantes da Universidade de Ribeirão Preto
(UNAERP), estes estavam de acordo com os critérios anteriormente estabelecido, sendo cinco
estudantes do curso de fonoaudiologia, cinco do curso de medicina e seis do curso de
nutrição, quanto ao sexo dos estudantes, cinco do sexo masculino e 11 do sexo feminino.
Instituição: o experimento foi realizado na Universidade de Ribeirão Preto
(UNAERP) na Clinica de Fonoaudiologia, na sala de avaliação audiológica. A sala é
acusticamente tratada e os estímulos foram apresentados por meio de um audiometro de dois
canais.
63
Estimação de magnitude do comprimento de linha
Materiais:
1- Cartão de 30 x 15 cm de papel cartolina de cor amarela desenhado uma
linha no centro do cartão com um pincel de cor preto. A linha foi desenhada exatamente da
mesma maneira, ficando na mesma altura, com a mesma espessura para que os sujeitos
fossem capazes de julgar apenas o comprimento da linha;
1. Folha para anotação das respostas numéricas
2. Canetas.
Procedimento do julgamento do comprimento de linha: foi escolhido uma
escala de 7 itens para o julgamento de estimação de magnitude do comprimento de linha, ou
seja, 7 diferentes comprimentos de linha, o menor foi 3 cm e a partir deste foi escolhido as
outras 6 medidas sendo estabelecido uma proporções de aumento de 0,4 a cada novo
comprimento de linha. O estímulo padrão foi o quarto comprimento, permanecendo três
medidas maiores e três menores. Por meio deste procedimento de aumento proporcional (0,4
cm) do comprimento de linha pode-se elaborar os números correspondentes ao julgamento da
estimação de magnitude a cada comprimento de linha.
64
Este procedimento foi estabelecido por ser um pré-requisito para o julgamento
de estimação de magnitude das frases, assim, havia necessidade de saber se os sujeitos eram
capazes de realizar o julgamento do comprimento de linha adequadamente.
Na tabela abaixo pode-se verificar os 7 comprimentos de linha e os valores
numéricos esperados pelo julgamento psicofísico.
Estímulo Físico (cm) Estimação Esperada (s/un)
3,0
36
4,2
50
5,9
70
8,3
100
11,5
139
16,1
194
22,6
272
Tabela 7- Comprimento de linha e valores esperados. O
4° comprimento de linha foi escolhido para ser o estímulo
padrão e o valor numérico foi estabelecido em 100. Pode-
se observar os comprimentos de linha e os valores
numéricos esperados.
A apresentação dos cartões foi aleatória, entretanto os três sujeitos realizaram a
tarefa ao mesmo tempo. Os três sujeitos ficaram de frente a pesquisadora e eles anotavam em
uma folha sulfite o número que eles achavam que era correspondente ao comprimento de
linha, sendo o comprimento 8,3 cm o padrão e com o valor100.
65
A instrução para este julgamento foi realizado oralmente pela pesquisadora.
Instrução para o julgamento do comprimento de linha:
O primeiro cartão será o comprimento padrão, ou seja, o
julgamento dos outros comprimentos de linha deverão ser
realizados proporcionais a este primeiro. Se o
comprimento for maior que o primeiro de um número
maior proporcionalmente, ou seja, se achar que é duas
vezes maior de o valor 200 e se achar que for um terço do
primeiro de o valor aproximadamente de 30.
RESULTADO
Foi realizado uma análise das respostas dos 16 sujeitos logo após o término do
julgamento de magnitude dos comprimentos de linha para verificar se era possível dar início à
segunda parte deste experimento, ou seja, o julgamento de magnitude das frases.
Pode-se observar que os 16 sujeitos tem capacidade de realizar a atividade pois
o julgamento do comprimento de linha foi proporcional, e as respostas foram próximas dos
valores esperados para cada comprimento de linha.
O julgamento do comprimento de linha realizado pelos 16 sujeitos estão no
anexo 4 entretanto podemos observar na tabela abaixo a correlação entre as repostas dos
sujeitos e o valores esperados. Esta análise foi realizada após o término do experimento, após
o julgamento das frases pelos sujeitos.
66
Sujeitos R
2
Suj 1 0,99
Suj 2 0,98
Suj 3 0,95
Suj 4 0,99
Suj 5 0,96
Suj 6 0,99
Suj 7 0,97
Suj 8 0,99
Suj 9 0,99
Suj 10 0,97
Suj 11 0,95
Suj 12 0,99
Suj 13 0,99
Suj 14 0,98
Suj 15 0,99
Suj 16 0,98
Tabela 8: correlação dos valores do julgamento
do comprimento de linha.
Após realizar a correlação foi possível comprovar que os três sujeitos são
capazes de realizar o julgamento de estimação de magnitude.
y = 8,9075x
1,1951
R
2
= 0,9989
0
50
100
150
200
250
300
024681012141618
Comprimento de Linha
Valores de Julgamento
Figura 16: tendência de linha de potência da média do comprimentos de linha julgado
pelos sujeitos.
67
Estimação de Magnitude das Frases
Materiais:
1- Estímulos acústicos;
2- Audiometro;
3- Folha e caneta.
Procedimento do julgamento de magnitude da percepção das frases: foi
apresentado aos três sujeitos 28 frases, dois 2 blocos com 14 frases cada. Cada bloco contendo
as 7 vogais alvo em duas taxas de elocução, os dois blocos iguais foram apresentados para
garantir a fidedignidade do teste psicofísico.
As instruções deste experimento foram dadas por escrito (anexo 8) e logo em
seguida o procedimento explicado pela pesquisadora.
Análise dos resultados:
Considerando-se os escores atribuídos pelos sujeitos na estimação de
magnitude, realizou-se uma análise de variância (ANOVA), objetivando verificar se
ocorreram diferenças perceptuais entre as duas taxas estabelecidas e as vogais do PB.
68
Resultados:
Foi possível através do teste estatístico ANOVA verificar se existe diferença
entre as duas taxas, entre a duração das vogais, a interação entre eles além da verificar a
fidedignidade do julgamento psicofísico através dos dois estímulos iguais e a interação da
repetição com a taxa e com as vogais.
Quando analisada a percepção entre as taxas pode-se notar que não há
diferença estatística F(1, 420)=1,09, p> 0,05, não sendo percebido qualquer modificação entre
as taxas. Também não houve diferença na percepção das frases contendo as vogais alvo F(6,
420)=0,12, p> 0,05. Quando analisado os dois julgamentos de cada frase notou-se que não
houve diferença estatística F(1, 420)=0,25, p> 0,05, mostrando que os dois valores não se
diferem, o que mostra que o julgamento psicofísico é válido. Nenhuma interação entre os
fatores foi estatisticamente significante.
O teste ANOVA mostrou que os 16 sujeitos não perceberam qualquer mudança
na inteligibilidade de fala apresentado pela taxa de elocução e também nenhuma diferença
perceptual das frases contendo as vogais alvo, ou seja, as 28 frases foram igualmente
inteligíveis, não observando qualquer dificuldade para entendimento das frases.
69
50,0
60,0
70,0
80,0
90,0
100,0
110,0
120,0
Estimação Magnitude
aeEiou
VOGAIS
Taxa Normal
Taxa Rápida
Figura 17: média dos julgamentos de estimação de magnitude das 28 frases com
taxa de elocução normal e rápida.
70
EXPERIMENTO II
Este segundo experimento foi realizado após a análise estatística do
julgamento psicofísico do experimento I, pois observou que o aumento da taxa não modificou
a inteligibilidade de fala.
Antes da realização do experimento foi necessário um novo “conjunto” de
estímulos (sete vogais) com taxa de elocução mais rápida do que a taxa que chamamos de
rápida no experimento I, assim, foi necessário uma nova gravação.
O experimento foi realizado da mesma maneira que o experimento I, ou seja,
com os mesmos procedimentos. Foi tamm dividido em duas partes, sendo a primeira
referente à gravação dos estímulos acústicos pelo locutor e a segunda parte o julgamento
psicofísico desta gravação e esta subdivida em outras duas etapas iguais seguindo o modelo
do experimento I.
Objetivo: verificar se a taxa mais rápida (taxa 2) é percebida como diferente da
taxa normal,ou seja, se os sujeitos julgam diferentemente a inteligibilidade de fala.
71
PARTE 1: Gravação dos estímulos acústicos
Os critérios para esta gravação foram às mesmas do experimento I, sendo que
o sujeito, o local de gravação e o procedimento foram os mesmos.
Para que o locutor fosse capaz de aumentar a taxa ainda mais do que a primeira
gravação, foi fornecido um conjunto de frases em taxa rápida para o locutor ouvir e foi
solicitado para que o mesmo reproduzisse esta taxa dentro de suas condições.
As frases que o locutor ouviu foi à gravação da taxa normal do primeiro
experimento com a taxa comprimida em 40%. A mudança de taxa das frases foi realizada a
partir de um artifício de compressão da duração dos sons contido no programa PRAAT. Este
conjunto de estímulos foi gravado em cd e apresentada ao locutor.
Após este procedimento o locutor iniciou a gravação das 7 frases em taxa mais
rápida. A gravação foi realizada em cinco blocos contendo as 7 frases com as vogais alvo.
A gravação foi realizada da mesma maneira que as duas outras gravações de
taxa, seguindo os mesmos critérios.
72
PARTE 2: julgamento psicofísico
Este experimento foi realizado da mesma maneira que o experimento I, ou
seja, com os mesmos objetivos e procedimentos.
Sujeitos: participaram desta segunda etapa três estudantes da USP Ribeirão-
Preto, estes estavam de acordo com os critérios anteriormente estabelecidos. Foram três
estudantes do sexo feminino, estudantes da pós-graduação em Psicobiologia.
Instituição: foi realizado no Laboratório de Percepção e Psicofísica do
Departamento de Psicologia e Educação da Faculdade Filosofia Ciências e Letras de Ribeirão
Preto. A apresentação dos estímulos foi realizada no computador que estava dentro do
laboratório.
73
Estimação de magnitude do comprimento de linha
Para esta parte do experimento foram utilizados todos os materiais do
experimento anterior, e o procedimento de aplicação foi o mesmo.
RESULTADO
Assim como no experimento I foi realizado uma análise preliminar dos
números estimados pelos três sujeitos observando os esperados com os obtidos,
posteriormente foi realizada a correlação destes números, a qual comprovou que estes sujeitos
estavam aptos a fazerem os julgamentos.
Sujeitos R
2
Suj 1 0,95
Suj 2 0,96
Suj 3 0,98
Suj 4 0,97
Suj 5 0,97
Suj 6 0,99
Suj 7 0,95
Suj 8 0,97
Suj 9 0,97
Suj 10 0,96
Suj 11 0,99
Suj 12 0,97
Suj 13 0,98
Suj 14 0,93
Suj 15 0,99
Suj 16 0,96
Tabela 9: correlação dos valores do julgamento do
comprimento de linha dos sujeitos do II experimento.
74
Figura 18: tendência de linha de potência da média dos comprimentos de linha
julgado pelos 16 sujeitos.
Estimação de magnitude das frases
Este experimento seguiu os padrões realizados no experimento I, vale lembrar
que os estímulos acústicos apresentados neste experimento foram os gravados nesta fase,
sendo o único fator que difere do anterior, apesar da apresentação, os materiais, objetivos e
procedimentos serem os mesmos.
As instruções deste experimento foram dadas por escrito (anexo 8) e logo em
seguida o procedimento explicado pela pesquisadora.
y = 13,339x
0,9643
R
2
= 0,9977
0
50
100
150
200
250
300
0 5 10 15 20 25
Comprimento de Linha
Valores de Julgamento
75
Análise dos resultados:
A análise também foi realizada da mesma maneira que no experimento
anterior.
Resultados:
Foi possível através do teste estatístico ANOVA verificar se existe diferença
entre as duas taxas, entre as vogais a interação entre eles além da verificar a fidelidade do
julgamento psicofísico através dos dois estímulos iguais e a interação da repetição com a taxa
e com as vogais.
Quando analisado a percepção entre as taxas pode-se notar uma grande
diferença estatística F(1, 420)=29,45, p< 0,001, mostrando que os sujeitos perceberam
diferenças de inteligibilidade de fala presente entre as taxas. Contudo, não houve diferença na
percepção das frases contendo as vogais alvo F(6, 420)=0,16 , p> 0,05, assim como também
não houve diferença em relação ao primeiro e segundo julgamento das frases F(1, 420)=0,26,
p> 0,05, mostrando que os dois valores não diferem, o que mostra que o julgamento
psicofísico é válido. Nenhuma interação entre os fatores foi estatisticamente significante.
76
50,0
60,0
70,0
80,0
90,0
100,0
110,0
120,0
Estimação Magnitude
aeEiou
VOGAIS
Taxa Normal
Taxa Rápida
Figura 19: média dos julgamentos de estimação de magnitude das 28 frases com
taxa de elocução normal e mais rápida.
77
6- DISCUSSÃO
78
DISCUSSÃO
O experimento I do julgamento psicofisico teve como objetivo verificar se há
diferenças entre as frases denominadas normais e as rápidas, nas quais o locutor aumentou a
taxa de elocução. Esta diferença foi verificada por dois diferentes métodos, a espectrografia
que foi utilizada para verificar o tempo de emissão, ou seja, a verificação do estímulo físico e
o método psicofísico que foi utilizado para verificar a percepção destas frases. As frases
utilizadas foram selecionadas para averiguar se o aspecto da língua do PB como as vogais são
influenciadas pelo tempo de emissão das frases.
A espectrografia é um método instrumental objetivo para avaliar o resultado
acústico de uma emissão vocal (BALL, 1993; CALLOU e LEITE, 2003; FANT, 1958;
RUSSO e BEHLAU, 1993). Segundo Camargo (2002), as técnicas de análise acústicas são
capazes de analisar a freqüência, duração e intensidade de um som, assim, sabemos que a
duração obtida pelo programa Praat é um dado de extrema utilidade e fácil de mensurar,
apesar de ter a variabilidade do individuo que analisa os dados.
Foi utilizada a duração como medida para as diferentes frases porque o intuito
maior do estudo era saber como os participantes percebem auditivamente estas frases com
diferentes taxas, ou seja, com a fala com menor redundância.
Através dos dados obtidos pela espectrografia foi possível analisar
estatisticamente as durações das frases que mostrou que há diferenças nos aspectos físicos
destes sons, ou seja, que a compressão do tempo das frases com taxa rápida foi
79
estatisticamente significante em relação às frases com taxa normal, mostrando que a taxa da
frase aumentou.
Entretanto quando analisado as vogais dentro das frases, estas não mostraram
ser diferentes, ou seja, que o tempo de fonação de uma vogal com taxa normal e a mesma com
taxa rápida dentro das frases não se diferem, uma vez que em relação ao tempo de fonação as
vogais não diferem.
A análise da duração das vogais separadamente das frases mostrou diferença
significativa entre elas, na taxa de elocução normal, na rápida e quando analisadas juntas o
resultado foi compatível, sendo que a taxa de elocuçao também foi estatísticamente
significativa.
Este resultado mostra que apesar das vogais serem diferentes em relaçao ao
tempo de duraçao quando estas estão inserida em frases, estas diferenças não aparecem. Este
efeito da frase pode ser ocasionados por diversos fatores.
Apesar de Kent e Read (1992), relatarem que as principais características
acústicas das vogais serem a configuração dos formantes e a sua duração, uma grande parte
dos estudos sobre vogais se detêm às configurações dos formantes das vogais.
Segundo Ball (1993) a duração da vogal depende do contexto fonético e da
taxa de articulação do falante. Kent & Read (1992) ainda referem que a duração pode ser
influenciada por: tensionamento-relaxamento da vogal, traços e altura da vogal, acento tônico
da sílaba, vozeamento e ponto articulatório da consoante anterior ou posterior à vogal e as
variações sintáticas e semânticas da fala, entretanto a duração das vogais auxilia na distinção
de suas similaridades espectrais.
Quando foi realizado os treinamentos dos sujeitos por meio do comprimento
de linha foi observado que eles eram aptos a realizar a tarefa específica, demonstrando assim
ter capacidade para realizar a estimação de magnitude para as frases apresentadas. Esta
80
capacidade de estimação numérica é bem conhecida dentre a literatura psicofísica que relata
ser: de fácil compreensão, sujeitos de qualquer idade e não necessita de treinamento
(HELMAN, ZNUSLOCKI e GOODMAN, 1980).
Purdy e Pavlovic (1992) em suas investigações sobre a validade e sensitividade
de diferentes procedimentos escalares psicofísicos para a inteligibilidade de fala de usuários
de aparelhos auditivos encontraram uma validade moderadamente alta nas condições de teste-
resteste.
Há inúmeros relatos que a estimação de magnitude é uma técnica adequada
para quantificar os atributos perceptuais da fala (PAVLOVIC et al., 1990; SCHIAVETTI et
al., 1981; Fucci, D.D., Ellis, L. & Petrosinol., 1990).
Assim esta técnica psicofísica foi utilizada para verificar como os sujeitos
percebem a fala quando está com o tempo comprimido, ou seja, a taxa é aumentada. Além
deste parâmetro modificado foi observado se há diferença entre a percepção das sete vogais
do PB, pois sabe-se que este aspecto da fala é muito importante.
Quando avaliado a percepção das frases não foi observado diferença estatística
entre as respostas de estimação de magnitude nas frases com taxa normal e rápida, assim
sabe-se que os julgamentos feitos pelos sujeitos foram equiparados, eles não perceberam
qualquer modificação de inteligibilidade nas frases, já que foi pedido que julgassem o quanto
era inteligível, mas não pontuava que aumentaria a taxa. Para os ouvintes as frases
independentemente da taxa foram inteligíveis.
A análise acústica das 7 diferentes vogais dentro das frases utilizadas neste
trabalho mostrou que não há diferença estatística, assim, pôde-se esperar que perceptualmente
não haveria diferença. O resultado confirmou a hipótese levantada logo acima, pois,
perceptualmente as vogais não interferiram na inteligibilidade de fala quando esta está em
taxa normal ou rápida.
81
Estes dados mostram que “fisicamente” o som do estímulo acústico com taxa
normal é diferente dos que estão com taxa aumentada, entretanto esta diferença não é
suficiente para que os sujeitos percebam quaisquer diferenças ou dificuldade na
inteligibilidade de fala.
Portanto este resultado mostra que quando a taxa de elocução é aumentada em
torno de 18 a 20% de uma taxa considerada normal e as sete diferentes vogais do PB inseridas
em frases nada interfere na inteligibilidade de fala, ou seja, a comunicação não é prejudicada
com esta diminuição intrínseca de fatores de fala.
O segundo experimento foi decorrente do resultado do experimento I. O
objetivo deste experimento foi verificar o comportamento físico e perceptual das frases com
aumento maior de taxa e ainda a influencia das vogais dentro deste contexto, na
inteligibilidade de fala.
Verifica-se com a espectrografia que a diminuição da taxa das frases foi maior
em torno de 30% e quando analisado estatisticamente observa-se que estas são
estatisticamente significativas em relação às frases com taxa normal e como no experimento I
segundo a análise acústica as vogais não mostraram qualquer diferença em relação ao tempo
de emissão das frases.
Assim como nos outros dois blocos de vogais analisadas separadamente pode-
se notar a diferença estatistica entre elas, e quando analisadas as tres taxas de elocuçao estas
foram estatisticamente muito significativas.
Na análise perceptual por meio da estimação de magnitude pôde-se notar que
há diferença estatística entre as duas taxas, portanto a inteligibilidade de fala quando tem este
aumento diminui.
Beasley et al.(1972), estudaram as respostas para o teste de fala comprimida
em 7 diferentes condições (0 a 70%) em universitários com audição normal e mostraram que
82
o aumento do tempo de compressão diminui a inteligibilidade de fala, no entanto, os mesmos
não especificaram quando a compressão era relativamente baixa em torno de 10 a 20% que
foi o encontrado neste estudo (aumento da taxa em geral está próximo de 18 a 19%,
especificamente: /a/ 18,5; /e/ 19,1; /eh/ 18,4; /i/ 19,2; /o/ 15,4; /oh/ 18,3 e /u/ 19,7).
Os autores mostram que o aumento da taxa de elocução diminui a
inteligibilidade de fala, contudo os achados deste trabalho mostram que esta compressão só
começa a interferir na inteligibilidade de fala desta população de alunos de pós-graduação que
foram estudados quando a taxa esta 30% da taxa normal.
Segundo a análise estatística em relação ao tempo das vogais em
condições normais e rápidas pode-se observar que não há diferença entre as frases, ou
seja, as sete diferentes frases com as sete diferentes vogais. Apenas em relação às duas
taxas normal e rápida. Na literatura observam-se vários trabalhos mostrando que
diferenças entre as vogais em relação à freqüência (BEHLAU, PONTES, GANAÇA, &
TOSI, 1988) e não em relação à duração. As diferenças entre as durações das diferentes
frases são semelhantes.
Sabe-se que as vogais se diferem em vários aspectos, objetivamente pode-se
medir e observar tais diferenças, entretanto perceptualmente ainda não há um consenso, pois
existem poucos trabalhos que referem a este aspecto dentro da língua do PB.
Os ouvintes foram estudantes sem problemas de fala e de audição para que nos
assegurasse que neste teste há apenas uma única diminuição da redundância da fala.
Vários são os estudos sobre as vogais do PB, porém são realizada por
parâmetros na maior parte das vezes de freqüência. Segundo Schochat (1994) as pistas
acústicas da fala como a taxa é uma redundância extrínseca da fala, e ainda Bocca e Calearo
(1963), relatam que os indivíduos desempenham normalmente uma tarefa de processamento
da fala se somente uma das redundâncias, (extrínsecas, intrínsecas), tiver sido reduzido.
83
Assim, pode-se concluir a partir deste estudo que se houver dificuldade para o entendimento
da fala sugere problemas em ambas as redundâncias.
Este experimento foi realizado com locutor modificando a taxa de elocução
para obter uma amostra de fala o mais natural possível, porém não podemos descartar a
situação artificial que é estar dentro de uma cabine acústica com um microfone, um
experimentador do lado de fora e frases sem finalidade comunicativa e sim para fins de
pesquisa.
Em estudos como de Vaughan e Le Twoski (1997) que objetivaram investigar
os efeitos da idade, do tipo do teste de fala, a taxa de taxa de processamento auditivo. Os dois
tipos de redundâncias são diminuídos, por vezes, apenas um (redundância intrínseca) quando
é realizado com sujeitos com menor idade e que sugere SNC mais ativo e por vezes com
diminuição das 2 redundâncias quando utiliza pessoas com mais idade.
O estudo mostra que os sujeitos com mais idade tem pior performance no teste
de fala e quando a taxa aumenta os 3 grupos de sujeitos tem uma grande queda na
inteligibilidade de fala, contudo os mais velhos possuem essa inteligibilidade ainda pior.
Para alguns autores o aumento da taxa da fala não é apenas uma diminuição da
redundância extrínseca, mas como uma evidente demonstração de diminuição de redundância
intrínseca, pois muitos utilizam para avaliação do processamento auditivo central.
MAJ (1989)-relata que existem pesquisam que sugerem que os três tipos de
monossílabos monóticos distorcidos para avaliação de SNAC. (fala filtrada, fala com ruído e
fala comprimida) possam ser usadas como algum grau de sucessos na detecção de patologias
do SNAC.
Kurdziel, Noffsinger, e Olsen, (1976) demonstra a aplicabilidade dos
monossílabos em tempo comprimido na clínica. Eles concluíram que o teste de fala
comprimido é um método efetivo para identificar distúrbios difusos do lobo temporal.
84
Muitos autores têm defendido o uso dos monossílabos de tempo comprimido
para detecção de distúrbios do SNA (SNOW, RINTELMANN, MILLER, & KONKLE,,
1977; NOFFSINZIEL, 1979; BEASLEY E RINTELMAN, 1979; HURLEY, 1980;
RINTELMAN E LYMN, 1983).
Calearo e Lazzaroni, 1957; Bocca, 1958 utilizaram a fala comprimida e o
resultados mostraram um a resposta reduzida para orelha contralateral de pacientes com
lesões no córtex auditivo.
85
7-CONCLUSÃO
86
CONCLUSÃO
Pode-se concluir que quando a taxa de elocução aumenta a inteligibilidade de
fala diminui, entretanto, para que ocorra este fenômeno é preciso que a taxa de elocução seja
aumentada no mínimo em torno de 30% da taxa de elocução normal.
Também foi possível observar que as vogais segundo a análise de tempo de
emissão não interfere na inteligibilidade de fala mesmo quando em taxa de elocução
aumentada.
As técnicas de mensuração da fala, análise acústica e estimação de magnitude,
foram bastante práticas e confiáveis, assim por meio delas chegamos ao objetivo do trabalho.
87
8-REFERÊNCIA BIBLIOGRÁFICA
88
REFERÊNCIAS BIBLIOGRÁFICAS
Anderson. N.H. (1975) On The role of context effects in psychophysical judgment.
Psychological Review, 82, 462-482.
Baird, J.C & Noma, E. (1978) Fundamentals of scaling an psychophysics. New York: Whily.
Balen, S.A. (1997). Processamento auditivo central: aspectos temporais da audição e
percepção acústica da fala. Tese de Mestrado em Distúrbios da Comunicação da Pontifica
Católica de São Paulo.
Ball M.J. (1995). Phonetics for Speech Pathology. London, Whurr Publishers Ltd, 2.Ed: p.
302.
Barbosa, P.A. & Albano, E. C. (2004) Brazilian Portuguese. Illustrations of the IPA. Journal
of the international phonetic association, 34(2), 227-232.
Beasley, D.S & Rintelmann, A.K. (1979). Central auditory processing. In: Rintelmann, W.
(ed). Hearing assessment. Univerity park Press, Baltimore, p. 321-349.
Beasley, D.S., Brat, G.W. & Rintelmann, W.F. (1980). Intelligibility of time compressed
sentential stimuli. Journal Speech Hear Res., 23: 722-31.
Beasley, D.S., Forman, B.S. & Rintelmann, W.F (1972). Perception of time compressed cnc
monosyllables by normal listeners. Journal Speech Hear Res., 12:71-50.
Beasley, D.S., Schwimmer, S. & Rintelmann. W.F. (1972) Intelligibility of time compressed
cnc monosyllables. Journal Speech Hear Res., 15:340-50.
Behlau, M. & Pontes, P. (1995) Avaliação e tratamento das disfonias. São Paulo: Lovise.
Behlau, M.S., Pontes, P.A., Ganaça, M.M. & Tosi. (1988). O. Análise espctrográfica de
formantes das vogais do português brasileiro. Acta Awho, v. 7, n.2, p. 74-85.
Bocca, B.E. (1958). Clinical aspects of cortical deafness. Laryngoscope, 68: 301-11.
Bocca, E. & Calearo, C. (1963). Central hearing processes. In: Jerger, J. (ed). Modern
developments in audiology. Academic Press, New York, p. 337-370.
Boersma, P. & Weenink, D. The Netherlands. http://www.fon.hum.uva.nl/praat.]
Borden, G.J., Harris, K.S. & Raphael, L.J. (1994) Speech Science Primer: Physiology,
Acoustic, and Perception of Speech. London, Williams & Wilkins, 3 Ed.:319p.
89
Calearo, C. & Lazzaroni, A. (1957). Speech intelligibility in relation to speed of the message.
Laryngoscope, 67: 410-9.
Callou, D. & Leite, Y. (2003). Iniciação à fonética e a fonologia. Rio de Janeiro: Jorge Zahar,
9 ed. 125p.
Camargo, Z. (2002). Avaliação acústica e aerodinâmica da laringe. In: Campos, C.A.H. &
Costa, H. O.O. Tratado de Otorrinolaringologia - Laringologia e voz- fundamentos. São
Paulo: Roca, cap. 69.
Coren, S. & Ward, L.M. (1989). Speech and Music. In: _______________ Sensation &
Perception. San Diego: Harcourt Brace Jovanovich, p 339-347.
Creaghead, N.A. & Newman, P.W. (1989) Articulatory Phonetics an Phonology. In:
Creaghead, N.A., Nweman, P.W & Secord, W.A. Assessment And Remediation Of
Articulatory And Phonological Disorders. New York, Allyn and Bacon, 2 ed.,p. 9-33.
Da Silva, J.A. & Macedo, L. (1983). Efeitos de algumas variáveis experimentais sobre a
invariância das escalas perceptivas. Arquivos Brasileiros de Psicologia, 39. 48-70.
Da Silva. J.A. (1985). Processos psicofisiológicos subjacentes à função potência: uma crítica
a psicofísica de Stevens. Arquivos Brasileiros de Psicologia, 38. 3-21.
Ellis L. W., Fucci D. (1992). Effects of listeners’ experience on two measures of
intelligibility. Percept Mot Skills, 74 (3 Pt 2): 1099-104.
Ellis L.W. (1999). Magnitude estimation scaling judgments of speech intelligibility and
speech acceptability. Percept Mot Skills, 88 (2): 625-30.
Ellis, L. W., Reynolds, L., Fucci, D. & Benjamin B. (1996). Effects of gender on listeners’
judgments of speech intelligibility. Percept Mot Skills, 83 (3 Pt 1): 771-5.
Ellis, L. W., Spiegel, B. & Benjamin, B. (2002). Effects of speakers’ augmented
characteristics and listenerd’ sex on intelligibility and acceptability of synthesized speech.
Percept Mot Skills, 94 (3 Pt 2): 1081-8.
Engelmann, A. (1996). A lei de potência de Stevens: um caso de constância perceptiva?
Jornal Brasileiro de Psicologia, 3, 19-48.
Erber, N. (1982). “Speech Perception”. In: Auditory Training, Washington. Alexander
Graham Bell.
Fairbanks, G.W., Everitt A. & Jaerger, R.. (1954). Methods for time or frequency
compression-expansion of speech. Trans. Irre-Pga Au-2. 7-12.
Faleiros Sousa, F.A.E. & Da Silva, J.A. (1996). Uso e aplicação da metodologia psicofísica
em emfermagem. Revista Latino-Americana De Enfermagem. Ribeirão Preto, 4(2). pp.
147-178.
90
Faleiros Sousa, F.A.E. (1993). Prestígio profissional do enfermeiro. Tese de Doutorado Em
Enfermagem Da Universade De São Paulos.
Fant, G. (1967). Auditory patterns of speech. In: W. Wathen-Dunn (ed). Models for the
perception of speech and visual form. Cambridge, MA: MIT Press, p 111-125.
Fant, G. (1958). Modern instruments and methods for acoustic studies of speech. Suécia: Acta
Polytechnica Scandinavica, 81p.
Felício, C.M (1996). Percepção de pronunciabilidade por pacientes odontológicos,
fonoaudiólogos e leigos. Tese (doutorado) Universidade de São Paulo, Ribeirão Preto.
Fletcher, S.G. (1992). Articulation: a physiological approach. San Diego. Califórnia. Singular
Publishing Group. 303p.
Fucci, D., Betteagere, R., Gonzalez, M.D., Reynolds, M.E. & Petrosino, L. (1995). Language
familiarity in magnitude-estimation scaling of loudness by young adults. Percept Mot
Skills, 80 (2): 419-23.
Fucci, D., Domyan, S., Ellis L. & Harris D. (1993). Magnitude-estimation scaling: an
effective method for the measurement of the quality of filtered speech. Percept Mot Skills,
76(3): 1171-1176.
Fucci, D., Domyan, S., Ellis L. & Harris D. (1994). Magnitude-estimation: an effective
method for the measurement of the quality of filtered speech. Percept Mot Skills, 76(3):
1171-1176.
Fucci, D., Leach, E., Mackenzie, J. & Gonzales, M.D. (1998). Comparison of listeners’
judgments of simulated and authentic stuttering using magnitude estimation scaling.
Perceptual and Motor Skill, 8: 1103-1106.
Fucci, D.D., Ellis, L. & Petrosino, L. (1990). Speech clarity/intelligibility: test-retest
reliability of magnitude-estimation scaling. Perceptual and Motor Skill, 70: 232-234.
Gama, M.R. (1994). Percepção da fala: uma proposta de avaliação qualitativa. São Paulo:
Pancast, 99p.
Hellman. R. & Zwislocki. J. (1963). Monoaural Loudness Function At 1000 Eps In Interaural
Summation. Journal Of The Acoustical Society Of América, 35. 856-1627.
Hellman. R. & Zwislocki. (1964). The presence of a masking noise. Journal of The Acoustical
Society Of América, 36. 1618-1627.
Hurley, R.M. (1980). Speech protocols in the central auditory nervous system evaluation. In:
Rupp, R.R. & Stockdell, K.G. (eds). Speech protocols in audiology. Grune & Stratton,
New York, p. 163-202.
Jakobson & Halle (1963) apud Gama, M.R. Percepção da fala: uma proposta de avaliação
qualitativa. São Paulo: Pancast, 99p; 1994.
91
Kent, R.D. & Read, C. (1992). The Acoustic Analysis of Speech. Califórnia. Singular
Publishing Group, 238p.
Kent, R.D. (1993). Vocal tract acoustic. Journal of voice, v.7, n.2, p. 97-117.
Klatt, D.H. (1980). Speech Perception: a model of acoustic-phonetic analysis and lexical
access. In: R. Cole (ed), Perception and production of fluent speech. Hillsdale, NJ:
Lawrence Erlbaum, p. 243-288.
Knobel, M. (2004). Slides de aula de graduação da matéria Física da Fala e da Audição.
Prof. Dr. do Instituto de Física Gleb Wataghin (IFGW)- Universidade Estadual de
Campinas (UNICAMP).
Konkle, D.F., Beasley, D.S. & Bess, F.I. (1977). Intelligibility of time altered speech in
relation to cronological aging. Journal Speech Hear Res., 20: 108-15.
Kurdziel, S.A., Noffsinger, P.D. & Olsen, W. (1976). Performance by cortical lesion patients
on 40 and 60 percent time-compressed materials. Journal Am. Audiol. Soc. 2, 3-7.
Ladefoged, P. (1975). A course in Phonetics. Califórnia. Harcourt Brace Jovanovich.
Lamprecht. R.P. (1993). A Aquisição Da Fonologia Do Português Na Faixa Etária Dos 2:9 E
5:5. Letras De Hoje.. 28(2): 95-106.
Liberman, A.M. & Mattingly, I.G. (1985). The motor theory of speech perception revised.
Cognition, 21: 1-36.
Liberman, A.M.; Cooper, F.S.; Shankweiler, D.P. & Studdert-Kennedy, M. (1967).
Perception of speech code. Psychological review, 74: 431-461.
MacDonald, J. & Mcgurk, H. (1978). Visual influences on speech perception process.
Perception & psychophysics, 24: 253-257.
Maia, E.M. (1991). No reino da fala: a linguagem e seus sons. São Paulo: Ática, 3 Ed.: 12p.
Maj, H.G.M. (1989). Procedimentos monossilábicos. In: Katz, J. Tratado de audiologia
clínica. Editora Manole, 3 ed. São Paulo, p.359-386.
Malmberg. B. (1954). A Fonética. Lisboa.“Livros do Brasil”.
Manning, S.A. E., Rosenstock, E. (1974). Psicofísica clássica e métodos escalares. São Paulo.
Epu. Ed. Da Universidade de São Paulo.
Mantelatto, S. A C. (1998). Caracterização da Inteligibilidade de fala de sujeitos com audição
normal frente à ruidos competitivos. Dissertação (mestrado) Universidade de São Paulo,
Ribeirão Preto.
Marslen-Wilson, W.D. (1980). Speech undertanding as a psychological process. In: Simon
(ed), Spoken language generation and understanding . Dordrecht: Reidel, p. 39-67.
92
Mcclelland, J.L. & Elman, J.L. (1986). The TRACE model of speech perception. Cognitive
Psychology, 18:1-86.
Noffsinger, P.D. & Kurdziel, S.A. (1979). Assessment of central auditory lesions. In:
Rintelmann, W. (ed). Hearing assessment. Univerity park Press, Baltimore, p. 351-377.
Pavlovic, C.V., Rossi, M., Espesser, R.W., Lawson, G.D. & Chial, M.R. (1990). Use of the
magnitude estimulation technique for assessing the performance of text to speech syntesis
system. Journal of the Acoustical Society of America, 87: 373-382.
Pickett, J.M., Ravoille, S.G. & Holden, L.D. (1993). A speech production approach to speech
perception by deaf person. In: Hochberg, I., levitt, H, H. & Osberg, M.J. Speech of the
hearing impaired research, training and personnal preparation, Baltimore. University
Park Press.
Pisoni et al., (1985) apud Coren, S. & Ward, L.M. (1989). Speech and Music. In:
_______________ Sensation & Perception. San Diego: Harcourt Brace Jovanovich, p 339-
347.
Polit, D., & Hungler, B. (1987). Nursing research: principles and methods. Philadelphia-
Toronto: J.B. Lippincott Company.
Portal Universia -acesso gratuito à seleção de materiais dos cursos do MIT traduzidos para o
português. Laboratório de percepção, acústica e fisiologia da fala, Outono de 2001. Plano
de Estudos.
Poulton, E.C. (1979). Models for biases in judging sensory magnitude. Psychological
Bulletin. 86: 777-803.
Poulton, E.C. (1968). The new psychophysics: six models for magnitude stimulation.
Psychoilogical Bulletin, 69: 1-19.
Purdy, S.C. & Pavlov, C.V. (1992). Reliability sensitivity and validity of magnitude
estimation, category scaling and paired-comparison judgments of speech intelligibility by
older listeners. Audiology, 31: 254-271.
Riensche, L.L., Beasley, D.S. & Lamb, L.E. (1993). Adult’s item and order errors on
sequences of time-compressed rhyming words. Journal Aud. Res., 23:95-100.
Rintelmann, W.F.& Lynn, G.E. (1983). Speech stimuli for assessment of central auditory
disorders. In: Konkle, D.F. & Rintelmann, W.F. Principles of speech audiometry.
Univerity park Press, Baltimore, p. 231-283.
Rodrigues, G.F.& Yehia, H.C. (2004). Caracterização acústica das vogais do português
brasileiro visando a normalização de locutores.
Russo, I.C.P. & Behlau, M. (1993). Percepção da Fala: Análise Acústica. São Paulo. Lovise,
57p;
93
Samcuk, I. (2004). Introdução ao Praat. Projeto de Iniciação Científica, PIBIC/CEPE –
LIAACC/LAEL – PUC-SP. Material desenvolvido com base no manual para iniciantes
disponibilizado na internet por Sidney Wood, no site
http://www.ling.lu.se/persons/Sidney/praate.frames.html. Orientadora Profa. Dra. Aglael
Gama.
Santos, T.M.M. & Russo, I.C.P. (1986). A prática da audiologia clínica. São Paulo: Cortez
Ed. 237.
Schiavetti, N., Metz, D.E. & Sitler, R.W. (1981). Constrict validity of direct magnitude
stimulation and interval scaling of speech intelligibility: evidence form a study of hearing
impaired. Journal of Speech and Hearing Research. 24: 441-445.
Schochat, E. (1994). Percepção da Fala. In: _______ Processamento Auditivo. São Paulo.
Lovise. p. 15-42.
Schochat, E. Percepção de fala: Presbiacusia e perda auditiva induzida pelo ruído. São
Paulo- FFCH/USP- 182p. (tese de doutorado).
Snow, J.B., Rintelmann, W.F., Miller, J.M. & Konkle, F. (1977). Central auditory
imperception. Laringoscopy, 87, 1450-1471.
Stevens, J.C., Mack, J.D. & Stevens, S.S. (1960). Growth of sensation on seven continua as
measured by force of handgrip.Journal of experimental psychology, 59: 60-67.
Stevens, K.N. & House, A.S. (1972). Speech perception. In: Tobias, J. (ed.) Foundations of
modern auditory theory, vIII, Nova York, cademic Press.
Stevens, K.N. (1980). Acoustic correlates of some phonetic categories. I Journal Acoust.
Soc.Am, 68(3), 836-842.
Stevens, S.S. & Galanter, H. (1957). Ratio scales and category scales for a dozen perceptual
continua.Journal of experimental psychology, 54: 377-411.
Stevens, S.S. (1959). Cross-modality validation of subjective scales for loudness, vibration
and eletric shock. Journal of experimental psychology, 57: 201-209.
Stevens, S.S. (1971). Issues in psychophysical measurement. Psychophysical review, 78: 426-
450.
Stevens, S.S. (1964). Perceptual magnitude and its measurement. In Carterette, E.C &
friedman, M. (eds), handbook of perception, New York Academic Press, v. 2, p. 361-389.
Stevens, S.S. (1975). Psychophysics: introdution to its perceptual, neural, and social
prospects. New York: Wiley.
Vieira, J. M. (2003). Perfil espectrográfico da hipernasalidade de fala de ulheres portadoras de
fissura palatina. Dissertação (mestrado) - Programa de Pós-graduação Interunidades
Bioengenharia (EESC/FMRP/IQSC), Universidade de São Paulo, São Carlos.
94
Zemlim, W.R., Daniloff, R.G. & Shriner, T.H. (1968). The difficulty of listening to time-
compressed speech. Journal Speech Hear Res.,11, 875-81.
95
ANEXOS
96
Anexo 1
97
Anexo 2
Experimento 1- duração do tempo de fonação das frases
As frases nas duas taxas determinadas (normal e rápida) e com as sete diferentes vogais foram emitidas pelo
locutor em 10 blocos (5 em taxa normal e 5 em taxa rápida), com 7 frases, cada frase correspondia a uma vogal.
Taxa Normal - Duração (ms)
Frases
Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5
a
1262 1160 1043 1136 1134
ε
1201 1214 1046 1074 1110
Ε
1217 1192 1094 1130 1075
ι
1194 1135 1019 1102 1037
ο
1167 1137 1033 1081 1043
1179 1176 1088 1106 1057
u 1186 1126 1078 1108 1052
Taxa rápida
Taxa Rápida - Duração (ms)
Frases
Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5
a
937 958 900 924 954
ε
895 939 869 894 967
Ε
983 949 913 877 936
ι
843 935 873 898 884
ο
950 939 876 938 919
916 948 888 874 955
υ
866 929 879 882 900
98
Anexo 3
Estatística descritiva do experimento 1 – duração das frases em duas taxas
Taxa Normal
Estatística descritiva
vogal A vogal E vogal EH Vogal I vogal O vogal OH vogal U
Média
1.147,0 1.129,0 1.141,6 1.097,4 1.092,2 1.121,2 1.110,0
Erro padrão
35,0 33,7 27,4 32,1 26,1 24,3 22,8
Mediana
1.136,0 1.110,0 1.130,0 1.102,0 1.081,0 1.106,0 1.108,0
Modo
#N/D #N/D #N/D #N/D #N/D #N/D #N/D
Desvio padrão
78,3 75,3 61,4 71,7 58,4 54,3 51,0
Variância da amostra
6.125,0 5.671,0 3.765,3 5.140,3 3.413,2 2.949,7 2.606,0
Curtose
1,7 (2,7) (2,4) (1,4) (2,3) (2,5) 0,4
Assimetria
0,3 0,2 0,3 0,3 0,4 0,1 0,7
Intervalo
219,0 168,0 142,0 175,0 134,0 122,0 134,0
Mínimo
1.043,0 1.046,0 1.075,0 1.019,0 1.033,0 1.057,0 1.052,0
Máximo
1.262,0 1.214,0 1.217,0 1.194,0 1.167,0 1.179,0 1.186,0
Soma
5.735,0 5.645,0 5.708,0 5.487,0 5.461,0 5.606,0 5.550,0
Contagem
5,0 5,0 5,0 5,0 5,0 5,0 5,0
N
ível de confiança (95,0%)
97,2 93,5 76,2 89,0 72,5 67,4 63,4
Taxa Rápida
Estatística descritiva
vogal A vogal E vogal EH Vogal I vogal O vogal OH vogal U
Média 934,6 912,8 931,6 886,6 924,4 916,2 891,2
Erro padrão 10,6 17,6 17,7 15,1 13,1 16,0 10,9
Mediana 937,0 895,0 936,0 884,0 938,0 916,0 882,0
Modo #N/D #N/D #N/D #N/D #N/D #N/D #N/D
Desvio padrão 23,7 39,4 39,7 33,8 29,3 35,7 24,4
Variância da amostra 559,8 1.553,2 1.572,8 1.141,3 856,3 1.273,2 593,7
Curtose (0,5) (1,3) 0,1 0,8 2,2 (2,5) 0,8
Assimetria (0,7) 0,6 (0,2) 0,3 (1,5) (0,1) 1,0
Intervalo 58,0 98,0 106,0 92,0 74,0 81,0 63,0
Mínimo 900,0 869,0 877,0 843,0 876,0 874,0 866,0
Máximo 958,0 967,0 983,0 935,0 950,0 955,0 929,0
Soma 4.673,0 4.564,0 4.658,0 4.433,0 4.622,0 4.581,0 4.456,0
Contagem 5,0 5,0 5,0 5,0 5,0 5,0 5,0
N
ível de confiança (95,0%) 29,4 48,9 49,2 41,9 36,3 44,3 30,3
99
Anexo 4
Experimento II- duração do tempo de fonação das frases
As frases em taxa de elocução mais rápida
Taxa Mais Rápida – Duração (ms)
Frases
Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5
a
805 805 720 719 743
ε
838 720 756 806 746
Ε
835 809 752 809 871
ι
727 727
769
778 736
ο
775 756 726 739 729
869 751 776 759 761
u
777 712 699 746 735
Estatística Descritiva da frases em taxa e elocução mais rápida
Taxa Mais Rápida
Estatística descritiva
vogal A Vogal E vogal EH Vogal I vogal O vogal OH vogal U
Média 758,4 773,2 815,2 747,4 745,0 783,2 733,8
Erro padrão 19,5 21,4 19,5 10,9 9,1 21,8 13,6
Mediana 743,0 756,0 809,0 736,0 739,0 761,0 735,0
Modo 805,0 #N/D 809,0 727,0 #N/D #N/D #N/D
Desvio padrão 43,6 47,8 43,5 24,3 20,5 48,8 30,4
Variância da amostra 1.901,8 2.285,2 1.894,2 591,3 418,5 2.382,2 925,7
Curtose (3,1) (1,4) 1,0 (2,8) (0,7) 4,3 (0,4)
Assimetria 0,4 0,5 (0,4) 0,6 0,8 2,1 0,4
Intervalo 86,0 118,0 119,0 51,0 49,0 118,0 78,0
Mínimo 719,0 720,0 752,0 727,0 726,0 751,0 699,0
Máximo 805,0 838,0 871,0 778,0 775,0 869,0 777,0
Soma 3.792,0 3.866,0 4.076,0 3.737,0 3.725,0 3.916,0 3.669,0
Contagem 5,0 5,0 5,0 5,0 5,0 5,0 5,0
N
ível de confiança (95,0%) 54,1 59,4 54,0 30,2 25,4 60,6 37,8
100
Anexo 5
Duraçao dos fones das vogais retiradas das frases em taxa elocuçao normal e rapida.
Taxa Normal – Duração (ms)
Vogais
Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5
a
123 100 103 98 120
ε
106 89 70 87 82
Ε
130 121 104 140 104
ι
88 73 75 51 54
ο
111 93 76 96 89
125 118 95 119 134
u
99 55 57 85 72
Taxa Rápida - Duração (ms)
Vogais
Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5
a
108 96 96 96 92
ε
44 80 72 86 73
Ε
101 83 72 83 93
ι
48 66 45 73 58
ο
76 88 77 102 66
100 98 87 83 88
u
52 73 60 70 66
101
Anexo 6
Estatística descritiva das duração das vogais em duas taxa de elocução normal e rápida (ms)
Taxa elocuçao normal
Estatística descritiva
vogal A vogal E vogal EH vogal I vogal O vogal OH vogal U
Média 108,8 86,8 119,8 68,2 93,0 118,2 73,6
Erro padrão 5,3 5,8 7,1 6,9 5,6 6,5 8,4
Mediana 103,0 87,0 121,0 73,0 93,0 119,0 72,0
Modo #N/D #N/D 104,0 #N/D #N/D #N/D #N/D
Desvio padrão 11,8 13,0 15,9 15,5 12,6 14,4 18,7
Variância da amostra 138,7 169,7 253,2 239,7 159,5 208,7 349,8
Curtose -3,0 1,4 -2,1 -1,8 1,3 2,2 -1,6
Assimetria 0,5 0,4 0,1 0,0 0,2 -1,1 0,4
Intervalo 25,0 36,0 36,0 37,0 35,0 39,0 44,0
Mínimo 98,0 70,0 104,0 51,0 76,0 95,0 55,0
Máximo 123,0 106,0 140,0 88,0 111,0 134,0 99,0
Soma 544,0 434,0 599,0 341,0 465,0 591,0 368,0
Contagem 5,0 5,0 5,0 5,0 5,0 5,0 5,0
N
ível de confiança (95,0%) 14,6 16,2 19,8 19,2 15,7 17,9 23,2
Taxa elocuçao Rápida
Estatística descritiva
vogal A vogal E vogal EH vogal I vogal O vogal OH vogal U
Média 97,6 71,0 86,4 58,0 81,8 91,2 64,2
Erro padrão 2,7 7,2 4,9 5,3 6,1 3,3 3,7
Mediana 96,0 73,0 83,0 58,0 77,0 88,0 66,0
Modo 96,0 #N/D 83,0 #N/D #N/D #N/D #N/D
Desvio padrão 6,1 16,1 11,0 11,8 13,7 7,4 8,4
Variância da amostra 36,8 260,0 121,8 139,5 188,2 54,7 70,2
Curtose 3,7 2,9 -0,4 -2,0 0,2 -2,5 -0,5
Assimetria 1,7 -1,5 0,1 0,2 0,7 0,3 -0,7
Intervalo 16,0 42,0 29,0 28,0 36,0 17,0 21,0
Mínimo 92,0 44,0 72,0 45,0 66,0 83,0 52,0
Máximo 108,0 86,0 101,0 73,0 102,0 100,0 73,0
Soma 488,0 355,0 432,0 290,0 409,0 456,0 321,0
Contagem 5,0 5,0 5,0 5,0 5,0 5,0 5,0
N
ível de confiança (95,0%) 7,5 20,0 13,7 14,7 17,0 9,2 10,4
102
Anexo 7
Taxa Mais Rápida - Duração (ms)
Frases
Bloco 1 Bloco 2 Bloco 3 Bloco 4 Bloco 5
a
75 75 61 71 96
ε
64 53 74 56 75
Ε
85 72 60 97 91
ι
44 44 45 57 34
ο
87 66 76 61 62
109 86 74 65 76
u
44 24 21 33 46
Taxa elocução Mais Rápida
Estatística descritiva
vogal A vogal E vogal EH vogal I vogal O vogal OH vogal U
Média 75,6 64,4 81,0 44,8 70,4 82,0 37,6
Erro padrão 5,7 4,5 6,7 3,7 4,9 7,5 4,1
Mediana 75,0 64,0 85,0 44,0 66,0 76,0 41,0
Modo 75,0 #N/D #N/D 44,0 #N/D #N/D #N/D
Desvio padrão 12,8 10,1 14,9 8,2 11,0 16,8 9,1
Variância da amostra 162,8 101,3 223,5 66,7 121,3 283,5 82,3
Curtose 2,3 -2,8 -1,1 2,0 -0,3 1,7 -0,4
Assimetria 1,1 0,0 -0,6 0,4 1,0 1,2 -1,0
Intervalo 35,0 22,0 37,0 23,0 26,0 44,0 22,0
Mínimo 61,0 53,0 60,0 34,0 61,0 65,0 24,0
Máximo 96,0 75,0 97,0 57,0 87,0 109,0 46,0
Soma 378,0 322,0 405,0 224,0 352,0 410,0 188,0
Contagem 5,0 5,0 5,0 5,0 5,0 5,0 5,0
N
ível de confiança (95,0%) 15,8 12,5 18,6 10,1 13,7 20,9 11,3
103
Anexo 8
INSTRUÇÃO PARA A REALIZAÇÃO DO PROJETO
Estimação de magnitude numérica
Este experimento tomará, aproximadamente, 20 minutos de seu tempo e você estará colaborando com
a realização de nossa pesquisa. Um registro dos resultados, se isto ocorrer, não identificará qualquer um que dele
participar. A tarefa que você irá realizar não é difícil de ser completada. Todavia, se em algum momento você
desejar interromper o experimento, avise-nos, e este será interrompido e encerrado.
Estamos interessados em estudar a inteligibilidade das vogais do Português Brasileiro quando estão
com taxa de elocução normal e quando está aumentada.
Para medir a inteligibilidade das vogais vamos fazer uso de um procedimento denominado estimação
de magnitude numérica.
Para realizar a estimação de magnitude você deve considerar o primeiro som que você ouvir. Este
será o parâmetro para análise dos outros sons. Você deverá considerar este primeiro som como X (lembre-se que
X é um valor numérico que você deve assinalar, e que representa a magnitude da inteligibilidade de fala, este
valor não pode ser igual a ZERO). Anote este valor ao lado do som ouvido. Então, em seguida, você deverá
ouvir o segundo som e da mesma forma dar o valor que você ache que é correspondente.
Por exemplo, se o primeiro som foi muito inteligível e você deu valor X quando você ouvir o segundo
som e se tiver à percepção que este corresponde a metade da inteligibilidade do anterior, você deverá dar valor
X/2, entretanto se você tiver a percepção que o som é duas vezes mais inteligível que o primeiro você deverá dar
o valor 2X, assim, todos os sons ouvidos serão comparados com o primeiro, tendo relação, não apenas dobro ou
metade, mas qualquer relação com o valor do primeiro som.
Por inteligibilidade de fala leia-se o quão bem você escuta ou entende a fala.
(menor numero) (maior numero)
Menos inteligível mais inteligível
Alguma dúvida? Muito Obrigada!
104
Anexo 9
UNIVERSIDADE DE SÃO PAULO
Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto. Departamento de Psicologia e
Educação-Programa de Pós-Graduação em Psicobiologia.
Termo de Consentimento Livre e Esclarecido para participação da
pesquisa:
PERCEPÇÃO DE FALA: ANÁLISE DAS VOGAIS DO PORTUGUÊS BRASILEIRO EM TEMPO
COMPRIMIDO.
INFORMAÇÕES SOBRE A PESQUISA:
PESQUISADOR RESPONSÁVEL PELO PROJETO: Prof. Dr. José
Aparecido Da Silva
TELEFONE PARA CONTATO: (16) 3602-3728
PESQUISADOR PARTICIPANTE: Joseane dos Santos
É de meu conhecimento que este projeto será desenvolvido em caráter de pesquisa
científica e objetiva verificar a percepção da inteligibilidade de fala. As informações obtidas
durante as avaliações serão mantidas em sigilo e não serei identificado. No entanto, estas
informações poderão ser usadas para fins de pesquisa científica, desde que a minha
privacidade seja sempre resguardada.
Estou ciente de que, antes da minha participação no teste específico, serei submetido
a uma avaliação auditiva.
Li e entendi as informações precedentes e possíveis dúvidas poderão ser prontamente esclarecidas
pelos pesquisadores do estudo. Poderei ainda acompanhar os resultados obtidos, tendo a liberdade de
interromper minha participação e deixar de participar do estudo, a qualquer momento, sem que isso traga
qualquer tipo de penalização e prejuízo.
Eu,
, nascido em / /
, portador do RG Nº residente à Rua/Av.
, fone: , voluntariamente concordo em participar do projeto de pesquisa
acima mencionado.
Ribeirão Preto, de de 2005.
Assinatura do voluntário
Prof. Dr. José Aparecido da Silva Joseane dos Santos
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo