Download PDF
ads:
ASSUNTA MANZI AGUENA
CONTRIBUIÇÕES DA FONÉTICA ACÚSTICA PARA A
FORMAÇÃO DO PROFESSOR DE INGLÊS:UM ESTUDO DE CASO
MESTRADO EM LINGÜÍSTICA APLICADA E ESTUDOS DA
LINGUAGEM
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
2006
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
1
ASSUNTA MANZI AGUENA
CONTRIBUIÇÕES DA FONÉTICA ACÚSTICA PARA A
FORMAÇÃO DO PROFESSOR DE INGLÊS:UM ESTUDO DE CASO
Dissertação apresentada à Banca Examinadora da
Pontifícia Universidade Católica de São Paulo,
como exigência parcial para obtenção do título de
MESTRE em Lingüística Aplicada e Estudos da
Linguagem, sob orientação da Profa. Dra. Aglael
Juliana Aparecida Gama Rossi.
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
2006
ads:
2
Banca Examinadora
___________________________________________________
Prof
a
Dr
a
Aglael Juliana Aparecida Gama Rossi Orientadora
___________________________________________________
Prof
a
Dr
a
Paulina Dalva Artimonte Rocca (PUC-SP)
___________________________________________________
Prof. Dr. John Robert Schmitz (UNICAMP)
3
Autorizo, exclusivamente para fins acadêmicos e científicos, a reprodução total ou
parcial desta dissertação por processos de fotocopiadoras ou eletrônicos
Assinatura: ____________________________ São Paulo, 31 de agosto de 2006
4
Ao meu marido, Marcelo, por tudo que conquistamos juntos nesses anos de
convivência e, especialmente, por sua constante ajuda e paciência com que
acompanhou todas as etapas deste trabalho, colaborando de maneira decisiva para o
meu crescimento pessoal e profissional.
5
“Assim, se todas as coisas inteiras pudessem ser partidas
ao meio ... todos teriam possibilidades de sair de sua
unidade obtusa e ignorante.
Eu era inteiro e todas as coisas eram, para mim, naturais
e confusas, estúpidas como o ar, acreditava ver tudo;
porém,era apenas aparência. Se algum dia se transformar
na metade de si mesmo compreenderá coisas que estão
além da inteligência comum dos cérebros inteiros. Terá
perdido a metade de si mesmo e do mundo; porém, a
metade que sobrar será mil vezes mais profunda e
preciosa.”
Ítalo Calvino O Visconde Partido ao Meio
6
AGRADECIMENTOS
Ao Mestre Amado, Senhor Jesus, pela esperança renovada em meu coração,
fortalecendo-me , a cada dia, para a realização de mais este sonho. Ele é minha
fonte inesgotável, justiça, graça e amor.
Quero trazer à memória o que me pode dar esperança. As misericórdias do
Senhor são a causa de não sermos consumidos, porque as suas misericórdias não
têm fim; renovam-se cada manhã. Grande é a tua fidelidade. A minha porção é o
senhor, diz a minha alma; portanto, esperarei nele. Bom é o Senhor para os que
esperam por Ele, para a alma que o busca. Bom é aguardar a salvação do Senhor,
e isso, em silêncio”.
(Lm 3.21-26)
À Prof
a
Aglael Gama Rossi, pelo incentivo e colaboração constantes no decorrer da
orientação deste trabalho; pela disponibilidade, confiança, dedicação, amizade e,
principalmente, por me ajudar na construção da minha vida profissional e pessoal.
Às prof
as
Elizabeth Mara Pow, Sandra Madureira e Zaina A. Abdalla Nunes, pelo
senso profissional e crítico e pelas sugestões valiosas na qualificação deste
trabalho.
Aos professores doutores da Banca Examinadora, por procederem à análise deste
trabalho de pesquisa.
Aos professores do LAEL que muito me ensinaram.
7
À minha mãe, que se fez ausente, estando sempre presente.
Aos meus irmãos e familiares, pelo apoio em todos os momentos da minha vida e,
especialmente, a minha irmã, Carla, por sua disponibilidade e dedicação para com
os dados deste trabalho.
À Lia Buratto, pela revisão do texto.
À Ernesto Luis Foschi, técnico do Laboratório de Rádio e TV da Faculdade de
Comunicação e Filosofia da PUC-SP, pela seriedade e entusiasmo com que se
dedicou às horas de gravação e edição dos dados.
Aos colegas do Programa de Estudos Pós-graduados em Lingüística Aplicada e
Estudos da Linguagem da Pontifícia Universidade Católica de são Paulo e do
Laboratório Integrado de Análise Acústica e Cognição, pela cooperação e incentivo
constantes.
Aos sujeitos de pesquisa, que, dispondo de seu tempo e paciência, realizaram as
gravações deste trabalho.
Aos funcionários da secretaria e do laboratório de jornalismo do Programa de
Estudos Pós-graduados em Lingüística Aplicada e Estudos da Linguagem da
Pontifícia Universidade Católica de São Paulo, pelo auxílio e atenção.
8
Esta dissertação de mestrado tem como objetivo investigar os aspectos rítmicos e
entoacionais na produção do inglês por um falante proficiente nessa língua e nativo
do português brasileiro (PB), tendo como referência a produção de um falante
nativo do inglês, e assim inspecionar de que modo e em que grau processos
fonético-fonológicos da relação entre sons e ritmo e entoação da língua-alvo são
mapeados na prosódia da língua materna. A relação entre a produção de sons e
prosódia é observada na fala corrente por meio da transformação de sons na juntura
entre palavras, do uso de pausas, da assimilação, redução e/ou apagamento de sons,
entre outros. Para aproximar-se de uma produção de fala corrente, foi utilizado um
corpus composto por 40 sentenças, retiradas do script do filme Dozen by the
Cheaper (Doze é Demais), as quais foram digitadas em fichas individuais e lidas
por cada sujeito, ambos do sexo feminino e na faixa etária entre 25 e 30 anos, em
seis repetições, sendo as fichas embaralhadas antes de cada repetição. A gravação
das leituras foi feita no Estúdio de Rádio e TV da PUC-SP. A análise dos dados foi
feita por meio da Fonética Acústica, a partir de medidas de duração (tempo que um
som leva para ser produzido) e da variação da freqüência fundamental (variação de
tons durante a fala), realizadas com base na forma da onda alinhada a
espectrogramas de banda larga, extraídos do sinal de fala digitalizado, por um
programa de análise acústica. Foram selecionadas algumas sentenças do corpus
para análise, nas quais foram medidos segmentos acústicos correspondentes a
vogais e consoantes. Em seguida, foram elaborados gráficos das medidas de
duração e f0 para observar o quanto os dois sujeitos aproximavam-se ou
distanciavam-se na produção dos sons e do ritmo e entoação do inglês em função
da interferência do português brasileiro sobre o sujeito não-nativo. Os resultados
obtidos indicam que: (1) a produção de sons e do ritmo e entoação estão
intimamente relacionadas na fala corrente; (2) há interferência da língua materna
(neste trabalho, o português brasileiro) na produção de sons e prosódia do inglês;
porém, o aspecto importante é que essa interferência não é categórica; podendo ou
não ocorrer e, se ocorrer, fazê-lo em diferentes graus; e (3) a Fonética Acústica
proporciona vantagens para o ensino e aprendizagem das questões rítmicas e
entoacionais de uma língua estrangeira, na medida em que os diferentes aspectos da
produção podem ser observados, possibilitando que professores brasileiros de
inglês possam explicitar as diferenças entre a língua materna e a língua-alvo aos
seus alunos, diferenças que podem ou não ser por eles percebidas e/ou produzidas,
ou incorporadas, e em diferentes graus.
Palavras-chave: Ensino e aprendizagem de inglês; Fonética Acústica; Relação entre
som e ritmo e entoação; Mapeamento entre língua materna e língua-alvo
RESUMO
9
ABSTRACT
This dissertation aims at investigating the rhythmical and intonation aspects of the
English production by a fluent speaker of this language whose mother language is
Portuguese, having as a reference the production of a native speaker of English, and
thus, to inspect how and in which level the phonological-phonetic processes related
to sounds, rhythm and intonation of the target language are transferred to the
mother language prosody. The relation between the sound production and the
prosody can be seen in the connected speech provided by sound modifications in
the juncture between words, in the use of pauses, assimilation, reduction and
elimination of sounds, among others. The corpus, comprised of 40 sentences from
the film Dozen by the Cheaper was used to get closer to a connected speech
production. The sentences were typed in individual cards and read six times by
each subject, both female, between 25 and 30 years old, and the cards were shuffled
before each repetition. The six reading recordings were done at PUC-SP’s Radio
and TV studio. The data analysis was provided by the Acoustic Phonetic using
duration measures (time a sound takes to be produced) and the variation of the
fundamental frequency (tone variation during the speech) based on the waveform
ranged to the wide-band spectrograms, extracted from the speech signal digitalized
by an acoustic analysis program. Some sentences from the corpus were chosen to
the analysis, and consonantal and vowel segments were measured. Duration
measures and f0 charts were made in order to observe how much the subjects got
closer or farther to the sound production, and to the English rhythm and intonation
due to the Brazilian Portuguese interference. The final results point that: (1) the
sound production, English rhythm and intonation are related to the connected
speech, the mother language (in this case, the Brazilian Portuguese) interfere in the
sound production and English prosody, but, an important aspect is that this
interference is not categorical, it can occur or not and, if it occurs, it must be done
in different levels; and (3) the Acoustic Phonetic provides some advantages to the
teaching and learning of a foreign language rhythm and intonation, in so far as the
different production aspects can be observed, making possible that the Brazilian
English teacher makes clear the differences between the mother language and the
target one to the students, differences that can or can’t be noticed or produced by
the students, and in different levels.
Key words: English teaching and learning, Acoustic Phonetic, relation between
sound and rhythm and intonation, the transfer process from the mother language to
the target one.
10
SUMÁRIO
INTRODUÇÃO 01
CAPÍTULO 1 FUNDAMENTAÇÃO TEÓRICA
1.1. A pronúncia nos métodos de ensino e aprendizagem do inglês e a formação
docente 10
1.1.1.A interferência da língua materna (LM) na aprendizagem da língua
estrangeira (LE) 17
1.1.2.A questão da inteligibilidade 30
1.1.3. Paradigma nativo/não-nativo 39
1.2. Aspectos segmentais e prosódicos da fala corrente 49
1.2.1. Entoação e Ritmo 63
1.2.2.Fonema e Traço Distintivo 78
1.2.3. Fonemas do inglês que geram dificuldades de pronúncia para os aprendizes
brasileiros 82
1.2.4. Composição Acústica 89
CAPÍTULO 2 METODOLOGIA DE PESQUISA
2.1. A escolha da metodologia de pesquisa 96
2.1.1. Sujeitos de pesquisa 98
2.1.2. Corpus de pesquisa 99
2.1.3. Gravação do corpus de pesquisa 100
2.1.4. Critérios para a análise acústica 101
11
CAPÍTULO 3 DISCUSSÃO E RESULTADOS DOS DADOS 109
CONSIDERAÇÕES FINAIS 189
REFERÊNCIAS BIBLIOGRÁFICAS 194
ANEXOS
ANEXO 1 Termo de consentimento 207
ANEXO 2 Corpus 208
ANEXO 3 Classificação dos sons em português e inglês 212
12
LISTA DE FIGURAS
FIGURAS (CAP. II) PÁGS.
FIGURA 1: Forma da onda e espectrograma de banda larga para a
frase didn’t think about that, na fala de NA, com a etiquetação de
cada segmento, em transcrição ortográfica, e, na segunda camada,
valores correspondentes de duração em ms. As freqüências
formânticas das vogais estão rastreadas pelas linhas vermelhas
pontilhadas
05
FIGURA 2: Forma da onda e espectrograma de banda larga para a
frase didn’t think about that, na fala de NA, com o contorno da
freqüência fundamental (f0), em linha azul
06
FIGURAS (CAP. III) PÁGS.
FIGURA 1: Repetição 1 de But we por NA 112
FIGURA 2: Repetição 1 de But we por NON 113
FIGURA 3: Repetição 2 de But we por NON 114
FIGURA 4: Repetição 3 de But we por NON 115
FIGURA 5: Repetição 1 de times por NON 115
FIGURA 6: Repetição 1 de zero out por NA 116
FIGURA 7: Repetição 1 de zero out por NON 117
FIGURA 8: Repetição 5 de ero out our por NON 118
FIGURA 9: Repetição 6 de bank account por NA 120
FIGURA 10: Repetição 6 de bank account por NON 121
FIGURA 11: Contorno da freqüência fundamental no padrão
entoacional da modalidade declarativa de but we didn’t think por NA
130
FIGURA 12: Contorno da freqüência fundamental no padrão
entoacional da modalidade declarativa de but we didn’t think por
132
13
NON
FIGURA 13: Repetição 1 de is still por NON 134/157
FIGURA 14: Repetição 1 de is still por NA 135
FIGURA 15: Repetição 3 de having small por NON 136
FIGURA 16: Repetição 3 de having a small por NA 137
FIGURA 17: Repetição 3 de having small por NON 140
FIGURA 18: Repetição 3 de having a small por NA 140
FIGURA 19: Repetição 1 de I spent most por NA 142
FIGURA 20: Repetição 1 de I spent most por NON 143
FIGURA 21: Repetição 3 de emo (spent most) por NON 144
FIGURA 22: Repetição 5 de entm (spent most) por NON 145
FIGURA 23: Repetição 6 de spenm (spent most) por NON 146
FIGURA 24: Repetição 5 de emo (spent most) por NA 146
FIGURA 25: Repetição 1 de number por NA 147
FIGURA 26: Repetição 3 de number por NA 148
FIGURA 27: Repetição 4 de number por NA 148
FIGURA 28: Repetição 1 de number por NON 149
FIGURA 29: Repetição 1 de kids but por NA 150
FIGURA 30: Repetição 1 de kids but por NON 151
FIGURA 31: Repetição 5 de still our por NON 152
FIGURA 32: Repetição 5 de sure por NON 152
FIGURA 33: Repetição 5 de still our por NA 153
FIGURA 34:Repetição 5 de st de still por NON 155
FIGURA 35: Repetição 5 de st de still por NA 156
FIGURA 36: Repetição 3 de children but por NON 163
14
FIGURA 37: Repetição 3 de children but por NA 164
FIGURA 38: Repetição 6 de children but por NA 165
FIGURA 39: Repetição 2 de we still por NON 175
FIGURA 40 Repetição 3 de we still por NON 175
FIGURA 41: Repetição 6 de we still por NA 177
FIGURA 42: Repetição 4 de have a por NON 178
FIGURA 43: Repetição 4 de have a por NA 179
FIGURA 44: Repetição 6 de children por NON 179
FIGURA 45: Repetição 6 de children por NA 180
FIGURA 46: Repetição 1 de but no por NON 181
FIGURA 47: Repetição 3 de but no por NON 182
FIGURA 48: Repetição 1 de but no (t seta[d] por NA 183
FIGURA 49: Repetição 4 de met at por NON 184
FIGURA 50: repetição 4 pelo sujeito NA de met at 185
FIGURA 51: Repetição 4 de got a por NON 185
FIGURA 52: Repetição 4 de got a por NA 186
FIGURA 53: Repetição 2 de got us por NON 186
FIGURA 54: Repetição 2 de got us por NA 187
FIGURA 55: Repetição 6 de job offers por NA 188
FIGURA 56: Repetição 6 de job offers por NA 188
FIGURA 57: Repetição 6 de experts at managing por NON 189
15
FIGURA 58: Repetição 6 de experts at managing por NA 189
16
LISTA DE TABELAS
TABELAS (CAP. II) PÁGS.
TABELA 1: Valores percentuais de duração, média, desvio-padrão e
coeficiente de variação das seis repetições da sentença It’s the
number of times we zero out our bank account each year,
na fala de
NA
107
TABELA 2: Valores de f0, medidos nas porções inicial, medial e
final, das vogais das seis repetições da sentença It’s the number of
times we zero out our bank account each year,
células em branco correspondem aos locais nos quais não puderam
ser extraídos os valores de f0
109
TABELAS (CAP. III) PÁGS.
TABELA 1: Valores de f0 nas porções inicial, medial e final das seis
repetições de our bank account da sentença
It’s the number of times
we zero out our bank account each year na fala de NA
122
TABELA 2: Valores de f0 nas porções inicial, medial e final das seis
repetições de our bank account da sentença
It’s the number of times
we zero out our bank account each year na falade NON
123
TABELA 3 Valores de duração em ms e % para os elementos da
seqüência i, ng, a e sm de having a small, com média, desvio-
padrão
e coeficiente de variação para NA
138
TABELA 4 Valores de duração em ms e % para os elementos da
seqüência ing e sm de having a small, com média, desvio-padrão e
coeficiente de variação para NON
138
TABELA 5 Valores de f0 (Hz) medidos no meio das vogais /a/, /ing/, /all/ para
NON
141
TABELA 6 Valores de f0 (Hz) medidos no meio das vogais /i/, /a/, /all/ para
NA
141
TABELA 7 valores da taxa de elocução da sentença Sure, twelve is
still our number pelo sujeito NA
162
TABELA 8 valores da taxa de elocução da sentença Sure, twelve is
still our number pelo sujeito NON
162
TABELA 9: valores da taxa de elocução e da taxa de articulação da
sentença We still have a mess of children, but no theories por NON e
169
17
NA
TABELA 10: valores de duração em ms e % para a pausa inserida
entre as frases entoacionais //We still have a mess of children//but no
theories// para NON
169
TABELA. 11: valores de duração em ms e % para a pausa inserida
entre as frases entoacionais //We still have a mess of children//but no
theories//para NA
170
TABELA 12: valores de duração em ms e % para a sequência st em
still por NON
174
TABELA 13: valores de duração em ms e % para a sequência st em
still por NA
176
18
LISTA DE GRÁFICOS
GRÁFICOS (CAP. III) PÁGS.
GRÁFICO 1 valores de f0 (Hz) medidos em três pontos das vogais
da sentença “It’s the number of times we zero out our bank account
each year” para NA
121
GRÁFICO 2 valores de f0 (Hz) medidos em três pontos das vogais
da sentença “It’s the number of times we zero out our bank account
each year” para NON
122
GRÁFICO 3 média e desvio-padrão para as vogais da sentença
“It’s the number of times we zero out our bank account each
year”para NA
124
GRÁFICO 4 média e desvio-padrão para as vogais da sentença
“It’s the number of times we zero out our bank account each
year”para NON
125
GRÁFICO 5 média e desvio-padrão das consoantes da sentença
“It’s the number of times we zero out our bank account each
year”para NA
128
GRÁFICO 6 média e desvio-padrão das consoantes da sentença
“It’s the number of times we zero out our bank account each
year”para NON
128
GRÁFICO 7 valores de f0 (Hz) medidos em três pontos das vogais
da sentença “But we didn’t think about that”para NA
130
GRÁFICO 8 valores de f0 (Hz) medidos em três pontos das vogais
da sentença “But we didn’t think about that para NON
132
GRÁFICO 9 média e desvio-padrão das consoantes da sentença
Sure, twelve is still our number” para NA
154
GRÁFICO 10 média e desvio-padrão das consoantes da sentença
Sure, twelve is still our number” para NON
154
GRÁFICO 11 média e desvio-padrão das vogais da sentença “Sure,
twelve is still our number” para NA
158
GRÁFICO 12 média e desvio-padrão das vogais da sentença “Sure,
twelve is still our number” para NON
159
GRÁFICO 13 valores de f0 (Hz) medidos em três pontos das
vogais da sentença “Sure, twelve is still our number para NA
161
GRÁFICO 14 valores de f0 (Hz) medidos em três pontos das 161
19
vogais da sentença “Sure, twelve is still our number para NON
GRÁFICO 15 média e desvio-padrão das consoantes da sentença
We still have a mess of children, but no theories” para NA
166
GRÁFICO 16 média e desvio-padrão das consoantes da sentença
We still have a mess of children, but no theories” para NON
166
GRÁFICO 17 valores de duração, para as seis repetições da
sentença “We still have a mess of children, but no theories” para NA
167
GRÁFICO 18 valores de duração, para as seis repetições da
sentença “We still have a mess of children, but no theories
” para
NON
167
GRÁFICO 19
valores de f0 (Hz) medidos em um ponto das vogais
da sentença “We still have a mess of children, but not theories” para
NA
171
GRÁFICO 20
valores de f0 (Hz) medidos em um ponto das vogais
da sentença “We still have a mess of children, but not theories” para
NA
172
GRÁFICO 21 média e desvio-padrão das vogais da sentença “We
still have a mess of children, but no theories” para NA
173
GRÁFICO 22 média e desvio-padrão das vogais da sentença “We
still have a mess of children, but no theories” para NON
173
20
LISTA DE QUADROS
QUADROS (CAP. I) PÁGS
QUADRO 1: Assimilação coalescente 52
QUADRO 2: Alterações da acentuação nas palavras do inglês 61
QUADRO 3: Sons vocálicos 85
QUADRO 4: Sons vocálicos reduzidos 86
21
SÍMBOLOS DO ALFABETO FONÉTICO INTERNACIONAL
1
As consoantes
b bee, cab
p pen, lip
d dog, bad
t too, cat
g game, bag
k cat, pack
v voice, love
f fall, life
ð then, mother
? thin, path
z zoo, does
s so, kiss
?
measure, beige
? she, fish
h he, ahead
?
cheese, watch
1
Conforme descrito por Underhill (1994) em seu quadro fonêmico.
22
?
joy, age
m man, seem
n no, son
?
singer, ring
l look, full
r red, car
w wet, always
j yet, you
As vogais
I it, fit
i: key, feet
?
put, foot
u: hoot, mood
e debt, bed
?
alive, climate
?:
her, early
?:
bore, talk
æ
hat, bad
23
?
hut, mud
a: heart, far
?
hot, pot
I?
clear, beard
eI
date, eightt
U?
sure, poor
?I
boy, poison
?U
so, pole
e?
parent, care
aI
ice, fire
aU
out, hour
24
INTRODUÇÃO
25
More important by far is competence as an instructor and
this involves not only a solid education in pedagogy but,
even more importantly for EIL, an appreciation of the
foreignness and not the nativeness of the language
(Widdowson)
A importância de estudar a pronúncia no ensino de línguas tem recebido
pouca atenção no que diz respeito ao Inglês como língua estrangeira. O fato de os
professores focarem-se na Gramática e no vocabulário fez com que eles
adquirissem maior competência na instrução destes aspectos lingüísticos em
contraposição ao ensino da pronúncia. Morley (1987), Abreu (1997) e Jenkins
(2000) afirmam que, desde o final da década de 60 até aproximadamente o início da
de 80, o ensino da pronúncia ainda não era prioridade, tanto nos cursos de idiomas
como na formação do professor.
26
Jenkins (2000) e Lieff (2003) referem que o ensino da Fonética e Fonologia
2
do inglês na formação do graduando de Letras, e, de um modo geral, por todos
aqueles que atuam no ensino de Inglês a falantes brasileiros, tem sido relegado. Em
minha experiência, enquanto professora universitária e de Ensino Fundamental e
Médio em escola particular , tenho constatado que os livros didáticos, no que diz
respeito à pronúncia, restringem-se a mostrar as diferenças na produção ou
articulação de sons em atividades, tais como: minimal pairs (sheep /?i:p/ X ship
/?Ip/), repetition drills (give me a cloth, give me some clothes), tongue-twisters (she
sells seashells by the seashore, the shells she sells are seashells for sure) e
transcrições fonêmicas (but /b?t/; that /ðæt/), enfocando, principalmente, os sons
que não existem na língua-alvo.
Na maior parte das vezes, ao fornecer um modelo de articulação de um
determinado som, o professor não explicita os movimentos envolvidos em sua
produção e nem as semelhanças e diferenças entre ele e aqueles sons mais
próximos à língua materna, neste caso, o sistema fonológico do português
brasileiro.
Um exemplo do que foi dito acima pode ser observado na pronúncia de
palavras que contêm a fricativa inter-dental não-vozeada (/? /), tais como, think,
thank, thumb, as quais são mapeadas pelo falante brasileiro, aprendiz de Inglês, na
fricativa lábio-dental não-vozeada /f/, ou na oclusiva alveolar não-vozeada /t/. Da
2
“A Fonética visa ao estudo sistemático dos sons da fala do ponto de vista articulatório, com o intuito de verificar
como os sons são articulados ou produzidos pelo aparelho fonador, ou do ponto de vista acústico, visando à análise
das propriedades físicas de sua produção e propagação, ou ainda do ponto de vista auditivo, com o objetivo de
explicar como ocorre a recepção desses elementos. A Fonologia dedica-se ao estudo dos sistemas de sons, de sua
descrição, estrutura e funcionamento, analisa a forma das sílabas, morfemas, palavras e frases, como se organizam e
como se estabelece a relação “mente” e “língua” de modo que a comunicação se processe” (Hernandorena, 1996).
27
mesma forma, palavras que contêm a fricativa inter-dental vozeada são produzidas
com a oclusiva alveolar vozeada /d/, como nos exemplos: that, there, then,
themselves, the, them, entre outros. Isto ocorre devido ao fato de que as fricativas
inter-dentais não-vozeadas e vozeadas partilham traços articulatórios e acústicos,
tanto com a oclusiva alveolar não-vozeada (/t/) como com as fricativas lábio-
dentais não-vozeadas (/f/) e alveolares não-vozeadas (/s/). A tendência do professor
de Língua Inglesa é insistir em que o aluno produza a inter-dental /?/, uma vez que,
durante a formação do professor, o inglês-padrão, “americano” ou “britânico”, é
considerado como o “correto”, o que é enfatizado pelo livro didático
3
.
Da mesma forma que as diferenças entre os aspectos articulatórios dos sons
não são explicitadas, diferenças entre a construção do ritmo e da entoação e o uso
de acento e pausas também não o são, já que a ênfase no ensino da pronúncia do
inglês recai sobre a transcrição fonológica da palavra isolada ou dicionarizada, o
que é diferente do mesmo vocábulo no contexto da frase, emitido na fala corrente.
Isto porque o som que está sendo produzido modificou aquele que o precedeu,
assim como será modificado por aquele que o sucede. Este fenômeno é referido
como coarticulação (Laver, 1994; Levelt, 1998; Hardcastle, W. J.; Hewlett, N.,
1999), co-produção ou sobreposição dos movimentos articulatórios na fala
corrente. O grau de sobreposição entre eles pode ser modificado pela taxa de
elocução, definida de acordo com a quantidade de sons emitida pelo falante num
determinado tempo, e que é reconhecida como “fala rápida” (taxa de elocução alta)
ou “fala lenta” (taxa de elocução baixa).
No que se refere às modificações de sons que ocorrem na fronteira entre
palavras, observamos sons que desaparecem, alteram-se, ou adquirem
3
Para uma crítica de como a pronúncia do Inglês tem sido tratada pelos livros didáticos, ver Piccin, 2003.
28
características dos sons que os precedem ou sucedem. Por exemplo, a sentença But
we didn’t think about that, enunciada pelo falante nativo do Inglês americano que
participa como sujeito deste trabalho, foi emitida como
[b?wi:dId?n?I?k?baUðæ], com o desaparecimento da oclusiva dental não-
vozeada /t/ em but, didn´t, about e that, o que gerou, respectivamente,
[b?wi:]? buwe; [dId?n]? didn; [?baU]? abou; [ðæ]? tha.
A meu ver, o que é necessário na formação do professor de inglês é o
conhecimento explícito entre a produção de palavras isoladamente e delas na frase,
o que vem sendo feito de modo intuitivo ou por meio de um conhecimento
implícito. Perini (2001) distingue dois tipos de conhecimento: “implícito” e
“explícito”. Segundo o autor, qualquer falante do Português possui um
conhecimento implícito da língua, embora não seja capaz de explicitar esse
conhecimento, o qual não advém da instrução recebida na escola, mas da aquisição
da língua de forma natural e espontânea. Chamamos de Gramática internalizada
pelo indivíduo o conhecimento implícito da língua. Por saber empregá-la, o falante
faz as relações que deseja com as palavras escolhidas de seu léxico, de forma que
molda seu texto para que este atenda às suas intenções.
Perini (2001) cita como exemplo de conhecimento implícito o ato de andar.
Uma pessoa é capaz de andar com razoável eficiência. Ninguém nunca lhe chamou
a atenção, insinuando que não se locomovia corretamente ou que deveria fazer um
curso para aprender a andar melhor. Sua maneira de movimentar-se não difere
daquela de outras pessoas; no entanto, a pessoa não é capaz de descrever os
processos musculares e nervosos que ocorrem quando põe em prática a habilidade
de andar.
29
Dessa forma, este trabalho se propõe a oferecer um conhecimento claro sobre
aspectos da produção da fala das Línguas Portuguesa e Inglesa conhecimento este
que se refere àquele advindo da Fonética e da Fonologia , com o objetivo de
contribuir com a formação de professores brasileiros que se dedicam ao ensino do
Inglês, uma vez que, da mesma forma que uma pessoa comum não se dá conta do
que faz ao andar, conforme cita Perini (op. cit.), os falantes não têm consciência do
que fazem ao falar.
O conhecimento sobre a produção da fala não se resume ao conhecimento da
articulação dos sons, apesar de este, por si só, ser bastante complexo. A fala é
composta por uma organização de sons sob uma melodia (entoação ou curva
entoacional variação entre tons graves e agudos) e um ritmo (alternância entre
acentos fracos e fortes), que podem ser modificados pela taxa de elocução (fala
rápida ou fala lenta) adotada pelo falante, a qual, por sua vez, condiciona o grau de
sobreposição entre os sons (coarticulação), fazendo com que eles alterem-se, o que
provoca, então, ajustes melódicos e rítmicos. Isso demonstra que não é possível
lidar com a produção de sons isolados sem considerar sua interação com a
entoação, o ritmo, a taxa de elocução, entre outros. A isso se dá o nome de fala
“corrente ou encadeada”.
Atuando como professora de Língua Inglesa há dezesseis anos no Ensino
Fundamental e Médio, e, há cinco anos no Ensino Superior, especificamente no
curso de Letras, e participando de vários workshops com profissionais da área de
ensino de inglês, sinto a necessidade de preparar os docentes com uma formação
mais profunda em relação à pronúncia. Percebo que o estudo da Fonética e da
Fonologia, na formação do graduando de Letras, tem sido pouco explorado.
30
Analisando as condições acima, pode-se concluir que as necessidades do
aluno de Inglês, como sua capacitação quanto ao desempenho lingüístico, e o
aumento de educadores não-nativos envolvidos no ensino deste idioma, demandam
novas perspectivas na formação de professores.
Este trabalho emergiu do contato de um falante nativo do inglês canadense,
recém-chegado ao Brasil, que, ao ouvir a sentença Snakes hiss out of fear”,
produzida pelos dois sujeitos do estudo de Castilho (2004) uma falante nativa do
inglês americano e uma falante brasileira proficiente em inglês , não a
compreendeu quando produzida pela falante brasileira, e somente pôde identificar
seu sentido ao escutá-la na fala da nativa. Madureira e Castilho (comunicação
pessoal 2004), questionaram, então, o que prejudicava a compreensão por parte do
nativo canadense em relação à pronúncia da sentença produzida pela brasileira.
Uma análise espectrográfica
4
, comparando a sentença produzida pelos dois sujeitos,
mostrou que a sentença “Snakes hiss out of fear” foi realizada da seguinte forma
por cada uma das falantes contempladas no estudo:
Falante nativa: Snakes hiss # ourof fear.
Falante não-nativa: Snakes hiss out # of fear.
A inserção da pausa (marcada por #) em diferentes locais por ambas as
falantes, ou seja, entre hiss e out para a nativa, e entre hiss out e of fear para a não-
4
Segundo Kent e Read (1992), o espectrograma é uma representação gráfica em que a ordenada corresponde à
freqüência, a abscissa ao tempo e o contraste entre claro e escuro à amplitude dos componentes elementares dos sons
(quanto mais escuro maior a amplitude). Adiante, o espectrograma e seu papel neste trabalho serão melhor
explicitados.
31
nativa, modificou toda a organização fonética da sentença, impedindo, por
exemplo, a implementação da regra fonológica que, em sua realização fonética,
transforma os segmentos [t] e [d] no flap [r], quando os primeiros aparecem entre
vogais dentro da palavra (por exemplo, ladder, /læd?r/ se transforma em [lærer])
ou entre palavras (out of fear? ou[r]of fear).
Houve também um prejuízo semântico-pragmático, uma vez que o ouvinte
interpretou a produção da não-nativa como um item lexical (hiss out) que não
existe. Em suma, a introdução da pausa em local inadequado bloqueou a aplicação
de uma regra fonológica de mudança de segmento, ou seja, de [t] em [r], criando
uma nova unidade semântica. Essa análise exemplifica o que vem a ser a interação
entre segmento (som) e prosódia: a inserção da pausa impediu a juntura
5
entre out e
of, que se transformaria em ou[r]of, e sua interpretação como uma única unidade
sintático-semântica (hiss é verbo do sintagma verbal e out of fear é um modificador
do verbo ou sintagma preposicionado, o qual compõe um único item,
“cristalizado”, no dicionário ou léxico mental).
Partindo desta análise, passamos a nos questionar de que forma aspectos
segmentais (articulação de “fonemas” do inglês) eram suficientes no ensino-
aprendizado da Língua Inglesa por falantes não-nativos, uma vez que a interação
entre a produção segmental (sons da fala) e a implementação de aspectos
5
Segundo Crystal (1985), “juntura é um termo usado na fonologia para indicar os traços fonéticos de fronteira que
podem demarcar as unidades gramaticais, como os morfemas, palavras ou orações”. Já houve diversas tentativas de
estabelecimento de uma tipologia das junturas. Uma distinção comumente usada é entre a juntura em que os traços
são usados na fronteira de uma palavra (juntura externa), e a juntura que se refere às transcrições normais entre os
sons dentro de uma palavra (juntura interna).
32
prosódicos (acentos lexicais, formação de grupos acentuais, proeminência maior da
sentença, inserção de pausas, entre outros) parecem intimamente ligadas entre si.
O objetivo deste trabalho é, então, compreender de que forma um falante
nativo do português brasileiro sofre interferência desta língua ao falar inglês. Para
isso, será utilizada, como base para análise de dados, a Fonética Acústica
6
(ver
explicação adiante). Pretendo fornecer subsídios ao professor de Inglês para que
este entenda de onde provêm as dificuldades de produção de segmentos, ritmo,
entoação, acento e uso de pausas no aprendizado da língua em questão. Isso
significa tentar entender o “mapeamento” que o falante brasileiro faz da estrutura
prosódica do português ao falar inglês. Espera-se que, uma vez que o professor de
inglês adquira este conhecimento, ele possa compreender a produção do aluno, e, se
assim o desejar, explicitar-lhe as diferenças segmentais e prosódicas entre sua
língua materna e a língua-alvo. A explicitação destas diferenças pode ou não
acarretar uma maior inteligibilidade (ver discussão no capítulo 1) do Inglês falado
pelo aluno brasileiro.
A fim de operacionalizar os objetivos acima, proponho-me a desenvolver a
seguinte questão de pesquisa:
Ø Que contribuições a Fonética Acústica pode oferecer para
explicitar a relação entre aspectos segmentais e prosódicos no
conhecimento da Língua Inglesa pelo professor brasileiro, tendo
em vista o ensino dessa língua?
6
A Fonética Acústica trata das propriedades físicas dos sons da fala, considerando-os como ondas sonoras. Essas
propriedades derivam do modo como os sons são produzidos, em conseqüência dos movimentos que têm lugar no
aparelho fonador, permitindo tanto sua transmissão como sua percepção (Malmberg, 1954).
33
Este trabalho
7
insere-se então em um conjunto de outros realizados no
Laboratório Integrado de Fonética Acústica e Cognição (LIAAC/PUCSP),
orientados pela Profª. Dra. Sandra Madureira, relacionados à aquisição de um
conhecimento fonético-acústico
8
ou psicolingüístico
9
, sobre os processos de
compreensão e produção do inglês, além de uma crítica sobre o ensino da
pronúncia nos livros didáticos
10
.
Esta dissertação compreende três capítulos, seguidos das considerações
finais. No capítulo 1, apresento os pressupostos teóricos que fundamentam a
pesquisa. Nele, trato da pronúncia nos métodos de ensino e aprendizagem do inglês
e a formação docente, a interferência da língua materna na aprendizagem da língua
estrangeira, a inteligibilidade, e o falante nativo e não-nativo. A seguir, abordo os
aspectos segmentais e prosódicos da fala corrente, entoação e ritmo, fonema e traço
distintivo, focando principalmente os fonemas que geram dificuldades de pronúncia
para os aprendizes brasileiros e, por fim, os fundamentos da fonética acústica da
produção dos sons da fala.
O capítulo 2 concentrar-se-á na pesquisa em si, referindo-se à metodologia
adotada, incluindo os sujeitos de pesquisa, a construção do corpus e os
procedimentos para análise acústica.
O capítulo 3 apresenta a discussão e resultados dos dados coletados e, na
seqüência, as Considerações Finais, focalizarão a síntese dos resultados apontados
pelo estudo. Por fim, apresento as referências bibliográficas e os anexos.
7
As regras de formatação, a partir das quais este trabalho foi realizado, seguem as propostas por Severino, 2003.
8
Ver Rocca (2003) e Castilho (2004).
9
Ver Polaczek (2003).
10
Ver Piccin (2003).
34
1.1. A pronúncia nos métodos de ensino-aprendizagem do inglês e a formação
docente
Segundo Jenkins (2000:199), quando ocorrem treinamentos em pronúncia,
-se ênfase à reprodução de técnicas e atividades práticas sem questionamentos,
como forma de lidar com essa lacuna na formação do professor de inglês. Para a
autora, esquece-se de que o professor necessita de um conhecimento fonético-
fonológico para que ele possa preparar seus alunos para o ato comunicativo de
forma eficaz nos diferentes contextos de fala.
35
Conforme Celce-Murcia, Brinton e Goodwin (1996:2), o ensino moderno de
línguas apoiou-se em duas abordagens para o ensino da pronúncia: a da imitação
intuitiva e a abordagem lingüística-analítica.
A abordagem
11
da imitação intuitiva pressupunha a capacidade do
estudante de ouvir e imitar o ritmo e os sons da língua-alvo sem a
intervenção de qualquer informação explícita, mas tendo acesso a bons
modelos, proporcionados pelo uso de gravadores e laboratórios de línguas
na metade do século XX e, mais recentemente, pelo uso de videocassetes e
CDs. Por outro lado, a abordagem lingüística-analítica utilizava informação
e ferramentas, tais como o alfabeto fonético, descrições articulatórias,
ilustrações do aparelho fonador, informação contrastiva e outros suportes
para as tarefas de ouvir, imitar e produzir. Essa abordagem, que focalizava
a atenção do estudante nos sons e na estrutura rítmica da língua estrangeira,
foi desenvolvida para complementar e não para substituir a abordagem da
imitação intuitiva, que foi mantida na fase de treinamento da informação
fonética (Celce-Murcia et. alii, 1996:2).
Os métodos de ensino que se desenvolveram, até aproximadamente a década
de 40, tinham como principal objetivo o ensino de vocabulário. A ênfase era dada à
palavra escrita, enquanto que as habilidades de audição e de fala eram praticamente
ignoradas. Ao longo do século XX, alguns dos métodos de ensino incluíram a
pronúncia entre seus objetivos instrucionais (Abreu, 1997).
Com o Reform Movement, proposto em 1880, a Fonética análise científica
e descrição dos sistemas dos sons da língua foi estabelecida, dando novas
perspectivas ao estudo dos processos da fala. No início do século XIX, Wilhelm
Viëtor, Henry Sweet, Paul Passy e outros reformistas acreditavam que a língua
11
As traduções neste trabalho são de responsabilidade da autora.
36
falada era importante no ensino, o que deveria ser refletido em uma metodologia de
base oral, e que as descobertas da Fonética deveriam ser aplicadas ao ensino e
treinamento de professores, cabendo aos aprendizes primeiramente ouvir a língua,
para depois terem contato com a forma escrita. Foram esses autores que criaram a
Associação Fonética Internacional, em 1886, e desenvolveram o Alfabeto Fonético
Internacional (IPA), com o objetivo de transcrever os sons de qualquer língua de
forma precisa.
Com a criação do IPA, tornou-se possível representar os sons de qualquer
sistema lingüístico porque, pela primeira vez, havia a possibilidade de se
estabelecer uma relação consistente de um para um entre os símbolos da escrita
(grafemas) e o som por eles representados (fonemas). Jespersen (1904, apud Abreu,
1997), foneticista pertencente ao Reform Movement, acreditava que os aprendizes
deveriam dominar todos os sons da língua-alvo, utilizando a transcrição fonética
para superar as dificuldades. Somente após a transcrição, o aluno passaria a
trabalhar com a palavra escrita.
O Direct Method, que vigorou no final de 1800 e começo de 1900, baseava-
se na aprendizagem de palavras e/ou frases da língua estrangeira por associação
direta com objetos e ações representativos da língua materna. Este método
preconizava que: (1) cada língua deveria ser aprendida antes pela prática do que por
meio de regras (Grammar Translation Method); (2) a pronúncia deveria ser
ensinada por meio da intuição e imitação; (3) os professores deveriam ser nativos
ou ter uma pronúncia semelhante à dos nativos; e (4) a pronúncia era aprendida
pela imitação de um modelo o professor. Esse método instrucional baseava-se em
observações intuitivas de como as crianças aprendiam sua primeira língua e de
37
como crianças e adultos aprendiam uma língua estrangeira em contextos não
instrucionais.
Naturalistic Methods (Total Physical Response desenvolvido por Asher,
1977; e Natural Approach, desenvolvido por Krashen e Terrel, 1983), sucessores
do Direct Method, defendiam a hipótese de que primeiro os alunos deveriam ser
submetidos a um período de audição a fim de internalizarem o sistema de som da
língua estrangeira, antes de qualquer tentativa de fala; o que, segundo eles, seria
benéfico para os discentes, os quais adquiririam uma pronúncia melhor, mesmo não
tendo recebido o ensino desta de forma explícita.
Entre 1940 e 1950, o objetivo era que o aluno alcançasse uma pronúncia
como a do falante nativo e, para tanto, dois métodos caracterizados pelo uso da
imitação e memorização por meio de exercícios de repetição foram difundidos: um
nos Estados Unidos, chamado Audiolingual Method, e outro na Inglaterra,
denominado Oral Approach. Estes métodos, originados do Reform Movement,
estavam fundamentados nos ensinamentos da Lingüística Estruturalista de
Bloomfield (Language, 1933) e da Psicologia Behaviorista de Skinner (Verbal
Behavior, 1957). Eles concebiam a língua como um conjunto de hábitos, e sua
aquisição e aprendizagem como uma seqüência de reflexos condicionados.
Basicamente, consistiam na apresentação de um modelo oral ao aluno, efetuado
pela voz do professor ou por meio de fitas cassetes, seguidas de intensivo trabalho
oral (repetição) e também de conceitos da Fonética (sistema de transcrição visual
ou uso de charts que mostravam a articulação dos sons). No Audiolingual Method,
pronúncia correta, acentuação, ritmo e entoação eram enfatizados; no Oral
Approach, tinha-se a repetição guiada pelo professor ou por fitas cassetes, bem
como atividades como repetição em coro e drills. Nessa época, grande atenção foi
38
dedicada aos contrastes fonêmicos (minimal pair drill), na busca da pronúncia
“perfeita” aliada à ênfase do ensino da Gramática.
Nos anos 60, a Abordagem Cognitiva, inicialmente considerada uma versão
modernizada do Grammar-Translation Method, sofreu influência do modelo da
teoria Gerativa de Chomsky (1957, 1965 apud Celce-Murcia et. alii, 1996) e da
Psicologia Cognitiva (Neisser,1967 apud Celce-Murcia et. alii, 1996), na qual a
cognição resulta da atividade mental do sujeito que aprende (competência) e não da
influência direta do ambiente (desempenho). Este método voltou a enfatizar o
ensino da Gramática e do léxico, e os teóricos cognitivistas acreditavam que uma
pronúncia semelhante à do falante nativo era impossível de ser alcançada. O
Método Cognitivo não chegou a propor na prática algo que fosse visto como uma
nova solução para o ensino de línguas.
Entre 1970 e 1980, surgiu o método Total Physical Response (TPR),
desenvolvido por Asher em 1977, que consistia na aprendizagem da habilidade
auditiva antes da fala, e, segundo o autor (apud Richards e Rodgers,1997:4), a
comunicação deveria ser inteligível para o falante nativo:
A reasonable hypothesis is that the brain and nervous system are
biologically programmed to acquire knowledge in a particular sequence
and in a particular mode. The sequence is listening before speaking and the
model is to synchronize language with the individual’s body
12
. (Asher,
1977 apud Richards e Rodgers, 1997:4).
12
Uma hipótese razoável é que o cérebro e o sistema nervoso estão programados biologicamente para adquirir
conhecimento em uma determinada seqüência e de um determinado modo. A seqüência é ouvir antes de falar e o
modelo é para sincronizar a língua com o corpo do indivíduo. As traduções das citações foram sugeridas por Zaina
Abdalla Nunes no exame de qualificação.
39
Neste método, o aluno tinha o papel de um ouvinte participativo. Ele
escutava atentamente e respondia fisicamente aos comandos dados pelo professor
por meio de drills, usando o imperativo, e adquiria o direito de falar somente
quando uma base suficiente da língua já houvesse sido internalizada. O professor
tinha a função de proporcionar a aprendizagem de modo que o aluno pudesse
internalizar as regras básicas da língua estrangeira.
As técnicas que apareceram nos anos 70 continuaram a apresentar diferenças
significativas quanto ao ensino da pronúncia. O Silent Way (Gattegno, 1972, 1976
apud Richards e Rodgers, 1997), cujo objetivo era o ensino da pronúncia sem que o
aluno aprendesse o alfabeto fonético, chamava a atenção dos discentes para o fato
de que a combinação de palavras, acento e entoação dariam formas à produção de
um enunciado. Não havia a fala constante do professor como modelo: este se
apoiava nas ilustrações de sons e palavras baseadas em cores. O método foi
denominado Silent Way porque seu objetivo era fazer com que o aluno adquirisse
independência, autonomia e responsabilidade. Gattegno (1976, apud Richards e
Rodgers, 1997:83) explica que o silêncio é a melhor forma de aprendizado:
Silence is considered the best vehicle for learning, because in silence
students concentrate on the task to be accomplished and the potential
means to its accomplishment. Repetition (as opposed to silence) consumes
time and encourages the scattered mind to remain scattered. Silence as
avoidance of repetition, is thus an aid to alertness, concentration, and
mental organization
13
(Gattegno, 1976 apud Richards e Rodgers, 1997:83).
13
Considera-se o silêncio o melhor veículo para aprendizagem, porque no silêncio os alunos se concentram na tarefa
a ser realizada e no meio potencial para sua realização. Repetição (como oposto de silêncio) consome tempo e
incentiva a mente dispersa a se manter dispersa. Silêncio, enquanto forma de evitar a repetição, é uma maneira de
ajudar na atenção, concentração, e organização mental.
40
Segundo Stevick (1980, apud Richards e Rodgers, 1997), neste método o
professor tinha a tarefa de: (a) ensinar usando a linguagem não-verbal; (b) testar
levando em consideração a elicitação e a forma de produção do aluno; e (c) sair de
cena após monitorar a interação entre os aprendizes por meio de gestos e gráficos.
Ainda hoje, muitos educadores acreditam que o princípio de correspondência som-
cor ajuda o aluno a internalizar o verdadeiro sentido da língua, a dicção, o ritmo e a
melodia (Blair, 1991).
A abordagem Community Language Learning (CLL), desenvolvida por
Curran (1976, apud Richards e Rodgers, 1997), teve suas origens na abordagem
humanística de ensino-aprendizagem de segunda língua. Nela, várias ferramentas e
técnicas eram usadas para o ensino da pronúncia. O gravador, uma das ferramentas
utilizadas para gravar as emissões dos alunos na CLL, não só captaria o que fosse
dito por eles como também proporcionaria um distanciamento daquilo que foi
falado, possibilitando que o aluno focasse a atenção em sua própria pronúncia,
comparando-a com a do professor. O professor, no papel de “computador humano”,
que poderia ser “ligado” ou “desligado” segundo desejo do aluno, não oferecia
correção de pronúncia, ficando a critério do estudante a seleção do que praticar e o
quanto praticar para atingir uma pronúncia mais próxima da língua-alvo. Assim
como no Direct Method, a pronúncia na CLL deveria ser ensinada por meio da
intuição e imitação; porém, o que aprender e o quanto a ser aprendido eram
controlados pelo estudante e não pelo professor ou livro-guia.
Com o advento da Abordagem Comunicativa, no início da década de 80,
passou-se a privilegiar a eficácia na comunicação. Esta abordagem buscava a
competência comunicativa com uma pronúncia inteligível, de modo que o ouvinte
apreendesse a mensagem tal como desejado pelo falante. Como não foram
41
desenvolvidas estratégias para um ensino de pronúncia dentro dessa abordagem, os
professores que a adotam empregam as técnicas tradicionalmente utilizadas para
lidar com as questões de pronúncia no ensino de línguas, tais como: ouvir e imitar
sons, treino fonético ou da articulação de determinados sons, pares mínimos
(palavras cujo significado difere exatamente pela pronúncia de um som ou de parte
dele, como, por exemplo, por um traço), e “tongue-twisters” (ou trava-línguas), que
constituem na pronúncia de sons de relativa dificuldade numa seqüência, servindo,
portanto, apenas para treino articulatório.
Segundo Rocca (2003:60), “a ênfase continua sendo a produção correta do
som no nível da palavra, embora apareçam tentativas de tornar essas estratégias
mais comunicativas diante da forte evidência de que a pronúncia de palavras
isoladas é distinta de uma pronúncia em fala encadeada”. Hoje, influenciado pelas
teorias de análise do discurso, o ensino de pronúncia volta-se para os traços
prosódicos da língua (ritmo, acento e entoação), integrando-os, de forma adequada,
a um contexto discursivo, principalmente para o falante não-nativo. McNerney e
Mendelsohn (1992, apud Celce-Murcia et. alii, 1996:10) deixam isto muito claro:
... a short term pronunciation course should focus first and foremost on
suprasegmentals as they have the greatest impact on the comprehensibility
of the learner´s English. We have found that giving priority to the
suprasegmental aspects of English not only improves learners´
comprehensibility but is also less frustrating for students because a greater
change can be effected in a short time
14
(McNerney e Mendelsohn, 1992
apud Celce-Murcia et. alii, 1996:10).
14
Um curso de pronúncia deve focar-se antes de mais nada no nível suprasegmental, uma vez que tem um grande
impacto na compreensão do Inglês do aprendiz. Sabemos que dar prioridade para os aspectos suprasegmentais do
Inglês não só melhora a compreensão dos aprendizes como também é menos frustrante para os alunos porque tais
segmentos podem causar um efeito muito maior em um curto tempo.
42
1.1.1. A interferência
15
da língua materna (LM) na aprendizagem da língua
estrangeira (LE)
Segundo Ellis (1994), o campo de aquisição
16
de uma língua estrangeira é
vasto e complexo. O processo de aquisição de segunda língua não é um fenômeno
uniforme: é resultado de muitos fatores inerentes ao aprendiz e ao contexto de
aprendizagem. Por isso, os estudos de aquisição são vitais para o ensino e
aprendizagem de uma língua. Tais estudos começaram com investigações sobre a
língua materna (LM) e posteriormente concentraram seu foco na segunda língua
(LE). Na década de 50, por exemplo, houve predomínio das correntes teóricas do
behaviorismo e do estruturalismo, que, apesar de diferentes em seus preceitos
básicos, pregavam que os erros na LE eram resultados da interferência da língua
materna e que as dificuldades de aprendizagem deviam-se às diferenças entre a
língua materna e a língua-alvo. Conforme afirma o autor, houve uma reavaliação,
nos últimos anos, do papel da língua materna no processo de aquisição de segunda
língua, reavaliação que ocorreu de duas formas: (a) novo exame da natureza da
transferência lingüística (“language transfer”) e (b) reorganização da contribuição
da língua materna em bases cognitivas.
Para Ellis (1994), a língua materna é um importante determinante da
aquisição de uma segunda língua. É a fonte de conhecimento à qual os aprendizes
se reportam, consciente ou inconscientemente, para ajudá-los no entendimento dos
15
É a ocorrência de formas de uma língua na outra, causando desvios perceptíveis no âmbito da pronúncia, do
vocabulário, da estruturação de frases bem como nos planos idiomático e cultural. A interferência é a principal
característica da interlíngua e da fossilização (Crystal, 1995A).
16
Refere-se à tradução de acquisiton, termo empregado por Ellis (1994). Os termos acquisition e learning despertam
muitas discussões entre os pesquisadores. Muitos afirmam que para LE deveria ser usado o termo acquisition, outros
contestam essa posição. O que se tem como consenso na área é que aquisição está relacionada a contextos naturais e
aprendizado a contextos formais. Será mantido o termo acquisition quando este for empregado no texto original, o
mesmo ocorrendo para o termo learning.
43
elementos presentes na língua que estão aprendendo, e assim possam atuar da
melhor maneira possível numa segunda. À medida que a proficiência do aprendiz
na segunda língua aumenta, menos poderosa se torna a língua materna nesse
processo. O autor afirma que as formas da língua materna, tais como aspectos
sintáticos, fonológicos, semânticos e lexicais, influenciam as novas construções da
LE, usadas pelo aprendiz, pois são levadas para esta segunda. Porém, em muitas
outras situações, os aprendizes criam estruturas que seriam intermediárias entre a
LM e a LE, ou seja, usam seus conhecimentos da LE, mas resistem às regras da
mesma, escrevendo-as de acordo com a língua materna ou criando regras próprias
que misturam ambas.
Os aprendizes evitam usar estruturas que acham difíceis devido a diferenças
entre a língua materna e a língua-alvo, de acordo com Ellis (op. cit.). Neste caso, os
efeitos da LM são evidentes não no que os aprendizes fazem, mas no que eles não
fazem. Para Lado (1964), onde houver similaridade entre as línguas materna e
estrangeira, as estruturas da língua-alvo serão aprendidas com facilidade, enquanto
as diferenças implicarão dificuldades de assimilação. Ainda para Ellis (1994), um
fato bastante freqüente em aprendizes de línguas é a generalização de regras, ou
seja, uma vez aprendida, uma regra passa a ser aplicada em contextos nos quais ela
não é necessária ou não é permitida. Um exemplo muito comum desse tipo de erro
é o caso dos verbos no passado. Pelo fato de o inglês ter verbos regulares cujo
passado segue a uma regra, há aprendizes que costumam aplicá-la nos irregulares, e
passam a produzir, por exemplo, sentenças do tipo: I goed to the United States last
year, sendo que os verbos irregulares, como o do exemplo, possuem outra forma de
passado, que deve ser memorizada. Um outro ponto é a posição dos advérbios em
uma sentença, que pode gerar dúvidas mesmo em aprendizes em níveis avançados,
da mesma forma que a ausência de pronome/sujeito. O motivo destas dificuldades é
44
a transferência de parâmetros da língua materna para a língua-alvo, em que o
aprendiz produz sentenças como: I go tomorrow to school, know English very well.
A interferência da LM na LE, quanto aos aspectos fonológicos, é bastante
evidente e, na maioria dos casos, permanece para sempre, mesmo em indivíduos
que já adquiriram domínio sobre o vocabulário e a Gramática da LE. Aprendizes de
língua estrangeira acreditam ouvir sons que, para eles, são semelhantes aos da sua
língua materna e que estão enraizados em sua mente, persistindo assim em produzí-
los de forma fossilizada (Ellis, 1994).
Quanto maior a diferença entre os sistemas fonológicos da língua materna do
aprendiz e da língua-alvo, maior a tendência de ocorrerem erros, pois, por não
identificar determinados sons, o falante tenderá a procurar um som parecido em sua
LM (Ellis, 1994). Segundo o autor, o conhecimento da LM é o ponto de partida
para a aquisição da LE. A influência da LM tem sido considerada particularmente
forte e persistente na área da fonologia, mesmo nos falantes mais fluentes,
especialmente quando há semelhanças muito próximas entre os dois sistemas.
Para Ellis (1994), os aprendizes acreditam que a correspondência grafema-
fonema segue apenas um padrão. Em relação ao português, por exemplo,
pronunciam corretamente o < able > de table /´teIb? l/ mas generalizam essa
pronúncia para o < able > de comfortable /´k?mft?b?l/; ou pronunciam a palavra
basic /beIsIk/ de forma errada /beIzIk/ porque utilizam a regra para o português
falado e escrito de que um s entre duas vogais transforma-se em z. Um “erro”
muito freqüente dos aprendizes brasileiros é a pronúncia das silent letters (letras
45
que não são pronunciadas), como em psychology, wednesday, island, knowledge,
knee, christmas e outras, porque em sua língua isso raramente ocorre.
O conceito de transferência teve sua origem na hipótese da análise
contrastiva, aceita nos anos 50 e 60. Esta hipótese, enraizada no behaviorismo,
sustenta que a principal barreira para aquisição de segunda língua se origina da
interferência criada pelo sistema da LM. No final dos anos 60, como resultado da
influência de Chomsky, uma nova perspectiva no aprendizado de línguas emergiu,
e o aprendizado da LE passou a ser considerado como um processo ativo, no qual o
indivíduo conscientemente constrói e testa hipóteses sobre a língua em estudo.
Odlin (1989:27) define transferência como: The influence resulting from the
similarities and differences between the target language and any other language
that has been previously (and perhaps imperfectly) acquired
17
. No entanto, o
próprio Odlin admitiu que os termos “influência” e “adquirida” são vagos ou
parcialmente entendidos nesta definição, pois a influência parte de um julgamento
consciente ou inconsciente do aprendiz de que algo na língua materna e na língua
em estudo são semelhantes, ou exatamente a mesma coisa. Porém, as condições que
desencadeiam estes julgamentos de semelhança ou identidade não são bem
entendidas.
Segundo Ellis (1994:315-336), a transferência no aprendizado da LE ocorre
quando o aprendiz usa LM na tentativa de desenvolver hipóteses sobre as regras da
LE. A transferência de uma língua à outra não é feita aleatoriamente, mas obedece
às regras, ou apresenta regularidades. Estas regularidades encontram-se: (1) em
cada um dos níveis de análise lingüística: fonológico, lexical, gramatical,
17
A influência resultante das semelhanças e diferenças entre a língua-alvo e qualquer outra língua previamente (e
talvez imperfeitamente) adquirida.
46
semântico-discursivo; (2) na diferenciação de traços lingüísticos marcados e não-
marcados; (3) no significado prototípico de uma palavra em relação aos seus
demais significados; (4) na percepção que o falante tem das semelhanças e
diferenças entre as línguas em questão; (5) no desenvolvimento dos processos
naturais que levam à interlíngua
18
, ou a uma língua intermédia entre a língua-alvo e
LE; (6) nos contextos sociais em que as línguas são produzidas e na relação entre
falantes e ouvintes; (7) nas diferenças individuais entre aprendizes, tais como,
personalidade, idade, propósito para a aprendizagem da LE, motivação e atitude; e,
(8) por fim, no uso que o aprendiz faz da língua.
Ellis (1994) nos diz que a transferência é a influência que a língua materna
do aprendiz exerce na aquisição de uma LE. A língua materna é uma das fontes de
erro no aprendizado e neste caso é chamada de “transferência negativa”; entretanto,
há casos em que a LM do aprendiz pode facilitar a aquisição da LE.
Acredito que a transferência ocorre em todo o processo de aquisição da LE, e
que ela é inevitável, pois um aprendiz adulto, de forma involuntária, traz consigo o
conhecimento de sua LM, diferente de uma criança que, ao aprender sua língua
materna, parte de um estágio “zero”.
As línguas diferem entre si não apenas em relação à quantidade e qualidade
de seus sons, mas também em relação às características acústicas usadas para
distinguí-los. Desta forma, para adquirir sons de uma língua estrangeira, os
18
De acordo com Ellis (1994), a interlíngua pode ser entendida como um sistema de transição criado pelo aprendiz
ao longo de seu processo de assimilação de uma língua estrangeira, que se caracteriza pela interferência da língua-
mãe. A existência de uma interlíngua foi primeiramente assinalada na literatura por Selinker (1972), que a definiu
como “um sistema lingüístico separado, baseado na produção observada por falantes não-nativos, o qual é resultado
da tentativa do falante de produzir (segmentos) segundo as normas da L2”. De acordo com Selinker há cinco fatores
que influenciam o resultado proveniente do sistema da interlíngua: (1) transferência da L1; (2) transferência de
treino, resultando de um determinado treino utilizado na aprendizagem da L2; (3) estratégias de aprendizagem; (4)
estratégias de comunicação; e (5) supergeneralização.
47
aprendizes terão, em muitos casos, que aprender a fazer uso de características que a
língua materna não faz.
De um modo geral, pesquisadores parecem concordar com o fato de que a
língua materna exerce relativa influência tanto na percepção quanto na produção de
sons na LE. Entretanto, nenhum consenso foi ainda alcançado quanto à forma ou
mesmo quanto à extensão desta influência.
Segundo Flege (1995), a produção e percepção dos segmentos de segunda
língua (LE) estão correlacionados. Quanto mais tarde se aprende uma segunda
língua, maior a probabilidade de se ter sotaque. Segundo Scovel (1988:62), se a
aquisição da LE ocorrer após o período crítico, quando a possibilidade de aprender
uma nova língua diminui devido à perda da plasticidade neural, a produção e
percepção serão afetadas de formas diferentes.
O Speech Learning Model (Modelo de Aprendizagem da Fala), desenvolvido
por Flege pela primeira vez em 1987, em sua versão atual, continua fiel às suas
idéias originais, na medida em que se baseia na semelhança entre os segmentos da
LM e da LE e não mais nas diferenças, como se fazia na Contrastive Analysis (CA),
e também na percepção para explicar as dificuldades na aquisição de sons de uma
língua estrangeira. O SLM postula que os mecanismos de aprendizagem de fala
permanecem intactos durante toda a vida do indivíduo, embora eles possam deixar
de atingir uma produção parecida com a de um falante nativo, devido a mudanças
relacionadas com a idade, no que diz respeito a como o sistema fonético de
primeira língua (LM) interage com o da LE.
48
De acordo com o SLM, a precisão com a qual os segmentos de L2
19
são
percebidos limita o modo como serão produzidos, mesmo que nem todos os
aspectos da aprendizagem perceptual possam ser incorporados na produção. A
produção e a percepção não podem estar em perfeita simetria como ocorre na
aquisição de fala em L1. Desta forma, o Modelo de Aprendizagem de Fala prevê
que modestas correlações existirão entre a produção e percepção dos segmentos de
L2 para falantes altamente experientes de uma L2. Por outro lado, Strange (1995)
observou que, embora os erros de produção segmental por falantes não tão
experientes de uma L2 possam ser percebidos pelos seus erros perceptuais, as
dificuldades perceptuais persistirão mesmo após o domínio da produção segmental.
O autor, ao contrário de Flege (1995), chegou à conclusão de que a produção e
percepção segmental de L2 por falantes altamente experientes de uma L2 podem
não estar correlacionadas. De acordo com Flege (op. cit.), uma possível explicação
para tal fenômeno é o fato de que nem todos os que aprendem a perceber um som
de L2 com precisão atualizam a produção segmental, para que esteja em
conformidade com a nova representação do som em L2.
Um dos aspectos mais importantes do SLM (Flege, 1995) é a idéia de que
sons da LE que são similares a sons da LM serão mais dificilmente adquiridos do
que novos sons. Segundo o SLM, sons específicos de uma determinada língua são
armazenados na memória fonêmica do falante e cada uma destas representações
constitui uma categoria fonética. Se, durante a sua aprendizagem da LE, o falante
não-nativo é confrontado com um novo som, um som diferente da LM, este
resultará na formação de uma nova categoria fonética, específica para este som da
LE. Por outro lado, sons da LE que são similares a sons da LM, serão simplesmente
19
L2 refere-se a qualquer outra língua que não seja a língua-mãe (L1) de um indivíduo. Neste caso, usamos o termo
L2 como Língua Estrangeira.
49
conectados à categoria fonética já existente, que foi formada com base na LM.
Neste caso, não há formação de uma nova categoria, mas sim uma “fusão” de
categorias: dois ou mais sons armazenados em uma única categoria. Desta forma, o
modelo de Flege prevê que, quanto maior for a proximidade entre sons da LM e
sons da LE, maior será a dificuldade de aquisição. Espera-se que os falantes que
estabeleceram uma categoria de som encontrada na LE e não na LM produzam os
sons com maior acuidade do que aqueles que não estabeleceram nenhuma
categoria.
Os aprendizes da LE podem filtrar as características fonéticas e/ou
propriedades usadas nela , mas não na LM nos primeiros estágios da aprendizagem
de fala da LE (Flege, 1995). Um exemplo disso é citado por Munro (1993, apud
Flege, 1995) que descobriu que árabes nativos que moraram nos Estados Unidos
por seis anos aprenderam a produzir a diferença espectral entre as vogais /i/ e /I/ do
inglês como nativos, as quais diferem espectralmente das vogais do árabe /i/ e /i:/.
Porém, estes sujeitos exageraram na diferença temporal entre /i/ e /I/ do Inglês,
como se os sons fossem produzidos fonologicamente como vogais do árabe curtas e
longas e não como vogais tensas e relaxadas. Desta forma, falantes não-nativos não
foram capazes de construir uma nova categoria para sons que se utilizam de traços
de tensão.
Todavia, o modelo sugere que, à medida que o falante não-nativo adquire
experiência na LE, este pode desenvolver a capacidade de perceber tais features e,
desse modo, formar novas categorias fonéticas, mesmo para sons da LE muito
similares a sons da LM. A aprendizagem de fala da LE, como mostra o SLM,
ocorre lentamente e exige uma grande quantidade de input do falante nativo para
que haja sucesso. Esta afirmação baseia-se na observação de que a fala na LM se
50
desenvolve também em um longo período de tempo. Pode-se concluir deste modelo
que o desenvolvimento da capacidade de percepção de traços da LM é uma das
maneiras de se adquirir fluência em uma língua estrangeira.
O Perceptual Assimilation Model (PAM), desenvolvido por Best (1995),
também está direcionado para o estudo da produção e percepção dos sons da
língua-alvo. O PAM parte do princípio de que a percepção de sons de uma língua
estrangeira é influenciada pela língua nativa: a L1 funciona como um filtro para
sons da L2. Ambos modelos, PAM e SLM, propõem que a eficácia em perceber
contrastes não-nativos está parcialmente determinada pela maneira por meio da
qual estes fones são assimilados em relação às categorias fonéticas nativas. No
PAM, sugere-se que os sons da LE são percebidos de acordo com suas semelhanças
em relação aos sons da língua materna mais próximos articulatoriamente. O SLM
difere-se do PAM, pois este primeiro trata diretamente da aprendizagem da LE.
Nele, argumenta-se que um mecanismo chamado classificação por equivalência
dificultaria a criação de novas categorias fonéticas para sons da LE semelhantes aos
da LM, mas assim não o faria com os sons bem distintos.
A relação entre produção e percepção vem sendo examinada por inúmeros
autores. Flege et. alii (1995) investigaram estas duas características por meio da
produção das vogais do Inglês /i/-/I/, /æ/-/e/, pronunciadas por 20 falantes nativos
adultos da Alemanha, Espanha, Coréia e de Mandarin, os quais permaneceram nos
Estados Unidos por 4 anos. Dois contínuos de vogais sintetizadas foram
produzidos, um de beat /i/ para bit /I/, e outro de bat /æ/ para bet /e/. Em ambos
contínuos, a qualidade foi modificada 11 vezes e a duração 3, produzindo um total
de 66 estímulos, apresentados depois em um teste de identificação. Os dados
51
obtidos a partir destes testes foram comparados com os de um teste de produção
também elaborado.
A produção das vogais pelos sujeitos não-nativos foi avaliada acusticamente
e auditivamente por falantes nativos de Inglês. Pôde ser visto que os falantes
nativos de inglês produziram grandes diferenças no espectro, porém pequenas
diferenças temporais entre /i/-/I/ e /æ/-/e/, enquanto que os falantes não-nativos não
produziram diferenças no espectro entre um ou ambos os pares, mas produziram
grandes diferenças temporais. Também foi apontada uma relação entre o grau de
precisão de produção com o de percepção das vogais inglesas. Finalmente, pôde ser
observado que a precisão na produção e percepção destas vogais variavam em
relação ao inventário fonético da LM. Quanto maior eram as diferenças no espectro
produzidas pelos falantes não-nativos, maior o efeito da manipulação deste nos
estímulos das vogais sintetizadas ao identificar as vogais como /i/ ou /I/ e /æ/ ou
/e/.
A relação entre produção e percepção também foi examinada por Rochet
(1995, apud Baptista, 2000). Falantes canadenses de inglês e falantes brasileiros de
português sujeitaram-se a um teste de imitar a vogal francesa /y/ e catalogar um
contínuo de vogais altas como /i/ ou /u/. Os erros de produção a substituição da
vogal francesa /y/ por /u/ no caso dos falantes de inglês, e por /i/ no caso dos de
português correspondiam aos resultados no teste de percepção vogais com o
52
segundo formante
20
na altura de /y/ eram mais identificadas como /u/ pelos falantes
de inglês e como /i/ pelos de português.
Morrison (2002A) comparou, em um estudo longitudinal, a percepção do
mesmo contraste entre falantes nativos do inglês e aprendizes japoneses e
espanhóis. Foi utilizado neste estudo um contínuo multidimensional de fala
sintetizada das palavras beat /bit/, bit /bIt/, bead /bid/ e bid /bId/, variando em
duração e qualidade. Os sujeitos foram testados no primeiro e no sexto mês depois
de suas chegadas nos Estados Unidos. Enquanto os japoneses apresentaram um
limite categórico baseado em informação espectral nos testes inicial e final, os
falantes de espanhol não apresentaram limites categóricos no teste inicial, mas
foram encontrados limites categóricos baseados em duração ou qualidade no
segundo teste.
Em 1967, Lenneberg propôs uma hipótese para o aprendizado de língua
chamada de Hipótese do Período Crítico (HPC)
21
. O autor sugere que há um
período durante a vida humana entre a infância e a puberdade (de 2 a 13 anos) -
que é crítico para o aprendizado de línguas, e durante o qual o aprendizado pode ter
sucesso, tornando-se, depois disso, secundário. Tal período é avaliado por meio de
uma série de processos neurológicos, dentre eles, a lateralização das funções
cognitiva, lingüística e perceptual e a proliferação dos neurônios no córtex cerebral.
Dentro da proposta do autor, isso acontece durante os primeiros anos de vida e se
estabiliza por volta da puberdade, sugerindo que adolescentes e adultos não operam
suas capacidades inatas na aquisição de línguas tão bem quanto as crianças. Uma
20
O formante é o modo natural de vibração, que é identificado por algarismos, por exemplo, F1, F2, F3, Fn esta
numeração começa com o formante de freqüência mais baixa. Cada formante pode ser descrito por duas
características: centro de freqüência e largura de banda (Kent e Read, 1992).
21
Em inglês, Critical Period Hypothesis (CPH).
53
forte implicação desta hipótese é que os processos envolvidos na aquisição de
qualquer língua que ocorrer após o período da puberdade serão qualitativamente
diferentes dos envolvidos na aquisição da primeira língua, além de ser mais lento e
com menos êxito que o aprendizado normal da primeira. (Krashen, 1975;
Lenneberg, 1967, 1969; Scovel, 1969).
Sobre a HPC na aquisição de segunda língua, Lenneberg (1967:176)
esclarece o seguinte:
Muitos indivíduos de inteligência comum são capazes de aprender uma
segunda língua depois do começo de sua segunda década, apesar da
incidência ‘língua-aprendizado-bloqueio’ aumentar rapidamente depois da
puberdade. A aquisição automática a partir de uma mera exposição a uma
dada língua também parece desaparecer depois dessa idade, e as línguas
estrangeiras são ensinadas e apreciadas através de um grande esforço.
Sotaques estrangeiros não podem ser dominados facilmente após a
puberdade. Porém, uma pessoa pode aprender a se comunicar em uma
língua estrangeira aos quarenta anos (Lenneberg, 1967:176).
Segundo DeKeyser (2000:518-519):
Somewhere between the ages of 6-7 and 16-17, everybody loses the mental
equipment required for the abstract patterns underlying a human language,
and the critical period really deserves its name… It may be that the severe
decline of the ability to induce abstract patterns implicitly is an inevitable
consequence of fairly general aspects of neurological maturation and that it
simply shows up most clearly in language acquisition
22
.
22
Entre 6-7 e 16-17 anos todos perdem o equipamento mental necessário para as formas abstratas que subjazem a
linguagem humana, e o período crítico realmente merece seu nome É possível que o declínio severo da habilidade
para induzir as formas abstratas implicitamente seja uma conseqüência inevitável dos aspectos gerais da maturação
neurológica, o qual simplesmente aparece de forma mais clara na aquisição de uma língua.
54
A explicação neurológica de Lenneberg (1967) revela que as duas metades
do cérebro (esquerda e direita) desenvolvem diferentes funções que se iniciam na
infância e se completam na puberdade. Antes da puberdade, existe um período
durante o qual o cérebro tem mais plasticidade e permite, dentre outras coisas, a
transferência de uma função de um hemisfério para outro; mas, ao se iniciar a
puberdade, essa plasticidade desaparece, o que resulta na lateralização da função da
linguagem para o hemisfério esquerdo do cérebro. Ou seja, a capacidade
neurológica de compreender e produzir a linguagem, que inicialmente envolve
ambos os hemisférios do cérebro, passa a ser lentamente concentrada no lado
esquerdo para a maioria das pessoas. Com isso, a dificuldade crescente que
aprendizes mais velhos experienciam foi vista como resultado direto dessa
mudança neurológica, pois mudanças no cérebro mudam a natureza de aquisição de
uma LE.
É importante observar, porém, que: a proposta de Lenneberg não especifica
se a habilidade para língua declina somente no final do período crítico (PC); se a
mudança no ponto crítico é brusca ou gradual; se o PC afeta todos os aspectos do
desenvolvimento da língua ou apenas alguns; se o PC é apenas biológico ou se há
outros aspectos envolvidos na capacidade de aprender. A proposta de Lenneberg
deixa claro que o curso de aquisição de uma segunda língua é semelhante ao da
primeira língua, em termos da ordem em que regras e estruturas são adquiridas das
estratégias de aprendizagem empregadas e dos erros cometidos.
Segundo Wei (2000), a aquisição de segunda língua, principalmente pelo
adulto, envolve, inicialmente, o hemisfério direito mais que a aquisição da língua
materna. Conforme a proficiência na segunda língua aumenta, o envolvimento do
hemisfério direito diminui e o do esquerdo aumenta. Porém, uma análise qualitativa
55
dos dados existentes mostra que o hemisfério esquerdo domina fortemente o
processamento da linguagem tanto para os monolíngues como para os bilíngües. Os
bilíngües têm um armazenamento de linguagem para cada uma das duas línguas, ou
seja, dois sistemas lingüísticos, e um armazenamento conceitual mais geral, ou seja,
um sistema cognitivo. Há canais fortes e de interconexão direta entre os três
armazenamentos separados. As interconexões entre as duas línguas se constituem
de associação, de sistemas de tradução e de imagens comuns no ato de
armazenamento conceitual enquanto mediadores. Além disso, falantes de diferentes
níveis de proficiência ou de diferentes estágios de aquisição variam na força e
direcionamento das interconexões entre os armazenamentos e, de forma separada,
no processamento da linguagem; por exemplo, aqueles que são mais proficientes
nas duas línguas procuram diretamente um conceito na língua-alvo, enquanto os
menos proficientes tendem a usar a primeira língua como mediadora.
1.1.2. A questão da inteligibilidade
O que significam inteligibilidade e pronúncia inteligível? Catford (1950) faz
uma distinção entre “inteligibilidade” e “eficácia”. O primeiro termo,
inteligibilidade, se restringe ao entendimento das palavras do falante pelo ouvinte.
Catford (op. cit.) diz que a fala é inteligível caso o ouvinte entenda as palavras, ou
seja, se sua resposta estiver adequada às formas lingüísticas do enunciado. Para o
autor, o falante obtém completa inteligibilidade se as formas lingüísticas forem
selecionadas de forma adequada, isto é, se palavras, planos morfológico e sintático
e sons forem apropriados. O segundo nível, eficácia, inclui a compreensão da
intenção do falante pelo ouvinte. Para Catford (1950), “normalmente é intenção do
falante que o ouvinte responda de modo apropriado ao enunciado produzido
durante a fala”.
56
A inter-relação entre os dois termos é aparente, visto que, como Catford (op.
cit.) explica, por um lado, um enunciado inteligível pode ser ineficaz, quando o
ouvinte entende as palavras do falante; porém, a resposta do ouvinte não é a
esperada pelo falante. Por outro lado, um enunciado ininteligível aparentemente
pode ser eficaz desde que o que é eficaz não seja o enunciado propriamente dito,
mas outros elementos na situação como um todo. Por exemplo, algumas pistas não-
lingüísticas no contexto da situação, como gestos do falante, podem ajudar o
ouvinte a responder, de forma adequada, à intenção do emissor. Portanto, para o
autor, um enunciado só é completamente eficaz se também for inteligível.
Para Kenworthy (1987), a inteligibilidade consiste em ser compreendido por
um ouvinte em um dado momento e em uma dada situação, sem esforço por parte
dele, sendo que o grau de inteligibilidade da pronúncia do falante é dado pelo
número de palavras identificadas pelo ouvinte. Se sons ou características fonéticas
são substituídas e, em função disso, o ouvinte não consegue entender a fala, então
Kenworthy considera que ela não é inteligível. Por outro lado, se o falante substitui
um som em uma determinada palavra, mas, mesmo assim ela é compreendida,
então a autora considera que a fala é inteligível. Kenworthy compara este processo
com o modo como os adultos falantes de inglês ouvem e entendem a fala da criança
que está aprendendo a falar o idioma em questão como sua língua materna. Uma
criança de três/quatro anos de idade com problemas em articular o /r/, como em
run”, trocando-o por /w/, como em “win”, se ela disser “I see a wabbit”, seus pais
irão entender que a criança está se referindo a um animal peludo com orelhas
grandes, porque eles sabem que /w/ equivale ao /r/ para a criança.
57
Para Kenworthy (1987), a inteligibilidade depende da quantidade de
similaridade “counts of sameness” entre a LM e LE, e a origem dos problemas de
inteligibilidade refere-se a quatro fatores determinantes: (1) substituição; (2)
supressão e inserção de sons; (3) juntura de palavras; e (4) uso de acento, ritmo e
entoação. Outros fatores que influenciam a inteligibilidade são: excesso de
autocorreções, hesitações e reestruturações gramaticais, fala excessivamente lenta
ou rápida, falta de distinção entre palavras importantes, hábitos indiossincráticos de
fala, grau de sotaque, habilidade em usar pistas contextuais e conhecimento
partilhado.
Kenworthy (op. cit.) propõe os termos “inteligibilidade” (intelligibility) ou
“compreensibilidade” (understandability) e “comunicação” (communication).
“Inteligibilidade” ou “Compreensibilidade” se refere ao reconhecimento de
palavras: “the more words a listener is able to identify accurately when said by a
particular speaker, the more intelligible that speaker is”. Comunicação
compreende mais do que simplesmente articular palavras com sons bem
produzidos: envolve a leitura das intenções do interlocutor. Para ela, comunicação é
muito mais complexa que inteligibilidade e compreensibilidade; as intenções só
existem na mente da outra pessoa, e os ouvintes precisam fazer uso de toda
informação disponível para adivinhar as intenções do falante. A informação
disponível compreende o conhecimento que os ouvintes têm dos falantes, da
situação, o conhecimento que falantes e ouvintes compartilham, entre outros.
Kenworthy (1987) mostra claramente a diferença entre inteligibilidade e
comunicação em um trecho do diálogo a seguir. O falante A contava uma história
para B, quando de repente B começa a rir:
“A: What are you laughing at?
58
B: (stops laughing) oh… sorry
A: No, I didn´t mean you shouldn´t laugh … I really want to know what
you found funny” (p. 15)
A pergunta de A para B foi uma pergunta direta, mas foi compreendida como um
comando para parar de rir. O fato de B ter compreendido cada palavra da pergunta
de A significa que a pergunta de A foi inteligível para B. Portanto, como B não
entendeu a intenção de A ao fazer a pergunta, a comunicação não ocorreu. Para
Kenworthy (1987), a comunicação ocorre quando um dos interlocutores
compreende a intenção do outro.
Segundo Kenworthy (op. cit.), o objetivo do ensino de pronúncia deve ser o
de tornar os aprendizes comfortably intelligible
23
para o ouvinte nativo. Em
contrapartida, Jenkins (1996:19) acredita que, pelo fato do inglês ser falado mais
entre falantes não-nativos de diferentes línguas (“interlanguage talk”) que entre
falantes não-nativos e nativos, a inteligibilidade deva ser considerada do ponto de
vista desta “interlanguage talk”, visto que os desvios de pronúncia causam mais
problemas de entendimento para ouvintes não-nativos que para nativos. A autora
diz que é essencial que diferentes variações de “foreign versions” da pronúncia do
inglês conservem algum grau de similaridade para que a inteligibilidade seja
preservada. Ela sugere uma abordagem para o ensino-aprendizagem de pronúncia
que foque no que ela chama de a common core of English phonology (núcleo
comum da fonologia do inglês)”, o qual servirá tanto de base para o ensino-
aprendizagem de pronúncia como para preservar a inteligibilidade nos contextos de
comunicação internacional. As oito áreas deste “núcleo comum” nas quais,
segundo a autora, erros podem ser eliminados são:
23
Um tipo de pronúncia que pode ser entendida pelo ouvinte sem muito esforço (Abercrombie, 1956)
59
1. Qualidade vocálica: a distinção entre vogais curtas e longas é mais
importante que a qualidade vocálica, e a vogal deve estar clara durante a fala;
2. Ditongos: a duração do ditongo em vez da qualidade vocálica deve ser a
principal preocupação;
3. Substituições do grupo consonantal exceto os que envolvem /?/ e /ð/:
substituição de uma consoante por outra pode causar confusão tanto para os
ouvintes nativos como para os não-nativos.
4. Realizações fonéticas: algumas aproximações podem levar a
ininteligibilidade, como por exemplo: /p/ e /k/ não-aspirados; nasalização das
vogais precedidas por /n/ (ou /m/ na posição final) e omissão da consoante.
5. Simplificação do grupo consonantal: omissão da consoante para simplificar
os grupos consonantais pode causar ininteligibilidade: inserções de vogais
parecem causar menos problemas.
6. Acentuação de palavras: essencial para a compreensão dos ouvintes nativos.
7. Proeminência
24
e formas não-acentuadas: em termos de produção dos
falantes não-nativos, o ensino de pronúncia deve focar a proeminência
apropriada, assim como no reconhecimento das formas fracas.
8. Acento nuclear/contrastivo, mas não o tom: acento colocado na palavra
errada em uma sentença gera confusão tanto para o ouvinte nativo quanto
para o não-nativo.
Dalton e Seildhofer (1995) propõem os termos “acessibilidade”
(accessibility) e “aceitabilidade” (acceptability), e relacionam-nos à pronúncia do
falante de língua estrangeira e aos fatores sociais e psicológicos do interlocutor,
bem como às percepções que ele tem de si mesmo e dos outros. Segundo as
24
Acento mais forte de um grupo acentual, ou conjunto de palavras.
60
autoras, acessibilidade é determinada não só pela clareza do enunciado, mas
também pelas expectativas e emoções do interlocutor (experiência e tolerância com
sotaques estrangeiros). Por outro lado, “aceitabilidade” depende do valor que os
interlocutores atribuem ao sotaque do falante.
Bamgbose (1998) descreve inteligibilidade como um complexo de fatores
que constitui e identifica uma expressão, compreende seu significado e compreende
o que este significado representa no contexto sociocultural. O conceito de
inteligibilidade para o autor pode ser comparado aos três termos usados por Smith e
Nelson (1985, apud Bamgbose,1998): inteligibilidade(intelligibility),
compreensibilidade” (comprehensibility) e “interpretabilidade (interpretability),
respectivamente. Inteligibilidade” refere-se ao reconhecimento da palavra e do
enunciado; “compreensibilidade” refere-se ao significado de uma palavra ou de um
enunciado; e interpretabilidade” refere-se ao significado que está por detrás da
palavra ou do enunciado.
James (1998), por outro lado, aborda inteligibilidade do ponto de vista do
falante. Ele usa três termos: compreensibilidade(comprehensibility),
inteligibilidade(intelligibility) e “comunicabilidade” (communicability). O
primeiro termo refere-se ao acesso ao conteúdo em oposição à forma do
enunciado. O segundo refere-se ao acesso do significado básico e literal do
significado do conteúdo proposicional codificado em um enunciado. O terceiro e
último termo, “comunicabilidade”, está relacionado ao discurso e envolve “acesso
às forças pragmáticas, implicaturas e conotações” (access to pragmatic forces,
implicatures and connotations). A comunicabilidade ocorre quando o leitor-ouvinte
atribui um significado a um enunciado. Para o autor, a inteligibilidade encontra-se
na língua produzida pelos aprendizes “em termos de sua estrutura textual”, e a
61
ininteligibilidade pode ocorrer caso haja erro no conteúdo proposicional. Este
conceito baseia-se em dois motivos principais: (1) James afirma que há problemas
de inteligibilidade na ocorrência de um “erro” de fala, e (2) chama a atenção para
os erros produzidos pelos aprendizes de línguas. Porém, o autor não exemplifica,
não esclarece os problemas causados pela ininteligibilidade e nem quais seriam
exatamente os erros produzidos pelos aprendizes de línguas.
Jenkins (2000:78) define inteligibilidade como the production and
recognition of the formal properties of words and utterances and, in particular, the
ability to produce and receive phonological form”. Segundo a autora (op.cit.), a
forma fonológica é uma condição para o sucesso entre falantes de inglês na
Interlanguage Talk (ILT)
25
, e ela argumenta que não é mais desejável a visão, ainda
comum entre estudiosos do ensino-aprendizagem da língua inglesa e entre
professores, de que a inteligibilidade constitui-se num processo unilateral em que
falantes não-nativos esforçam-se para se fazer entender pelos falantes nativos, cuja
prerrogativa é decidir o que é ou não inteligível. A pesquisadora propõe um núcleo
de inteligibilidade internacional mútuo.
Jenkins (2000) reconhece que ainda não há um consenso em relação à
definição do termo inteligibilidade. Segundo ela, mais recentemente, a questão tem
sido enfocada em relação ao ouvinte, no que diz respeito às contribuições de seu
conhecimento prévio e de suas habilidades de processamento. A autora destaca
também que as discussões acerca do assunto têm se ampliado a partir de um
interesse crescente por conceitos afins como ‘interpretabilidade’,
‘comunicabilidade’ e ‘compreensão’, que fazem com que o conceito de
inteligibilidade apareça mais ligado às questões de significado que da forma
25
Para Jenkins (2000), Interlanguage Talk refere-se à LM.
62
lingüística (significante). Seus estudos propõem a inteligibilidade como meta
realista para o aprendiz de inglês como língua estrangeira, em contraposição aos
pressupostos da década de 70, segundo os quais o objetivo seria atingir a maior
semelhança possível com o falante nativo.
Jenkins (2000.) comenta que, apesar de erros de pronúncia no nível
segmental (consoantes, vogais, epêntese e acentuação de palavras), encontrados na
fala espontânea de não-nativos de inglês, afetarem a inteligibilidade por parte dos
falantes nativos, a interação entre o nível segmental e o nível prosódico é tamanha
que uma boa pronúncia segmental fica prejudicada por falta da transformação dos
segmentos pelo contexto fonético e acentual nos quais estão inseridos na cadeia da
fala.
Corroboro a idéia de Jenkins (op. cit.), que diante das mudanças sócio-
econômicas ocorridas na década de 90 (em decorrência das quais o inglês acabou
por emergir como língua internacional, falada e ensinada por um número cada vez
maior de falantes não-nativos), o enfoque da inteligibilidade, levando-se em conta a
interação entre a produção articulatória dos segmentos da fala e a posição prosódica
por eles ocupada na fala encadeada, tornou-se uma questão importante a ser
considerada no ensino-aprendizagem do inglês como língua estrangeira, tanto no
que se refere à formação de professores, quanto às possibilidades de aprendizagem
de cada aluno.
Compartilho da idéia de Cruz (2003) quando se refere a uma pronúncia
inteligível e não semelhante à de um falante nativo de inglês, pois, como afirma
Jenkins (2000) em seus trabalhos, é maior a probabilidade de se comunicarem com
falantes não-nativos que com falantes nativos. O importante, segundo Jenkins (op.
cit.), é o alcance de uma pronúncia inteligível e dentro dos padrões da língua-alvo,
63
que permita ao falante sentir-se confiante ao expressar-se oralmente. Acredito que
talvez o objetivo de alcançar uma pronúncia como a do falante nativo seja
compartilhado somente por alguns profissionais, como, por exemplo, os
professores de línguas que esperam servir de modelo para seus alunos.
Concordo ainda com Cruz (op. cit.) quando conclui, em seu artigo, que os
erros de acentuação de palavra na fala de aprendizes brasileiros de inglês podem ser
a origem da falta de inteligibilidade, uma vez que o acento em língua inglesa é
variável e móvel. Independentemente da classe gramatical da palavra e de sua
ocorrência na sentença, o aprendiz tem a tendência de pronunciar o acento na
mesma sílaba. Como exemplo dessa afirmação tem-se a palavra Record como
substantivo e como verbo analisado no trabalho de Jenkins (2000). Como
substantivo, o acento recai sobre a primeira sílaba (REcord); já como verbo, recai
sobre a segunda (ReCORD). Mas a tendência do aluno é de pronunciar o acento na
mesma sílaba, o que pode interferir na inteligibilidade da fala.
Enquanto pesquisadora e professora de Língua Inglesa acredito, assim como
Cruz (2003), que (1) há necessidade de mais pesquisas para descobrir quais fatores
podem propiciar um maior grau de compreensão do inglês falado por brasileiros
por parte falantes nativos de inglês; (2) a pronúncia como a do falante nativo não é
mais levada em consideração como modelo a ser atingido; o que se procura, hoje, é
a inteligibilidade da fala; e (3) a pronúncia inadequada pode ser interpretada como
sendo engraçada e infantil e/ou o falante pode ser visto como não fluente na língua,
não só por nativos, mas também por não-nativos com bom nível de desempenho
oral. Se o falante tem consciência de que sua pronúncia da LE não causa estranheza
ao seu ouvinte e que sua fala é entendida sem dificuldades, certamente se tornará
confiante e alcançará sucesso.
64
1.1.3. Paradigma nativo/não-nativo
O inglês é a língua tomada como base na comunicação internacional, a
língua franca do mundo. Mais pessoas falam inglês hoje que qualquer outra língua
usada em outra época na história do mundo Segundo algumas estatísticas, há cerca
de um bilhão de pessoas no mundo hoje que falam inglês, sendo que é a língua
oficial ou semi-oficial em mais de 60 países, em 6 continentes (Crystal, 1995A).
O´Neill (1991:304) acredita que falantes não-nativos; porém fluentes, são tão
competentes lingüisticamente quanto falantes nativos. Segundo o autor (op. cit.):
Fluent non-native speakers reveal several strategies (including the retention
of clear but distinguish foreign accents) that can help other non-native
learners to cope better with the target language. Also non-native teachers
have one inestimable advantage over native speakers, particularly those
who have never learned a foreign language. They have actually learned the
target language as foreigners and have direct insight into and experience of
the processes involved for other non-native speakers.
26
(O’Neill, 1991:304).
Em contextos como o Brasil, em que o inglês, o francês, o alemão, o
espanhol etc. são ensinados como “línguas estrangeiras”, os próprios educadores de
línguas, na maioria das vezes, são falantes não-nativos. Como então vamos querer
que nossos alunos sigam padrões lingüísticos ou culturais dos falantes nativos?
26
Falantes fluentes não-nativos revelam inúmeras estratégias (incluindo a retenção de acentos claros, porém
estrangeiros e distintivos) que possam ajudar outros aprendizes não-nativos a saírem-se melhor na língua-alvo. Os
professores não-nativos também têm uma vantagem inestimável em relação aos nativos, principalmente aqueles que
nunca aprenderam uma língua estrangeira. Na verdade eles aprenderam a língua-alvo enquanto estrangeiros e têm
insight direto e experiência dos processos envolvidos para outros falantes não-nativos.
65
Há uma outra questão a ser considerada: professores não-nativos de inglês
normalmente são tratados como cidadãos de segunda classe no mundo do ensino de
língua. Uma possível explicação para este fato é que, atualmente, o inglês não é só
uma outra língua, é the hottest selling commodity on the foreign language
teaching market” (Phillipson, 1992). Segundo Medgyes (1994:15), os professores
não-nativos, por terem um domínio deficitário do inglês, sentem-se inferiores aos
nativos:
compared to native speakers, they do less well in every aspect of
language performance, as a rule. This feeling of underachievement is
particularly excruciating when their performance is compared to that of
native speakers with similar variables in terms of age, sex, education,
intelligence and especially profession. Let me mention in passing that we
non-native English speaking teachers go through this painful experience
day in, day out.
27
(Medgyes 1994:15).
Para Medgyes (1994, apud Pow, 2003), o professor não-nativo apresenta
aspectos positivos, tais como:
Ø a possibilidade de ser um bom referencial como aprendiz da língua
estrangeira, pois vivenciou o processo de aprender a língua
estrangeira;
Ø a partir de suas próprias estratégias de aprendizagem, o professor pode
contribuir para tornar seus alunos conscientes das estratégias que
utilizam;
27
... comparado com falantes nativos, eles não se saem tão bem em cada aspecto de desempenho lingüístico, de
modo geral. Esse sentimento de insucesso é especialmente excruciante ao comparar seu desempenho com o de
falantes nativos com variáveis similares em termos de idade, sexo, escolaridade, inteligência e, principalmente,
profissão. Deixe -me dizer, de passagem, que nós, professores não-nativos de inglês, passamos por essa experiência
dolorosa todo santo dia.
66
Ø o fato de compartilhar a língua e a cultura maternas com seus alunos
pode tornar o professor sensível às dificuldades dos aprendizes;
Ø a familiaridade com o contexto lingüístico, sócio-econômico e
educacional permite que o professor identifique o nível de motivação
de seus alunos.
Medgyes (1994) chega à conclusão de que os falantes nativos não são
necessariamente professores de inglês mais eficazes: segundo ele, os professores
não-nativos tem “igual oportunidade de sucesso”. Por exemplo, falantes não-
nativos mostram empatia, nos concedem um bom modelo de imitação e ensinam
“estratégias de aprendizagem de língua eficaz”; porém, o autor não nos deixa claro
quais são estas estratégias e de que forma são um modelo de imitação. Para
Medgyes (1994): (1) professores nativos de inglês e não-nativos diferem em termos
de competência lingüística e forma de ensino; e (2) a discrepância na competência
lingüística explica a maioria das diferenças encontradas na forma de ensinar.
Medgyes (op. cit.) acredita que o professor ideal não-nativo é aquele que alcança
uma proficiência em inglês próxima do nativo. Por outro lado, o professor nativo
ideal será aquele que tiver alcançado um grau de proficiência da língua materna do
aprendiz.
Medgyes (1994:42) afirma que a competência lingüística dos falantes nativos
constitui uma “vantagem tão substancial que não pode ser medida por outros
fatores predominantes na situação de aprendizagem motivação, aptidão,
perseverança, experiência, educação e outros”. Ele vê os falantes nativos como
aqueles que adquiriram o inglês quando comparados aos falantes não-nativos em
que ainda estão adquirindo a língua. Em síntese, os falantes não-nativos, ao
contrário dos nativos, são permanentes aprendizes. Segundo o autor, a desvantagem
67
do falante não-nativo é “relativa”, mesmo adquirindo proficiência semelhante à do
nativo, pois os falantes não-nativos assumem o rótulo de “falantes pseudo-nativos”
devido à variabilidade fonológica e coloquial do uso da língua.
Segundo Widdowson (1998:20), professores não-nativos conhecem inglês de
modo explícito por terem aprendido o idioma como língua estrangeira (ou segunda
língua) e como conseqüência as “credenciais” pedagógicas são mais “confiáveis”.
Medgyes (1994) acredita que os professores nativos desconhecem os sistemas do
inglês “como língua estrangeira” e questões teóricas; são áridos aprendizes de
língua e analistas e pesquisadores da língua dos aprendizes e das dificuldades na
aprendizagem de inglês.
Seidlhofer (1999:238) diz que:
The non-native teacher has been through the process of learning the foreign
language, often through the same L1 “filter”, and she knows what it is like
to have made the foreign language, in some sense, her own, to have
appropriated it for particular purposes. This is an experience which is
shared only between non-native teachers and their students. One could say
that native speakers know the destination, but not the terrain that has to be
crossed to get there: they themselves have not traveled the same route.
Non-native teachers, on the other hand, know the target language as a
foreign language. Paradoxically, it is precisely this which is often perceived
as a weakness, although it can be understood, and drawn upon, as an
important resource. This shared language learning experience should thus
constitute the basis for non-native teachers´confidence, not for their
insecurity.
28
(Seidlhofer 1999:238).
28
O professor não-nativo passa pelo processo de aprendizagem de uma língua estrangeira, pelo mesmo filtro da L1, e
sabe o que faz com que a língua estrangeira, de uma certa forma, se torne propriedade sua, por ter se apropriado dela
68
Para Seidlhofer (1999), os professores não-nativos têm conhecimento
privilegiado ao transmitirem seu aprendizado, principalmente quando
compartilham a LM dos aprendizes e aprendem inglês por meio do mesmo “filtro”
da LM. Mesmo se não compartilharem a mesma LM que seus aprendizes, o
bilingüismo concede aos professores não-nativos insights no aprendizado de inglês
que não estão disponíveis para os professores nativos. Os professores nativos
também têm conhecimento privilegiado; porém, tal conhecimento está relacionado
à Língua Inglesa e não à forma de ensino, o que comprova o que Widdowson
classificou como conhecimento intuitivo conhecimento do uso idiomático, gíria,
phrasal verbs, provérbios e aspectos culturais.
Embora os professores nativos tenham uma familiaridade suficiente com o
sistema de pronúncia da LM dos aprendizes, bem como um conhecimento de
Fonética Articulatória; eles conseguem informar, mas não instruir: eles têm seu
próprio modelo de pronúncia e acreditam que a aquisição de pronúncia deva seguir
um processo. Porém, tal processo não é explicado por Seidlhofer (1999). Segundo a
autora, não é mais relevante que os aprendizes tenham uma pronúncia semelhante à
do falante nativo; não precisam ter uma preocupação com a inteligibilidade dos
ouvintes nativos bem como entendê-los.
Mesmo havendo um número de aprendizes cujo objetivo é realmente
alcançar uma pronúncia como a do falante nativo, em virtude de suas necessidades
por objetivos pessoais. Esta é uma experiência compartilhada apenas entre professores não-nativos e seus alunos.
Pode-se dizer que falantes nativos conhecem o destino, mas não o território que têm de atravessar para chegar lá:
particularmente, eles não têm percorrido o mesmo trajeto. Por outro lado, professores não-nativos, conhecem a
língua-alvo como língua estrangeira. Paradoxalmente, é exatamente isto que é observado como fraqueza, embora
possa ser entendido, e delineado, como um importante recurso. Esta experiência de aprendizagem da língua
compartilhada deve, assim, constituir a base de confiança e não de insegurança para os professores não-nativos.
69
profissionais ou pessoais, o objetivo do ensino de pronúncia hoje é, acima de tudo,
o da inteligibilidade internacional: tornar o aprendiz um membro eficaz da
comunidade de falantes do inglês, fazer com que ele alcance a inteligibilidade de
fala, pois assim o conhecimento intuitivo dos professores nativos se tornaria
irrelevante. Por outro lado, o conhecimento privilegiado dos professores não-
nativos, adquirido por meio da própria experiência ao aprender a LE e do
background da LM , concede-lhes inúmeras vantagens com relação ao ensino de
pronúncia quando comparado ao nativo.
Mas, afinal, quais são as vantagens dos professores não-nativos com relação
à pronúncia? As vantagens recaem em três áreas principais: sistemas de
conhecimento fonético e fonológico, o critério de inteligibilidade e os modelos de
pronúncia em sala de aula (Medgyes, 1994). Segundo Medgyes (op. cit.), os
professores de inglês, de forma geral, têm um conhecimento limitado de seu
próprio sistema fonológico e do inglês e da Fonética Articulatória. Taylor (1991)
acredita que há a necessidade de professores e aprendizes se familiarizarem com a
pronúncia da LE. Os professores nativos têm um conhecimento intuitivo da
pronúncia da LM o inglês , o que os capacita a agir como informantes da LE.
Por exemplo, eles conseguem interpretar os movimentos de pitch
29
como
expressões de própria atitude (às vezes não em um nível consciente), ou mostrar
instintivamente em que situações as formas fracas podem ou não ser usadas. Para
Jenkins (2000), os professores de inglês não-nativos raramente têm este tipo de
conhecimento intuitivo do inglês e da sua própria LM, visto que os aprendizes não
29
A freqüência fundamental (f0) da voz é percebida como o tom (que se assume ser a melhor tradução da palavra
inglesa pitch, geralmente usada nas diversas línguas e que poderá, pela generalização do seu uso, ser mantida no
texto em português). O tom é a frequência fundamental subjectiva, isto é, “ouvida”. Usamos a palavra pitch quando
nos referimos a um tom baixo ou alto (Delgado-Martins, 2002).
70
têm o objetivo de “get into the skin of the native speaker”, nem destes professores
falarem outras línguas.
Quanto a intuições sobre o sistema de pronúncia da LE, os professores
nativos podem ser melhores informantes e os não-nativos melhores instrutores
quando capacitados a lidar, de forma eficaz e sensível, com as dificuldades dos
aprendizes no que tange à pronúncia do inglês. Isto ocorre porque, como falantes da
mesma LM, eles estão cientes da estranheza por parte dos aprendizes de certos
aspectos do inglês determinados sons ou grupos consonantais, o uso da aspiração,
a duração do pitch range
30
ou a diferença de duração entre as sílabas acentuadas e
não-acentuadas, e assim por diante (Medgyes, 1994).
O conhecimento, tanto formal quanto intuitivo da LM de seus aprendizes e
dos sistemas fonético e fonológico do inglês como LE, capacita a maioria dos
professores não-nativos a criarem mais estratégias eficazes de sala de aula para
lidar com os problemas de pronúncia de seus aprendizes. Os professores não-
nativos podem fazer uso da Fonética Articulatória para demonstrar onde e como os
sons são produzidos na LE quando comparados a LM. E no contexto do inglês
como língua internacional em que há diversos tipos de pronúncia desta língua
devido às diferenças regionais é importante que os professores dêem maior
atenção aos sistemas fonético e fonológico.
Segundo Lieff (1996), em uma pesquisa feita com 200 professores de Língua
Inglesa (rede particular e pública) em São Paulo, o professor desta, em geral,
apresenta um despreparo na área da fonética e fonologia do inglês, quer em
benefício próprio, quer no enriquecimento de sua prática pedagógica. O professor
30
Refere-se à extensão de inflexão tonal usada por um falante (Madureira, 1999).
71
encontra dificuldade em relacionar a teoria com a prática, em perceber suas
necessidades como usuário da língua e desenvolver estratégias que promovam uma
compreensão e produção oral mais eficientes, em desenvolver a autoconfiança
necessária para tomar algumas decisões com relação ao trabalho com a pronúncia
em sala de aula: O QUÊ, PARA QUÊ e COMO trabalhar a pronúncia com os
alunos. Segundo Medgyes (1994), a comunidade escolar espera que o professor (e
este espera de si mesmo) seja um bom referencial como falante. Ainda são comuns,
entre os institutos de língua e sua clientela, as exigências quanto a certos padrões de
pronúncia e a preferência por falantes nativos, ou seja, originários de países que
falam a língua inglesa, mesmo quando não habilitados para o ensino.
A segunda área em que os professores não-nativos têm vantagens sobre os
nativos com relação à pronúncia é o critério de inteligibilidade. O critério de
inteligibilidade refere-se à priorização no ensino de pronúncia das características
que foram designadas de ´núcleo`. Estas características são as que emergiram dos
dados da interlanguage talk como cruciais para a inteligibilidade mútua em
contextos de interação do inglês como língua internacional, ou seja, entre falantes
não-nativos, em vez de entre falante nativo e não-nativo. Os professores que estão
familiarizados com os sistemas de pronúncia da LM dos aprendizes identificam
melhor quais características do núcleo estão presentes nos repertórios da LM dos
alunos e quais deverão ser acrescentadas nos repertórios do inglês como língua
internacional.
De acordo com Jenkins (2000), os professores não-nativos têm experiência
em usar o inglês como língua franca com falantes de outras LMs. Isto significa que
eles conhecem de antemão quais características de sua própria pronúncia do inglês
não são inteligíveis a falantes de outras variedades da língua, e quais características
72
de pronúncia desses falantes causam problemas de inteligibilidade a eles. As
pessoas que falam inglês em contextos deste idioma como língua internacional
estão cientes de que não é necessário reproduzir todos os aspectos da pronúncia
dele de forma inteligível para outros falantes da LE, e elas têm um bom
conhecimento de quais características particularmente são cruciais e quais são
triviais a este respeito. Por outro lado, os professores nativos, mesmo bilíngües,
parecem ter certa dificuldade em avaliar quais características de pronúncia de
diferentes variedades de inglês são inteligíveis e não-inteligíveis a estes falantes.
Eles podem apenas mediar a inteligibilidade sob a perspectiva de falantes nativos
de inglês e supor a dos não-nativos. Isto resulta na hipótese de que quaisquer que
sejam as características que tornam a pronúncia da Língua Inglesa inteligível para o
falante nativo também o tornam para os ouvintes não-nativos, e, assim, os
professores podem apresentar estas características na sala de aula como elementos
de pronúncia de todo um contexto.
Para a autora (2000), se a pronúncia de determinados sons soar rude ao
falante nativo, este irá considerá-la intrinsicamente rude e não como uma variedade
regional da LE. Da mesma forma, se ele encontrar algum aspecto de pronúncia
ininteligível num grupo da LE, irá considerar a necessidade de melhora. Assim, os
professores nativos continuarão ensinando a produção de características
assimilatórias (características de fala encadeada, como assimilação, elisão, formas
fraca, juntura) e os sons /?/ e /ð/, simplesmente porque estes aspectos são
importantes para eles.
Jenkins (2000) acredita que o melhor modelo de pronúncia do inglês como
língua internacional é o do falante de inglês bilíngüe e fluente o não-nativo. O
73
modelo é mais apropriado e realista que os modelos da LM, pois incorpora todas as
características do núcleo e, portanto, parece ser internacionalmente inteligível.
Tanto para os aprendizes da mesma LM quanto para o professor, o modelo também
contém um número de características da LM mais realistas, ou seja, é mais
acessível/realizável na prática. Os modelos bilíngües fluentes também são mais
adequados sociolingüística e sócio-psicologicamente. Em termos sociolingüísticos,
é simplesmente uma questão de praticar o que se prega. Em termos sócio-
psicológicos, os professores bilíngües e fluentes são testemunhas de que os
aprendizes adquirem pronúncia inteligível enquanto retêm as identidades da LM.
Lee (2000, apud Pow, 2003), relatando sua experiência como professora
chinesa no Canadá, descreve seus sentimentos de inferioridade e conflitos com seus
alunos, imigrantes como ela. Apesar das qualificações e proficiência que a
habilitavam no ensino da Língua Inglesa, sentia-se confrontada e pressionada pelos
alunos, que insistentemente colocavam à prova seus conhecimentos e proficiência
lingüísticos. Ela acredita que o status de professores “não-nativos seria diferente”,
isto é, haveria maior reconhecimento profissional, se os não-nativos fossem a
maioria e não a exceção.
Segundo Pow (2003), a dicotomia entre professor nativo e não-nativo é um
rótulo impreciso e carregado de preconceitos, que divide e discrimina, e leva, em
geral, à auto-desvalorização profissional. Para ela (op. cit.), o professor está em
busca de um aprimoramento que o torne confiante como profissional e como
usuário da Língua Inglesa, à medida que se dá conta de suas necessidades e
desafios. Paradoxalmente, preocupado com atividades práticas imediatamente
aplicáveis na sala de aula, o docente parece pouco consciente quanto ao
74
conhecimento já construído da língua materna e quanto às exigências de
aprendizagem da língua estrangeira que ele compartilha com seus alunos.
Vale lembrar que este estudo não tem como objetivo julgar qual é o professor
ideal para o ensino de inglês nem o de criar condições para que uma pronúncia
semelhante à do nativo seja “alcançada”, mas, sim, ampliar o conhecimento do
professor de Língua Inglesa de nacionalidade brasileira no que diz respeito ao
mapeamento no português brasileiro dos aspectos segmentais e prosódicos do
inglês.
1.2. Aspectos segmentais e prosódicos da fala corrente
Na fala corrente, são observados fenômenos que ocorrem tanto no nível da
palavra como entre palavras dentro da frase. Neles, conforme Levelt (1998:302),
fonemas podem ser perdidos, modificados ou adicionados, como nos exemplos jus
fine para just fine e got /? / ou para got you . O autor (op.cit.) chama a atenção para
a distinção entre fala formal e fala casual. Segundo ele, ambas distinguem-se em
termos de registro, isto é, variedades lingüísticas podem ter propriedades sintáticas,
lexicais e fonológicas específicas, tais como: a fala materna, a fala telegráfica, a
escolha lexical no registro formal, como a palavra cop em vez de policeman, além
do uso de reduções ou contrações como em I´ve em vez de I have; do
desaparecimento de uma consoante em posição final de sílaba, como em Lea´me
alone, em vez de Leave me alone; ou da modificação de fonemas no contato entre
palavras, como em got/? /ou para got you. São fenômenos típicos da fala casual e
certamente interferem no modo como ela é percebida.
75
Descreverei a seguir os processos fonéticos que ocasionam mudanças na
fronteira entre palavras na fala corrente. Um deles refere-se ao fenômeno da
assimilação, que, conforme descrito por Levelt (1998:330), envolve a mudança de
alguns segmentos sob a influência de outros, como, por exemplo, ten books, no
qual o fonema dental /n/ é pronunciado como o fonema bilabial /m/ [tembUks],
pois assimila o ponto de articulação da bilabial. Em outro exemplo, Laver
(1994:397) cita o ajuste do fonema dental /t/ na palavra that, isoladamente
pronunciada como /ðæt/, mas produzida com o fonema bilabial [p], na frase that
man [ðæp mæn], devido à influência da nasal bilabial [m] da palavra man.
Portanto, como mostram os exemplos, a assimilação é um processo opcional,
que consiste em um segmento modificar as características articulatórias ou
fonatórias de outro, na fronteira de uma palavra ou na fronteira entre palavras. Esse
tipo de modificação pode ocorrer ao longo de toda a cadeia da fala, entre um
segmento no final de uma palavra e um segmento no começo da próxima. Nesse
caso, para se estabelecer se houve assimilação ou não, deve-se comparar a palavra
formada a partir do som assimilado com a forma da palavra pronunciada
isoladamente (Levelt, 1998:153).
Menezes e Brito (1992:47-48) e Celce-Murcia et. alii (1996:160) fornecem o
caso da palavra horse, com o fonema dental /s/ no final, quando pronunciada
isoladamente. Entretanto, quando seguida do fonema palatal /?/ em uma palavra
como shoe, na fala corrente, o fonema dental /s/, geralmente, por meio da
assimilação, passa a ser produzido como o fonema palatal /?/, resultando numa
pronúncia /h?r?U/. Esse é um exemplo de assimilação regressiva ou
76
antecipatória, pois um som é influenciado por aquele que o sucede, isto é, é
assimilado por um traço do fonema seguinte. Outros exemplos ainda deste tipo de
fenômeno, que acontecem dentro da palavra, são grandpa, na qual o traço bilabial
do fonema /p/ faz com que a seqüência /nd/ seja produzida como: /græmpa/), e em
pancake, na qual o traço velar do fonema /k/ faz com que o fonema nasal dental /n/
se transforme no fonema nasal velar /?/: /pæ?keyk/).
A assimilação também pode ser progressiva ou perseveratória, quando um
som é influenciado por aquele que o precede. Um exemplo disso, na fronteira de
uma palavra, está na formação do plural com o morfema “-s”, que é pronunciado
como sua contraparte vozeada /z/ depois de uma consoante vozeada (por exemplo,
dogs), mas como desvozeado (/s/) depois de uma consoante não-vozeada (por
exemplo, desks). A assimilação progressiva ou perseveratória também ocorre em
algumas contrações, como, por exemplo, em it + is, na qual o grafema “s” que, em
is, isoladamente, é pronunciado como o fonema vozeado /z/, passa a ser
pronunciado como sua contraparte não-vozeada /s/, devido à influência do fonema
não-vozeado /t/, que o antecede na contração: it + is ? it´s/It+IZ ? Its.
O terceiro modelo de assimilação, coalescente, é um tipo de assimilação
recíproca; nela, o primeiro e o segundo fonemas em uma seqüência se fundem e
mutuamente condicionam a criação de um terceiro fonema com características ou
traços dos dois sons originais:
Som A + Som B
Som C
77
Este processo ocorre com mais freqüência no inglês quando as consoantes
dentais finais, como /s,z/ e /t,d/, ou as seqüências de consoantes africadas finais,
como /ts,dz/, são seguidas da semivogal palatal /y/. Em ambos os casos, as
fricativas e africadas tornam-se palatalizadas. Para ilustrar esse fenômeno, Celce-
Murcia et. alii (1996:162) apresentam, como exemplo, o quadro de palavras abaixo:
REGRA
EXEMPLO
/s/
/?/
issue
He’s coming this year.
/z/
/?/
pleasure
Does your mother know?
}
{
78
/t/
/?/
stature
Is that your dog?
/ts/
/?/
She lets your dog in.
He hates your hairdo.
/d/
/? /
procedure
Would you mind moving?
/dz/
+/y/
/? /
She needs your help.
He never needs your advice.
QUADRO 1: Assimilção Coalescente - Celce-Murcia, M; Brinton, D.M; Goodwin, J.M. (1996). Teaching
pronunciation A reference for teachers of English to Speakers of Other Languages, p. 162. Cambridge: Cambridge
University Press.
Além das modificações causadas pela assimilação entre sons na fala
encadeada ou corrente, um outro fenômeno que a atinge é a redução ou
desaparecimento de fonemas, a qual ocorre principalmente quando a taxa de
elocução
31
é alta. Segundo ele, um falante pode aumentar sua taxa de elocução
reduzindo palavras curtas e não-acentuadas, tais como, pronomes e preposições,
conforme os exemplos Give´m attention e think o´money. A taxa de elocução pode
ser também aumentada pela redução de vogais átonas em início de palavra, como
em p´tato ou t´mato (Zwicky, 1972 apud Levelt, 1998) ou pelo desaparecimento do
/r/ na pronúncia do inglês britânico, quando este aparece em posição final de frase,
como nas palavras car [ka] e care [k?:]. Segundo Kent e Read (1992), quando a
taxa de elocução aumenta, necessariamente diminuem as durações dos
componentes de fala. Numa taxa de elocução alta, os segmentos e as sílabas não-
acentuadas podem ser excluídos.
31
Taxa de elocução, traduzida da expressão speech rate, refere-se ao número de segmentos acústicos que o falante
produz num dado tempo; daí sua diferença com o que normalmente é designado por velocidade de fala. Assim, a
taxa de elocução pode ser alta (“velocidade rápida”) ou baixa (“velocidade lenta”).
79
A variação na taxa de elocução (mais alta ou mais baixa, ou confortável para
o falante) provoca uma variação na quantidade em que um segmento fonético se
sobrepõe àqueles que o ladeiam, ou seja, uma modificação em relação a seu
contexto fonético. Isto é entendido como coarticulação, que, por sua vez, está
relacionada à assimilação e redução de segmentos na fala corrente. Ou seja, apesar
da tentativa que venho fazendo de explicitar os conceitos de assimilação, redução e
coarticulação, além daqueles que se seguirão, tais conceitos referem-se a
fenômenos da fala corrente totalmente intricados, sendo difícil dizer que fenômeno
leva a um outro.
Laver (1994:379) refere-se à coarticulação como um fenômeno adaptativo no
qual ocorre a influência do contexto fonético sobre a articulação entre dois ou mais
segmentos na fala corrente. Kent e Read (1992:146) definem a coarticulação como
ajustes imediatos do trato vocal, que permitem a produção de dois ou mais sons.
Assim como no fenômeno da assimilação, a direção do efeito coarticulatório pode
ser descrita como antecipatória (regressiva) ou perseveratória (progressiva).
Segundo os autores (op. cit.), na coarticulação antecipatória uma característica
articulatória do segmento fonético seguinte é incorporada à produção do segmento
fonético anterior. Laver (1994:151) afirma que na coarticulação perseveratória
existe uma influência prolongada de características de um segmento sobre aqueles
que se seguem na cadeia da fala. Um exemplo de coarticulação antecipatória pode
ser visto na palavra inglesa zoom [z
w
um], em que o arredondamento labial da vogal
[U] labializa o fonema alveolar [z]. Um exemplo de coarticulação perseveratória
recai em [ik], da palavra eke, do inglês, em que a articulação do fonema [k] torna-
se mais anterior, sob a influência da articulação da vogal [i] central que o precede,
80
comparado à articulação do mesmo fonema em arc [?k], sob a influência da vogal
posterior [?].
Kent e Read (1992:146-147) observam que a duração (tempo de produção)
de um segmento tende a tornar-se mais curta quando mais elementos são
adicionados à cadeia da fala, como, por exemplo, para produzir encontros
consonantais entre duas ou três consoantes. Assim, o fonema /p/ tem sua duração
diminuída quando ocorre nos grupos consonantais /sp/ e /spr/. O mesmo é
observado com a duração de um morfema raiz monossilábico como stick [stIk],
quando a ele se juntam afixos, transformando-o em sticky [stIki] ou stickiness
[stIkin?s], os quais transformam a raiz monossilábica em dissilábica.
Segundo Laver (1994:151), a duração de um segmento pode variar por
diversas razões, como, por exemplo, pelo fato de ocorrer em uma sílaba tônica ou
átona, ou seja, acentuada vs. não-acentuada; devido à variação na taxa de elocução,
entre outros. Além disso, o falante pode aumentar sua taxa de elocução cortando
pausas, ou, ao contrário, pode diminuir sua taxa de elocução inserindo pausas, ou
ainda, variando seu uso. O falante, ressalta o autor, tem o controle sobre sua fala e
lança mão de diversos recursos para comunicar-se, principalmente em função dos
diferentes tipos de registros (mais ou menos formais) que adota a cada situação por
ele vivida.
Um outro fenômeno citado por Levelt (1998:302) refere-se à aplicação por
parte do falante do processo de redução entre palavras, quando, na fala encadeada,
umas juntam-se às outras. Por exemplo, é comum que palavras não-acentuadas, as
81
chamadas palavras gramaticais ou de função (artigos, pronomes, preposições e
verbos auxiliares), unam-se facilmente às palavras de classe aberta ou de conteúdo
(substantivos, verbos, adjetivos e advérbios) que as precedem ou que as seguem,
gerando exemplos de fala como: gave it, pronunciado como [g?IvIt], e Who do you
want to see?, em que want to é pronunciado como [want?], o que, para Levelt, tem
a função de melhorar a fluência da fala encadeada ou corrente. Ao processo que faz
com que as palavras gramaticais não-acentuadas liguem-se às palavras de conteúdo
à sua esquerda ou direita dá-se o nome de cliticização. Por meio dele, aquilo que
antes eram palavras tornam-se palavras fonológicas. Um exemplo fornecido pelo
autor encontra-se na sentença they have it, na qual obtém-se uma única palavra
fonológica na junção de have+it, produzindo uma nova divisão de sílabas, que não
consiste mais em sílabas [hæv] e [It], mas em [hæ] e [vIt]. A esse processo,
desencadeado pela cliticização, dá-se o nome de ressilabificação.
Além da palavra e da palavra fonológica, a fala encadeada pode ainda ser
dividida em frases entoacionais. Exemplos delas podem ser vistos em: How are
you?, Go and get the newspaper, Henry´s falling asleep. Assim, a sentença como
um todo pode tornar-se uma frase entoacional, principalmente se não for muito
longa. Contudo, segundo Levelt (1998:307), caso a sentença seja longa, ela é
dividida em duas ou mais frases entoacionais, como, por exemplo, em the golden
temple//which is still in use//was built by the Sikhs//. Levelt (1998) lembra ainda
que a taxa de elocução é um fator importante na codificação fonológica, uma vez
que afeta não apenas o tamanho das palavras fonológicas e frases entoacionais, mas
toda a cadeia de fala, cujo contorno de entoação organiza-se sobre frases
entoacionais maiores ou menores, sendo que não há regra para ditar seus tamanhos,
ficando a critério do falante fazê-las maiores ou menores, dependendo do grau de
82
formalidade da situação, do sentido que deseja passar ao ouvinte, e assim por
diante.
Levelt (1998) enfatiza que há outros lugares, além do final de uma sentença
ou de uma oração, que são propícios para a quebra das frases entoacionais. Entre
eles, (1) no final de um sintagma NPs (noun phrases), VPs (verbal phrases), APs
(adverbial phrases), ou PPs (prepositional phrases); (2) após a cabeça lexical de
um NP, VP ou AP, ou seja, respectivamente, após o substantivo principal (ou
núcleo) de um sintagma nominal, após o verbo (núcleo) de um sintagma verbal ou
após o advérbio (núcleo do sintagma adverbial) , mesmo que não estejam em
posição final de constituinte; e, também; (3) após uma palavra de conteúdo.
A característica da frase entoacional, segundo Levelt, é a ocorrência de um
conjunto de tons (contornos de pitch) significativos. Há pelo menos um acento de
pitch numa frase entoacional. Levelt (1998:303-304) faz uma distinção entre a frase
entoacional e a palavra fonológica. Segundo ele, a frase entoacional é uma unidade
de entoação e tem uma estrutura métrica interna. Cada frase entoacional consiste de
uma ou mais palavras fonológicas ou grupos métricos. Ela inicia onde começa a
sentença ou estrutura de superfície e termina logo depois da primeira cabeça lexical
de um verbal phrase (VP), de um noun phrase (NP), ou de um adverbial phrase
(AP). As palavras fonológicas são, para alguns autores, como Nespor e Vogel
(1986, apud Levelt, 1998), grupos de construção métrica de frases entoacionais.
Segundo as autoras (1986), cada frase entoacional consiste-se de uma ou mais
palavras fonológicas. A palavra fonológica é caracterizada por um conjunto métrico
de palavras adjacentes (palavras conteúdo precedidas ou seguidas de palavras
funcionais). Para Levelt (1998), um lugar muito bom para completar uma frase
83
fonológica é o final de uma sentença ou o final de uma oração. Os finais de orações
também são considerados finais de frases entoacionais.
Segundo Levelt (1998), cada frase entoacional tem apenas um núcleo que é o
acento de pitch mais saliente. Se houver apenas um acento de pitch, haverá um
núcleo. Se houver mais, o último provavelmente será o proeminente. A sílaba
nuclear de uma frase entoacional recebe o acento primário ou lexical e todas as
outras recebem o acento secundário. Todo acento entoacional é feito por algum tipo
de movimento de pitch ascendente, descendente ou por uma combinação de
ascendente e descendente ; porém, nem todas as sílabas acentuadas recebem um
acento entoacional. Um movimento de pitch nuclear (para cima ou para baixo) é
um mecanismo de realização de foco, que indica o item lexical mais saliente na
frase entoacional, além de ter uma função ilocucionária, ou seja, a de expressar a
idéia, ressaltando o item que, para o falante, carrega o principal significado a ser
transmitido. Um tom de fronteira pode executar várias funções diferentes, tais
como: (1) indicar finalidade ou não-finalidade; (2) expressar a força ilocucionária
do enunciado, o tipo de compromisso que o falante tem; e (3) expressar a intenção
do falante em terminar um turno ou em continuá-lo.
Levelt (1998:297) ressalta que há várias maneiras de um falante acentuar
uma sílaba: (1) tornando-a mais intensa que as sílabas vizinhas, o que será
percebido como um aumento de seu volume (loudness); (2) alongando-a no tempo
(por meio de mudanças no parâmetro de duração); e (3) dando ênfase ao
movimento de pitch ou variação da freqüência fundamental, percebidos como uma
variação na voz em relação aos possíveis tons (agudo, grave, e médio). Embora
intensidade, duração e freqüência fundamental sejam variáveis independentes,
todas andam juntas na produção e percepção dos sentidos da fala. Segundo o autor
84
(1998.), os estudos sobre a fala levam em consideração seu aspecto sonoro e
dinâmico, como o ritmo da fala encadeada, que provém de uma alternância de
sílabas mais ou menos acentuadas e da inserção de pausas que conduzem o falante
ao seu objetivo último, ou seja, expressar-se, cabendo ao ouvinte compreender
aquilo que é dito para que a comunicação ocorra.
Kenworthy (1987:35) afirma que, para que o acento frasal seja identificado,
partes da mensagem devem ser destacadas, de modo que o ouvinte possa captar a
informação que o falante quer transmitir. Não seria suficiente dizer ao aprendiz de
LE que é necessário dar ênfase às palavras mais importantes, uma vez que toda
palavra parece importante para aquele que está tentando colocar uma mensagem na
nova língua, e, assim, o aprendiz acaba acentuando a todas elas. A autora também
afirma que as palavras novas recebem acento frasal. Contudo, quando aparecem
pela segunda vez, o ouvinte já conhece a informação (informação dada ou forma
não-marcada) e, portanto, ela não deve ser destacada. Vejamos o exemplo de como
o acento pode ser utilizado para introduzir a informação nova:
A: Where are you from?
B: I´m from New York.
A: New York is a wonderful city.
Se o aprendiz não acentua uma sílaba mais que as outras, ou acentua a sílaba
errada, torna-se difícil para o ouvinte identificar a palavra. O padrão de acento de
uma vogal é uma parte importante da identidade da palavra para o falante nativo,
havendo grande evidência de que este se apóia no padrão do acento das palavras
quando ele as está ouvindo (Kenworthy, 1987). Segundo a autora, quando um
falante nativo não compreende uma palavra é porque o falante não-nativo,
provavelmente, acentua a palavra em lugar errado. O acento em inglês é variável e
85
móvel qualquer sílaba de uma palavra polissilábica pode receber o acento
principal, o que difere de outras línguas em que o acento é fixo (ou seja, numa
palavra dissílaba, a segunda sílaba será sempre acentuada, numa palavra trissílaba a
sílaba final será acentuada). Para ilustrar essa afirmação, Kenworthy (1987:59)
apresenta como exemplos as palavras economy e economic: na primeira o acento
recai sobre a segunda sílaba; já na segunda, recai sobre a terceira (ou penúltima
sílaba). Porém, a tendência do aprendiz de Língua Inglesa é pronunciar as duas
palavras com o acento na mesma sílaba. Para ele, prefixos e sufixos em inglês não
têm nenhuma diferença na acentuação das palavras.
Segundo Kent e Read (1992:151), o acento em inglês, se contrastivo ou
lexical, não é meramente um problema de intensidade, mas envolve os três
parâmetros acústicos duração, intensidade e freqüência fundamental, sendo que,
dentre os três, a duração é o parâmetro acústico mais confiável. O acento também
afeta as propriedades segmentais, tais como: as articulações da vogal e consoante.
Os segmentos nas sílabas acentuadas tendem a ter movimentos articulatórios mais
amplos que nas sílabas não-acentuadas. De uma certa forma, os movimentos nas
sílabas acentuadas são mais contrastivos, o que também pode ser percebido nos
padrões acústicos da fala.
Assim como Kent e Read (1992:151), Avery e Ehrlick (1992:74-75) apontam
alguns aspectos importantes que devem ser explicitados aos aprendizes de inglês no
que se refere ao acento. Para esses estudiosos, o acento na sílaba errada pode causar
problemas para a inteligibilidade da fala, e, portanto, é necessário que os aprendizes
saibam quais são as palavras acentuadas e não-acentuadas no idioma. As palavras
de conteúdo (substantivos, verbos principais, advérbios, adjetivos, pronomes
interrogativos WH Questions e pronomes demonstrativos) normalmente são
86
acentuadas. As palavras de função (artigos, preposições, verbos auxiliares,
pronomes, conjunções e pronomes relativos) normalmente são não-acentuadas. As
palavras de conteúdo expressam significado independente e as de função têm pouco
ou nenhum significado nelas mesmas, mas expressam relações gramaticais.
Ladefoged (1993) cita que uma função importante do acento no inglês é
indicar as relações sintáticas entre palavras ou partes das palavras. Há muitas
oposições substantivo-verbo, como “an ´insult; “to in´sult”; “an ´overflow”, “to
over´flow”; “an ´increase”, “to in´crease”. Em todos estes pares de palavras, o
substantivo recebe o acento na primeira sílaba, e o verbo, na última. O lugar do
acento indica a função sintática da palavra. Oposições semelhantes ocorrem em
casos em que duas palavras juntas formam compostos: a ´walkout”, to ´walk
´out”; “ a ´put-on”, “to ´put ´on”; a ´pushover”, “to ´push ´over”.
Nestes casos, segundo o autor, existe um acento apenas no primeiro elemento
do composto para os substantivos, e nos dois elementos dos compostos para os
verbos. O acento também tem uma função sintática na distinção entre um
substantivo composto, como, “a ´hot dog” (alimento), e um adjetivo seguido de um
substantivo, como no sintagma “a ´hot ´dog” (animal queimado). Os substantivos
compostos têm um único acento no primeiro elemento, e os sintagmas verbais têm
acentos em ambos os elementos.
Para Ladefoged (1993.), muitas outras variações de acento podem estar
associadas à estrutura gramatical das palavras. O quadro 2, a seguir, exemplifica os
tipos de alterações que podem ocorrer. Todas as palavras da primeira coluna têm o
acento principal na primeira sílaba. Quando o sufixo de formação do substantivo
“y” ocorre nestas palavras, o acento muda para a segunda sílaba. Mas, como
87
podemos observar na terceira coluna, o sufixo de formação de adjetivos “-ic” altera
o acento para a sílaba seguinte, que nestas palavras é a terceira.
QUADRO 2
Alterações da acentuação nas palavras do inglês
Ladefoged, Peter (1993). A Course in Phonetics, p.114. London: Harcourt Brace Javanovich
Levelt (1998) explica que o acento é uma categoria tão abstrata quanto o
fonema, podendo ser realizado de diferentes formas: pela variação na amplitude ou
intensidade e pelo movimento de pitch, dependendo da língua e do falante.
Segundo o autor, há uma relação do acento com a qualidade vocálica. Quando uma
vogal não é acentuada, em inglês, sua qualidade vocálica difere da sua contraparte
acentuada. Para exemplificar tal fenômeno, o autor cita a palavra California, na
qual o acento principal recai na 3ª sílaba (for), o secundário na 1ª (Ca), e as outras
duas sílabas (li) e (nia) recebem acento primário. Levelt (op.cit.) considera que os
afixos têm um papel importante no acento. Os afixos no início ou final de palavras
em inglês nunca são acentuados. Eles podem receber acento somente em posições
não extremas, e somente quando são afixos de radicais, como, por exemplo, al na
palavra nationality.
Como visto, há uma relação intrínseca, dentro da cadeia da fala, entre os
aspectos segmentais de um lado, e rítmicos e entoacionais de outro, que envolve
´ ___ ___ ___ ___ ´___ ___ ___ ___ ___ ´___ ___
di plo mat di plo ma cy di plo ma tic
pho to graph pho to gra phy pho to gra phic
mo no tone mo no to ny mo no to nic
88
múltiplos fenômenos, os quais não se pretendeu esgotar aqui. No entanto,
objetivou-se chamar a atenção para a influência de tais fatores na produção e
compreensão oral.
1.2.1. Entoação e Ritmo
Segundo Hirst e Di Cristo (1998), é difícil descrever a entoação de uma
língua se você não for um falante nativo ou semelhante ao nativo, e, o fato da
entoação não ser escrita, torna difícil para um falante não-nativo decidir se dois
enunciados fazem parte ou não de um mesmo grupo entoacional. Para os autores, a
entoação refere-se às variações de um ou mais parâmetros acústicos. Avery e
Ehrlich (1992:77) classificam a entoação como a melodia de uma língua. Segundo
eles, entoação é a variação do contorno de pitch que utilizamos ao falar, The pitch
changes are called intonation patterns and play an important role in conveying
meaning.
Dentre os parâmetros físicos responsáveis pela entoação, o de maior
importância é o parâmetro da freqüência fundamental (f0), termo que designa a
quantidade de ciclos de abertura e fechamento das pregas vocais em um segundo,
medida em Hertz (Hz). O correlato perceptual da variação da freqüência
fundamental é o pitch, que pode ser descrito como alto (agudo) ou baixo (grave). O
conceito de pitch está intimamente associado ao de Freqüência Fundamental.
Alguns autores, contudo, acreditam que a intensidade e a duração segmental
também são parâmetros da entoação (Beckman, 1986). Outros crêem que, além da
intensidade e duração, o ritmo se reflete na variação das características espectrais,
como na distinção das vogais plena e reduzida (Crystal, 1969). Acredita-se que, na
89
Língua Inglesa, por exemplo, os expoentes formais das características prosódicas
lexicais (acento) e não-lexicais (entoação) são mapeadas nos parâmetros físicos de
intensidade e freqüência fundamental, respectivamente.
Segundo Cruttenden (1997), certas línguas, ao contrário do inglês, usam a
entoação com objetivos pessoais, e a correlação de tons de acordo com o tipo de
sentença é uma forma de investigar a entoação. Para Cruttenden (op. cit.), a
entoação envolve a ocorrência de padrões de pitch recorrentes, e em cada um é
usado com um grau de significados relativamente consistentes, em palavras
isoladas ou em grupos de palavras de duração variável. Os constituintes gramaticais
de uma sentença são tratados como grupos entoacionais separados, adquirindo seu
próprio sentido.
Segundo o autor (op.cit.), há quatro critérios que demarcam os grupos
entoacionais. A pausa é o primeiro deles. Delgado-Martins (2002:225) apresenta a
definição de pausa como indicador de uma atividade interna de processar
informação, conforme proposto por Goldman-Eisler (1968, apud Delgado-Martins,
2002), e utiliza essa definição para diferenciar as pausas silenciosas, que são usadas
para programar informação já conhecida, das pausas preenchidas, que são índices
da complexidade no planeamento verbal de seqüências faladas em preparação.
Segundo Cruttenden (1997), a pausa silenciosa envolve o uso de uma vogal
central [? ] e uma bilabial nasal [m], isoladamente ou em combinação, e de
durações variáveis. Em alguns dialetos do inglês e em outras línguas, os sons das
pausas preenchidas podem ser diferentes: no inglês escocês, o som na região da
90
vogal nas palavras gate e play é típico e na Rússia, uma nasal alveolar é mais
comum que uma nasal bilabial.
As pausas normalmente ocorrem em três lugares no enunciado: (1) em
fronteiras constituintes maiores (principalmente entre orações e entre sujeito e
predicado) há uma correlação entre o tipo de fronteira constituinte e a duração da
pausa, isto é, quanto maior a fronteira, maior a pausa. Além disso, as pausas
tendem a ser mais longas onde as fronteiras constituintes envolvem um novo
tópico; (2) diante de palavras de conteúdo lexical ou em pontos de baixa
probabilidade transicional. Este tipo de pausa ocorre diante de uma fronteira
constituinte menor, normalmente em sintagma nominal, sintagma verbal ou
sintagma adverbial; (3) após a primeira palavra em um grupo entoacional.
Os exemplos abaixo, descritos pelo autor, mostram os três lugares em que a
pausa pode ser usada.
Estas sentenças constituem modelos de pausa tipo 1.
- The Prince of Wales//is visiting Cardiff tomorrow.
- Yesterday I went to London/ and saw the Queen// outside Buckingham Palace.
Estas sentenças constituem modelos de pausa tipo 2
- The minister talked at length about the … redeployment of Labour.
- There was a … GOLDcrest in the garden yesterday.
Estas sentenças constituem modelos de pausa tipo 3.
- I do like Elgar´s violin concert.// It´s … quite the most perfect work of its kind.
- Why don´t you join an evening class?/You´d … be quite likely to meet some
interesting people.
91
Vale ressaltar que as pausas tipos: (a) (1) normalmente indicam a fronteira de
um grupo entoacional (a fronteira é marcada, nos exemplos acima, por /); (b) (2) e
(3) são internas a um grupo entoacional, porque não resultam em pedaços do
enunciado em que cada um tem uma forma de pitch tipicamente contido dentro de
um grupo entoacional; (c) (2) e (3) indicam pausas de hesitação marcadas, nos
exemplos acima, por ... As pausas tipos (2) e (3) são mais comuns na fala que na
leitura e escrita. Apesar do uso explícito e implícito das pausas, em geral, elas nem
sempre demarcam as fronteiras entoacionais, assim como nem sempre as fronteiras
entoacionais são demarcadas pelas pausas. Pausas só podem ser usadas como
critério das fronteiras entoacionais se levarmos em consideração outros critérios
externos e internos.
O segundo critério, segundo Cruttenden (1997), é anacrusis
32
; e o terceiro é o
alongamento da sílaba final de um grupo entoacional. Este alongamento é
decorrente de uma pausa preenchida, de um movimento de pitch final, de um
relaxamento antes da pausa, e do tempo dado pelo falante para planejar o grupo
entoacional seguinte, como podemos observar na sentença abaixo:
O quarto, e último critério, refere-se ao pitch das sílabas não-acentuadas.
Para Cruttenden (1997), uma mudança no contorno de pitch e/ou do movimento de
pitch das sílabas não-acentuadas, a pausa, anacrusis, alongamento da sílaba final e a
32
A string of high-rate nonaccented syllables, which form a sort of an “anbeat” to the phrase as a whole (Levelt,
1998:308).
92
presença de um acento de pitch em cada parte do enunciado normalmente são
indicadores de uma fronteira do grupo entoacional.
Mateus et. alii (1990) consideram que as pausas realizadas em um enunciado
obedecem à separação dos constituintes sintáticos, salvo quando o interlocutor tem
como intenção destacar alguma palavra e, somente por isso, desmembra um grupo
sintático. Já Delgado-Martins (2002) critica a hipótese de que a entoação reflita a
estrutura sintática e defende que as pausas no enunciado são determinadas por
estruturas temáticas.
Kenworthy (1987) lista oito funções da entoação. Elas são:
1) Para colocar certas palavras em primeiro plano. Os falantes usam pitch,
intensidade, alongam a vogal, acentuam a pronúncia das consoantes para dar
proeminência ou acento às palavras. Há basicamente duas formas em que o
pitch é usado: (a) o falante pode tornar o pitch de uma palavra muito mais
alto que de outras; e (b) ele pode usar a variação de pitch, ascendente ou
descendente;
2) A entoação é usada em segundo plano. Low pitch é usado para colocar as
coisas em segundo plano;
3) Para sinalizar o início e o fim. Quando um falante está listando algumas
coisas, por exemplo, é fácil dizer quando o último item é alcançado porque o
pitch de voz normalmente decai;
4) Para mostrar se uma situação basicamente é “aberta” (pitch ascendente) ou
“fechada” (pitch descendente);
93
5) Para mostrar envolvimento;
6) Para mostrar expectativas, por exemplo, o uso de tag-questions;
7) Para apontar que um falante respeita ou se preocupa com o outro por meio do
uso de formas de cortesia convencional (Excuse me) ou pelo uso de formas
de “abrandamento” de pitch (uma tentativa de suavizar o que foi dito yes,
but ...);
8) Para demonstrar a relação entre as partes da mensagem de um falante. A
autora cita como exemplo um argumento descrito por um falante:´It was just
silly, really embarrassing a total mess`. Just silly” fornece uma
informação (e será dito com uma entoação descendente), really
embarrassing” fornece outra (entoação descendente também), e “ total mess
é dito com um pitch mais baixo, porque é visto como um tipo de resumo pelo
falante ou pode ser visto como a terceira dimensão, neste caso, o contorno
entoacional é semelhante aos dois pontos anteriores.
Dos constituintes mais baixos da hierarquia prosódica, é a palavra fonológica
que faz uso substancial de noções não-fonológicas. A palavra fonológica é a
categoria que domina o pé. Todos os pés de uma cadeia são agrupados em palavra
fonológica. Além disso, sendo a palavra fonológica ou prosódica um constituinte n-
ário, ele tem um só elemento proeminente; logo, a palavra fonológica não pode ter
mais do que um acento primário. Porém, dentro do domínio da palavra fonológica,
pode ocorrer agrupamento de sílabas e pés, sem compromisso de isomorfia com os
constituintes morfológicos (Bisol, 1996).
Segundo Nespor e Vogel (1986), a palavra fonológica é o constituinte que
agrupa um ou mais grupos clíticos e uma só palavra de conteúdo. O grupo clítico é
a unidade prosódica que segue imediatamente a palavra fonológica. Existem dois
94
tipos de clíticos: os que se comportam junto à palavra de conteúdo como uma só
unidade fonológica, e os que têm uma certa independência, submetendo-se às
mesmas regras da palavra fonológica. Segundo Crystal (1980, apud Nespor e
Vogel, 1986:145), clítico é “a form which resembles a word, but which cannot
stand on its own as a normal utterance…” Segundo Hayes (s/d, apud Nespor e
Vogel, 1986), o grupo clítico domina diretamente uma ou mais palavras
fonológicas e é dominado pela categoria seguinte na hierarquia prosódica, a frase
fonológica. A frase fonológica é o constituinte que congrega um ou mais grupos
clíticos, ou seja, o grupo clítico propriamente dito e a palavra fonológica.
Conforme Bisol (1996), a frase fonológica é constituída das unidades
imediatamente mais baixas: o grupo clítico, que tanto pode ser uma locução (a
casa) quanto apenas uma palavra fonológica (casa). De acordo com a autora, (1)
não há a priori nenhuma relação de isomorfismo entre a frase fonológica e a
sintática; e (2) o cabeça da frase fonológica é sempre o forte mais à direita. Como
exemplo desta afirmação, Nespor e Vogel (1986) observam que, nas línguas
romanas, os adjetivos que são complementos de nome ocorrem à direita do nome
no caso não-marcado (dia sombrio) e à esquerda (solitário viajante). O nível
subseqüente é a frase entoacional, definida, segundo Nespor e Vogel (1986:188),
como: the domain of an intonation contour and that the ends of intonational
phrases coincide with the positions in which pauses may be introduced in a
sentence”. Segundo as autoras, a frase entoacional pode ser identificada em uma
seqüência de frases fonológicas que constituam uma frase entoacional, sendo uma
delas forte por características semânticas, e todas as demais fracas. Uma sentença,
em geral, declarativa, exclamativa ou interrogativa, tem um contorno entoacional
determinado. Frases intercaladas, parentéticas ou vocativos tendem a constituir uma
só unidade prosódica.
95
No modelo de integração entre conhecimento rítmico e lingüístico, proposto
por Barbosa (2001), que se refere a uma forma dinâmica de produção do ritmo, a
hierarquia prosódica proposta por Selkirk (1984) e Nespor e Vogel (1986), com
base na fonologia gerativa (Chomsky e Halle, 1968 apud Nespor e Vogel, 1986),
fica reduzida a três níveis: ao gesto articulatório (unidade mínima de análise), à
sílaba e ao grupo acentual (stress phrase).
Como neste trabalho darei atenção aos fenômenos de coarticulação, redução,
cliticização e ressilabificação numa fala corrente, estarei lidando com processos
que ocorrem dentro de e entre palavras, tanto com as de conteúdo quanto as de
função, o que me leva à necessidade de olhar uma unidade maior que a frase
fonológica a frase entoacional.
Há, na literatura, duas opiniões no que se refere à correspondência entre
unidades sintáticas, semânticas e prosódicas: a primeira afirma que não há qualquer
isomorfia entre unidades sintático-semânticas e unidades prosódicas, e, a segunda,
que tal isomorfia pode ser encontrada. Aí entra o papel da Fonética Acústica, como
área que pode fornecer-nos índices sobre o grau de isomorfia entre tais unidades,
uma vez que, na divisão da fala ou leitura em chunks
33
, além das pausas
extrínsecas, constituídas por um espaço em branco no espectrograma
34
ou
preenchidas por ruído, observam-se, nas pausas intrínsecas, nas fronteiras sintáticas
maiores ou principais, de início e fim de sentença, e nas fronteiras sintáticas
33
Na Lingüística, geralmente usa-se o termo chunk, o qual significa corriqueiramente pedaço, sem traduzí-lo, porque
tal designação pode corresponder a unidades lingüísticas de diferentes tamanhos.
34
O espectrograma constitui um “mapa” do sinal acústico da fala processado em termos de tempo (eixo horizontal,
em ms ), freqüência (eixo vertical, em Hz) e intensidade (variação de cor no eixo diagonal, em dB).
96
menores ou secundárias, entre sintagmas, mudanças nos parâmetros acústicos de
duração (alongamento da sílaba final que antecede a fronteira), medida em
milésimos de segundo, e no contorno de entoação ou da linha de variação de f0,
que, além de formar picos sobre as sílabas tônicas, pode ser ascendente, plana ou
descendente.
Assim, a ocorrência de uma pausa durante a leitura pode mostrar
continuidade ou término de um chunk sintático-semântico, que, por sua vez, pode
corresponder ao que, nas primeiras versões da Gramática Gerativa, era designado
por sintagma. Tal chunk demarca, nos termos da Fonética Acústica, um grupo
rítmico e/ou um grupo entoacional, o que significa que sua completude ou
delimitação ocorrerá por um acento maior sobre um dos acentos lexicais das
palavras que o compõem, formando assim uma proeminência.
Para Selkirk (1984), a semântica constitui uma frase entoacional e contém
material que pertence a uma seqüência de palavras e/ou frases, e não é isomórfica a
nenhum constituinte da estrutura sintática. A palavra fonológica em inglês sofre
influência das propriedades rítmicas e das pausas. A estrutura sintática de uma
sentença não determina a entoação frasal; em uma sentença, pode-se ter muitas
realizações lingüisticamente distintas. Há uma representação fonológica da
estrutura entoacional, uma vez que a sentença consiste-se de uma ou mais frases
entoacionais, e, para cada uma delas, há um contorno que compõe-se de elementos
tonais distintos fonologicamente (acentos de pitch, tons de fronteira e acento frasal)
associado às silabas do enunciado, e a realização fonética de um contorno de f0 da
sentença é definido pela estrutura entoacional, conteúdo silábico e alinhamento da
grade métrica.
97
A teoria de Pierrehumbert (1980, apud Selkirk, 1984) da fonologia do
contorno entoacional está baseada em três fundamentos. O primeiro refere-se ao
fato de que a representação fonológica do contorno é auto-segmental, o que
significa que: (a) o contorno entoacional está fonologicamente representado por
uma camada (auto-segmental) separada, independente do segmento e/ou das
propriedades da sílaba do enunciado, e (b) consiste em uma seqüência de entidades
tonais distintas. O segundo fundamento diz respeito ao fato de que os elementos
tonais (=tons), ao formar o contorno entoacional, compõem-se de uma
especificação dos níveis tonais definidos por High (alto) e Low (baixo). O terceiro e
último fundamento, o mais relevante na nossa opinião, consiste na idéia de que os
três tipos distintos de entidade tonal formam o contorno entoacional de qualquer
frase deste tipo no inglês, e que estas entidades têm composições diferentes em
termos de tons, distribuições diferentes na frase entoacional, diferentes formas de
associação com as sílabas da sentença e, provavelmente, diferentes tipos de
contribuições para sua expressividade.
Na teoria de Pierrehumbert (1980, apud Selkirk, 1984), o contorno
entoacional do inglês consiste-se de uma seqüência infinita de acentos de pitch
(pitch accents), acento frasal (phrase accent) e tons de fronteira (boundary tones).
O acento de pitch normalmente está associado com o acento primário de uma
palavra; o acento frasal ocorre, em um certo período de tempo, após o acento de
pitch (nuclear) final, e os tons de fronteira (iniciais e finais) estão associados às
labas iniciais e finais da frase entoacional.
98
O modelo de seqüências tonais para descrição e geração de entoação
(Pierrehumbert, 1980) foi desenvolvido com o objetivo primeiro de ser um modelo
de geração de entoação. No entanto, ele também representa os princípios básicos
correspondentes para uma descrição entoacional.
Na análise que Pierrehumbert faz da entoação do inglês (1980, apud Selkirk,
1984), os contornos tonais frasais são decompostos em uma série de alvos que
estão associados às sílabas tônicas (correspondendo aos tons de fronteira
prosódica). O contorno entoacional é descrito como uma seqüência de alvos High
(H) e Low (L) e a extensão do pitch (pitch range) é o espaço compreendido entre o
valor de f0 do alvo mais alto (H) em uma frase entoacional.
Retomando agora a entoação dentro do ensino e aprendizado de LE, segundo
Beckman (1995, apud Rocca, 2003), o ensino da entoação é um dos aspectos de
fala mais difíceis de ser trabalhado, pela dificuldade de modular sua estrutura. Uma
das dificuldades diz respeito aos vários tipos de significados expressos por muitas
das categorias entoacionais, que vão desde a sinalização de diferenças lexicais e
categorias até a sinalização de relacionamentos sutis entre uma emissão e sua
inserção em um contorno maior do discurso. O sistema entoacional do inglês
americano apresenta um contraste categorial entre acentos de pitch de tom alto
(H*) e de tom baixo (L*) que, em diferentes contextos discursivos, pode ser
interpretado como o elemento diferenciador entre uma afirmação e uma pergunta
do tipo falso ou verdadeiro, entre uma afirmação nova e retomada de uma
informação já dada, entre uma repetição para confirmar ou expressar incredulidade
sobre o que o falante acabou de emitir, ou entre o emprego literal de uma palavra
como well e seu emprego como marcador discursivo.
99
Uma outra dificuldade que se refere ao ensino de entoação mencionada por
Beckman (1995) diz respeito à própria natureza da prosódia. Muitos dos aspectos
entoacionais estão vinculados a construtos prosódicos, como a sílaba, o acento e a
frase entoacional, que são, por si sós, difíceis de serem caracterizados, pois não se
adequam ao modelo alfabético. A exploração de construtos entoacionais, tais como
acento de pitch e tom de fronteira, por exemplo, requer a compreensão de unidades
prosódicas como a sílaba e frase entoacional. Do mesmo modo, não é possível
explorar acento de pitch sem recorrer ao acento. Avery e Ehrlich (1992) afirmam
que os professores de inglês deveriam tornar explícito aos alunos o correto uso da
entoação, para que o ouvinte nativo e/ou não-nativo, proficiente na língua, possa
entender, por exemplo, uma pergunta como uma pergunta e não como uma
declarativa e vice-versa.
Segundo Paul Tench (1981), há três princípios que o professor de Língua
Inglesa, nativo e/ou não-nativo, deve ter em mente em sua prática pedagógica com
relação à entoação. Primeiramente, ele precisa estabelecer accurate imitation of
intonation right from the beginning precisão no ritmo e entoação. Segundo o
autor, o professor precisa usar the more normal intonation forms in initial
practice’, e, no terceiro princípio, ele deve introduce a new intonation form
carefully and deliberately’, e não de forma aleatória e casualmente. Novos padrões
de entoação devem ser inseridos ao iniciar um novo capítulo e/ou diálogo.
Paul Tench (1981) corrobora a idéia de que o ensino da pronúncia deve estar
integrado aos outros aspectos que devem ser ensinados léxico e Gramática e
que a pronúncia não é mais e nem menos importante que os outros aspectos de uma
100
língua. Segundo o autor (1981:109), “Speech is much more than pronunciation
but it is impossible without it! Pronunciation is not the be-all and end-all; effective
communication is what matters, and this is to be the teacher´s constant goal”.
Celce-Murcia et. alii (1996) confirmam a idéia de Paul Tench (1981) e, segundo as
autoras, o ensino da entoação e proeminência deve estar presente no
ensino/aprendizagem de línguas, pois certos padrões entoacionais podem levar o
aprendiz a uma pronúncia inadequada.
Segundo Celce-Murcia et. alii (1996), os padrões de contorno
35
de entoação
do inglês mais comuns são: (1) o padrão ascendente/descendente, em que a
entoação normalmente começa na parte intermediária neutra e depois eleva-se a um
nível mais alto no principal elemento acentuado. Posteriormente, a entoação decai
para o nível mais baixo ou para o nível intermediário, como podemos observar na
sentença:
Celce-Murcia, M; Brinton, D.M; Goodwin, J.M. (1996). Teaching pronunciation A reference for teachers of
English to Speakers of Other Languages, p. 185. Cambridge: Cambridge University Press.
Por outro lado, se a sílaba acentuada fizer parte de uma palavra
multissilábica com outras sílabas não-acentuadas posteriores a ela, então a “queda”
ocorre no elemento não-acentuado imediatamente seguinte à principal sílaba
acentuada, como mostra a sentença:
35
É o movimento de pitch em uma unidade entoacional (Celce-Murcia et. alii, 1996:185).
101
Celce-Murcia, M; Brinton, D.M; Goodwin, J.M. (1996). Teaching pronunciation A reference for teachers of
English to Speakers of Other Languages, p. 185. Cambridge: Cambridge University Press.
(2) o padrão ascendente corresponde a sentenças interrogativas (sim/não) e
demonstra incerteza, como podemos observar nas sentenças:
Celce-Murcia, M; Brinton, D.M; Goodwin, J.M. (1996). Teaching pronunciation A reference for teachers of
English to Speakers of Other Languages, p. 187. Cambridge: Cambridge University Press.
Em tag questions, por exemplo, deve ocorrer o padrão ascendente/descendente,
uma vez que sua função mais comum é confirmar ou comentar, conforme podemos
observar no exemplo dado pelas autoras:
Celce-Murcia, M; Brinton, D.M; Goodwin, J.M. (1996). Teaching pronunciation A reference for teachers of
English to Speakers of Other Languages, p. 207. Cambridge: Cambridge University Press.
Segundo as autoras, é comum, por exemplo, que os aprendizes façam
associação de perguntas com padrão ascendente, mas sabemos que as perguntas
iniciadas por pronomes interrogativos (WH questions) são geralmente
caracterizadas por entoação descendente, conforme podemos observar no exemplo
apresentado pelas autoras:
Celce-Murcia, M; Brinton, D.M; Goodwin, J.M. (1996). Teaching pronunciation A reference for teachers of
English to Speakers of Other Languages, p. 186. Cambridge: Cambridge University Press.
He´s a TEACHER, ISn´t he?
102
Segundo Celce-Murcia et. alii (1996), tag questions também são difíceis para
os falantes não-nativos, tanto pela Gramática quanto entoação. A maioria dos
aprendizes de inglês usa apenas a entoação ascendente como sinalizador de
incerteza. Por outro lado, os falantes nativos usam a entoação como sinalizador de
certeza com muito mais freqüência, uma vez que utilizam tag-questions para
evocar confirmação e não incerteza/dúvida. Os falantes não-nativos têm
dificuldades em entender ou produzir sentenças que denotam escolhas. Em
restaurantes, por exemplo, quando o garçom pergunta: Would you like blue
cheese, ranch, or house vinaigrette dressing?”, provavelmente os aprendizes
respondem yes em vez de escolher uma das três opções.
As autoras (1996) afirmam que é difícil para o aprendiz de inglês imitar o
contorno entoacional dessa língua. Se ele puder visualizar o contorno e a
proeminência por meio da superposição de contornos entoacionais sobre o texto
escrito ou pelo uso de movimentos das mãos durante a produção oral, os resultados
podem ser mais positivos. Creio que, como as características prosódicas de uma
língua talvez sejam menos “visíveis” para o aprendiz que as características
segmentais, precisamos, como educadores, torná-las explícitas aos alunos.
1.2.2. Fonema e Traço Distintivo
Foi a partir de Baudoin de Courtenay e Ferdinand de Saussure que a forma
sonora de uma língua incorporou-se à Lingüística e deixou de ser simples objeto da
Psicologia e da Fisiologia Sensorial. Desde então, pesquisou-se a forma sonora em
seu valor significativo, a existência dos fonemas seu “porquê”.
103
De acordo com Saussure (1969), o fonema é definido como a soma das
impressões acústicas e dos movimentos articulatórios da unidade ouvida e da
unidade falada, que condicionam uma à outra, tratando-se, assim, de uma unidade
complexa baseada na cadeia da fala. Ao contrário de Saussure, Jakobson (1972)
concebe o fonema como a principal unidade lingüística.
Para o autor, “o fonema é as propriedades fônicas concorrentes que se usam
numa língua dada para distinguir vocábulos de significação diversa”. Jakobson
afirma que o fonema é a unidade fonológica mínima bidimensional, que possui uma
extensão no eixo dos elementos simultâneos (eixo da simultaneidade), pois se
apresenta como um acúmulo de significantes (posteriormente descritos como
traços). No eixo que se sucede no tempo (eixo da sucessividade), ele não representa
um ponto, mas uma dimensão. O fonema não pode, contudo, ser dividido em
unidades às quais correspondam duas ou mais unidades bidimensional (do que é
simultâneo e do que é sucessivo).
A delimitação dos sons dentro dessa cadeia, para Saussure, somente pode se
apoiar na impressão acústica das unidades fonológicas por meio da qual
conseguimos diferenciar um b de um t e monitorar suas produções para que tais
sons não sejam confundidos. Em contrapartida, a descrição de um fonema pode ser
feita com base em suas características articulatórias, sendo que o mais importante
em sua classificação é saber o que distingue um fonema do outro. Segundo
Saussure (s/d:54), na produção do som, “os fatores que podem entrar em jogo são a
expiração, a articulação bucal, a vibração da laringe e a ressonância nasal”, sendo
que os dois primeiros “são constantes, necessários e suficientes para a produção do
som enquanto os outros dois podem faltar ou sobrepor-se aos primeiros”.
104
Ainda de acordo com Saussure (s/d:55), os sons da fala classificam-se em
sete categorias. Seja qual for o ponto de articulação, sempre apresenta uma certa
abertura bucal entre os dois limites extremos: a oclusão completa e a abertura
máxima, e faz uso de uma escala de 0 a 6, com início na abertura mínima. “É
somente no interior de cada uma delas que repartiremos os fonemas em diversos
tipos, conforme o seu ponto de articulação.” (Saussure, s/d:55).
Saussure (s/d) afirma que é necessário estabelecer, para cada fonema, se
existe som laríngeo e se este possui ou não ressonância nasal, e, segundo Jakobson
(1972, apud Motta Maia, 1985), embora os fonemas possam ser agrupados em
classes, há a possibilidade de pertencerem a mais de uma classe ao mesmo tempo.
Segundo Jones (1976), ao descrever o sistema de sons de qualquer língua é
necessário fazer a distinção entre os sons da fala e os fonemas. Para ele, um som de
fala caracteriza-se por uma formação orgânica e qualidade acústica definida. Um
fonema, por sua vez, pode ser descrito como uma família de sons de uma língua, os
quais podem variar em diferentes condições de duração, acento ou entoação. Por
exemplo, o /k/ nas palavras keep, cool e camp do inglês são três sons articulados
em diferentes partes do palato, mas que pertencem ao mesmo fonema, pois as
diferenças que os caracterizam dependem unicamente da natureza da vogal que os
acompanha. Por outro lado, os sons /n/ e /?/ pertencem a fonemas distintos em
inglês, porque suas diferenças independem de sons vizinhos. Assim, /n/ pode
acontecer em posições que também podem ser ocupadas por /?/, como nas palavras
sin /sIn/ e sing /sI?/.
Conforme Motta Maia (1985), foi Jakobson, pressionado pelo clima
positivista das ciências humanas em meados do século XX, quem buscou na física
105
as evidências para apoiar sua tese sobre os traços distintivos. Juntamente com o
foneticista Gunnar Fant e o fonólogo Morris Halle, investigou a fonologia de várias
línguas do mundo e conclui que todos os fonemas deveriam se assemelhar e/ou
diferir em, no máximo, doze dimensões definidas tanto em termos acústicos quanto
articulatórios. Segundo a autora, “a proposta de Jakobson, Fant e Halle (1951) é de
que há um inventário universal de doze traços distintivos
36
que possuem correlatos
físicos precisos e que podem explicar quaisquer semelhanças ou diferenças entre
fonemas nas línguas do mundo”.
O sistema em questão fundamenta-se em dois pressupostos. Primeiro, na
idéia de que os traços distintivos são entidades discretas, ou seja, que, por
definição, são não-contínuas (não há necessidade de uma ordem pré-estabelecida
para a ocorrência das características que distinguem a matriz de traços de um som).
O segundo pressuposto afirma que os traços distintivos são dicotômicos, isto é,
cada dimensão divide-se em duas possibilidades, sendo uma presença e a outra a
ausência de uma determinada característica (p.e. som vozeado X som não-
vozeado). De acordo com Motta Maia (1985), uma das vantagens desse sistema é a
de deixar claro determinadas semelhanças existentes entre essas duas classes de
segmentos assim como suas influências mútuas.
Ainda de acordo com Motta Maia (1985), na década de 1960, Noam
Chomsky e Morris Halli, ambos influenciados por Jakobson, fizeram a segunda
revolução no estudo dos sons da fala, com a criação da teoria que se tornou
conhecida como Fonologia Gerativa. Essa nova teoria herdou do estruturalismo “a
concepção de que a língua é uma rede de regularidades subjacentes invariantes que
36
Traços distintivos são as propriedades elementares nas quais um fonema pode ser decomposto (Motta Maia, 1985).
106
se manifesta de maneira variável mas previsível na fala”, sendo uma atualização da
capacidade inata e cujo desenvolvimento é desencadeado pelo contato com o meio.
Para Hernandorena (1996), na teoria de Chomsky e Halle, os fonemas
passaram a ser vistos sob dois aspectos: da perspectiva fonética, eles são entendidos
como um conjunto de especificações de traços (propriedades mínimas como
“nasalidade”, “sonoridade”, “labialidade”, “coronalidade”); da perspectiva
fonológica, os fonemas consistem em uma “representação mental dos itens lexicais,
em que ‘conjuntos de especificações de traços fonológicos’ podem manter uma
correspondência unívoca ou não com o conjunto de traços fonéticos”.
Para Motta Maia (1985), Chomsky e Halle propuseram um outro sistema de
traços binários com o intuito de contemplar todas as distinções fonéticas e
fonológicas presentes nas línguas do mundo. Esse novo sistema conhecido como
matriz de traços possui base articulatória, ou seja, trabalha com ponto e modo de
articulação para a caracterização das consoantes e com altura e recuo da língua para
a das vogais.
Segundo Hernandorena (1996:17-18):
“no nível fonético, os traços são caracterizados por Chomsky e Halle
(1968:297) como escalas físicas que descrevem aspectos do evento da fala
e podem ser tomados independentemente, seja do ponto de vista da
produção ou do ponto de vista da representação perceptual. (...) No nível
fonológico, os traços são marcadores classificatórios abstratos, que
identificam os itens lexicais da língua. Por terem função classificatória,
distintiva, os traços são binários no modelo de Chomsky e Halle, isto é,
cada traço é definido por dois pontos na escala física, representando um a
107
presença, o outro a ausência da propriedade. (...) Para Chomsky e Halle
(1968), os traços fonéticos constituem escalas físicas universais, ou seja,
um conjunto fixo e restrito, independente de qualquer língua. Nesse
sentido, pode concluir-se que a totalidade dos traços fonéticos representa as
capacidades de produção de fala do aparato vocal humano. (...) Afirmam
Chomsky e Halle (1968:170) que cada entrada lexical em uma língua
consiste em uma matriz fonológica na qual cada linha é rotulada por nomes
de traços fonológicos, aos quais é atribuído um valor classificatório”.
1.2.3. Fonemas do inglês que geram dificuldades de pronúncia para os aprendizes
brasileiros
Segundo Malmberg (1954), quem quiser pronunciar bem uma língua
estrangeira tem de conseguir dominar um grande número de novos hábitos
articulatórios. Tem de acostumar-se a articular os sons estrangeiros exatamente
como se faz na língua em questão e não deve continuar a servir-se dos hábitos
próprios da sua língua materna. Para o autor, “sem um conhecimento profundo da
fonética das duas línguas em questão o professor de línguas jamais conseguirá
ensinar aos seus alunos uma pronúncia perfeita da nova língua” (Malmberg,
1954:190).
Para Schütz (2005), um fator que dificulta a aquisição da pronúncia no
aprendizado de segunda língua é o fato do inglês, neste caso, possuir um número
maior de fonemas consonantais (24). Além disso, as consoantes da Língua Inglesa
podem ocorrer em posições que não ocorreriam em outra língua, como, por
exemplo, no português do Brasil. Acentuação tônica de palavras é outro aspecto
que influi significantemente na sua característica sonora. Enquanto no português do
108
Brasil encontramos apenas três tipos de acentuação tônica (oxítonas, paroxítonas e
proparoxítonas), no inglês americano encontramos pelo menos cinco tipos de
acentuação tônica (primário, secundário, terciário, forte e fraco). Para o autor, um
erro muito comum observado em aprendizes de inglês, cuja língua materna é o
português do Brasil, é a redução insuficiente de palavras funcionais e demais
sílabas não-acentuadas. Como conseqüência, o ouvinte terá dificuldade em
perceber quais sílabas são acentuadas e quais são não-acentuadas. Uma vez que o
ritmo é a principal indicação das divisões entre as palavras na língua falada
(equivalente aos espaços na escrita), o ouvinte terá dificuldade em captar o início e
o fim dos vocábulos. É, portanto, de extrema importância manter uma clara
diferença entre as sílabas acentuadas e não-acentuadas quando se fala inglês.
Tratando-se especificamente do falante brasileiro, o grande problema,
segundo Schütz (op. cit.), é que o aprendiz de segunda língua normalmente
apresenta dificuldades para produzir as vogais, e transfere o sistema vocálico de sua
língua para o inglês fator este que dificulta a aquisição da pronúncia. Para o autor,
um elemento de difícil solução em relação à produção de vogais do inglês para o
falante brasileiro é o fato de que na Língua Inglesa há um número bem maior de
vogais (14 fonemas vocálicos do inglês americano, dos quais 03 são considerados
ditongos) que na língua portuguesa (7), fazendo com que a diferença entre cada
uma delas seja mínima, exigindo uma maior acuidade por parte do falante, tanto na
percepção quanto na produção.
Um exemplo bem conhecido da dificuldade de percepção e produção para
alunos brasileiros refere-se à pronúncia do som do i em inglês. Celce-Murcia et. alii
(1996:94-97) descrevem /i/ e /I/ como vogais altas e frontais produzidas com a
109
parte da frente da língua alta, próxima e à frente do palato duro e com a mandíbula
relativamente fechada. Parece haver uma semelhança do ponto de vista
articulatório. Entretanto, ainda segundo as autoras (1996), enquanto /i/ é articulado
com maior tensão dos músculos, a língua e a posição da mandíbula ficam mais altas
e os lábios ficam esticados em uma posição de sorriso, o fonema /I/ é articulado
com os músculos relaxados, a mandíbula um pouco mais baixa, os lábios não tão
esticados e a língua em uma posição mais central na cavidade bucal. Na fonologia
articulatória, o primeiro é descrito como “longo” /i/ e o segundo como “curto” /I/.
Segundo Cristófaro-Silva (2005), falantes do português brasileiro tendem a
associar o som de /I/ do inglês ao som de /i/ do português que ocorre na palavra
ali. Para a autora esta associação ente os sons /I/ e /i/ decorre, “principalmente,
da interferência do sistema ortográfico. Isto porque, em inúmeras palavras do
inglês, a letra i corresponde ao som I (kiss, bit, it etc.); enquanto que, no português,
a letra i sempre corresponde ao som i (ali, vida, piada etc)”.
Segundo Avery e Ehrlich (1992) e Celce-Murcia et. alii (1996), o ensino da
pronúncia enfocava segmentos, como o contraste entre pares mínimos, no intuito de
fazer com que os aprendizes de segunda língua se conscientizassem sobre
diferenças fonêmicas da língua estrangeira. Segundo Celce-Murcia et. alii
(1996:111), o ensino de pronúncia, de modo geral, foca muito minimal pairs em
sentenças como, “My brother beat/bit me” ou “Would you test/taste this for me?”.
Para as autoras (op.cit.), o ensino de pares mínimos sem estarem dentro de um
contexto não tem nenhum sentido. Eles isoladamente não garantem aos aprendizes
um verdadeiro controle dos contrastes segmentais principalmente quando se pede
para o aprendiz produzir a língua em situações onde o foco está na mensagem e não
110
na forma. Contudo, as sentenças com minimal pairs apresentam evidência de como
o significado pode ser interpretado de forma errada se um fonema vocálico for
pronunciado ou entendido de forma errada. Caso o minimal pair esteja
contextualizado e seguido de uma prática mais comunicativa pode garantir aos
aprendizes um controle dos contrastes segmentais. Em síntese, o ensino de
pronúncia deve incluir um componente que assegure aos aprendizes dominar a
percepção e a produção dos sons das vogais de modo contextualizado e
comunicativo e distinguir a pronúncia das vogais de suas formas ortográficas.
O que também é impressionante na Língua Inglesa é a freqüência com que as
reduções de vogais ocorrem na cadeia da fala e o número reduzido de vogais que
ocorrem em posição não-acentuada. Como conseqüência dessa aglutinação de
sílabas não-acentuadas no inglês, a vogal dessas sílabas freqüentemente enfraquece
e sofre uma “ redução” em direção ao som neutro /? /. Este fenômeno vocálico
neutro, conhecido como schwa é produzido pela vibração das cordas vocais,
músculos relaxados, a língua na posição central da boca e a mandíbula levemente
aberta. Segundo Cristófaro-Silva (2005), o schwa desempenha um papel muito
importante na construção do ritmo e da entoação no inglês; ele tem características
bem próximas ao a final do português brasileiro como na vogal final da palavra
pizza”. No português brasileiro, o schwa tende a ocorrer sempre em posição
postônica, ou seja, após a vogal tônica e sempre se relaciona a um “a” ortográfico.
No inglês, o schwa pode ocorrer em posição postônica (america) ou pretônica, mas
nunca em posição tônica, pois o fenômeno ocorre sempre em posição não-
acentuada. O schwa é um dos sons vocálicos mais reduzidos no inglês norte-
americano, principalmente se vogais reduzidas como a consoante /r/ vierem
posterior a ele, como em father, brother (Celce-Murcia et. alii, 1996).
111
Segundo as autoras (1996), existem quatro outros sons vocálicos reduzidos
no inglês norte-americano que também ocorrem em sílabas não-acentuadas. - /I/, /i/,
/o/ e /u/
37
(ver figura 1). As três últimas vogais não-acentuadas são semelhantes a
/iy/, /ow/ e /uw/, mas sem glide; são mais centrais por causa da ausência de acento:
QUADRO 3: sons vocálicos - Celce-Murcia, M; Brinton, D.M; Goodwin, J.M. (1996). Teaching
pronunciation A reference for teachers of English to speakers of other languages, p. 109.
Cambridge: Cambridge University Press.
A qualidade dos sons das vogais reduzidas tende a variar. Por exemplo, a
vogal reduzida nas palavras behind, begin e prefer podem ser articuladas como /i/,
/I/ ou /? / dependendo do falante, do contexto e do dialeto.
37
Note que /I/ aparece no quadro 3 tanto como vogal reduzida quanto não-reduzida. Como as duas versões são
foneticamente bem semelhantes, optamos em usar o mesmo símbolo para representar as duas vogais em vez de
introduzir um novo símbolo.
112
QUADRO 4: sons vocálicos reduzidos - Celce-Murcia,M; Brinton, D.M; Goodwin,
J.M. (1996). Teaching pronunciation A reference for teachers of English to
speakers of other languages, p. 109. Cambridge: Cambridge University Press.
Celce-Murcia et. alii (1996) afirmam que as distinções fonemáticas, duração
da vogal, nasalização e redução das vogais podem interferir em uma situação
comunicativa tanto em relação à produção quanto em relação à compreensão oral.
Portanto, elas acreditam que tais fenômenos devem ser explicitados aos aprendizes
de língua estrangeira que não dominam o referido código para que eles não se
vejam em situações embaraçosas e os depreendam intuitivamente.
Lieff e Nunes (1993) atribuem algumas dificuldades de pronúncia que os
aprendizes brasileiros têm às diferenças entre os sistemas de sons do inglês e do
português. Elas admitem que fatores como idade, personalidade, motivação e
habilidade fonética afetam o desempenho da pronúncia dos aprendizes. Segundo as
autoras, as dificuldades dos alunos de produzir as consoantes da Língua Inglesa
ocorrem porque os sistemas consonantais do inglês e do português divergem pelo
menos em um dos cinco níveis: (1) fonêmico; (2) fonético; (3) alofônico; (4)
distribucional; e (5) ortográfico. Segundo Marcherpe (1970), estas dificuldades
contribuem para que os aprendizes brasileiros cometam erros de pronúncia ao
produzir os fonemas da língua estrangeira em estudo.
113
De acordo com Mascherpe (1970), os erros fonológicos acontecem porque o
sistema de som do inglês tem fonemas que não existem no sistema do português, e
os aprendizes brasileiros substituem estes fonemas pelos do português. Os erros
fonéticos surgem porque as duas línguas têm fonemas semelhantes; porém,
diferenças na forma como são articulados. Estas diferenças fazem com que os
aprendizes brasileiros produzam os fonemas do inglês com a articulação do
português. Os erros alofônicos ocorrem porque os fonemas das duas línguas têm
diferenças alofônicas, e os aprendizes brasileiros pronunciam os alofones do inglês
como pronunciam os do português. Os erros distribucionais surgem porque existem
contrastes na distribuição dos fonemas das duas línguas, e o desvio de pronúncia
ocorre na posição dos fonemas distribuídos de forma diferente. O sistema
ortográfico da primeira língua dos aprendizes de inglês difere do inglês, ou seja,
não-alfabético ou pode envolver um alfabeto diferente. A ortografia dos falantes
não-nativos reflete: (1) o controle imperfeito do sistema de som do inglês; (2) a
transferência do sistema de som da língua materna; (3) a má-compreensão e
controle incipiente das convenções ortográficas do inglês principalmente as
correspondências de ortografia do som. A ortografia da Língua Inglesa baseia-se
nas regularidades morfológica, lexical e fonológica. Chomsky (1970) chama a
atenção para o fato de que esta ortografia normalmente se correlaciona com a
representação lexical, um nível do processamento lingüístico abaixo da superfície e
ligado à pronúncia por meio de processos morfofonológicos regulares. A autora
(op. cit.) considera que a pronúncia do inglês deva ser ensinada pelo sistema de
escrita bem como pelo alfabeto fonético e símbolos adicionais.
Segundo Flege (1980), o aprendiz de língua que acredita ouvir na língua
estrangeira sons quase idênticos aos da língua materna (apesar das possíveis
114
diferenças fonéticas entre elas) irá basear sua pronúncia ao longo do processo de
aprendizado num modelo acústico resultante de pares de sons semelhantes das duas
línguas, em vez de baseá-la no modelo acústico específico da língua estrangeira,
assim como ocorre no aprendizado da língua materna. Concluímos pela fala de
Flege (1980) que uma apresentação detalhada dos dois sistemas fonológicos
ajudará o aprendiz a tomar consciência cedo de que os sons de um e outro idioma
não são exatamente iguais, e que essas diferenças podem ser relevantes no
significado, afetando o entendimento.
1.2.4. Composição acústica
Segundo Malmberg (1954), “a Fonética apresenta dois aspectos: (1) um
aspecto acústico, que estuda a estrutura física dos sons empregados e o modo como
o ouvido reage a estes sons; e (2) um aspecto articulatório ou fisiológico, que se
ocupa do aparelho fonador e do modo como produzimos os sons da língua. A
produção dos sons e sua interpretação implicam a intervenção de uma atividade
psíquica
38
ou de processos psíquicos necessários para o domínio de um sistema
fonético e lingüístico organizado. (...) Outros fenômenos acústicos, tais como: sons
musicais, ruídos da natureza, etc., e processos fisiológicos, tais como: bocejos,
roncos, mastigação e respiração, não pertencem ao domínio da Fonética, a qual se
caracteriza por ser uma ciência autônoma, de caráter inteiramente lingüístico”.
Para o autor (1954), “a Fonética compreende quatro ramos: (1) Fonética
Geral (estudo das possibilidades acústicas, a partir do funcionamento do aparelho
fonador); Fonética Descritiva (estudo das particularidades fonéticas de uma língua
ou de um dialeto); (3) Fonética Evolutiva (estudo das mudanças fonéticas sofridas
38
Ver o Circuito da Fala proposto por Saussure (s/d).
115
por uma língua no decorrer da sua história); e (4) Ortoépia ou Fonética Normativa
(conjunto de regras a que obedece a “boa” pronúncia de uma língua)”.
Segundo Malmberg (op. cit.), a Fonética Articulatória, também denominada
de Fonética Fisiológica, ocupa-se do estudo da produção dos sons pelo aparelho
fonador. Este é composto por três partes: (1) o aparelho respiratório, que fornece a
corrente de ar necessária para a maior parte dos sons da linguagem; (2) a laringe,
que cria a energia sonora empregada na fala; e (3) as cavidades supraglóticas ou
cavidade oral e nasal, que atuam como ressoadores, onde se produz a maior parte
dos ruídos utilizados na fala.
Assim como na Fonética Articulatória se tem a elaboração de modelos que
expliquem de forma dinâmica e global a produção do som, na Fonética
Perceptiva são propostos modelos para dar conta das propriedades acústicas dos
sons da fala e dos condicionamentos impostos por nosso sistema auditivo, em
sua compreensão (Malmberg, 1954). Conforme Llisterri (1991) a Fonética
Perceptiva se encarrega do estudo da audição da fala examinando como as ondas
sonoras chegam até a audição e se transformam em impulsos nervosos que vão
ao cérebro, por outro lado, estuda também como damos uma interpretação
fonética a estes impulsos, assimilando-os aos sons da língua que conhecemos,
este é o processo conhecido como percepção.
A onda sonora é criada por uma vibração (movimento repetido) que pode ser:
(1) periódica ou não-periódica; (2) simples ou composta. Os sons da fala
(vibrações) podem variar quanto a:
116
(1) Freqüência número de ciclos vibratórios, produzidos em um segundo
(Hz), percebida como variações de tons agudos e graves;
(2) Amplitude intensidade do som, percebida como volume alto ou baixo;
(3) Timbre as freqüências que caracterizam um som, permitindo distinguir
sua qualidade característica, como por exemplo, na distinção de uma
determinada pessoa por sua voz.
A Teoria Acústica da Produção da Fala, também designada por Teoria da
Fonte-Filtro
39
, proposta por Fant (1973), encara o sinal de fala como resultado da
geração de fontes acústicas e filtragem dessas fontes pelo aparelho fonador,
permitindo ao pesquisador relacionar, por inferência, qualitativa e
quantitativamente, as propriedades físicas das ondas sonoras e os mecanismos
articulatórios que as produzem. É com base na Fonética Acústica que este trabalho
norteará a comparação entre a produção do inglês por um falante do português
brasileiro e por um falante americano.
De acordo com a teoria acústica da produção da fala, o trato vocal pode ser
considerado como um sistema de filtros que é exercitado por uma ou mais fontes
sonoras. Há dois tipos de fontes sonoras no aparelho vocal: uma fonte glotal de
sons periódicos que está associada à vibração das cordas vocais e fontes de ruído
criada a qualquer nível do trato vocal devido ao escoamento do ar a alta velocidade
através de constrições. O trato vocal tem a capacidade de modificar o som original
da voz. Esta capacidade está diretamente relacionada à configuração que o trato
39
Para uma resenha detalhada da Teoria da Fonte-Filtro proposta por Fant, ver Camargo (2002).
117
vocal assume na produção de um determinado som, e à mudança na posição dos
articuladores que altera a ação do filtro.
Segundo Ladefoged (1996), o trato vocal é delimitado, em uma extremidade,
pelas pregas vocais, e, em outra, pela abertura de lábios e narinas, que propiciam a
passagem do fluxo de ar que vem dos pulmões. (...) As pregas vocais são pequenas
pregas de músculos sustentadas pelas cartilagens da laringe. Na fala ou no canto,
elas se aproximam. Quando o ar sai dos pulmões, uma pressão é formada abaixo
das pregas vocais, fazendo com que elas se separem. Tão logo isto ocorra, diminui
a pressão abaixo delas, que voltam a se aproximar, resultando na formação de uma
pressão que as separam novamente. Este ciclo de eventos é repetido rapidamente
até que o ar não seja mais expelido pelos pulmões ou que a posição das pregas
vocais seja ajustada. O fluxo de ar entre as pregas vocais faz com que sejam
sugadas (aproximem-se), e o espaço da glote, ou espaço entre as pregas vocais, se
feche rapidamente. A mudança abrupta na pressão de ar que ocorre quando as
pregas vocais se aproximam ocasiona uma espécie de sopro que coloca em
movimento o ar que circula no trato vocal.
Conforme a teoria acústica, a fonte de voz é proveniente da vibração das
pregas vocais e de ruído, que pode ser contínuo (resultante da corrente de ar que
passa entre dois articuladores muito próximos, formando uma passagem bastante
estreita entre eles e causando turbulência, por exemplo o /s/), ou transiente
(decorrente da libertação repentina de obstrução formada pelo contato entre
articuladores, por exemplo /p/). Segundo Mateus et. alii (1990) o ruído “pode ser
criado por uma constrição que se mantém durante um certo intervalo de tempo mais
ou menos longo, como nas consoantes fricativas, ou por um fechamento completo
seguido de uma distensão brusca, como nas consoantes oclusivas.”
118
Quanto ao filtro, pode-se dizer que o tom de voz tem seu timbre alterado pelo
fenômeno de ressonância, que modifica a intensidade dos seus componentes. Tal
ressonância depende do trato vocal (que vai da glote até os lábios), cuja
configuração é determinada pela posição dos articuladores. Segundo Mateus et. alii
(1990) a função de filtro é muitas vezes referida tecnicamente como função de
transferência, que Fant define como “a razão entre pressão à saída dos lábios do
falante e a pressão ou a velocidade de volume da fonte sonora”.
A Teoria Fonte-Filtro, quando aplicada à produção da vogal, estabelece que
o output de energia é um produto da energia da fonte e do ressoador (ou filtro). As
características do filtro determinam a qualidade das vogais, visto que a fonte é
sempre igual: vibração das pregas vocais. Em contrapartida, as consoantes
divergem em termos de fonte, pois, se caracterizam pela vibração ou não das pregas
vocais e estreitamento ou obstáculos nas cavidades supraglóticas, e filtro. Na
análise dos sons consonantais, é necessário considerar a maneira de articulação, o
ponto de articulação e as características de voz.
Segundo Kent e Read (1992), a análise acústica pode ser realizada por meio
da forma da onda (oscilograma) e de outros gráficos, entre eles o espectrograma. O
espectrógrafo, criado em 1940 nos laboratórios Bell, por Ralph Potter e colegas,
que tornou possível a análise dos componentes do sinal acústico na forma de
espectrogramas, vem sendo substituído por programas de computador, os quais
estão sendo usados para análise acústica da fala.
119
O espectrograma é uma representação gráfica em que a ordenada
corresponde à freqüência, a abscissa ao tempo, e o contraste entre claro e escuro à
amplitude dos componentes elementares dos sons (quanto mais escuro maior a
amplitude). Há dois tipos de espectrogramas: os de banda larga, que utilizam filtros
mais largos para a separação dos formantes (geralmente entre 150 e 600 Hz), e os
de banda estreita, com filtros de pouca largura, que separam cada harmônico da voz
(usualmente entre 15 e 50 Hz). Os do primeiro tipo, apresentam boa resolução de
tempo, permitem realizar medidas de duração, embora apresentam resolução
grosseira de freqüência, e indicam bem os formantes que se apresentam como
manchas nas freqüências das ressonâncias do trato. É possível observar num
espectrograma de banda larga: os formantes e as transições entre eles, a barra de
sonoridade, a fricção, a obstrução, a plosão e, respectivamente, o ruído contínuo, o
silêncio e o ruído transiente. Os do segundo tipo, por não apresentarem nenhuma
precisão de duração, apenas de freqüência, são utilizados para mostrar os
harmônicos (componente de um tom complexo cuja freqüência é um múltiplo
inteiro do componente mais baixo, o chamado Fundamental (Maia, 1985:121).
Segundo Llisterri (1991), é importante lembrarmos que as propriedades
acústicas dos sons da fala se explicam pela configuração adotada pelo aparelho
fonador no momento de sua produção, estabelecendo-se assim uma estreita relação
entre a fonética articulatória e a fonética acústica. Por outro lado, tanto a audição
como a percepção dos sons da fala são determinadas pelas características acústicas,
de forma que a audição possa ser concebida como um sofisticado analisador das
ondas sonoras, com o qual se estabelece uma relação muito estreita entre a Fonética
Acústica e a Perceptiva
120
Vale lembrar que tanto a produção como a percepção da fala estão dirigidas a
um mesmo fim: a comunicação entre um emissor e um receptor; o que pode ser
evidenciado nas palavras de Jakobson e Halle (1956:): We speak to be heard and
need to be heard in order to be understood.
O objetivo do presente capítulo é descrever a metodologia de pesquisa que
escolhi para orientar minha investigação, e, por se tratar de um projeto de pesquisa
realizado dentro da Fonética Acústica, este trabalho tem de levar em conta formas
específicas de coleta e análise de dados. A seguir, explicitam-se o contexto de
pesquisa, a coleta dos dados, e os instrumentos e procedimentos utilizados.
2.1. A Escolha da metodologia de pesquisa
Johnson (1992) e Nunan (1992) afirmam que os estudos de caso são, em sua
maioria, qualitativos, apesar de às vezes envolverem quantificação de algumas
informações relevantes. Segundo Johnson (op. cit.), o estudo de caso tem sido uma
121
opção metodológica amplamente utilizada por pesquisadores de diferentes áreas,
com certo predomínio na aquisição de segunda língua, uma vez que, nesse campo,
tem-se mostrado eficaz no tratamento dos mais diversos tipos de questões.
De acordo com Denzin e Lincoln (1988), a pesquisa qualitativa apresenta
características peculiares. O próprio termo pesquisa qualitativa merece ser
entendido para o desenvolvimento de uma investigação coerente e bem delineada.
Algumas das principais características seriam a complexidade e a interconexão de
seus termos, conceitos e pressupostos, que se revelam na multiplicidade de suas
metodologias, no uso de vários instrumentos, estratégias, materiais, documentos e
possível atuação do pesquisador no contexto. Esta multiplicidade de metodologias é
atribuída à tentativa de assegurar uma compreensão mais profunda do fenômeno
em questão, mesmo tendo em mente que a realidade objetiva nunca é totalmente
detectada.
A opção por se realizar esta pesquisa através de um estudo de caso deu-se
pela riqueza de informações proporcionadas por esse tipo de estudo. De acordo
com Stake (1998), um caso caracteriza-se por sua especificidade, fronteiras,
comportamento padronizado, consistência e seqüenciamento. O autor ressalta que
estudar um caso gera um aprendizado sobre o fenômeno que nos leva a uma melhor
compreensão e assegura nossa aprendizagem, desde a identificação e escolha do
caso até o entendimento sobre exatamente qual é o nosso interesse nesse
determinado fenômeno. Para ele, a pertinência de se desenvolver um estudo de caso
está no fato de um pesquisador, levado por diferentes interesses, poder refinar uma
teoria, sugerir temas complexos para futuras pesquisas, como também,
proporcionar reflexão sobre experiências humanas e, assim, fornecer várias e
diferentes contribuições para a ciência (Stake, 1998). Neste trabalho, a adoção de
122
um estudo de caso propiciará um maior entendimento da comparação entre a
produção rítmica e entoacional do inglês por um falante americano e por um falante
brasileiro proficiente na língua, com o propósito de que isto possa servir no futuro
para o ensino e a aprendizagem do inglês como língua estrangeira.
De acordo com a classificação proposta por Stake (1998), este trabalho
constitui um estudo de caso intrínseco - motivado pelo interesse do pesquisador em
entender melhor um caso em especial, e ao mesmo tempo, um estudo de caso
instrumental motivado pelo interesse do pesquisador em buscar suporte para
melhor compreensão de um fato, para que se resolva um determinado problema ou
por seu interesse em refinar uma teoria.
Este trabalho é de cunho experimental, porque segue rigorosamente os
parâmetros de coleta e análise dos dados impostos aos estudos fonético-acústicos,
para que tenham fidedignidade e possam ser replicados por outros pesquisadores da
comunidade científica.
Enquanto professora e pesquisadora, pretendi também aprender com o caso
estudado, visando obter subsídios que pudessem ser revertidos para minha prática
em sala de aula, além de relatar e registrar os achados significativos que possam
contribuir com a área de ensino e aprendizagem de língua estrangeira. Concluo que
a opção por estudo de caso foi pertinente por encontrar respaldo teórico e também
se mostrou adequada ao meu contexto e pergunta de pesquisa. Segundo Stake
(1998), esse tipo de método refere-se tanto ao processo de aprendizagem sobre o
caso quanto ao produto desse aprendizado.
2.1.1. Sujeitos de pesquisa
123
Para realização da pesquisa, foram estudados dois sujeitos do sexo feminino
e na faixa etária entre 25 e 30 anos. Um deles, designado por sujeito NA, é falante
nativo do inglês americano, de San Diego, Califórnia, e residente no Brasil há sete
meses, na data da coleta dos dados. Seu primeiro contato com a língua portuguesa
foi em 2002, quando morou em uma cidade do Estado da Bahia, por um ano, como
missionária. Em 2005, retornou ao Brasil e, atualmente, trabalha como professora
de inglês em uma escola de idiomas de São Paulo. Durante a graduação nos
Estados Unidos, participou de um curso de Fonética e Fonologia do inglês. O
segundo sujeito, designado por sujeito NON, é falante nativo do português
brasileiro, considerado proficiente na língua inglesa com base no critério de uso da
língua em seu dia-a-dia. Estuda inglês desde os 12 anos, participou de dois cursos
de treinamento de professor no exterior, cursou uma especialização (lato sensu) e,
atualmente, cursa mestrado. Os dois sujeitos de pesquisa consentiram
40
que os
dados fossem incorporados ao Banco de Dados do Laboratório Integrado de
Análise Acústica e Cognição da PUC-SP (LIAAC), exclusivamente para fins
científico-acadêmicos.
2.1.2. Corpus
41
de pesquisa
O corpus de pesquisa é composto por 40 sentenças, retiradas do script do
filme Dozen by the Cheaper (Doze é Demais), que se trata de uma comédia que
lida com sentimentos enraizados em valores familiares. O personagem principal,
interpretado por Steve Martin, é Tom Baker, casado com Kate, interpretada pela
40
Para maiores informações sobre o termo de consentimento, ver anexo 1.
41
O corpus usado neste trabalho encontra-se no anexo 2.
124
atriz Bonnie Hunt. A trama se passa em uma cidade pequena, em Illinois, com seus
doze filhos.
A opção por um script escrito originalmente em inglês deu-se com o objetivo
de obter uma amostra de fala mais próxima ou representativa do que seria uma
situação de fala natural, uma vez que o script foi escrito por um nativo do inglês,
para ser falado (o filme inicia com a narração deste script pela atriz). O corpus foi
submetido a uma análise auditiva de cunho impressionista por falantes nativos e
não-nativos do inglês, proficientes nesta língua, antes da realização da gravação
pelos dois sujeitos de pesquisa. Os grupos de falantes nativos e não-nativos
concordaram quanto à representatividade do corpus de uma situação de fala em
inglês.
2.1.3. Gravação do corpus de pesquisa
As sentenças foram gravadas pelos sujeitos, por meio de uma tarefa de
leitura, no Estúdio de Rádio e TV da PUC-SP, com os cuidados necessários para
garantir a qualidade da gravação e realização das medidas acústicas. A gravação foi
monitorada pelo técnico Ernesto Foschi e realizada diretamente no computador do
estúdio: Pentium III, com 2Hd de 20 Gb cada; 256Mb de memória RAM e
processador 700MHZ. Foram utilizados ainda: microfone Sennheiser e835; mesa
Shune M267; placa de áudio Delta 44 e o software SOUND Forge 6.0 em uma taxa
de amostragem de 22.05 Hz. Da placa de som do computador, o corpus foi gravado
diretamente em CD-ROM, com a produção de cada sujeito em uma faixa.
125
Para a tarefa de leitura do corpus das 40 sentenças, pelos sujeitos, as
sentenças foram impressas em folha Canson, com padrão Courier New e em fonte
30. Cada sentença foi imprensa em uma ficha, devido à necessidade de serem
embaralhadas antes de cada leitura. Esse procedimento teve como objetivo eliminar
o efeito aprendizagem/memorização, caso as sentenças fossem apresentadas sempre
na mesma ordem, e dissipar o efeito de lista ou de ordem fixa de apresentação dos
estímulos, o qual poderia causar vieses para uma análise estatística. Além disso, se
o corpus fosse lido tal como aparece no script, ou na forma de um texto corrido,
haveria a possibilidade de uma interpretação por parte dos sujeitos, gerando
variação de ritmo, entoação, uso de acentos e pausas, os quais dificultariam tanto a
análise acústica como a comparação intra e entre-sujeitos. As sentenças foram
impressas em fichas individuais e, ao final de cada uma delas, foi colocada uma
seta para baixo (?), na tentativa de induzir o sujeito a ler cada sentença como uma
afirmação, apesar de estarmos cientes que, isto, por si só não garante que o sujeito
imponha ao texto diferentes padrões de leitura.
Foram feitas seis leituras de cada sentença para obter uma quantidade de
dados que nos permitisse realizar uma análise estatística por meio do cálculo de
média
42
, desvio-padrão
43
e coeficiente de variação
44
.
42
A média refere-se à soma dos valores obtidos nas medidas acústicas, de duração ou f0, para um mesmo segmento
acústico, nas seis repetições, seguida da divisão desta soma pelo número de segmentos.
43
O desvio-padrão refere-se a um valor que designa o quanto o valor de duração ou f0 de cada segmento,
considerado isoladamente, variou em relação à média das medidas obtidas entre as seis repetições. Quanto maior o
valor do desvio-padrão, maior a variação na produção do segmento entre as repetições, e vice versa. No que diz
respeito às medidas de duração, em específico daqueles segmentos que ocupam posições de acento na cadeia da fala,
estes podem variar mais que os segmentos que ocupam as posições não-acentuadas, uma vez que estas constituem
uma espécie de batida de referência para a construção do ritmo (alternância de batidas fortes e fracas). As medidas de
duração têm de ser submetidas a operações matemáticas, processo designado por normalização, porque variam em
função de o segmento ocupar ou não a posição de acento lexical, receber a maior proeminência do sintagma e/ou da
sentença, devido à taxa de elocução (fala rápida versus fala lenta), à topicalização ou ênfase de um determinado item
lexical, entre outros. Por isso, os dados de duração geralmente não são apresentados em seus valores absolutos,
milisegundos ou segundos.
44
O coeficiente de variação refere-se à divisão do desvio-padrão pela média e, é geralmente, apresentado em valores
percentuais, expressando a chamada variabilidade relativa.
126
2.1.4. Critérios para a análise acústica
Os dados foram digitalizados na freqüência de amostragem
45
de 22,05KHZ e
analisados no programa Praat
46
(versão 4.1.3), conforme referências de estudos e
pesquisas realizadas no Laboratório Integrado de Análise Acústica e Cognição da
PUC-SP (LIAAC). A análise fonético-acústica dos dados consistiu na obtenção e
inspeção da forma da onda, do espectrograma de banda larga e do contorno da
freqüência fundamental (f0), e na medição dos parâmetros de duração (em ms) e de
f0 (em Hz).
As medidas de duração das emissões foram feitas na forma da onda,
sincronizadas ao respectivo espectrograma de banda larga. Como critério para as
medidas de duração, foi estabelecido que a duração de cada segmento acústico teria
como referência o último pulso regular de uma vogal até o primeiro pulso regular
da vogal seguinte. Os segmentos de fala assumem características visuais (forma da
onda e espectrograma) diferentes em função de seus modos e pontos de articulação
e de serem ou não vozeados
47
. Assim, por exemplo, fricativas aparecem como
ruídos; oclusivas não-vozeadas como um espaço vazio (tempo de oclusão), seguido
de uma espícula (estouro da oclusiva), sem barra de vozeamento; vogais aparecem
como uma seqüência de linhas verticais, cada uma correspondendo a um ciclo de
45
Amostragem ocorre quando o sinal analógico é convertido em uma série de amostras, ou seja, em uma série de
números que podem ser armazenados em um computador. Esta conversão pode ser expressa com a seguinte notação:
x (n) = x (NT), onde x (n) é uma seqüência de amostras e T é o intervalo de amostra (Kent e Read, 1992).
46
O manual para iniciantes do Praat encontra-se disponível na Internet por Sidney Wood, no site
http://WWW.ling.lu.se/persons/Sidney/praate.frames.html. Para este trabalho, utilizei também uma apostila em
português sobre os pontos básicos para a utilização do PRAAT, a qual foi preparada por Ingrid Samczuk, sob
orientação da Profa. Dra. Aglael Gama Rossi.
47
Para maiores informações sobre a classificação dos sons em português e inglês, ver anexo 3.
127
abertura e fechamento das pregas vocais, e linhas horizontais mais escuras que se
referem às freqüências de ressonância do trato vocal
48
, conhecidas como formantes.
FIGURA 1: Forma da onda e espectrograma de banda larga para a frase didn’t think about that,
na fala de NA, com a etiquetação de cada segmento, em transcrição ortográfica, e, na segunda
camada, valores correspondentes de duração em ms. As freqüências formânticas das vogais estão
rastreadas pelas linhas vermelhas pontilhadas
Os valores da freqüência fundamental (f0 ou contorno entoacional) das
vogais foram extraídos, a princípio, em três pontos: início, meio e fim, com o
objetivo de observar a variação de f0, dentro da vogal mais detalhadamente na fala
de cada sujeito. Contudo, devido ao volume de medidas, optei por manter apenas o
valor extraído no meio de cada vogal. Além disso, em vários momentos, a medida
de f0 não pôde ser extraída em trechos de início ou fim da vogal.
48
Na Teoria Acústica (Fant, 1973), o trato vocal é entendido como um tubo reto, o qual apresenta em uma
extremidade os lábios e, na outra, uma fonte sonora. Na medida em que constrições se formam dentro do trato vocal,
algumas freqüências de ressonância deste tubo são realçadas em detrimento de outras. Essas freqüências são
designadas por formantes .
128
FIGURA 2: Forma da onda e espectrograma de banda larga para a frase didn’t think about that,
na fala de NA, com o contorno da freqüência fundamental (f0), em linha azul
Para dar uma idéia da quantidade de medidas, podemos tomar como exemplo
a análise das seis repetições da sentença It’s the number of times we zero out our
bank account each year, para o sujeito NA, um total de 25 segmentos x seis
repetições da sentença.
Em primeiro lugar, foram etiquetados os valores dos segmentos nas seis
repetições da mesma sentença para ambos os sujeitos. Em segundo lugar, os
valores absolutos das medidas obtidas no Praat em segundos, foram transportados
para uma planilha no Excel, e transformados em valores percentuais, por meio da
divisão da duração de cada segmento pelo valor total da sentença, multiplicado por
cem. Em seguida, foram realizados os cálculos de média, desvio-padrão, e
coeficiente de variação, para o mesmo segmento, entre as repetições da sentença,
além de gráficos para as primeiras inspeções da produção da sentença pelos
sujeitos. Abaixo segue um exemplo da montagem da planilha no Excel.
129
TABELA 1: Valores percentuais de duração, média, desvio -padrão e coeficiente de variação das
seis repetições da sentença It’s the number of times we zero out our bank account each year, na
fala de NA
NA R1 R2 R3 R4 R5 R6 média desvpad
coefvar
i 1,01 1,23 1,40 1,42 1,47 1,29 1,30 0,17 0,13
t'sth 5,31 5,07 5,88 6,06 5,05 4,91 5,38 0,48 0,09
e 1,56 2,04 1,92 1,43 1,70 1,91 1,76 0,23 0,13
n 1,93 1,95 1,85 2,34 1,93 1,86 1,98 0,18 0,09
u 2,62 2,96 2,96 2,69 2,89 3,29 2,90 0,24 0,08
mb 2,02 2,43 2,65 2,38 2,57 2,73 2,46 0,25 0,10
ero 4,95 5,46 5,74 4,58 5,25 5,21 5,20 0,40 0,08
f 1,32 1,35 1,04 1,88 1,85 1,73 1,53 0,34 0,22
t 3,98 4,27 4,21 4,28 3,69 3,79 4,04 0,25 0,06
i 4,35 5,26 3,92 5,42 4,56 4,90 4,74 0,57 0,12
m 2,71 2,38 2,88 1,49 2,27 2,86 2,43 0,53 0,22
s 3,49 3,11 4,34 3,53 4,07 3,53 3,68 0,45 0,12
we 3,85 4,53 2,82 3,65 3,15 4,05 3,67 0,62 0,17
z 4,04 3,51 2,98 3,98 3,79 3,28 3,60 0,42 0,12
eroou
17,15 14,02 14,69 14,22 12,92 13,62 14,44 1,46 0,10
our 4,19 4,52 4,80 4,49 4,29 4,58 4,48 0,22 0,05
b 2,71 2,58 2,53 3,15 3,09 2,29 2,72 0,34 0,12
a 3,32 3,24 3,59 3,38 3,55 2,89 3,33 0,25 0,08
nk 2,62 3,43 3,23 3,29 3,69 4,08 3,39 0,49 0,14
a 1,85 1,76 1,80 1,36 1,53 1,13 1,57 0,29 0,18
cc 3,48 4,01 4,06 3,76 3,70 3,82 3,81 0,21 0,06
ount 4,83 5,72 5,43 5,21 7,93 4,91 5,67 1,16 0,20
ea 4,27 3,65 3,40 3,69 2,13 4,07 3,54 0,76 0,21
ch 5,26 5,40 5,57 5,37 5,84 5,54 5,50 0,20 0,04
year 7,18 6,09 6,32 6,93 7,08 7,74 6,89 0,60 0,09
130
O mesmo foi realizado para as medidas de f0, as quais foram obtidas, sempre
que possível, em três pontos da vogal, início, meio e fim. As medidas de f0 não têm
sido, nos estudos acústicos, submetidas à processos de normalização como as
medidas de duração, e, por isso, permanecem em Hz, que correspondem aos seus
valores absolutos.
f0
NA R1 R2 R3 R4 R5 R6
i 191 202 185 197 197 190
i 186 202 187 197 197 188
i 184 198 189 199 204 184
e 198 229 203 207 206 207
e 193 226 203 209 205 199
e 191 221 202 208 204 199
u 200 221 207 211 204 201
u 200 221 209 213 205 205
u 210 226 213 220 210 216
ero 242 245 240 244 231 234
ero 241 236 244 246 230 240
ero 230 228 231 236 227 234
i 225 226 216 208 221 202
i 200 207 202 204 205 186
i 207 214 204 207 201 182
we 187 194 194 187 186 174
we 189 205 202 195 193 177
we 184 186 188 188 186 170
eroout 189 188 189 184 180 176
eroout 195 188 192 192 185 193
131
eroout 187 182 183 181 180 180
our 188 185 183 182 180 181
our 181 179 185 177 176 176
our 178 176 184 176 176 173
a 177 178 178 167 172 171
a 171 175 172 161 164 160
a 169 179 173 159 164 158
a 187 187 177 180 166 167
a 179 181 172 177 159 158
a 172 176 164 171 156 156
ount 171 178 175 178 178 154
ount 152 154 152 151 144
ount 154 206
ea 147 232
ea 157 146 148 154
ea 161 143 161 165 154 155
year 172 161 167 150 157
year 150 141 137
year 151 151 149 151 157
TABELA 2: Valores de f0, medidos nas porções inicial, medial e final, das vogais das seis
repetições da sentença It’s the number of times we zero out our bank account each year, na fala
de NA. As células em branco correspondem aos locais nos quais não puderam ser extraídos os
valores de f0
Segundo Eysenck e Keane (1994), a leitura é aparentemente uma atividade
simples e fácil para a maioria dos adultos. Alguns dos aspectos envolvidos na
leitura dizem respeito à identificação e à extração de significado de palavras
individuais. Outros processos operam no nível da frase ou da sentença. Os
movimentos dos olhos fornecem informações úteis sobre alguns dos processos
básicos envolvidos na leitura.
132
A fixação no texto é alternada por movimentos rápidos dos olhos conhecidos
por sacadelas. A informação é extraída do texto apenas durante os períodos de
fixação e, em geral, é obtida não somente da palavra que está sendo fixada, mas de
uma ou duas palavras à direita do ponto de fixação.
A amplitude da percepção (= campo de visão efetivo) é afetada até certo
ponto pela dificuldade do texto, pelo tamanho da impressão. Tal informação parece
se relacionar bastante com as letras da palavra ou palavras não-fixadas. A maior
parte do processamento de cada palavra ocorre durante o tempo em que ela é
inicialmente fixada. O reconhecimento da palavra ocorre depois que a identificação
das letras que a constituem esteja completa.
Uma vez que a leitura se dá mediante estes processos, será levado em conta,
na análise dos dados o fato de o sujeito não-nativo utilizar estratégias diferentes de
modo a manter sua fluência na língua estrangeira. Uma das estratégias utilizadas
por NON parece ser a de divisão da sentença em um número maior de frases
entoacionais, em comparação a NA. Isto será mostrado e discutido na análise de
dados.
1
33
Este capítulo tem como objetivo caracterizar os aspectos segmentais e
prosódicos de um corpus de sentenças em inglês lidas por um sujeito nativo do
inglês americano e por um falante do português brasileiro, proficiente em língua
inglesa. Esta caracterização será feita com o apoio da análise acústica. Desta forma,
os dados receberão tanto um tratamento qualitativo, por meio de espectrogramas,
seguidos da discussão de diferenças e semelhanças observadas entre a produção dos
falantes, como também uma interpretação quantitativa, por meio de tabelas e
gráficos.
As sentenças analisadas neste capítulo foram escolhidas com base nos
processos fonético-fonológicos descritos por Levelt (1998), apresentados no
capítulo 1, com vistas a tratar a relação entre a produção de sons e a prosódia. Em
alguns momentos, foram analisados trechos de algumas sentenças, e, nestes casos,
as repetições foram escolhidas aleatoriamente para análise e a mesma repetição
para cada um dos sujeitos contemplados neste estudo. Devido à extensão do corpus
e ao tempo para a realização do mestrado, foi necessário fazer um recorte dos dados
colhidos para análise. Novos estudos poderão ser feitos, visto que, os dados
passaram a fazer parte do Banco de Dados do LIACC.
Na inspeção espectrográfica do falante nativo (NA), para a sentença But we
didn’t think about that, notamos que, ocorre o desaparecimento da oclusiva alveolar
não-vozeada /t/
49
que, por sua vez, propicia a juntura externa entre but e we [?wi]
50
,
49
A consoante /t/ é classificada como oclusiva, porque, durante sua produção, ocorre oclusão ou obstrução completa
da passagem da corrente de ar pelo trato vocal, a partir do contato entre a ponta da língua e os alvéolos (que se
localizam na parte imediatamente atrás dos dentes superiores). A oclusiva alveolar /t/ é desvozeada (as pregas vocais
se encontram separadas e não ocorre vibração delas), e é produzida, em inglês, com aspiração, (fluxo mais forte da
corrente de ar, que sai dos pulmões após a soltura da obstrução e antes do início da vogal), em início de palavra e em
posição acentuada, o que não ocorre em português.
50
São usados colchetes para a transcrição de sons que foram produzidos, e barras quando nos referimos a fonemas,
ou seja, a uma forma abstrata do som, antes de ele cair na cadeia da fala. Em muitos momentos, foi adotada
transcrição ortográfica, em itálico, como forma de simplificação.
134
formando um grande ditongo
51
.
FIGURA 1: Repetição 1 de But we por NA
Ao contrário do que foi mostrado para o falante NA (figura 1), o falante não-
nativo (NON), em sua primeira repetição da sentença (figura 2), produz a
consoante oclusiva alveolar [t], o que impede o aparecimento da juntura externa
entre but e we. A duração da oclusiva alveolar [t] de but, na fala de NON, na
primeira e na segunda repetições, apresenta o mesmo valor (70ms), apesar de a
duração entre o estouro do [t] e o início do ditongo [we], diminuir respectivamente,
de 29ms para 18ms
52
. Na terceira repetição de NON, ocorre o desaparecimento da
51
Devido ao fato de a consoante oclusiva bilabial vozeada /b/ aparecer no início da sentença, não é possível extrair
sua duração, uma vez que não há uma vogal anterior a ela que sirva como referência.
52
O “vozeamento é o som ‘zumbido’, que pode ser ouvido quando as pregas vocais na laringe vibram” (Laver, 1995)
Voice Onset Time (VOT) é o tempo de início de sonorização. Costuma-se dividir a medida de VOT em três domínios
(Lisker e Abramson, 1964 apud Laver, 1994), que correspondem às categorias fonéticas e fonológicas das oclusivas
sonoras, oclusivas surdas sem aspiração e oclusivas surdas com aspiração: (1) oclusivas sonoras, caracterizadas por
barra de sonoridade em que o vozeamento é anterior à liberação da oclusão (VOT de -125 a -75ms); (2) oclusivas
surdas sem aspiração, caracterizadas por intervalo curto ou simultâneo, em que o vozeamento é simultâneo ou dá-se
logo após a liberação da oclusão (VOT de 0 a +25ms); (3) oclusivas surdas com aspiração, caracterizadas por
intervalo longo, em que o espaço de tempo entre a liberação da oclusão e o início da vogal é superior a 60 ms (VOT
de +60 a + 100ms).
135
oclusiva alveolar não-vozeada [t], e, por conseguinte, a juntura externa entre but e
we [?wi].
FIGURA 2: Repetição 1 de But we por NON
Um aspecto importante da produção da oclusiva alveolar não-vozeada, por
NON, desde o início, refere-se à visualização de uma barra de voz durante o tempo
de oclusão desta consoante, além do fato de que esta barra de voz tem uma
amplitude muito alta em relação àquela de uma oclusiva vozeada. Talvez esta seja
uma estratégia de NON para chegar, na terceira repetição, ao desaparecimento de
[t] e à juntura externa [b?wi]
53
. Isto mostra que há um conhecimento subjacente,
por parte de NON, com relação à aplicação de processos fonético-fonológicos da
fala corrente em inglês. Contudo, parece ser necessário um tempo para que esse
conhecimento seja atualizado e acomodado. Vale lembrar ainda que cada repetição
53
Na fala de NON é possível observar a barra de voz da oclusiva [b], mesmo quando esta se encontra em início da
frase.
136
da sentença ocorre numa ordem aleatória em relação às demais, isto porque as
sentenças foram digitadas individualmente em fichas que eram embaralhadas antes
de cada repetição (leitura do corpus). Considerando a ordem aleatória e o fato de
que o corpus é formado por 40 sentenças, não é possível explicar a produção de
NON nas três primeiras repetições apenas por fatores de aprendizagem e memória.
Este desempenho só pode ser atribuído a um conhecimento implícito da língua
inglesa.
FIGURA 3: Repetição 2 de But we por NON
137
FIGURA 4: Repetição 3 de But we por NON
FIGURA 5: Repetição 1 de times por NON
Comparando-se as produções de NON para a oclusiva alveolar não-vozeada
[t], na figura 2, referente à produção em but, na sentença But we didn’t think about
138
that, com a palavra times, na figura 5, da sentença It’s the number of times we zero
out our bank account each year, podemos observar o que foi dito em relação ao
fato de que não há barra de vozeamento ou atividade laríngea no tempo de oclusão
de [t], conforme visto desde a repetição 1 de NON, em but we (figura 2).
Na produção da sentença It’s the number of times we zero out our bank
account each year, pelo sujeito NA, na figura 6, correspondente à primeira
repetição, é possível observar um outro processo fonético-fonológico, que se refere
à juntura externa entre (zero) out + our (bank). Ocorre a implementação da regra de
transformação dos segmentos /t/ e /d/ no flap [r], pelo fato de estarem entre vogais
(out our? ou[r]our). Este processo geralmente é denominado de flapping ou
tapping, e ocorre não apenas na juntura entre palavras, mas também dentro de
palavras (letter? le[r]er ou ladder? la[r]er).
FIGURA 6: Repetição 1 de zero out por NA
Segundo Cristófaro-Silva (2005), isto acontece no contexto fonético em que
a vogal anterior ao [t] ou [d] é tônica (ou acentuada) e a vogal seguinte é átona (ou
139
não-acentuada). Em relação à produção de NA, o contexto que desencadeou o
processo de flapping ou tapping foi a sequência entre uma palavra de conteúdo
(zero out), acentuada, seguida de uma palavra gramatical (our), não-acentuada, o
que deu origem a uma única palavra fonológica [zI?.r?w.awt.awr?
zI?.r?w.aw.rawr]. Segundo Levelt (1998), o processo desencadeado pela
cliticização (a juntura da palavra gramatical à palavra de conteúdo à esquerda), gera
a ressilabificação [awt.awr? . aw.rawr].
FIGURA 7: Repetição 1 de zero out our por NON
Em contrapartida, nas seis repetições da mesma sentença pelo sujeito NON,
o processo de flapping não é observado, como exemplificado na figura 7, na qual
permanece o /t/ de out, produzido como a africada [?], com duração de 147ms. Na
140
segunda, terceira e quarta repetições, os valores obtidos para a africada [?] foram,
respectivamente, 155ms, 150ms e 219ms. Entretanto, nas repetições 4 (219ms), 5
(270ms) e 6 (273ms) foram introduzidas pausas entre [?] e [our] com os seguintes
valores: 54ms, 61ms e 45ms. Vale notar que [our] tem sempre a mesma duração,
150ms, com exceção da primeira repetição, 226ms.
FIGURA 8: Repetição 5 de ero out our por NON
A inserção da pausa extrínseca,
54
nas três últimas repetições, sugere que o
sujeito NON tenha tratado zero out e our bank account como frases entoacionais
diferentes. Analisando os gráficos 1 e 2, que mostram a evolução do contorno da
freqüência fundamental (f0), medida nos pontos inicial, medial e final de cada
vogal da sentença It’s the number of times we zero out our bank account each year,
podemos perceber que o contorno apresenta pouco movimento na fala de NA entre
54
Laver (1994) define a pausa extrínseca (silenciosa) como um período de inatividade vocal, de uma certa duração,
embutido no fluxo da fala, embora para ele a pausa extrínseca (silenciosa) teria o valor mínimo de 200ms.
141
as seis repetições, com um pico em number of, caindo lentamente até o final. Ao
contrário, para NON, observa-se um maior movimento do contorno de freqüência
fundamental, com a formação de três picos: em number of, zero out e bank account.
A diferença entre os contornos de f0 de ambos os sujeitos sugere que NA
provavelmente dividiu a sentença em duas frases entoacionais: //It’s the number of
times //we zero out our bank account each year//, enquanto NON parece ter
dividido-a em três: //It’s the number of times // we zero out// our bank account each
year//. A inserção da pausa por NON pode ter determinado a diferença de divisão
em frases entoacionais por ambos os sujeitos
É interessante notar que a variação do contorno de f0 é muito semelhante
entre as diferentes sentenças do corpus, produzidas por NA, quando se observa um
pico no início do contorno (pitch accent ou acento de pitch) e uma queda leve e
constante até o final. Isto parece constituir um padrão que NA impõe à leitura das
sentenças declarativas/afirmativas (as quais, nas fichas em que foram apresentadas
para a tarefa, terminam com uma seta para baixo, sugerindo ao sujeito que deve
haver o decaimento da entoação ou do f0). Em relação a NON, observa-se que as
sentenças são divididas em mais frases entoacionais. Na sentença acima, a
introdução de uma pausa ocasionou a divisão entre zero out e our bank account
each year. Não se pode afirmar até que ponto isto tenha sido o efeito de uma
estratégia empregada por NON, na tarefa de lidar com a leitura de sentenças mais
longas.
Outra diferença que pode ser observada no contorno de f0 (gráficos 1 e 2), na
produção da mesma sentença, refere-se à juntura externa entre bank e account (ban.
ka.'count). Na fala de NON, percebe-se, auditivamente, o deslocamento do acento
142
lexical de account (?'kawnt) para a esquerda [bæ?.'k?.kawnt]. No gráfico 2, a
seqüência de vogais de account aparecem como um platô, com os mesmos valores
de f0, ao passo que a vogal de bank situa-se num valor mais baixo que as de
account. Assim, a vogal pré-tônica de account que se juntou ao [k] do monossílabo
bank, formando uma nova sílaba, tem valor de f0 tão alto quanto a tônica ount. O
mesmo não foi observado na fala de NA [bæ?.k?.'kawnt], na qual se observa uma
linha leve e continuamente descendente no trecho we zero out our bank account
(ver gráfico 1). Podemos observar, conforme tabelas 1 e 2, que os valores de f0 de
our bank account são menores na fala de NA que na fala de NON.
FIGURA 9: Repetição 6 de bank account por NA
143
FIGURA 10: Repetição 6 de bank account por NON
Gráfico 1 - valores de f0 (Hz) medidos em três pontos das
vogais da sentença "It's the number of times we zero out
our bank account each year" para NA
0
50
100
150
200
250
300
350
400
450
i e um ero i we eroou our a a oun ea year
R1 R2
R3 R4
R5 R6
144
f0
NA R1 R2 R3 R4 R5 R6
our 188 185 183 182 180 181
our 181 179 185 177 176 176
our 178 176 184 176 176 173
a 177 178 178 167 172 171
a 171 175 172 161 164 160
a 169 179 173 159 164 158
a 187 187 177 180 166 167
a 179 181 172 177 159 158
a 172 176 164 171 156 156
ount 171 178 175 178 178 154
ount 152 154 152 151 144
ount 154 206
TABELA 1: Valores de f0 nas porções inicial, medial e final das seis repetições de our bank
account da sentença It’s the number of times we zero out our bank account each year na fala
de NA
Gráfico 2 - valores de f0 (Hz) medidos em três pontos das
vogais da sentença "It's the number of times we zero out
our bank account each year" para NON
0
50
100
150
200
250
300
350
400
450
i e um ero i e we eroou our a a oun ea year
R1 R2
R3 R4
R5 R6
145
f0
NON R1 R2 R3 R4 R5 R6
our 264 263 245 237 245
our 244 227 225 216 233
our 245 223 222 217
a 251 219 237 215 225 227
a 232 220 237 217 225 216
a 235 247 239 229 232 234
a 313 308 297 270 286 304
a 301 305 295 267 285 307
a 294 296 282 266 283 302
oun 300 257 250 255 267
oun 249 230 227 211 224 228
oun 245 248 243 228 238 241
TABELA 2: Valores de f0 nas porções inicial, medial e final das seis repetições de our bank
account da sentença It’s the number of times we zero out our bank account each year na fala
de NON
Os gráficos da produção das vogais (3 e 4) e das consoantes (5, 6), por NA e
NON, contêm como informação a média entre as seis repetições das durações dos
segmentos em valores percentuais
55
, ao invés de valores absolutos (ms), como
forma de reduzir os fatores que podem interferir nas medidas de duração: acento
6
Os valores percentuais referem-se a uma forma de normalizar os valores absolutos da duração medida em
miléssimos de segundos ou segundos. A percentagem de cada segmento é calculada em relação à duração total da
frase.
146
lexical, taxa de elocução
56
, entre outros. Os valores das médias aparecem no eixo à
esquerda (do leitor).
Foram também calculados os valores de desvios-padrão, a partir dos valores
percentuais, para obter um índice da variabilidade dos segmentos, uma vez que esta
medida se refere a quanto o valor de cada segmento variou em relação à média das
seis repetições. Valores percentuais mais altos indicam uma maior distensão do
segmento no tempo, originalmente medido em segundos no Praat. Por outro lado,
valores baixos indicam um “encolhimento” do segmento no tempo. Assim, valores
altos são observados em posição de acento, ao passo que valores baixos são
observados em posições átonas, ou não-acentuadas, sujeitas aos processos que
afetam palavras contíguas, tais como: juntura externa, cliticização e ressilabificação
(Levelt, 1998).
Gráfico 3 - média e desvio-padrão para as vogais da
sentença "It's the number of times we zero out our bank
account each year" para NA
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
média
1,3 1,8 2,9 5,2 4,7 3,7 14 4,5 3,3 1,6 5,7 3,5 6,9
desvpad
0,2 0,2 0,2 0,4 0,6 0,6 1,5 0,2 0,3 0,3 1,2 0,8 0,6
i e u ero i we
eroo
u
our a a oun ea year
56
Conforme a nota 26, taxa de elocução, traduzida da expressão speech rate, refere-se ao número ou quantidade de
segmentos acústicos que o falante produz num dado tempo; daí sua diferença com o que normalmente é designado
por velocidade de fala. Assim, a taxa de elocução pode ser alta (“velocidade rápida”) ou baixa (“velocidade lenta”).
147
Gráfico 4 - média e desvio-padrão para as vogais da
sentença "It's the number of times we zero out our bank
account each year" para NON
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
média
1,1 1,5 2,4 3,0 3,9 1,7 3,8 9,8 3,4 1,8 2,0 5,1 2,0 6,4
desvpad
0,2 0,5 0,7 1,0 1,8 1,3 1,1 4,3 1,1 0,7 1,6 0,8 0,4 1,0
i e um ero i e we
eroo
u
our a a oun ea year
Na comparação entre NA e NON, para duração (gráficos 3 e 4), em valores
percentuais das vogais da sentença It’s the number of times we zero out our bank
account each year, são observados, na fala de NA, dois picos de desvio-padrão, um
sobre zero out e outro sobre -ount de account, enquanto para NON, são encontrados
picos de desvio-padrão sobre: a vogal “i” de times, em zero out, a vogal “a” de
account, na juntura externa desta com bank. Os picos de desvio-padrão, nos
gráficos de duração das vogais, referem-se aos locais de acento, nos quais as
durações podem ser distendidas diferentemente a cada produção. A posição de
acento é o local de variação da duração. Por outro lado, na posição não-acentuada,
os segmentos apresentam valores baixos de desvios-padrão, constituindo as batidas
de referência para manutenção do ritmo (Albano, Barbosa, Gama-Rossi, Madureira,
e Silva, 1998). Valores baixos de desvios-padrão de um segmento numa posição
não-acentuada indicam ainda que a duração acústica reflete uma precisão na
produção articulatória do segmento entre repetições (“acerto” no mesmo alvo).
148
Comparando os gráficos 1 e 3 de NA para as medidas de f0 e duração da
sentença It’the number of times we zero out our bank account each year, observa-
se que NA realiza um contorno de f0 muito semelhante entre os segmentos, com
um ligeiro pico em number of. Por outro lado, no gráfico 3 referente à duração das
vogais em valores percentuais da mesma sentença, NA apresenta um pico de
desvio-padrão (característico de posição de acento) em eroou e, outro, sobre oun de
account. É interessante observar que os valores de desvios-padrão das durações das
vogais entre estes dois picos são muito baixos, indicando que provavelmente tais
vogais constituíram batidas de referência para construção do ritmo. Nas vogais que
antecedem ao pico de desvio-padrão em zero out, observa-se um ligeiro e gradual
aumento até antes deste pico. NON, por sua vez, apresenta uma variação de
contorno de f0 (pitch accents ou acentos de pitch) de acordo com a divisão de
frases entoacionais que se pode impor à sentença, ou seja, NON parece explorar
mais as possibilidades de divisão da sentença em frases entoacionais.
Na comparação entre os gráficos 3 e 4, observamos que NA apresenta
valores de duração maiores para todas as vogais, com exceção de a de account, em
comparação a NON. Contudo, esta apresenta valores de desvios-padrão mais altos
para quase todas as vogais. Na produção da vogal a de account, observamos um
desvio-padrão maior na fala de NON (1,6) que na de NA (0,3), provavelmente em
função de um deslocamento, na fala de NON, do acento lexical de acCOUNT para
[bæ??k?.kawnt]. É possível que NON tenha produzido um acento paroxítono, o
que é característico do português brasileiro, principalmente, dos trissílabos (Gama-
Rossi e Silva, 2001).
149
Observando mais atentamente a produção de segmentos consonantais e
vocálicos, constatamos a inserção do segmento [I], transcrito ortograficamente
como [e], em times, para NON. É interessante notar que em number of (ero) há um
maior alongamento na fala de NA (5,2%) que na fala de NON (3%). Por outro lado,
o desvio-padrão ou a variação entre as repetições é maior na fala de NON (1%) que
na fala de NA (0,4%); o mesmo ocorre em relação ao eroou de zero out, com
duração maior na fala de NA (14%) que de NON (9,8%), e desvio-padrão maior na
fala de NON (4,3%) e (1,5%) para NA. Notamos também que a produção da vogal
an de bank é maior para NA (3,3%) que para NON (1,8%); porém, o desvio-padrão
é menor na fala de NA (0,3%) que na de NON (0,7%). Ressaltamos que aquilo que
foi chamado de deslocamento de acento para a esquerda pode ser visto nos valores
de desvios-padrão de NA e NON, em account, respectivamente, [a]=0,3% e
[oun]=1,2% e [a]=1,6% e [oun]=0,8%.
Até o momento, a comparação entre os dois sujeitos para a sentença It’s the
number of times we zero out our bank account each year examinou fenômenos
relacionados à sua organização prosódica, tais como: a formação ou não de junturas
externas, a criação de frases entoacionais, a introdução de pausa e o deslocamento
do acento. No entanto, é óbvio que esses fenômenos prosódicos surgem da
aplicação ou não de regras fonético-fonológicas, o que ocorre no nível do segmento
(Albano et.alii, 1998).
Outros processos são observados nos gráficos 5 e 6, colocados abaixo, na
produção das consoantes da sentença It’s the number of times we zero out our bank
account each year, por NA e NON.
150
Gráfico 5 - média e desvio-padrão das consoantes da
sentença "It's the number of times we zero out our bank
account each year" para NA
0,0
2,0
4,0
6,0
8,0
10,0
12,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
média
5,4 2,0 2,5 1,5 4,0 2,4 3,7 3,6 2,7 3,4 3,8 5,5
desvpad
0,5 0,2 0,3 0,3 0,3 0,5 0,4 0,4 0,3 0,5 0,2 0,2
t'sth n mb f t m s z b nk cc ch
Gráfico 6 - média e desvio-padrão das consoantes da
sentença "It's the number of times we zero out our bank
account each year" para NON
0,0
2,0
4,0
6,0
8,0
10,0
12,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
média
5,9 2,0 2,4 2,5 3,8 1,5 3,5 6,5 4,5 2,4 1,6 1,5 4,3 5,8 4,7
desvpad
1,7 0,2 1,3 0,9 0,6 0,7 0,8 4,4 1,3 0,2 0,5 0,4 0,7 2,0 0,2
t'sth n b f t m s z t b n k cc t ch
NA produz menos consoantes que NON e apresenta valores de desvios-
padrão que tendem a zero, ao passo que NON apresenta valores de desvios-padrão
indicativos de maior variabilidade. NA “apaga” ou reduz o segmento [t] em out e
151
account, enquanto NON o produz com duração e desvio-padrão consideráveis ([t]
de out, média=4,5% e desvio-padrão=1,3%; [t] de account, média=5,8% e desvio-
padrão=2%).
No gráfico 6, referente à média das produções dos segmentos consonantais
por NON, observam-se valores maiores de duração e variabilidade das consoantes
fricativas [z] de zero out e de f em of. Para a consoante [z], NA apresenta
média=3,6% e desvio-padrão=0,4%; enquanto NON apresenta média=6,5% e
desvio-padrão=4,4%. Para a consoante f, NA apresenta média=1,5% e desvio-
padrão de 0,3%, ao passo que NON apresenta média=2,5% e desvio-padrão de
0,9%. Como as fricativas são segmentos produzidos com uma constrição parcial do
trato vocal, estão sujeitas a valores variáveis de alongamento no tempo, e, portanto,
maior variabilidade. Por isso elas se destacam diferentemente das demais
consoantes na aquisição da fala pela criança (Gama-Rossi, 1999) e, no caso dos
dados aqui apresentados, na produção de uma língua estrangeira por um adulto. A
maior variabilidade na produção das fricativas pode ser indicativa de uma menor
precisão na produção segmental, que por sua vez, afeta a produção rítmica.
Em suma, a produção segmental das falas de NA e NON apresenta
diferenças quanto: deslocamento do acento lexical para sílaba pré-tônica formada
na juntura entre duas palavras, redução ou manutenção de segmentos consonantais,
diferenças de variabilidade apontadas nos valores de desvios-padrão, o que sugere
também diferenças entre a organização rítmica das produções dos dois sujeitos.
Esta diferença também pode ser observada quanto à variação do contorno da
freqüência fundamental (f0) ou curva entoacional, parâmetro acústico mais
importante para o estudo da entoação.
152
Conforme Celce-Murcia et alii (1996), o contorno entoacional da sentença
declarativa/afirmativa, em inglês, é marcado por uma curva descendente,
caracterizando-se por um declínio da freqüência fundamental, o qual pode ser
observado no gráfico 7, referente à sentença But we didn’t think about that,
enunciada por NA.
Gráfico 7 - valores de f0 (Hz) medidos em três pontos das
vogais da sentença "But we didn´t think about that" para NA
0
50
100
150
200
250
300
350
400
uwe uwe uwe idn' idn' idn' in in in a a a ou ou ou a a a
R1 R2
R3 R4
R5
R6
FIGURA 11: Contorno da freqüência fundamental no padrão entoacional da modalidade
declarativa de but we didn’t think por NA
153
No contorno da freqüência fundamental (f0) de but we didn’t think emitido
por NA (figura 11)
57
, em situação de leitura, observamos que f0 começa a subir no
segmento /u/ da sílaba but e se mantém alto na sílaba we. A partir de /idn’t/ da
palavra didn’t, há uma descida gradual até /in/ da palavra think, o que, nesse
exemplo, é visto como um platô; ocorre uma elevação de f0 no segmento [a] de
about, seguida de uma descida gradual até [a] de that
58
.
Em contrapartida, no contorno da freqüência fundamental (f0) de but we
didn’t think, emitida por NON (figura 12), também em situação de leitura,
observamos que há um platô de f0 em uwe, um movimento rápido ascendente em
idn’t, e um declínio de f0 em in da palavra think. O movimento ascendente e brusco
de f0 no final de that é um efeito de microprosódia, ou seja, da influência da
consoante seguinte sobre a vogal desta palavra. Os contornos de f0 (gráficos 7 e 8)
mostram que a sentença But we didn’t think about that foi tratada como uma única
frase entoacional, //But we didn’t think about that//, para NA, com um único pico
de proeminência sobre but we didn’t. Na produção de NON, tanto o gráfico 8
quanto o espectrograma (figura 12) mostram um pico alto de proeminência sobre
didn’t e um pico menor sobre a de about, o que pode sugerir que NON tenha
tratado a sentença como duas frases entoacionais: //But we didn’t think// about
that//, uma vez que, intuitivamente, about that parece ser uma expressão de uso
freqüente, e neste sentido, tratada em si como uma frase.
57
Os espectrogramas das figuras 11 e 12 apresentam uma camada além daquela de etiquetamento. Nesta camada, as
barras dentro de cada etiqueta dos segmentos vocálicos demarcam os locais (início, meio e fim) de onde foram
extraídos os valores de f0.
58
Pelo fato de NA apresentar uma voz mais agravada a extração do contorno da freqüência fundamental foi feita
dentro da faixa de 100 a 300Hz. A queda brusca do contorno de a de that ocorre devido a uma qualidade de voz
semelhante a uma voz rangida, com um espaçamento maior entre os ciclos de abertura e fechamento das pregas
vocais.
154
FIGURA 12: Contorno da freqüência fundamental no padrão entoacional da modalidade
declarativa de but we didn’t think por NON
Gráfico 8 - valores de f0 (Hz) medidos em três pontos das
vogais da sentença "But we didn´t think about that" para NON
0
50
100
150
200
250
300
350
400
u u u we we we i i i n' n' n' in in in a a a ou ou ou a a a
R1 R2
R3 R4
R5 R6
Na seqüência, será discutida a produção de is still our, na sentença Sure,
twelve is still our number, por ambos os sujeitos. A consoante /s/ é classificada
como fricativa alveolar desvozeada, pois, durante sua produção, há um fechamento
parcial do trato vocal, no contato da língua com os alvéolos e, quando o ar passa
por este estreitamento, produz um ruído semelhante a fricção. Em inglês, de acordo
155
com Nunes (1987), quando o fone [s] ocorre em início de palavra, há uma
tendência por parte do falante brasileiro de inserir a vogal [i] antes dele, no
chamado grupo assilábico
59
. A autora realizou um estudo do aspecto fonotático de
grupos assilábicos iniciais e finais, em inglês e português, analisando cada sistema
fonológico separadamente e desenvolvendo um trabalho contrastivo. Em ambos os
sistemas fonológicos, observou a existência de dois grandes grupos de fonemas: o
silábico ou central (N), correspondente à vogal ou fonema de maior grau de
vozeamento (nasais e líquidas) e o assilábico, subdividido em marginal inicial (MI)
e final (MF).
No que diz respeito aos grupos assilábicos marginais iniciais (ou que
constituem o ataque da sílaba, que pode ou não ser ramificado), Nunes (op. cit.)
afirma que, em português, não há as seqüências /sp, st, sk, sf/ na margem inicial
dos grupos assilábicos e, devido a essa diferença fonotática entre português e
inglês, o falante brasileiro de inglês tende a transformar tal seqüência em uma
sílaba com núcleo (N). A autora cita como exemplo a palavra spray, monossilábica
em inglês /sprey/, mas produzida pelo falante brasileiro em uma dissolábica
/is.prey/, o que ocorre pela inserção da vogal /i/ no início do grupo assilábico.
Para os grupos assilábicos marginais finais, Nunes (op. cit.) refere que, o fato
de não haver em português ocorrências isoladas dos fonemas
/p,t,k,b,d,g,f,v,ð,z,?,m,n,?/, na margem final da sílaba, pode levar brasileiros,
falantes de inglês, a inserir um fonema silábico, ou seja, uma vogal, e, por
conseguinte, criar mais uma sílaba. Isto é o que ocorre em palavras tais como: tape
59
Um grupo assilábico é definido como sendo um agrupamento de fonemas marginais, os quais podem ocorrer tanto
em posição pré-silábica (speak), quanto em posição pós-silábica (stamp) (Nunes, 1987).
156
/teypi/, cat /kæti/, book /bUki/, five /fayvi/, com a inserção do fonema assilábico /i/
na margem final.
Na inspeção espectrográfica de NON, para a sentença Sure, twelve is still our
number, há a inserção da vogal [i] na sílaba still [s?iw], formando uma palavra
dissilábica [iS.?iw]. Deve-se levar em conta que o contexto fonético
60
is still
propicia o aparecimento do /i/ antes de still, uma vez que, o /s/ em still está ladeado
por uma fricativa e por uma africada. É interessante notar que a seqüência is still
forma a palavra /i.ziS.?iw/, pertencente ao dialeto paulistano em PB.
FIGURA 13: Repetição 1 de is still por NON
60
Para uma explicação à luz da Fonologia Acústico-Articulatória, veja Albano (2001:80-5).
157
Em contrapartida, na produção das seis repetições, da mesma sentença, pelo
sujeito NA, não houve a inserção da vogal [i] antes do [s] na sílaba still, sendo
mantida a palavra monossilábica [s?iw], como exemplificado na figura 14.
FIGURA 14: Repetição 1 de is still por NA
Foi pesquisada a produção de um outro grupo assilábico, /sm/, com o intuito
de verificar se o /i/ ocorria antes de /s/, uma vez que, neste caso, este último era
ladeado por nasais (having a small), uma vez que o /a/ pode não ser reduzido.
Então, examinamos a palavra small nas seis repetições da sentença Twelve is an
insane number of kids, but having a small family was never an option for us.
Observamos que, em nenhuma repetição, NON produz a nasal velar vozeada /?/ no
verbo having [hævI?], a qual seria articulada em inglês, mas, em PB, apenas
nasalizaria a vogal anterior. Porém, na produção de NON, observa-se: (1) o
desaparecimento ou a redução de [a] antes de small; (2) um alongamento
considerável da vogal [i] de ing, sem qualidade nasal. Com isso, nesse contexto
158
fonético, foi difícil observar se [i] é ou não introduzido antes de small, pois com a
redução de [a], small seguiu-se a [i].
FIGURA 15: Repetição 3 de having small por NON
Por sua vez, nas seis repetições da sentença Twelve is an insane number of
kids, but having a small family was never an option for us, NA não produz a vogal
[i] antes do grupo assilábico /sm/ da palavra small. Observa-se a produção da
consoante nasal /?/ do verbo having [hævI?], a juntura externa entre having e a,
formando, uma palavra trissilábica [hæ.vI.?a], e a pronúncia da vogal [i] do verbo
having com uma duração muito menor que aquela encontrada na fala de NON.
Assim, nas tabelas abaixo do espectrograma de NA (figura 16), mostramos as
durações dos segmentos da seqüência ing a small na fala dos dois sujeitos.
159
FIGURA 16: Repetição 3 de having a small por NA
NA i ng a sm Total
R1 (ms) 52 60 65 185 362ms
R1 (%) 14 17 18 51 100%
R2 (ms) 76 53 61 178 368ms
R2 (%) 21 14 17 48 100%
R3 (ms) 62 52 71 188 373ms
R3 (%) 16 14 19 51 100%
R4 (ms) 51 39 80 189 359ms
R4 (%) 14 11 22 53 100%
R5 (ms) 50 56 67 156 329ms
R5 (%) 15 17 20 48 100%
R6 (ms) 49 60 73 180 362ms
R6 (%) 13 17 20 50 100%
Média 57 54 70 179 359
160
DesvPad 11 8 6 12 15
Coefvar 20 15 9 7 4%
TABELA 3 Valores de duração em ms e % para os elementos da seqüência i, ng, a
e sm de having a small, com média, desvio-padrão e coeficiente de variação para NA
NON ing sm Total
R1 (ms) 214 137 351ms
R1 (%) 60 40 100%
R2 (ms) 210 138 348
R2 (%) 60 40 100%
R3 (ms) 233 140 373
R3 (%) 63 37 100%
R4 (ms) 222 153 375
R4 (%) 59 41 100%
R5 (ms) 186 151 337
R5 (%) 55 45 100%
R6 (ms) 263 148 411
R6 (%) 64 36 100%
Média 221 145 366
DesvPad 26 7 27
Coefvar 12 5 7%
TABELA 4 Valores de duração em ms e % para os elementos da seqüência ing e
sm de having a small, com média, desvio-padrão e coeficiente de variação para NON
Considerando os dados apresentados nas tabelas acima, podemos concluir
que: não há variação intra-sujeito, o que pode ser verificado pelos valores de média,
desvio-padrão e coeficiente de variação, principalmente dos valores percentuais,
161
que já reduziram fatores de variação em relação aos valores absolutos em ms.
Assim, -ing, em NON, apresenta média de 60% (da seqüência ing sm-), com
desvio-padrão de 3%, e coeficiente de variação de 5%. NA, por sua vez, quando se
considera apenas i (de ing), apresenta média de 15%, desvio-padrào de 3% e
coeficiente de variação de 2%. Embora a média seja maior na fala de NON, sua
variação dada pelo desvio-padrão é a mesma (3%) que a de NA, entre repetições.
Quando somamos os valores percentuais de i e ng, para compará-los ao de
NON, a princípio medidos separadamente na fala de NA, obtivemos média de 34%,
desvio-padrão de 2% e coeficiente de variação de 7%.
A comparação entre NON e NA para os valores percentuais de duração do
grupo assilábico sm entre as seis repetições mostrou média maior para NA (50%)
que para NON (40%). Entretanto, o desvio-padrão e o coeficiente de variação
foram menores para NA que para NON, respectivamente, 2% e 3%; 3% e 8%.
As análises em valores percentuais das durações dos segmentos da seqüência
having a small mostram que, apesar de NON apresentar valor mais alto de duração,
sua variação entre as repetições da seqüência é tão baixa quanto à de NA. Isso
significa que, embora ambos os sujeitos adotem estratégias diferentes, estas não
variam nas seis repetições de NON.
Conforme pode ser visto nos espectrogramas abaixo (figuras 17 e 18), ao
reduzir o [a] antes de small e alongar o [i] de having, NON deixou de fazer a
juntura externa entre having + a [hæ.vI.?a], mas, como mostra o acento de pitch
colocado sobre [i], juntamente com o aumento de sua duração, NON pode ter
162
realizado um alongamento pré-fronteira. Em relação à NA, observa-se um traçado
praticamente plano do contorno de f0.
FIGURA 17: Repetição 3 de having small por NON
FIGURA 18: Repetição 3 de having a small por NA
163
Para tornar mais visível o que foi dito acima, apresentamos, na seqüência, os
valores de f0 extraídos no meio das vogais para a seqüência having a small.
NON F0(Hz)
h(a)ving 257
hav(ing) 322
sm(all) 259
TABELA 5 Valores de f0 (Hz) medidos no meio das vogais /a/, /ing/, /all/ para NON
NA F0(Hz)
hav(i)ng 211
(a) 206
sm(all) 179
TABELA 6 Valores de f0 (Hz) medidos no meio das vogais /i/, /a/, /all/ para NA
Na produção da primeira repetição de spent most da sentença And after my
sister died, I spent most of my time wishing I had seven brothers and sisters, por
NA, há o desaparecimento da oclusiva alveolar não-vozeada [t], que é assimilada à
nasal alveolar [n] da palavra spent, dando origem a [spen.mowst].
164
FIGURA 19: Repetição 1 de I spent most por NA
Ao contrário do que foi mostrado para NA (figura 19), NON (figura 20) em
sua primeira repetição da sentença And after my sister died, I spent most of my time
wishing I had seven brothers and sisters, não realiza a redução da oclusiva alveolar
não-vozeada [t], devido à inserção de uma pequena pausa entre [t], produzida como
a africada [?] e [m]. Isto impede a assimilação entre as consoantes nasais alveolar
[n] e bilabial [m].
165
FIGURA 20: Repetição 1 de I spent most por NON
Por outro lado, na terceira repetição da sentença And after my sister died, I
spent most of my time wishing I had seven brothers and sisters, NON, assim como
NA (figura 19), reduz a oclusiva alveolar não-vozeada [t] na palavra spent; o que
permite a assimilação entre as nasais alveolar [n] e bilabial [m].
166
FIGURA 21: Repetição 3 de emo (spent most) por NON
Na repetição 5 da sentença And after my sister died, I spent most of my time
wishing I had seven brothers and sisters, podemos observar que NON produz o
estouro de um [t], seguido de uma pausa, não havendo ruído entre eles.
FIGURA 22: Repetição 5 de entm (spent most) por NON
167
Por fim, na sexta repetição da sentença And after my sister died, I spent most
of my time wishing I had seven brothers and sisters, NON volta a produzir a juntura
externa entre spent e most [spen.mowst]. Comparando a sexta repetição de NON
(figura 23) com a quinta repetição de NA (figura 24), observamos que ambas
reduzem o /t/ da palavra spent; porém, NON nasaliza a vogal [e] de spent, enquanto
na fala de NA a coarticulação
61
entre os segmentos [e], [m], [o] é tão marcada, que
chega a ser difícil delimitar o [m] da palavra most.
Com base nas seis produções desta sentença, concluímos que NON tem um
conhecimento do que deve ser feito, ou seja, a coarticulação entre spent e most. Nas
repetições em que a coarticulação não é realizada, NON insere pausas extrínsecas
de curta e longa duração, o que elimina a possibilidade de reduzir o [t] e assimilar
as nasais. Talvez as produções de NON, independente de ser com pausa ou
assimilação, mostram diferentes estratégias por ela utilizadas em cada repetição,
fazendo-nos levantar a hipótese de que, pelo fato de NON encontrar-se diante de
uma tarefa relativamente difícil, tendo em vista (1) a quantidade de sentenças do
corpus, (2) a extensão das sentenças, (3) a situação de estúdio, (4) a tarefa de
leitura, é possível que NON tenha demarcado frases entoacionais diferentes a cada
repetição: //And after my sister died//I spent most of my time//wishing I had seven
brothers and sisters//, //And after my sister died//I spent// most of my time//wishing
I had seven brothers and sisters//.
61
De acordo com Fowler e Saltzman (1993), a coarticulação ou co-produção implica na sobreposição, em diferentes
graus, entre os gestos articulatórios que subjazem ao som precedente e/ou ao som seguinte àquele em estudo, dentro
de um enunciado de fala.
168
FIGURA 23: Repetição 6 de spenm (spent most) por NON
FIGURA 24: Repetição 5 de emo (spent most) por NA
169
Na produção da sentença Sure, twelve is still our number, por NA, a
consoante nasal bilabial [m] e a oclusiva oral bilabial [b] são coarticuladas dando
origem a um único segmento, [m].
FIGURA 25: Repetição 1 de number por NA
Nas repetições 3 e 4, o sujeito NA, mantém a juntura interna dos segmentos
[m] e [b] em number, como pode ser visto nas figuras 26 e 27, e que se dá devido à
articulação de [m] por NA. Auditivamente, percebe-se a produção de [b] separado.
Por isso, examinamos as repetições 3 e 4 procurando pelas características do [b].
Em ambas as repetições, a amplitude da forma da onda é muito maior que aquela
que se esperaria para uma oclusiva vozeada. Na repetição 3, demarcamos com o
cursor vermelho o que poderia ser considerado um estouro do [b]. Neste caso,
somente em alguns pulsos antes da marca do cursor é que passamos a ouvir [umb].
Na repetição 4, não encontramos, no exame do espectrograma, nenhum sinal de [b],
170
e a amplitude da forma da onda continua maior do que o esperado no vozeamento
deste segmento.
FIGURA 26: Repetição 3 de number por NA
FIGURA 27: Repetição 4 de number por NA
171
Por sua vez, na produção das seis repetições da mesma sentença pelo sujeito
NON, as consoantes [m] e [b] puderam ser medidas separadamente, de acordo com
o espectrograma abaixo.
FIGURA 28: Repetição 1 de number por NON
Como já dissemos, a possibilidade de se medir o [b] na fala de NON, mas
não na fala de NA, deve ser efeito de as consoantes nasais não serem articuladas
em PB, havendo apenas a nasalização das vogais que as precedem, o que não
criaria um contexto propício para a assimilação entre [m] e [b], como ocorre na fala
de NA. Entretanto, no PB parece haver uma forma variante para a palavra também
que produz uma assimilação semelhante à observada em number por NA. Esta
forma variante refere-se a [tãmejN].
É mostrado, na figura 29, o espectrograma da produção de um [b], por NA,
entre uma fricativa [s] e uma vogal [u], com o objetivo de realçar a diferença entre
172
sua produção categórica, como em kids but na sentença Twelve’s an insane number
of kids, but having a small family was never an option for us, e sua produção na
assimilação em number. Vale ressaltar que, embora seja possível realizar a medida
do [b] em number, produzido por NON, este é diferente do [b] produzido fora de
um grupo assilábico, formado pela juntura externa, em que não haja nasal.
FIGURA 29: Repetição 1 de kids but por NA
Colocamos abaixo o espectrograma relativo à produção do [b] categórico por
NON no contexto, kids but da mesma repetição de NA.
173
FIGURA 30: Repetição 1 de kids but por NON
Na inspeção espectrográfica de NON, para a sentença Sure, twelve is still our
number, notamos que, nas seis repetições, há a articulação do segmento [r] da
palavra our como uma vibrante simples [r], com duração de 16ms. Segundo
Malmberg (1954), as consoantes chamadas vibrantes são articuladas de tal modo
que “a ponta da língua ou a úvula provoca uma série de oclusões muito breves,
separadas por pequenos elementos vocálicos”. A vibrante simples, representada por
[r], é produzida com uma única obstrução, provocada pela ponta da língua nos
alvéolos. Um exemplo do fone /r/, como vibrante, em português, dá-se na palavra
arara. Na figura 32, pode também ser observada, na forma da onda e no
espectrograma, a vibrante simples no final do monossílabo sure”.
174
FIGURA 31: Repetição 5 de still our por NON
FIGURA 32: Repetição 5 de sure por NON
175
Por sua vez, o falante NA em todas as emissões do segmento [r], da palavra
our, da mesma sentença, não produziu a vibrante simples (figura 33), mas
provavelmente uma aproximante retroflexa vozeada [?] típica do inglês americano
em posição de coda medial (further) ou final de sílaba (our, sure, number). Vale
ressaltar que, em posição final de sílaba, o fone [r], no inglês americano, é
tipicamente pronunciado. Como o segmento [r] em inglês é uma aproximante,
seguido de soantes em still our number, é mais provável que se coarticule com a
consoante nasal [n].
FIGURA 33: Repetição 5 de still our por NA
176
Outros processos são observados nos gráficos 9 e 10 colocados abaixo, os
quais mostram a produção das consoantes por NA e NON, na sentença Sure, twelve
is still our number.
Gráfico 9 - média e desvio-padrão das consoantes da
sentença "Sure twelve is still our number" para NA
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
média
9,2 11 3,5 7,6 3,7 3,1
desvpad
0,9 1,6 0,7 0,8 0,5 0,2
s t v s t n
Gráfico 10 - média e desvio-padrão das consoantes da
sentença "Sure twelve is still our number" para NON
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
média
8,8 14 3,5 2,9 12 1,1 2,9 2,7
desvpad
1,1 2,6 0,7 1,1 2,2 0,8 0,2 0,6
s t v s st r n b
177
NA produz menos consoantes que NON; há valores maiores de desvios-
padrão para NON que para NA; NA “apaga” ou reduz os segmentos [r] em our e
[b] em number
62
, nas repetições 1, 2, 5 e 6, enquanto NON os produz
sistematicamente, com duração e desvios-padrão significativos. O gráfico 10,
referente à média das produções dos segmentos consonantais por NON, mostra, em
comparação a NA, a produção dos segmentos [s] e [t] de still como uma seqüência
de fricativas, que não pôde ser separada, em parte [s] e em parte [?], com
média=12% e desvio-padrão=2,2%. (ver espectrograma da figura 34).
FIGURA 34:Repetição 5 de st de still por NON
É provável que [st] de still apresente uma duração e desvio-padrão maiores
que NA porque NON produz duas fricativas, sendo uma delas uma africada,
enquanto NA produz uma única fricativa, [s]. Contudo, se [s] e [t] de still forem
62
Para NA, a seqüência de fones [umb] foi medida como um único padrão de formantes, principalmente, devido à
alta amplitude, na forma da onda, do segmento que corresponderia ao [b]. Suas características no espectrograma são
mais similares a [m] que a [b].
178
somados, na fala de NA, apresentarão média e desvio-padrão muito próximos ao de
[s?], respectivamente, média=11,3% e desvio-padrão=1,3%. NA produz o mesmo
segmento [s], tanto para o verbo is como para o advérbio still, em uma juntura
externa (ver espectrograma da figura 35).
FIGURA 35: Repetição 5 de st de still por NA
Para a consoante [v] de twelve, é observada, tanto na fala de NON como na
de NA, média=3,5% e desvio-padrão=0,7%. Em relação às consoantes que
apresentam valores percentuais e desvios-padrão próximos entre NA e NON,
destacamos [?] de sure, para NA, média=9,2% e desvio-padrão=0,9%; para NON,
média=8,8% e desvio-padrão=1,1%. A consoante [n] de number apresenta para NA
média=3,1% e desvio-padrão=0,2%, para NON média=2,9% e desvio-padrão=0,2.
Por fim, para NON o segmento [t] de twelve apresenta média=14% e desvio-
179
padrão=2,6; para NA, o mesmo segmento apresenta média=11% e desvio-
padrão=1,6. Contudo, NON produz [?] ao passo que NA produz [t]. O aumento do
desvio-padrão no [t] de twelve e no [st] de still, na fala de NON, provavelmente
deve-se ao fato de ela estar lidando com africadas, as quais apresentam duração
intrínseca maior que as oclusivas e estão mais sujeitas a alongamento, devido ao
fato de produzirem uma constrição parcial no trato vocal.
No gráfico 12, observamos a inserção do segmento [i] em still para NON
(conforme espectrograma da figura 13), com média=2,3% e desvio-padrão=0,6%.
FIGURA 13
63
: Repetição 1 pelo sujeito NON de is still
Nos gráficos 11 e 12, a vogal [i] do verbo is, tanto para NA como para NON,
apresenta média=3,7%; entretanto, o desvio-padrão é maior na fala de NON (1%)
em relação à de NA (0,6%). No que concerne a produção de [eR] de number, há um
63
Mantivemos o número 13, uma vez que, o espectrograma é o mesmo colocado na página 134.
180
maior alongamento na fala de NA (10%) que na de NON (5,5%). Por outro lado, o
valor de desvio-padrão é bem próximo na fala de ambos os sujeitos (para
NON=0,7% e para NA=0,6%). Se acrescentarmos para NON os valores de duração
e desvio-padrão de [b] em [um] da palavra number obteremos média=9,6% e
desvio-padrão=1%. Mesmo assim, a média da seqüência [umb] continua maior para
NA que para NON. A produção de twelve (wel) tem média e desvio-padrão maior
na fala de NON (média=11% e desvio-padrão=1%) que na fala de NA (8,9% e
desvio-padrão=0,7%). Por fim, na produção de [?mb] de number, observamos que
a média é maior na fala de NA (12%) que na fala de NON (6,9%), o que pode ser
explicado pela assimilação entre [mb] na fala de NA, em quatro repetições, e na
falta dela na fala de NON.
Gráfico 11 - média e desvio-padrão das vogais para a
sentença "Sure twelve is still our number" para NA
0
2
4
6
8
10
12
14
16
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
média
13 8,9 3,7 15 12 10
desvpad
1,7 0,7 0,6 0,6 0,6 0,6
uR wel i ilour umb eR
181
Gráfico 12 - média e desvio-padrão das vogais para a
sentença "Sure twelve is still our number" para NON
0
2
4
6
8
10
12
14
16
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
média
10 11 3,7 2,3 14 6,9 5,5
desvpad
1,0 1,0 1,0 0,6 1,7 0,4 0,7
uR wel i i ilou um eR
Os gráficos 11 e 12 mostram que, para NA, o pico de desvio-padrão da
sentença Sure, twelve is still our number recai sobre a palavra Sure, a qual
apresenta o maior valor de desvio-padrão (1,7%) entre todas as vogais, enquanto,
para NON, recai em still our, que apresenta o maior valor de desvio-padrão entre
todas as vogais (1,7%). Ressaltamos que, embora a duração de ilour seja quase a
mesma na fala de NA (15%) e na fala de NON (14%), o desvio-padrão é menor
para NA (0,6%) que para NON (1,7%). Para NON, observa-se em ilou um aumento
da duração acompanhado de um aumento do valor de desvio-padrão. Valores
maiores de desvio-padrão são esperados em posições de acento, nas quais os
segmentos podem se distender mais livremente, ao contrário do que ocorre nas
posições não-acentuadas. Com isso, podemos concluir que a maior proeminência
da sentença para NA recaiu em Sure, com um maior desvio-padrão (1,7%), mas
não a maior duração, que corresponde a de ilour (15%). Ao contrário, para NON, a
maior proeminência da sentença recaiu sobre ilou com maior valor de desvio-
padrão, 1,7%. Os picos de desvio-padrão para ambos os sujeitos parecem mostrar
182
tendências inversas, mas características de cada língua: maior proeminência à
esquerda para o inglês e maior proeminência à direita para o português.
Um dos aspectos que mais chamou atenção na comparação da duração e
desvio-padrão da vogais da sentença Sure, twelve is still our number foi o fato de
NA apresentar uma longa duração para ilour, mas um desvio-padrão baixo. Um
outro exemplo disto pode ser visto em uR de number, para o qual NA apresenta
uma duração que é o dobro da duração apresentada por NON, respectivamente 10%
e 5,5%, mas o mesmo valor de desvio-padrão, respectivamente 0,6% e 0,7%. Em
relação às durações e desvios-padrão das vogais na fala de NA, é muito interessante
o fato de que numa seqüência de durações diferentes (wel=8,9%, i=3,7%,
ilour=15%, umb=12%, eR=10%), o desvio-padrão mantenha-se o mesmo, 0,6%.
Ao contrário, na fala de NON, o elemento de menor duração i, 2,3%,
correspondente a is, apresenta o menor valor de desvio-padrão, 0,6%. Na fala de
NA, tanto o segmento de menor duração i de is=3,7% quanto a seqüência de
segmentos de maior duração ilour=15%, apresentam o mesmo valor de desvio-
padrão=0,6%. Na fala de NON, a seqüência de segmentos de maior duração ilou,
14%, apresenta o maior valor de desvio-padrão, 1,7%. Concluímos, então, que uma
característica observada nos trabalhos de duração do português brasileiro (Massini,
1991; Barbosa, 1996; Gama-Rossi, 1999), nos quais valores de duração mais altos
são acompanhados de valores de desvios-padrão mais altos, parece diferir no
inglês, quando valores de desvios-padrão independem do aumento ou da
diminuição da duração, conforme observado no gráfico 11
Os gráficos do contorno da freqüência fundamental para as seis repetições da
sentença Sure, twelve is still our number, por ambos os sujeitos, mostrando os
acentos de pitch (pitch accents) em uR de sure para NA, e em ilou em still our para
183
NON, que compõem a maior proeminência da sentença, confirmam a tendência de
proeminência à esquerda em inglês e à direita em português. Observamos, em Sure,
um movimento de subida e descida de f0 para NA, enquanto que para NON,
mantém-se uma reta descendente.
Gráfico 13 - valores de f0 (Hz) medidos em três pontos das
vogais da sentença "sure twelve is still our number" para NA
0
50
100
150
200
250
300
350
400
uR uR uR wel wel wel i i i ilour ilour ilour umb umb umb eR eR eR
R1 R2
R3 R4
R5
R6
Gráfico 14 - valores de f0 (Hz) medidos em três pontos das
vogais da sentença "Sure twelve is still our number" para NON
0
50
100
150
200
250
300
350
400
uR uR uR wel wel wel i i i i i i ilou ilou ilou um um um eR eR eR
R1 R2
R3 R4
R5 R6
Embora o valor médio da taxa de elocução da sentença Sure, twelve is still
our number, seja mais baixo (fala mais lenta) na fala de NON que na de NA (fala
mais rápida), há uma variação pequena do desvio-padrão para ambos os sujeitos,
respectivamente, 0,0004 e 0,0005.
184
Taxa de elocução NA
R1 0,007903
R2 0,007413
R3 0,006937
R4 0,00785
R5 0,00797
R6 0,008427
Média 0,00775
DesvPad 0,000513
TABELA 7 valores da taxa de elocução da sentença Sure, twelve is still
our number pelo sujeito NA
Taxa de elocução NON
R1 0,006061
R2 0,006587
R3 0,007387
R4 0,006917
R5 0,006254
R6 0,006514
Média 0,00662
DesvPad 0,000474
TABELA 8 valores da taxa de elocução da sentença Sure, twelve is still
our number pelo sujeito NON
Nas seis leituras feitas por NON, da sentença We still have a mess of
children, but no theories, podemos observar uma pausa silenciosa entre as frases
185
entoacionais //We still have a mess of children// e //but no theories//,
provavelmente ocasionada pelo sinal de pontuação (vírgula).
FIGURA 36: Repetição 3 de children but por NON
Nota-se também, na fala de NA, na terceira repetição, uma pausa silenciosa
entre children e but, mas com duração de 103ms. Existem evidências de que a
variação na duração da pausa seria um dos fatores que provocam as diferenças na
taxa de elocução (Crystal e House, 1982). Estudos feitos por Crystal e House
(1982), sobre pausas em leituras orais de textos em inglês, indicaram que os
sujeitos que falam em taxa de elocução mais alta (fala rápida) utilizam pausas mais
curtas e em número menor que os sujeitos que usam taxa de elocução mais baixa
(fala lenta).
186
FIGURA 37: Repetição 3 de children but por NA
Em uma das emissões da sentença We still have a mess of children, but no
theories, NA não produziu pausa silenciosa entre children e but; porém, articulou,
nas seis repetições, a consoante nasal /n/ da palavra children, ao contrário de NON,
a qual nasalizou a vogal [e], que precedeu a consoante nasal [n] e não articulou a
consoante nasal (ver espectrograma da figura 36). Em inglês, a consoante [n] em
posição final de sílaba deve ser obrigatoriamente pronunciada com a ponta da
língua tocando a parte de trás dos dentes superiores (região alveolar).
187
FIGURA 38: Repetição 6 de children but por NA
Os gráficos 15 e 16, referentes aos valores médios percentuais de duração
das consoantes da sentença We still have a mess of children, but no theories,
mostram poucas diferenças entre NA e NON. A principal diferença localiza-se na
duração da pausa na divisão entre as duas frases entoacionais //We still have a mess
of children// e //but no theories//, e que provavelmente foi induzida pela vírgula
entre as duas frases, conforme digitado na ficha para a tarerfa de leitura. Os valores
de desvio-padrão dos gráficos abaixo, em sua maior parte, tendem a zero, com
poucas exceções na fala de NON (pausa=3,3% e [th]=1,2).
188
Gráfico 15 - média e desvio-padrão das consoantes da
sentença "We still have a mess of children, but no theories"
para NA
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
média
3,3 2,5 2,4 1,7 2,8 4,0 1,6 5,5 2,1 3,9 2,9 2,4 2,0 4,9 8,4
desvpad
0,4 0,3 0,2 0,3 0,2 0,4 0,3 0,4 0,6 0,5 0,7 0,3 0,3 0,4 0,2
s t h v m s f ch d n
pau
sa
t n th s
Gráfico 16 - média e desvio-padrão das consoantes da
sentença "We still have a mess of children, but no theories"
para NON
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
média
3,2 3,2 2,2 3,1 2,6 2,4 5,5 2,1 11 1,0 2,5 6,6 8,5
desvpad
0,6 0,4 0,2 0,2 0,2 0,2 0,2 0,5 3,3 0,4 0,6 1,2 0,7
st h v m s f ch d
paus
a
t n th s
Os gráficos 17 e 18 mostram linhas formadas pelos valores médios da
duração de cada segmento, para cada uma das seis repetições, na fala de NA e na
fala de NON. Parece não haver variação intra-sujeito, conforme mostra a
congruência das linhas correspondentes às seis repetições, apesar de eles utilizarem
189
estratégias diferentes. É importante notar a precisão articulatória por parte de NON,
como a de um sujeito adulto falante de qualquer língua (Gama-Rossi, 1999),
precisão articulatória que é resultado do fato de NON acertar os mesmos alvos
articulatórios a cada repetição.
Gráfico 17 - Valores de duração, para as seis repetições, da sentença "We still
have a mess of children, but no theories" , para NA
0
2
4
6
8
10
12
14
16
we
t
h
v
m
s
f
il
re
pausa
t
o
eorie
R1
R2
R3
R4
R5
R6
Gráfico 18 - Valores de duração para as seis repetições da sentença "We still
have a mess of children, but no theories" para NON
0
2
4
6
8
10
12
14
16
we
il
a
a
e
o
ch
d
pausa
t
o
eorie
R1
R2
R3
R4
R5
R6
190
Relembramos que, na tarefa de leitura, a repetição da sentença We still have
a mess of children, but no theories, não ocorre seguidamente, o que poderia levar
alguém a achar que houve um efeito de aprendizagem; porém, a sentença aparece
dentro de um bloco de quarenta sentenças que são aleatorizadas a cada leitura. Este
fato ligado à falta de variação dos segmentos entre as seis repetições da sentença
sugere a proficiência de NON na língua inglesa, apesar de ele empregar estratégias
diferentes no alongamento ou redução de segmentos, em relação à NA.
Obviamente, não poderia ser esperado o mesmo desempenho entre um falante
nativo e um falante não-nativo. Entretanto, como demonstra o gráfico 18, o último
pode alcançar estabilidade na produção da língua estrangeira. É provável que essa
estabilidade não seja encontrada ou seja encontrada em diferentes graus na
produção, nos momentos mais iniciais do aprendizado de LE. A tabela abaixo que
contêm os valores de taxa de elocução (TE) e taxa de articulação (TA), a qual
exclui os valores de pausa em seu cálculo, sugere uma variação pequena entre TE e
TA, para NON, apesar de este sujeito ter apresentado altos valores absolutos ou de
variação de pausa, conforme a tabela 10
Apesar de o valor da média da taxa de elocução na fala de NA ser mais baixo
(0,0071, fala lenta) que para NA (0,0096, fala rápida), ambas apresentam o mesmo
valor de desvio-padrão (0,0004), conforme a tabela 9.
191
NON NA
Repetição
TE TA TE TA
R1 0,0072 0,0082 0,0088 0,0087
R2 0,0071 0,0078 0,0096 0,0094
R3 0,0063 0,0069 0,0096 0,0096
R4 0,0074 0,008 0,01 0,0098
R5 0,0076 0,0076 0,0095 0,0094
R6 0,0071 0,0073 0,0099 0,0095
média 0,0071 0,0076 0,0096 0,0094
desvpad 0,0004 0,0005 0,0004 0,0004
TABELA 9: valores da taxa de elocução e da taxa de articulação da
sentença We still have a mess of children, but no theories por NON
e NA
NON Pausa (ms) Pausa (percentual)
R1 521 14,5
R2 414 11,8
R3 455 12,5
R4 371 11
R5 190 5,3
R6 273 8
Média 371 11
DesvPad 121 3
TABELA 10: valores de duração em ms e % para a pausa inserida
entre as frases entoacionais //We still have a mess of children//but no
theories// para NON
192
NA Pausa (ms) Pausa (percentual)
R1 77 2,6
R2 66 2,5
R3 103 3,8
R4 35 2
R5 95 3,5
R6 Pausa intrínseca=0
0
Média 75 2,9
DesvPad 27 0,8
TABELA. 11: valores de duração em ms e % para a pausa inserida entre
as frases entoacionais //We still have a mess of children//but no theories//
para NA
O contorno da freqüência fundamental do enunciado We still have a mess of
children, but no theories (gráficos 19 e 20), produzido por NA e NON, pode ser
dividido, por ambos sujeitos, em dois grupos entoacionais. No primeiro grupo “We
still have a mess of children”, tanto para NA quanto para NON ocorre a subida de
f0 na palavra we, um pico em still, seguido de uma queda na palavra have, de um
declínio até a palavra mess, de um leve pico em of e o declínio de f0 no final do
primeiro grupo entoacional. No segundo grupo entoacional, but no theories”,
observa-se ênfase na palavra no, que é marcada pelo pico e o contorno descendente
de f0 até o final, o que é característico do padrão entoacional
declarativo/afirmativo.
193
Gráfico 19 valores de f0 (Hz) medidos em um ponto
das vogais da sentença " We still have a mess of children, but no
theories" para NA
0
50
100
150
200
250
300
350
400
450
R1
207 253 242 218 199 194 178 155 177 187 153
R2
208 260 219 201 189 186 182 155 182 191
R3
218 281 225 197 185 176 175 147 171 179 158
R4
197 254 203 187 177 163 169 152 157 182
R5
212 261 217 195 182 169 163 165 175
R6
178
215
209
194
179
194
161
153
151
167
150
we il a a e o il re pausa bu o eorie
194
Gráfico 20 - valores de f0 (Hz) medidos em um ponto
das vogais da sentença "We still have a mess of children, but no
theories" para NON
0
50
100
150
200
250
300
350
400
450
R1
255 401 315 283 246 270 228 231 256
R2
272 344 280 261 245 264 230 240 253
R3
263 363 278 256 247 258 244 194 228 246
R4
271 366 293 269 266 229 232
R5
283 400 304 287 257 266 231 201 227 219 182
R6
282
351
289
268
243
259
230
216
232
226
we il a a e o il ren pausa bu o eorie
Uma das poucas diferenças encontradas entre as falas de NA e NON
(gráficos 21 e 22) refere-se à duração da pausa.
195
Gráfico 21- média e desvio-padrão das vogais da sentença
" We still have a mess of children, but no theories" para NA
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
média
2,8 4,0 3,5 2,6 3,6 1,6 4,6 5,7 2,9 3,2 6,2 13
desvpad
0,3 0,3 0,3 0,4 0,4 0,3 0,5 0,5 0,7 0,3 0,5 0,2
we il a a e o il re
paus
a
bu o eorie
Gráfico 22 - média e desvio-padrão das vogais sentença
" We still have a mess of children, but no theories" para NON
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
média
3,2 3,1 2,4 1,9 4,3 1,8 2,8 5,2 11 3,2 5,0 10
desvpad
0,6 0,4 0,2 0,3 0,3 0,2 0,3 0,6 3,3 1,0 1,0 0,8
we il a a e o il ren
paus
a
bu o eorie
Ao contrário da idéia de que a africada ocorre da produção contígua de uma
oclusiva e de uma fricativa, Albano (2001:69) propõe que (...) “Uma solução seria
considerar a africada um gesto complexo, com componentes simultâneos da ponta e
196
corpo da língua (...) No caso das africadas que emergem em contato com [i], seria,
entretanto, muito mais intuitivo conceber a fricção como um efeito mecânico da
sobreposição dos gestos consonantal e vocal (...) A participação do corpo da língua
é (...) justificada pela presença da vogal”. Isto pode ser observado na fala de NON,
mas não de NA. A tabela abaixo referente à produção do grupo assilábico [st] de
still, da sentença We still have a mess of children, but no theories, mostra que NON
alterna entre produzir o grupo como um único segmento acústico [st] ou dois, s e t.
NON s t afric/asp total da
sentença
(ms)
s (%) t (%) afric/asp
(%)
R1 219 _____
______ 3587 6,16 ______
______
R2 112 38 90 3510 3,19 1,08 2,56
R3 236 _____
______ 3628 6,5 ______
______
R4 116 36 86 3368 3,44 1,06 2,55
R5 123 56 75 3575 3,44 1,56 2,09
R6 236 _____
______ 3386 6,96 ______
______
Média 117 43 84 ______ _____ ______
______
Desvpa
d
5,5 11 8 ______ _____ ______
______
TABELA 12: valores de duração em ms e % para a sequência st em still por NON
Examinaremos dois espectrogramas de NON, um em que os segmentos
acústicos do grupo assilábico [st] ocorrem juntos e outro, em que ocorrem
separados. A hipótese é de que quando [st] é produzido como um grupo assilábico,
sendo [t] seguido de [i], será criado o contexto fonético para a africção, [?].
197
FIGURA 39: Repetição 2 de we still por NON
FIGURA 40 Repetição 3 de we still por NON
Na figura 39, para NON, observamos que apesar de haver o tempo de
oclusão de [t]=38ms, o período de ruído que o segue tem duração de 90ms. A
tabela 13 e a figura 41 referentes às medidas de [s], [t] e aspiração para NA,
198
mostram que a aspiração é de menor intensidade e duração (média=27ms e desvio-
padrão= 3ms).
NA s t afric/asp Total da
sentença
(ms)
s (%) t (%) afric/asp
(%)
R1 116 25 29 2940 3,94 0,85 0,98
R2 85 48 23 2721 3,12 1,76 0,84
R3 91 24 28 2709 3,35 0,88 1,03
R4 83 39 30 2597 3,19 1,5 1,15
R5 87 51 25 2743 3,17 1,85 0,91
R6 84 30 27 2532 3,31 1,18 1,06
média 91 36 27 ______ ______
______
_______
desvpad
12,5 12 3 ______ ______
______
_______
TABELA 13: valores de duração em ms e % para a sequência st em still por NA
199
FIGURA 41: Repetição 6 de we still por NA
Voltando ao espectrograma da figura 40, suspeitamos que o contexto
fonético interno em still propicia o aparecimento da africada na fala de NON,
quando as características visuais de [t], principalmente seu tempo de oclusão,
mostram seu encobrimento pela fricativa [s] de um lado e pela africada [?],
formada diante de [i].
Dando continuidade à análise dos fenômenos coarticulatórios encontrados na
sentença We still have a mess of children, but no theories, em todas as emissões da
expressão have a, tanto NON como NA formaram uma única palavra fonológica
(palavra de conteúdo + palavra gramatical) na junção de have + a, produzindo um
dissílabo ['hæ.va]. Este é um outro exemplo do corpus em que ocorre o processo
de cliticização (Levelt, 1998), quando palavras gramaticais não-acentuadas ligam-
se às palavras de conteúdo à sua esquerda ou à sua direita, o que reorganiza a
estrutura rítmica da sentença. Embora nos dois casos se ouça um [v] em have, a
200
inspeção das formas de onda e dos espectrogramas de cada um dos sujeitos mostra
características diferentes entre eles. No sujeito NON, o segmento [v] apresenta
características de fricativa, como mostra o ruído na forma da onda e no
espectrograma. Além disso, há uma barra de vozeamento interrompida no meio do
segmento, mas retomada deste ponto até o contato com o [a]. No sujeito NA, por
sua vez, no local da forma da onda e do espectrograma que corresponderia ao
segmento [v], não é encontrado ruído, mas sim um vozeamento com pulsos de alta
amplitude.
FIGURA 42: Repetição 4 de have a por NON
201
FIGURA 43: Repetição 4 de have a por NA
FIGURA 44: Repetição 6 de children por NON
O espectrograma acima, da produção do grupo assilábico [dr] de children,
sugere que a consoante produzida por NON é uma aproximante e não um flape [?],
202
como ocorre no português brasileiro (p.e, dragão, drama, drenagem etc.). O que
difere a aproximante do flape é que a aproximante é produzida por um
estreitamento da passagem do ar pelo trato vocal e por não conter um período
estacionário de sustentação dos articuladores numa posição, ao passo que o flape é
produzido com uma breve interrupção da saída de ar por uma vibração rápida da
língua. Conforme Cristófaro-Silva (2005), um som com características
articulatórias semelhantes ao som de “r” do inglês ocorre em “certos dialetos do
português brasileiro, popularmente, denominados dialetos caipiras ou dialetos em
que se puxa o “r”. O mesmo ocorre na fala de NA, conforme o espectrograma
abaixo.
FIGURA 45: Repetição 6 de children por NA
Na análise do espectrograma, referente à primeira repetição da sentença We
still have a mess of children, but no theories, podemos observar que, na fala de
NON, na emissão das palavras but no, ocorreu o processo de assimilação (mudança
de alguns segmentos sob a influência de outros) regressiva ou antecipatória
(quando um som é influenciado pelo que o sucede). Neste caso, a consoante final
203
[t] da palavra but, que isoladamente é pronunciada com o fonema alveolar /t/,
quando seguida do fonema nasal alveolar /n/, na palavra no, passa a ser produzida
como o fonema alveolar /d/, resultando na pronúncia [b?dnow]. Vale notar ainda
que o contexto fonético em que /t/ ocorre é de soantes (ou sons vozeados).
FIGURA 46: Repetição 1 de but no
64
por NON
Entre as repetições da sentença por NON, parece haver uma gradiência na
quantidade de assimilação da oclusiva alveolar /t/, na seqüência but no, uma vez
que, em sua terceira repetição, ocorreu o desaparecimento desta oclusiva, que até
então vinha sendo produzida como a vozeada [d], resultando na pronúncia
[b?now]. O que na forma da onda foi demarcado como [d], na figura 47 (referente
à repetição 3), aparece com uma duração muito curta e pulsos de amplitude bem
mais alta, próximos ao padrão dos pulsos de [n]. Este aspecto é muito interessante
porque mostra que, durante a tarefa, NON passa a apresentar reduções típicas do
inglês, aproximando-se a cada repetição da fonética e fonologia dessa língua, ou
64
Vale lembrar que, o símbolo t na transcrição da etiqueta colocada abaixo do espectrograma corresponde à
transcrição ortográfica. Na figura 47, o mesmo símbolo é marcado como transcrição fonética [d].
204
seja, trazendo no nível cognitivo as características do sistema lingüístico do inglês,
em detrimento do sistema lingüístico do português.
FIGURA 47: Repetição 3 de but no por NON
Por sua vez, em todas as emissões da palavra but, da sentença We still have a
mess of children but no theories, NA produziu a oclusiva oral alveolar vozeada /d/,
o que resultou em [b?dnow]. O processo de assimilação regressiva ou
antecipatória também ocorreu na fala de NA; porém, manteve-se no mesmo grau
de início ao fim.
205
FIGURA 48: Repetição 1 de but no (t seta[d] por NA
Foram observados outros contextos fonéticos em que o [t] não é seguido de
[u] e de [i], para verificar se neles é desencadeada a produção da africada [?].
Vejamos, então, nos espectrogramas abaixo, o que ocorre entre os elementos das
palavras fonológicas: met at”, “got a”, “got us”, experts at managing” e job
offers”.
Na juntura externa entre “met at”, NON continua a apresentar a africada [?],
ao passo que NA parece apresentar um brevíssimo flape. Vale comentar que,
enquanto falantes nativos do PB, soa muito “estranha”a nova palavra [me.??et],
embora não saibamos explicitamente dizer por que. Além disso, parece que o mais
freqüente é encontrar met separado de at por um pronome oblíquo (ex. I met him
at).
206
A seguir, são mostrados os espectrogramas dos demais exemplos examinados
no corpus: got a e got us. Em ambos, os dois sujeitos transformam o /t/ em /?/,
processo de flapicização. O valor do flape é ligeiramente maior em got us.
FIGURA 49: Repetição 4 de met at por NON
207
FIGURA 50: repetição 4 pelo sujeito NA de met at
FIGURA 51: Repetição 4 de got a por NON
208
FIGURA 52: Repetição 4 de got a por NA
FIGURA 53: Repetição 2 de got us por NON
209
FIGURA 54: Repetição 2 de got us por NA
Para job offers”, NON produz um [b], enquanto NA, um som bem mais
breve, com pulsos de alta amplitude, com mais informação formântica. Isso sugere
que pode ter ocorrido um grau maior de assimilação ou coarticulação antecipatória
ou regressiva (quando um som é influenciado pelo que o sucede) na fala de NA.
FIGURA 55: Repetição 6 de job offers por NA
210
FIGURA 56: Repetição 6 de job offers por NA
Em experts at managing”, retirado da sentença By then, Tom and I were
experts at managing chaos, a preposição “atcliticiza-se ao substantivo experts que
a requer (peritos em “alguma coisa”). O /t/ de at desaparece na fala de NA, que
alonga o /a/ de at. NON, por sua vez, introduz uma pausa entre experts e at, o que
impede a juntura externa entre experts + at. Porém, é interessante notar que o /t/ de
at não se torna africado, ou seja, NON o reduziu, o que é esperado para uma
consoante de um elemento átono (preposição). A questão seria avaliar
perceptualmente o quanto a fronteira (pausa) entre experts e at prejudica o
entendimento da frase pelo nativo.
211
FIGURA 57: Repetição 6 de experts at managing por NON
FIGURA 58: Repetição 6 de experts at managing por NA
Concluindo, neste capítulo, tentamos mostrar, principalmente através de
figuras, as estratégias de produção de NON e NA na leitura de um corpus de
sentenças em inglês. O que chama atenção na comparação dos desempenhos de
ambos os sujeitos é a freqüência com que os processos fonético-fonológicos
212
(assimilação, coarticulação, redução ou apagamento) são empregados pelos
sujeitos. Em alguns momentos, NON emprega-os como NA; em outros, em
diferentes graus entre as repetições das sentenças; ou ainda, não os emprega.
Acreditamos que, em parte, essa gradação na produção de NON deve-se à
tarefa de leitura, o que a prende ao sistema de escuta do inglês, o qual contém
muitos grafemas que não são pronunciados, ao contrário do que ocorre no PB, que
possui um sistema de escuta mais “transparente” (Scliar-Cabral, 2003), ou uma
correspondência mais estreita entre os grafemas e fonemas.
Tendo em vista que a tarefa de leitura em uma situação de coleta de dados de
um trabalho de pesquisa seja uma situação formal, podemos considerar que isto
tenha feito com que NON tentasse fazer uma espécie de “fala ou pronúncia clara”.
Por outro lado, o fato de na mesma situação NA ter apresentado mais coarticulação
sugere que esta seja um processo típico ou implícito à produção da fala corrente de
qualquer língua. Em termos da relação entre produção e percepção, o emprego ou
não de processos coarticulatórios dificulta a compreensão tanto da fala do nativo
pelo não-nativo, como do não-nativo pelo nativo.
213
Visando a uma sistematização do que foi apresentado neste trabalho, segue,
nestas Considerações Finais, um breve resumo do que foi discutido, e uma reflexão
sobre as contribuições desta pesquisa.
Ao longo dos dois últimos anos, fui construindo e reconstruindo
conhecimentos, dando forma às minhas idéias e buscando novas formas de atuação
em sala de aula. Percebi que há lacunas em minha prática que podem ser
melhoradas/preenchidas e que a maior preocupação com relação ao ensino de
pronúncia deve estar voltada às características prosódicas (entoação, ritmo, acento,
pausas, criações de proeminências frasais, entre outros) da fala corrente. São elas
que tornam a fala inteligível, pois de nada adianta saber pronunciar corretamente
fonemas em palavras isoladas, uma vez que a comunicação se dá através de
enunciados, como assinalado por Haycraft (1988): It makes sense to practise the
entire utterance first, simply because we do not speak in single sounds but in
“chunks”and stretches within which sounds interact.
Conforme dito na Introdução, os estudos da Fonética (que descrevem os
processos presentes na produção oral dos falantes) e da Fonologia (que têm como
escopo o sistema dos sons de uma língua), quando não ausentes na formação do
graduando de Letras, têm sido relegados a um papel secundário, restringindo-se à
descrição abstrata dos sons da fala, como fonemas que compõem o sistema
fonológico da língua em aprendizado, praticados isoladamente em minimal pairs,
transcrições fonêmicas e exercícios de repetição (repetition drills), de modo a
garantir a aprendizagem de pequenas diferenças de pronúncia e, portanto, a
oposição ou distinção entre fonemas no sistema fonológico da língua-alvo.
Objetivamos, portanto, com este estudo, ampliar o conhecimento do professor de
língua inglesa, nativo do português brasileiro, no que se refere ao mapeamento,
214
nesta língua, dos aspectos segmentais e prosódicos do inglês americano, durante
seu ensino e aprendizagem.
Acreditamos que a formação em Fonética (Articulatória, Acústica, Auditiva)
pode auxiliar o professor de inglês como língua estrangeira a estabelecer as
estratégias didáticas que contribuam para que o aluno possa explicitamente (Perini,
2001) compreender, por exemplo, que uma palavra produzida em contexto maior
(como aquele da palavra fonológica ou da frase, entre as quais podem ocorrem
junturas externas) pode ter seus fones ou sons modificados (seja por apagamento
ou pela transformação, no contato com as características dos sons vizinhos), o que
não ocorre quando a palavra é produzida isoladamente. Os sons das palavras
transformam-se no contato com outras palavras e isso ocorre por várias razões: o
contexto fonético é facilitador (spent most ? spenmost); a taxa de elocução (fala
lenta ou rápida) permite maior ou menor sobreposição entre os sons; pausas são
introduzidas, podendo ou não interferir na divisão das frases sintáticas, formando
diferentes frases entoacionais, de acordo com o sentido que o falante quer provocar
em seu interlocutor; o uso de ênfase ou foco, que podem modificar o acento lexical
sobre o qual recai a maior proeminência da sentença ou da frase; entre outros.
Portanto, processos que ocorrem em níveis mais altos que a palavra afetam a
entoação, o ritmo, os acentos lexicais, ou seja, a prosódia.
Como afirma Rocca (2003), o aprendiz de L2 precisa ser conscientizado
daquilo que não pode ser mapeado em sua língua, o que será o elemento
constituinte de seu sotaque ao comunicar-se em L2. Segundo a autora, a
conscientização “daquilo que o ouvido não ouve” e “daquilo que o aparato vocal
não produz” é essencial para o desenvolvimento da aquisição de línguas.
215
Com a intenção de focar a produção na fala corrente, a atividade proposta aos
sujeitos foi leitura e, para isso, contrariamente ao que tem sido comumente
realizado em Fonética Acústica, foi buscado um corpus que pudesse reproduzir, em
certo grau, características da fala corrente, ao invés do uso de uma lista de palavras,
geralmente pares mínimos, dentro de uma frase veículo (Say ____ to him). Isto,
com certeza, tornou mais complexa a tarefa para o falante não-nativo, porque
exigiu o processamento de leitura em um corpus grande e com sentenças de
diferentes tamanhos. Mesmo com estes fatores, o desempenho do sujeito não-
nativo apresenta dois aspectos muito importantes: (1) estabilidade entre as
repetições de uma mesma sentença e (2) desempenho gradiente, na medida em que
ora se aproxima do desempenho do nativo, embora não tenha tido a priori contato
nem com o corpus, nem com a leitura feita pelo nativo, ora mapeia sua produção na
língua materna, o português brasileiro. Isto mostra que, cognitivamente, o sujeito
não-nativo tem conhecimento do inglês; porém, para recuperá-lo ou atualizá-lo ou
para passar do português ao inglês, é preciso tempo para acomodar a relação entre
produção de segmento e prosódia da língua-alvo. Por isso, seu desempenho, em
determinados momentos, aproxima-se gradualmente daquele do sujeito nativo, no
decorrer das seis repetições.
Como conclusão deste estudo, a partir do desempenho do sujeito não-nativo,
podemos dizer que a produção de sons no aprendizado do inglês e de uma língua
estrangeira em geral deve focar explicitamente (Perini, 2001) no ensino das
possibilidades de redução na fala corrente, deixando a cargo do aluno querer e/ou
poder implementá-las.
Com relação à inteligibilidade da fala de um aprendiz ou de um falante não-
nativo de LE ser ou não afetada pelo uso de processos que ocorrem na relação entre
216
segmentos e os locais que eles ocupam na cadeia da fala, ou seja, entre segmentos e
prosódia, ela poderia ser avaliada apenas através de um teste de percepção. Este
poderia ter como objetivo avaliar a compreensão de não-nativos para a fala de um
sujeito nativo, e de nativos para a fala de um sujeito não-nativo. Com isso, talvez
pudéssemos verificar até que ponto os processos de coarticulação na fala de ambos
os sujeitos prejudicam ou não a inteligibilidade ou compreensão entre eles.
Este estudo não teve como objetivo julgar qual é o professor ideal para o
ensino de inglês (nativo ou não-nativo), embora possa ter mostrado a importância
de o professor de LE conhecer bem tanto a língua nativa (de onde parte o aprendiz)
quanto a língua-alvo, uma vez que não há dúvidas sobre a ocorrência do
mapeamento entre ambas, embora este trabalho tenha apontado para o fato de que
esse mapeamento não é absoluto, categórico, ou uma questão de tudo ou nada.
Também não tivemos o objetivo de comparar nossos sujeitos. O objetivo foi
mostrar processos que ocorrem na fala do nativo e que podemos (enquanto
brasileiros) assimilar em diferentes graus à nossa fala em inglês, tendo em vista que
tais processos apenas podem ser entendidos na fala corrente e em nenhum outro
contexto.
De minha parte, nunca houve a intenção de chegar a descrever regras ou
técnicas que levassem o falante de português brasileiro a falar como um nativo de
inglês, porque tenho clareza de que isso não existe. Segundo Schmitz (2004), ser
um professor competente de inglês não tem nada a ver com a “natividade”. O autor
acredita que prova do sucesso do ensino-aprendizagem de línguas estrangeiras é a
existência de um número impressionante de falantes de inglês e de outras línguas.
Como exemplo, cita o número de autores não-nativos que escreveram sobre o
inglês e em inglês, tais como: Svartik, Jespersen, Mey e Granger. Para Schmitz
217
(2004), os critérios para contratação de um professor de língua inglesa devem ser
suas competências lingüística, comunicativa, pragmática, sociolingüística e
também didática. Schmitz (op. cit.) acredita que o falante nativo que acabou de
“descer do avião”, que não é formado no ensino de línguas em nível superior e não
tem experiência no ensino da língua inglesa, não é qualificado para entrar na sala
de aula. O falante nativo precisa aprender a ensinar para saber ensinar.
Concluindo, espero que este trabalho, ao usar a Fonética Acústica para
discutir a produção do inglês por dois sujeitos, nativo (americano) e não-nativo
(brasileiro), possa servir de inspiração para o estudo aprofundado da língua nativa e
da língua-alvo, considerando principalmente as diferenças prosódicas entre ambas
na formação dos futuros professores de inglês (Rocca, 2003).
218
REFERÊNCIAS BIBLIOGRÁFICAS
“Some people imagine that intonation is the same
for all languages, but this is not true. You must
learn the shapes of the English tunes, and these may
be quite different from the normal tunes of your
language; and you learn the meanings of the
English tunes, because they are important.”
(O’Connor)
219
ABERCROMBIE, D. Problems and principles in language study. London:
Longman, 1956.
ABREU, L. S. A pronúncia no ensino de língua estrangeira: uma visão histórica.
In: M.A.A. CELANI, Ensino de segunda língua: redescobrindo as origens: São
Paulo: EDUC, p. 45-53,1997.
ALBANO, Eleonora C; BARBOSA, Plínio A; GAMA-ROSSI, Aglael J. A;
MADUREIRA, Sandra; SILVA, Adelaide. A interface fonética-fonologia e a
interação prosódia-segmentos. In: Estudos Lingüísticos XXVII Anais de Seminários
do GEL (Trabalhos apresentados no XLV Seminário/1997). São José do Rio Preto,
UNESP-IBILCE, p. 135-43, 1998.
ALBANO, Eleonora C. O gesto e suas bordas: esboço de uma fonologia acústico-
ariculatória do português brasileiro. Campinas: Mercado de Letras, 2001.
AVERY, P.; EHRLICH, S. Teaching American English Pronunciation. Oxford:
Oxford University Press, 1992.
BAMGBOSE, A. Torn between the norms: innovations in world Englishes. World
Englishes, 17 (1), p. 1-14, 1998.
BAPTISTA, B. O. The Acquisition of English vowels by Brazilian Portuguese
Speaker: Florianópolis: UFSC 2000.
BARBOSA, P. A. Generating Duration from a Cognitively Plausible Model of
Rhythm Production. Proceedings of the Seventh Conference on Speech
220
Communication and Technology (Eurospeech 2001), Aalborg, Danemark,
September 3-7, v. 2, 967-970, 2001.
BECKMAN, M. E. Problems of intonation. Proceedings of the XIIIth International
Congress of Phonetic Sciences. Sweeden, I. p. 450-457, 1995.
BEST, C. T. A direct realist view of cross-language speech perception. In: W.
Strange, (Ed.) Speech Perception and Linguistic experience: Theoretical and
Methodological Issues. York Press, Timonium, MD, p. 171-204, 1995.
BISOL, Leda. Introdução a estudos de fonologia do português brasileiro. Porto
Alegre: EDIPUCRS, 1996.
BLAIR, R. W. Innovative Approaches.New York: Newbury, 1991.
BLOOMFIELD, L. Language. New York: Holt, 1933.
CAMARGO, Z.A. Análise da qualidade vocal de um grupo de indivíduos
disfônicos: uma abordagem interpretativa e integrada de dados de natureza
acústica, perceptiva e eletroglotográfica. Tese de doutorado. LAEL, PUCSP, 2002.
CASTILHO, F.A.R.O. Questões de pronúncia em língua inglesa: fatores
desencadeantes da percepção do sotaque brasileiro de língua inglesa em relação à
produção dos sons fricativos alveolares. Dissertação de mestrado. São Paulo,
Programa de Lingüística Aplicada e Estudos da Linguagem, PUC-SP, 2004.
221
CATFORD, J. Intelligibility. English Language Teaching Journal, 1 (1), p. 7-15,
1950.
CELCE-MURCIA, M.; BRINTON, D.M.; Goodwin, J.M. Teaching Pronunciation
A reference for teachers of English to speakers of other languages. Cambridge:
Cambridge University Press, 1996.
CHOMSKY, C. Reading, writing, and phonology. Harvard Educational Review,
1970.
CRISTÓFARO-SILVA, Thaïs. Pronúncia do inglês: para falantes do português
brasileiro: os sons. Belo Horizonte: FALE/UFMG, 2005.
CRUTTENDEN, Alan. Intonation. Cambridge: Cambridge University Press, 1997.
CRUZ, N. C. An exploratory study of pronunciation intelligibility in the Brazilian
learner’s English. The ESPecialist, vol. 24, n. 2, p.155-175, 2003.
CRYSTAL, David. Prosodic systems and Intonation in English. Harmondsworth:
Penguin, 1969.
_______________. The English Language. Harmondsworth:Penguin, 1985.
_______________. The Cambridge Encyclopedia of the English Language.
Cambridge, England: Cambridge University Press, 1995A.
222
CRYSTAL, T.H. e HOUSE, A.S. Segmental durations in connected speech
signals: preliminary results. Journal of the Acoustical Society of America 72, 3, p.
705-716, 1982.
DALTON, C.; e SEIDLHOFER, B. Pronunciation. Oxford: Oxford University
Press, 1995.
DEKEYSER, Robert. The obustness of critical period effects in second language
acquisition. Studies in Second language Acquisition, p. 499-534, 2000.
DELGADO-MARTINS, M.R. Fonética do Português: Trinta anos de
investigação. Lisboa: Caminho, 2002.
DENZIN, N. K.; LINCOLN, Y. S. The Landscape of Qualitative research
Theories and Issues. London: Sage Publications, 1988.
ELLIS, Rod. The study of Second Language Acquisition. Oxford: oxford University
Press, 1994.
EYSENCK, M.W.; KEANE, M. T. Psicologia Cognitiva. Um Manual Introdutório.
Porto Alegre: Artes Médicas, 1994.
FANT, G. Speech sounds and features. Cambridge, The MIT Press, 1973.
FLEGE, J. E. Phonetic Approximation in Second Language Acquisition. Language
Learning. 1980.
223
___________. Second language speech learning: theory, findings and problems. In:
Strange, W. (Ed.). Speech perception and linguistic experience: theoretical and
methodological Issues. Timonium, MD: York Press, p. 233-277, 1995.
FOWLER, Carol A e SALTZMAN, Elliot. Coordination and coarticulatio in
speech production. Language and Speech. V. 36, p. 171-195, 1993.
GAMA-ROSSI, A.J.A. Relações entre desenvolvimento lingüístico e neuromotor:
A acquisição da duração no Português Brasileiro. Tese (Doutorado em
Lingüística) Instituto de Estudos da Linguagem. Universidade Estadual de
Campinas: Campinas,1999.
GAMA-ROSSI, A.J.A. e SILVA, Adelaide. Critérios Lingüísticos para a
elaboração de listas de palavras no português brasileiro.Grupos de estudos
Lingüísticos do Estado de São Paulo (GEL), 2001.
HARDCASTLE, W. J. e HEWLETT, N. Coarticulation: Theory, Data and
Techniques. Cambridge: Cambridge University Press, 1999.
HAYCRAFT, B. Phonology and Initial teacher Training. In: Duff, T (ed.),
Explorations in Teacher Training, p. 64-71.
HERNANDORENA, Carmen LM. Introdução à teoria fonológica. In: BISOL, Leda
(org.). Introdução a estudos de fonologia do português brasileiro. São Paulo,
EDIPUCRS: 1996.
224
HIRST, D. e DI CRISTO, A. A survey of intonation Systems. In: Hirst, D.; Di
Cristo, A. (eds.). Intonation Systems: a survey o twenty languages, p. 1 44.
Cambridge: Cambridge University Press, 1998.
JAKOBSON, Roman. Fonema e Fonologia Ensaios. Seleção, tradução e notas com
um estudo sobre o Autor, por J. Mattoso Câmara Jr. Série Filologia e Lingüística,
vol. 2. Rio de Janeiro: Livraria Acadêmica, 1972.
JAKOBSON, Roman; HALLE, M. Fundamentals of language. La Haya, Mouton,
1971, 2ª ed. Revisada (trad. esp. de C. Piera, Fundamentos del language, Madrid,
Ciencia Nueva, 1967). Barcelona:Anthropos, 1956.
JAMES, C. Errors in language learning and use: Exploring error analysis.
London: Longman, 1998.
JENKINS, J. Native Speaker, Non-Native Speaker and English as a foreign
Language: time for a change. IATEFL Newsletter, n. 131, p. 10-11, 1996.
___________. Phonology of English as an International Language: new Models,
new forms, new goals. Oxford: Oxford University Press, 2000.
JOHNSON, D.M. Approaches to Research in Second Language Learning.
Longman, 1992.
JONES, D. An outline of English phonetics. Cambridge: Cambridge University
Press, 1976.
225
KENT, R.D.; READ, C. The acoustic analysis of speech. California: Singular
Publish Group, Inc., 1992.
KENWORTHY, Joanne. Teaching English Pronunciation. London: Longman,
1987.
KRASHEN, S. D. Lateralization, language learning, and the critical period some
new evidence. Language Learning, 23, p. 63-74, 1975
KRASHEN, S.D.; TERREL, T. The Natural Approach. Pergamon, 1983.
LADEFOGED, Peter. A Course in Phonetics. 3
rd
ed. London: Harcourt Brace
Jovanich, Inc., 1993.
__________________. Elements of acoustic phonetics. Chicago: Chicago
University Press, 1996.
LADO, R. Language, teaching: a scientific approach. New York: McGraw-Hill,
1964.
LAVER, J. Principles of Phonetics. Cambridge: Cambridge University Press, 1994.
LENNEBERG, E. The biological foundations of language. New York: John Wiley,
1967.
LEVELT, W.J.M. Speaking from Intention to Articulation. 5
th
ed. Cambridge,
The MIT Press, 1998.
226
LIEFF, C. D. From Pronunciation awareness to Effective Classroom Action. Speak
Out Newsletter of the LATEFL Pronunciation Special Interest Group, n. 19,
1996.
____________. O ensino da pronúncia do inglês numa abordagem reflexiva. In:
Celani, M.A.A. (org.). Professores e Formadores em Mudança: Relato de um
processo de reflexão e transformação da prática docente. Campinas: Mercado de
Letras, 2003.
LIEFF.C. D.; NUNES, Z. A. A. English pronunciation of the Brazilian learner.
How to cope with language transfer Speak out! 12, 22-27, 1993.
LLISTERRI, J. Introducción a la fonética: el método experimental. Barcelona:
anthropos, 1991.
MADUREIRA, S. Entoação e síntese de fala: modelos e parâmetros. In: Scarpa, E.
M. (org.).Estudos de prosódia. Campinas: UNICAMP, Campinas, 1999.
MALMBERG, Bertil. A fonética no mundo dos sons da linguagem. Lisboa, 1954.
MASCHERPE, M. Análise comparativa dos sistemas fonológicos do Inglês e do
Português. São Paulo: empresa Gráfica da revista dos Tribunais S.A, 1970.
MASSINI, G. A duração no estudo do acento e ritmo do português. Dissertação
(mestrado) Instituto de Estudos da Linguagem, Universidade Estadual de
Campinas:Campinas, 1991.
227
MATEUS, M. H. M.; ANDRADE, A.; VIANA, M. C.; VILLALVA, A. (org.).
Fonética, Fonologia e Morfologia do Português. Lisboa: Universidade Aberta,
1990.
MEDGYES, P. The non-native teacher. London: Macmillan, 1994.
MENEZES, Marcello de.; BRITO, Otávio de. Fundamentals of English Phonology.
São Paulo: Pró-ciência, 1982.
MORLEY, J. Current perspectives on Pronunciation. Washington DC: Tesol,
1987.
MORRISON, G. S. Perception of English /i/ and /I/ by Japanese and Spanish
Listeners: Longitudinal results. In: NWLC Spanish 2002. Proceedings NWLC 2002
A.
MOTTA MAIA, Eleonora. No reino da fala a linguagem e seus sons. São Paulo:
Ática, 1985.
NESPOR, M.; VOGEL, I. Prosodic Phonology. Dordrecht: Foris, 1986.
NUNAN, D. Research Methods in Language Learning. Cambridge: CUP, 1002.
NUNES, Z. A. A. Um estudo dos grupos assilábicos iniciais e finais em inglês e
português, dissertação de mestrado. PUCSP, 1987.
228
O’CONNOR, J. D. Better English Pronunciation. Cambridge: Cambridge
University Press, 1967.
ODLIN, Terence. Language Transfer, Cross-linguistic influence in language
learning. Cambridge: Cambridge University Press, 1989.
O’NEIL, R. The Plausible Myth of Learner centredness: or the importance of
doing ordinary things well. English Language teaching journal, vol. 45, 1991.
PERINI, M. A. Sofrendo a Gramática. São Paulo: Editora Ática, 2001.
PHILLIPSON, Q. Linguistic Imperialism. Oxford, England.: Oxford Univerwsity
Press, 1992.
PICCIN, I. M. O ensino de pronúncia do inglês: uma análise sincrônica de livros
didáticos. Dissertação de mestrado. São Paulo, Programa de Lingüística Aplicada e
Estudos da Linguagem, PUC-SP, 2003).
PIERREHUMBERT, J. The phonology and phonetics of English intonation. PH. D.
Dissertation, Cambridge: Cambridge: MA-M.I.T Press, 1980.
POLACZEK, Márcia. Compreensão Oral em Língua Estrangeira: Aspectos
Psicolingüísticos, Fatores, Fonético-Fonológicos e Questões de Ensino-
Aprendizagem. Dissertação de mestrado. São Paulo, Programa de Lingüística
Aplicada e Estudos da Linguagem, PUC-SP, 2003.
229
POW, E. M. De jazidas, garimpos e artífices: a formação fonológica do professor
e sua identidade profissional. Dissertação de mestrado: São Paulo, Programa de
Lingüística Aplicada e Estudos da Linguagem, PUC-SP, 2003.
RICHARDS, J.C.; RODGERS, T.S. Approaches and methods in Language
Teaching. Cambridge: Cambridge University Press, 1997.
ROCCA, P. D. A. A tecnologia da fala aplicada ao ensino de entoação da língua
inglesa para falantes nativos de língua Portuguesa. Tese de doutorado: São Paulo,
Programa de Lingüística Aplicada e Estudos da Linguagem, PUC-SP, 2003.
SAUSSURE, F. Curso de Lingüística Geral. São Paulo: Editora Cultrix, 1969.
SCHMITZ, J. R. Globalization, world Englishes and Brazil: A language Policy for
the 21
th
century. Disponível na Internet no endereço:
http://www.pucsp.br/pos/lael/cepril/publicações/newsletter/2004/. Acessado em 3
de julho de 2006.
SCHÜTZ, R. “Ritmo e o fenômeno de redução das vogais em inglês”. English
made in Brasil < http://www.sk.com.br/sk - reduc. html>. Online. [capturado em
September 25, 2005].
SCLIAR-CABRAL, L. Introdução à Psicolingüística. São Paulo: Editora Ática,
2003.
230
SCOVEL, T. Foreign Accents, Language Acquisition and Cerebral Dominance. In:
language learning, v. 19, p. 245-254, 1969.
SEIDLHOFER, B. Double Standards: teacher education in the expanding circle.
World Englishes 18/2: 223-45, 1999.
SELINKER, L. Interlanguage. In: J.C.Richards, (ed.). Error analyses: perspectives
on second language acquisition. London: Longman, 1972.
SELKIRK, E. O. Phonology and Syntax: The Relation between sound and
structure. Cambridge, Massachusetts: MIT Press, 1984.
SEVERINO, A. J. Metodologia do Trabalho Científico. 2
nd
. ed . São Paulo: Editora
Cortez, 2003.
SKINNER, B.F. Verbal Behavior. New York: AppletonCentury-Crofts, 1957.
STAKE, R. E. Case Studies. In: DENZIN, N. K.; LINCOLN, Y. S. (eds). The
Landscape of Qualitative Research Theories and Issues. London: Sage
Publications, 1998.
STRANGE, W. Speech input and the development of speech perception. In: Otitis
media and child development (J. F. Kavanagh, editor). Parkton, MD: York Press,
1995.
TAYLOR, K. Effects of learning English as a second language. Cambridge:
Cambridge University Press, 1991.
231
TENCH, Paul. Pronunciation Skills. London: Macmillan Press, 1981.
UNDERHILL, A. Sound Foundations. Heineman, 1994.
WEI, Li. The Bilingualism Reader. London: Routledge, 2000.
WIDDOWSON, H.G. Teaching language as communication. London: Oxford
University Press, 1998.
232
ANEXO 1 Termo de consentimento
Termo de consentimento livre e esclarecido
Declaro que os objetivos da gravação por mim realizada em 26 de julho de 2005, no
Estúdio de Rádio e TV da PUCSP, sob coordenação do técnico de estúdio Ernesto Foschi,
foram-me explicitados pela mestranda Assunta Manzi Aguena, a qual a utilizará para fins
exclusivos de sua dissertação de mestrado e dos trabalhos dela decorrentes para apresentação em
congresso ou publicação, dissertação intitulada Contribuições da Fonética Acústica para a
formação do professor de inglês: um estudo de caso, realizada sob orientação da Profa. Dra.
Aglael Gama Rossi, no Programa de Estudos Pós-Graduados em Lingüística Aplicada e Estudos
da Linguagem (LAEL), da Pontifícia Universidade Católica de São Paulo.
No que concerne à minha identificação, foi-me assegurado que apenas sexo, idade,
procedência, formação acadêmica e experiência profissional serão utilizados, sendo meu nome
substituído por sigla não correspondente a ele.
Consinto que a gravação por mim realizada seja incorporada ao Banco de Dados do
Laboratório Integrado de Análise Acústica e Cognição (LIAAC), da PUCSP, coordenado pela
Profa. Dra. Sandra Madureira, para fins exclusivos de pesquisa, tendo sido informada de
antemão que os responsáveis pelo Banco de Dados zelarão pelo uso e aplicabilidade da gravação
exclusivamente para fins científico-acadêmicos.
Foi-me ainda esclarecido que a qualquer momento posso declinar deste consentimento
para o uso da gravação por mim realizada na dissertação de Assunta Manzi Aguena e/ou da
inclusão da gravação no Banco de dados do LIAAC.
Profa. Dra. Aglael J. A. Gama Rossi. Mestranda Assunta Manzi Aguena
Departamento de Lingüística Professora das Faculdades Integradas de
Laboratório Integrado de Análise Acústica Ribeirão Pires
e Cognição (LIAAC) E-mail: [email protected]
Programa de Estudos Pós-Graduados em Telefone para contato:
Lingüística Aplicada e Estudos da Residência: (11) 45784627
Linguagem (LAEL) Trabalho (FIRP) (11) 48282820
Pontifícia Universidade Católica de RG: 16683715
São Paulo (PUCSP) CIC: 069443318-70
E-mail: gamarossi@uol.com.br
Telefones para contato:
Residência (11) 55755570
LIAAC (11) 36708333
RG: 11169576 (SSP-SP)
CIC: 085158558-28
_______________________________
Assinatura do sujeito participante
São Paulo, 26 de julho de 2005.
233
ANEXO 2 Corpus de pesquisa
Sentença 01 - 12 is our number.
Sentença 02 -
It´s the number of games my husband Tom coaches at Lincoln
College every season.
Sentença 03 - It´s the number of times we zero out our bank account each year.
Sentença 04 - And it´s the number of kids we try to keep track of.
Sentença 05 - 12´s an insane number of kids, but having a small family was never
an option for us.
Sentença 06 - You see, Tom loved growing up with seven brothers and sisters.
Sentença 07 - And after my sister died, I spent most of my time wishing I had
seven brothers and sisters.
Sentença 08 - Tom and I met at Illinois Polytechnic University.
Sentença 09 - He was a senior, dreaming of becoming the football coach
Sentença 10 - I was a freshman dreaming of becoming a sports reporter.
Sentença 11 - He wanted eight kids. I wanted eight kids.
Sentença 12 - An hour after I met him I knew he was the one.
234
Sentença 13 - We just had family at the wedding and Shake Maguire, Tom´s best
man.
Sentença 14 - What a hot dog!
Sentença 15 - A year later we had our first daughter Nora.
Sentença 16 - I loved taking her to work with me.
Sentença 17 - After Charlie and Louraine, we realized living in the city.
Sentença 18 - And having eight kids and two careers wasn´t going to work.
Sentença 19 - As much as we wanted our big careers, we wanted our big family
more
Sentença 20 - So Tom settled for coaching at Lincoln.
Sentença 21 - I quit writing for the Tribune, and we moved to the country.
Sentença 22 - Tom and I got busy in Midland.
Sentença 23 - We had Henry, Sarah, Jake and Mark in consecutive years.
Sentença 24 - Then we went for magic number eight, and instead got the first set
of twins -Jessica and Kin
Sentença 25 - nine kids
235
Sentença 26 - with each child, Tom and I got further from our big career dreams
Sentença 27 - but we didn´t think about that
Sentença 28 - we had our hands full with nine, we were happy, and we were done
Sentença 29 - We went to a party for Shake´s appointment to athletic director at
our alma mater.
.
Sentença 30 - And too many beers and nine months later we had Mike
Sentença 31 - After that, Tom got a vasectomy.
Sentença 32 - but he didn´t hear the doctor say it would be a few weeks before it
became effective.
Sentença 33 - In ´98, Nigel and Kyle got us to that crazy number 12.
Sentença 34 - By then, Tom and I were experts at managing chaos
Sentença 35 - I guess you could say that when Tom and I left Midland, we had a
mess of theories about how to raise children.
Sentença 36 - We still have a mess of children, but no theories.
Sentença 37 - 12 is still our number.
Sentença 38 - It´s the number of months my book was on the bestseller list.
236
Sentença 39 - It´s the number of job offers Tom turned down before we found one
close to home.
Sentença 40 - And each day it´s the number of times I´m thankful there´s such a
thing as family.
ANEXO 3 Classificação dos sons consonantais em português e em inglês
Classificação das consoantes em português
Bilabial Lábio-
dental
Dental/
alveolar
Palato-
alveolar
Palatal Velar
Plosivas p b t d k g
Nasais m n
?
Laterais l
?
Vibrantes
(múltiplas)
r
Flapes ?
Fricativas f v s z
? ?
Africadas
Semivogal j w
Classificação das consoantes do inglês americano
Bila-
bial
Lábio-
dental
Inter-
dental
Álveo-
lar
Retro-
flexa
Alvéolo-
palatal
Velar Glottal
Stop p b t d k g
?
Fricative f v ? ð s z
? ?
h
237
Affricate
? ?
Nasal m n ?
Liquid l r
Glide w j w
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo