Download PDF
ads:
Pontifícia Universidade Católica de São Paulo
PUC – SP
Lawrence Rocha Shum
Topologia (s) Sonora (s) nos Games
DOUTORADO EM COMUNICAÇÃO
E SEMIÓTICA
SÃO PAULO
2008
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Pontifícia Universidade Católica de São Paulo
PUC – SP
Lawrence Rocha Shum
Topologia (s) Sonora (s) nos Games
DOUTORADO EM COMUNICAÇÃO E
SEMIÓTICA
Tese apresentada à Banca
Examinadora da Pontifícia
Universidade Católica de São
Paulo, como exigência parcial
para obtenção do título de
Doutor em Comunicação e
Semiótica sob a orientação do
Prof. Doutor Eugênio Trivinho.
SÃO PAULO
2008
ads:
Tese apresentada à Banca Examinadora da
Pontifícia Universidade Católica de São Paulo,
como exigência parcial para obtenção do título
de Doutor em Comunicação e Semiótica
Área de Concentração Signo e Significação
nas Mídias”, sob a orientação do Professor
Doutor Eugênio Trivinho.
Banca Examinadora
______________________________________
______________________________________
______________________________________
______________________________________
______________________________________
Dedico este trabalho à Margarete
Azevedo por seu apoio, amizade,
amor e carinho.
Agradeço:
Ao professor Sérgio Bairon pelo
interesse, amizade e dedicação, aos
professores rgio Nesteriuk, Sérgio
Basbaum e Vicente Gosciola pelas
dicas valiosas, ao professor Eugênio
Trivinho pela postura assertiva, à
Margarete Azevedo pelo incentivo
permanente, à Núcleo de Criação Som e
Imagem (www.nucleodecriacao.com.br)
pelo apoio à pesquisa e a todos meus
alunos, amigos e colegas da PUC-SP.
Muito obrigado!
Resumo
A emergência dos jogos eletrônicos como manifestação e produto cultural de difusão
em larga escala e relevância econômica nos convida a pensar em uma teoria de produção
sonora para games, a exemplo do que ocorre com o cinema (Film Sound). Segundo dados do
NPD Group (www.npd.com), os games constituem hoje a maior indústria de entretenimento,
tendo alcançado apenas no mercado norte-americano a marca de U$ 10,5 bilhões de lucro em
2005.
Para além de sua importância comercial, os jogos eletrônicos possuem status de mídia
e de ambiente de interação social, e se constituem como um dos fenômenos culturais e
tecnológicos mais significativos de nossos dias. Sua influência é percebida em suas interfaces
e hibridizações com o cinema, a educação, a pedagogia, a comunicação, a filosofia, a
computação, a sociologia, a antropologia, o ativismo político, a ciência, a publicidade, a
pintura, o design e outras formas de expressão artística.
No universo acadêmico, os games conquistaram espaço com os Game Studies,
pesquisas científicas a respeito de gêneros, linguagens e aspectos culturais, estéticos e
comunicacionais dos jogos eletrônicos. Uma das principais referências na área, o portal Game
Studies (http://gamestudies.org) propõe novos olhares sobre os games, “ao invés de
simplesmente usá-los como metáforas ou ilustrações de alguma outra teoria ou fenômeno”.
Enfim, os games emergem como área própria do conhecimento.
Nesta tese de doutorado, é proposto o conceito de topologia sonora para designar a
concepção dos possíveis lugares em um game (onde possa haver som) e suas correlações com
o planejamento, criação, emprego e distribuição dos elementos sonoros (vozes, músicas e
ruídos), estabelecendo, assim, uma relação dialética entre os lugares do jogo e as suas
sonoridades. A palavra lugar tem aqui um sentido amplo e pode representar espaços,
ambientes, níveis, fases, nós, mapas, fluxogramas, cidades, reinos, universos, mundos, cenas
opcionais e planos narrativos.
O problema de pesquisa é investigar e propor empregos possíveis dos sons como
elementos imersivos, índices de interação e formas de jogabilidade. Para isso foi realizada
uma interlocução entre as idéias de Huizinga e Caillois sobre a natureza dos jogos, os
modelos estruturais de navegação, de Samsel e Wimberley, os espaços narrativos, de Jenkins,
a teoria da ação nos games, de Galloway, a hipermídia e os estudos sobre a produção sonora
no cinema (Film Sound). A metodologia envolveu, além da pesquisa bibliográfica, a prática
de diversos games.
Palavras-chave: games, jogos, áudio, som, topologia, adaptável.
Abstract
The emergence of electronic games as a cultural manifestation and product that is
widespread and has economic significance invites us to develop a theory of sound production
for games, in the same way as has occurred with cinema (film sound). According to
information from the NPD Group (www.npd.com), games are currently the largest sector of
the entertainment industry, having earned a profit of US$10.5 billion in 2005 in the American
market alone.
In addition to their commercial importance, electronic games have the status of a
media and an environment for social interaction and constitute one of the most significant
cultural and technological phenomena of our time. Their influence can be seen in the way
they interface and form a hybrid with the cinema, education, pedagogy, communication,
philosophy, computer science, sociology, anthropology, political activism, science,
advertising, painting and other forms of artistic expression.
Games have established themselves within the academy with game studies: scientific
research regarding the types, languages and cultural, aesthetic and communicational aspects
of electronic games. One of the main points of reference in this area, the website Game
Studies (http://gamestudies.org), proposes taking a new view of games, “instead of simply
using them as metaphors or illustrations of some other theory or phenomenon”. In short,
games have emerged as their own area of knowledge.
The concept of sound topology is proposed in this doctoral dissertation to designate
the conception of the possible places in a game (where there can be sound) and their
correlation with the planning, creation, employment and distribution of sound elements
(voices, music and noises), thus establishing a dialectical relationship between a game’s
places and their sounds. The word “place” here has a broad meaning and can mean spaces,
environments, levels, phases, obstacles, maps, flow charts, cities, kingdoms, universes,
worlds, optional scenes and narrative plans.
The research problem is to investigate and propose possible uses for sounds as
immersive elements, interaction indices and gameplay forms. For this purpose, a dialog was
conducted among the ideas of Huizinga and Caillois regarding the nature of games; of Samsel
and Wimberley regarding the structural models of navigation; of Jenkins regarding narrative
spaces; of Galloway regarding the theory of action in games; of hypermedia, and of film
sound studies. The methodology involved the practice of various games, in addition to
bibliographic research.
Key words: games, audio, sound, topology, adaptive.
Sumário
Introdução p. 01
1. Games: diálogos com o cinema e a hipermídia p. 09
1.1. Modelos estruturais de navegação p. 17
1.2. Topologias sonoras em espaços narrativos p. 29
1.3. Interatividade, imersão e intensidade da informação p. 45
1.4. O olhar em primeira pessoa p. 50
2. O game como forma de ação p. 56
2.1. Quatro formas de ação p. 59
2.2. Relações entre ações diegéticas e não-diegéticas p. 73
2.3. Ação e tempo nos games p. 75
2.4. O som como elemento definidor da percepção do tempo p. 81
3. Teoria cinematográfica de produção sonora aplicada aos games p. 86
3.1. O modelo analítico de Chion p. 94
3.2. O espaço sonoro e o ponto de audição p. 98
3.3. Synchresis e o pacto audiovisual (audiovision contract) p. 105
3.4. O uso da voz p. 137
3.5. A música p. 140
3.6. O som e o silêncio como expressão e forma sonora p. 178
4. Audio games p. 186
4.1. Accessible games (jogos com acessibilidade) p. 188
4.2. Games musicais p. 201
5. Conclusão p. 220
6. Apêndice p. 224
7. Bibliografia p. 226
1
Introdução
Durante o mestrado, foram propostos alguns critérios de criação e sistematização de
elementos sonoros para ambientes hipermidiáticos, a partir do conceito de não-linearidade. O
trabalho foi realizado através do diálogo entre a hipermídia, a produção de áudio para cinema
e a semiótica peirceana. Nesta tese, o foco principal é a interatividade que, associada à não-
linearidade, faz emergir dois conceitos: áudio adaptável (adaptive audio) e topologia sonora.
Áudio adaptável é um termo definido pela indústria como o áudio que se adapta ao estado do
jogo e/ou às ações do jogador. Topologia sonora, expressão proposta por este pesquisador,
vem do grego (topos, lugar, e logos, estudo) em associação ao som em criações
audiotextovisuais interativas como hipermídias, instalações artísticas e jogos eletrônicos.
Nesta tese, o conceito, bem como suas possíveis aplicações, está circunscrito no universo dos
games. Trata-se da concepção dos possíveis lugares em um game (onde possa haver som) e
suas correlações com o planejamento, criação, emprego e distribuição dos elementos sonoros
(vozes, músicas e ruídos), estabelecendo, assim, uma relação dialética entre os lugares do jogo
e as suas sonoridades. A palavra lugar tem aqui um sentido amplo e pode representar espaços,
ambientes, níveis, fases, nós, mapas, fluxogramas, cidades, reinos, universos, mundos, cenas
opcionais e planos narrativos.
Topologia sonora também é o conjunto de características gerais dos elementos
sonoros presentes em um determinado lugar de um game. Por exemplo: presença maior ou
menor de harmônicos, formantes (ressonâncias), formas sonoras simples ou complexas, tonais
ou atonais, consonantes ou dissonantes, previsíveis ou aleatórias, estacionárias ou dinâmicas,
suaves ou intensas, ascendentes ou descendentes (em amplitude e/ou freqüências), regulares
ou irregulares, definidas ou não definidas, brilhantes ou opacas (dependendo das variações
espectrais), lentas ou rápidas, com ou sem índices de materialidade e processamentos de sinal,
além de outros fatores como: distância entre a (s) fonte (s) e o ponto de audição
1
;
deslocamentos do ponto de audição; forma do campo sonoro (livre ou difuso); mudanças no
espaço físico e/ou alterações físicas na (s) própria (s) fonte (s) sonora (s); quantidade,
disposição e movimentos da (s) fontes (s) sonora (s); extensão de bandas críticas;
mascaramentos; contornos (ataque, sustentação, decaimento e cessação); planos de mixagem
1
Segundo Rodríguez (2006: 313), ponto de audição pode ser definido como “o ponto de referência espacial a
partir do qual se constrói toda perspectiva sonora. Emula o ponto do espaço referencial de onde um ouvinte
escuta qualquer conjunto de fontes sonoras”.
2
em tempo real pela engine do game, etc. Neste sentido, topologia sonora se assemelha ao
conceito de paisagem sonora, assim definido por Schafer (1977: 366):
Paisagem sonora O ambiente sonoro. Tecnicamente, qualquer porção do
ambiente sonoro vista como um campo de estudos. O termo pode referir-se a
ambientes reais ou a construções abstratas, como composições musicais e
montagem de fitas, em particular quando consideradas como um ambiente.
A diferença entre os dois conceitos é que a topologia sonora de um game, em sentido
amplo, é o conjunto das paisagens sonoras deste game e suas correlações com o ambiente, os
espaços e os comportamentos do jogo, definidos em termos de possíveis ações diegéticas e/ou
não diegéticas da máquina e do jogador, como veremos detalhadamente no Capítulo 2.
Ressaltamos que o conceito de topologia sonora assume feições tão variadas quanto
são os próprios games. Além disso, está relacionado ao modo como sons e imagens se
influenciam mutuamente, pois, afinal, a constituição dos lugares em um game se dá por
intermédio de suas características visuais e sonoras.
A emergência dos jogos eletrônicos, como manifestação e produto cultural de difusão
em larga escala e relevância econômica, nos convida a pensar em uma teoria de produção
sonora para games a exemplo do que ocorre com o cinema (Film Sound). Segundo dados do
NPD Group (http://www.npd.com/), os games constituem hoje a maior indústria de
entretenimento, tendo alcançado apenas no mercado norte-americano a marca de U$ 10,5
bilhões de lucro em 2005. Isto sem falar em outros mercados economicamente importantes,
como o Japão e a União Européia, além do enorme volume de cópias “informais” distribuídas
em todo o mundo.
Para além de sua importância comercial, os jogos eletrônicos possuem status de mídia
e de ambiente de interação social e se constituem como um dos fenômenos culturais e
tecnológicos mais significativos de nossos dias. Como veremos no Capítulo 2, Galloway
(2006) sustenta que o videogame requer uma estrutura analítica própria. A influência dos
games é percebida em suas interfaces e hibridizações com o cinema, a educação, a pedagogia,
a comunicação, a filosofia, a computação, a sociologia, a antropologia, o ativismo político, a
ciência, a publicidade, a pintura, o design e outras formas de expressão artística. Nesteriuk
(2007) argumenta que a popularização dos games contribuiu com a disseminação dos
computadores pessoais no início dos anos 1980 e se consolidou em meados da década de 1990
3
com o acesso mais amplo à internet. Para o pesquisador, o videogame funcionou como uma
espécie de laboratório experimental do uso de tecnologias computacionais, ainda que a
finalidade fosse, essencialmente, o entretenimento. Chamamos a atenção para o fato de que os
games, assim como outras mídias de massa como o rádio e a televisão, estão presentes não
apenas nos lares das pessoas, mas, também, em lojas, escolas, clubes, eventos e shopping
centers.
Durante muito tempo, os jogos eletrônicos foram ignorados pelo universo acadêmico.
As pesquisas sobre games (game studies) começaram em meados da década de 1990 e
ganharam destaque no início dos anos 2000 com a formalização de suas duas principais
linhas: a narratologia e a ludologia. A primeira, como o próprio nome sugere, aborda as
formas expressivas da narrativa, assim como faz com a literatura e o cinema, por exemplo. A
segunda estuda os games a partir das características de jogabilidade em si.
Atualmente, os Game Studies se concentram em torno de pesquisas científicas a
respeito de gêneros, linguagens e aspectos culturais, estéticos e comunicacionais dos jogos
eletrônicos. Uma das principais referências na área, o portal Game Studies
(http://gamestudies.org) propõe novos olhares sobre os games, “ao invés de simplesmente
usá-los como metáforas ou ilustrações de alguma outra teoria ou fenômeno”. Enfim, os games
emergem como área própria do conhecimento.
No Brasil, a inserção dos jogos eletrônicos no universo acadêmico pode ser
exemplificada por teses e monografias acerca do assunto, grupos como o CS:Games, Grupo
de Pesquisa Semiótica sobre a Linguagem dos Games da PUC-SP
(http://csgames.incubadora.fapesp.br/portal), portais como o Game Cultura o game como
forma de cultura (http://www.gamecultura.com.br/) e cursos superiores recentes como o
Curso de Design de Games da Universidade Anhembi Morumbi, cuja primeira turma se
formou no final de 2006, e o Curso Superior de Tecnologia em Jogos Digitais da PUC-SP,
inaugurado em 2007.
Quanto ao estudo do áudio para games, as referências bibliográficas são escassas,
sobretudo em língua portuguesa. poucos livros técnicos; a maioria em inglês e anteriores a
2004. Em e-mail recebido por este pesquisador em 28/01/2008 de Aaron Marks, compositor e
autor do livro The Complete Guide to Game Audio for Composers, Musicians, Sound
Designers and Game Developers (2001), ele afirma:
4
A couple books I'd recommend... Audio for Games - Planning, Process and
Production by Alexander Brandon (2005) and Creating Music and Sound for
Games by GW Childs (2007). Other than my book which we are currently
creating a 2nd edition of (although, there won't be many
changes just bringing it up to date) and my next one Game Audio
Development (which should be out early summer but isn't very technical
I'm afraid). I don't really know of any others on the market. Of
course, the big problem is that technological books are usually out of
date the minute they are published and not a lot of publishers find
them profitable enough to print – so it can be difficult.
Se tecnicamente a oferta de títulos disponíveis sobre a produção de áudio para games é
pequena, conceitualmente, é possível que inexista; e a proposta desta tese é justamente
preencher esta lacuna. Para isto, será estabelecida uma interlocução entre bibliografias
diversas: (1) sobre games de forma geral, (2) a respeito de hipermídia e meios digitais, (3)
sobre áudio para cinema (Film Sound), (4) técnicas de gravação, edição e mixagem, (5) além
de autores como Johan Huizinga e Roger Caillois que refletem sobre os jogos de maneira
mais ampla.
O trabalho de pesquisa para a realização desta tese também vai ao encontro do
aprimoramento e sofisticação do áudio nos games. No documentário Gamer BR
2
, o jornalista
Théo Azevedo relata o contato que teve, em viagem ao Canadá, com a produtora Ubisoft
3
. Na
ocasião, explicaram a ele que, durante o desenvolvimento de um jogo de tiro em primeira
pessoa, uma equipe de captação externa registrou, em um deserto norte-americano, os sons de
53 armas diferentes, de calibre pesado. Além dos disparos, foram gravados outros sons, como
os de trocas de cartuchos e os de armações de gatilhos. Os produtores do game chegaram ao
requinte de observar que, em algumas armas, o som do disparo do último cartucho era
diferente do som provocado pelos demais.
Nesta tese, os conceitos de jogos eletrônicos, games ou videogames e elementos
sonoros estão assim delineados: jogos eletrônicos são games ou videogames desenvolvidos
para plataformas computacionais (PC / MAC / Linux, etc.), consoles proprietários
(Playstation, Xbox, Nintendo, etc.) e dispositivos portáteis (celulares, PSP, Nintendo DSi,
2
O documentário Gamer BR, produzido por Pedro Bayeux e Flávio Soares, entre 2004 e 2005, retrata o universo
dos jogos on-line por meio de entrevistas com gamers, produtores, antropólogos, jornalistas, políticos,
psicólogos, proprietários de lan houses, representantes do governo e entusiastas do gênero. O vídeo discute, entre
outros temas, mercado, profissionalismo dos ciberatletas, pirataria, censura, políticas de incentivo, vício e
violência. É possível assistir ao documentário completo a partir do endereço:
http://www.archive.org/details/Gamer_Br_Alta_Portuguese. A página de Pedro Bayeux é http://pirex.com.br/.
3
http://www.ubi.com/US/default.aspx.
5
etc.), desenvolvidos a partir de game engines ou ferramentas de autoria (Director, Flash, etc.)
e/ou linguagens de programação (Java, C, C++, HTML, XML, Visual Basic, etc.) para
diferentes finalidades como entretenimento, educação, treinamento, comunicação empresarial,
publicidade e pesquisas acadêmicas, entre outras. Games representam o conjunto de jogos que
constituem a linguagem do videogame, assim como os filmes de maneira ampla constituem a
linguagem do cinema. Neste trabalho, os termos jogos eletrônicos, games e videogames são
empregados como sinônimos. Nesteriuk (2007: 98) lembra que os games “possuem ainda
duas características próprias: são transmidiáticos, isto é, podem se manifestar em diferentes
mídias e suportes, como celulares, vídeo, televisão, computadores pessoais; e podem
incorporar jogos preexistentes, como xadrez, pôquer, boliche e mesmo outros games (versões
antigas ou mini games”), numa espécie de metalinguagem conhecida entre os jogadores por
unlockable games”; elementos sonoros são quaisquer signos sonoros (vozes, músicas e
ruídos/efeitos sonoros, entre outros) presentes em jogos eletrônicos. O termo “efeito sonoro”,
pode ser empregado com dois significados muito diferentes: como um ruído qualquer, exceto
vozes e músicas (mesmo músicas feitas com sons provenientes de tiros, motores, freadas,
animais, objetos, etc.) ou como um processamento de sinal (reverb, echo, chorus, delay,
flange, compressor, expander, etc.). Nesta tese, assumimos o primeiro significado. Os
processamentos de sinal, por sua vez, podem também ser chamados de “efeitos”, mas nestes
casos a palavra efeitos” deve estar desvinculada de “sonoros”. Para estes processamentos,
consideramos mais adequadas as expressões “efeitos de tempo” para designar os
processamentos que manipulam fundamentalmente o tempo e “efeitos de dinâmica” para
aqueles em que as variações dinâmicas (amplitude) são o foco principal. Esta divisão é
puramente didática e esquemática, uma vez que os processamentos de tempo também alteram
a dinâmica dos sons. Além disso, o leitor familiarizado com a música eletroacústica poderá
questionar a discriminação entre efeitos sonoros, vozes e músicas, pois afinal tanto as vozes
(faladas e cantadas) quanto os ruídos de forma geral podem, no universo eletroacústico, se
constituir como matéria-prima musical. Mais uma vez, lembramos o aspecto didático e
estrutural desta classificação.
Curiosamente, até mesmo a indústria reflete o ineditismo do estudo sobre áudio para
games. Embora tenha se criado um termo específico, Game Audio, os artigos e palestras mais
recentes encontram-se disponíveis em sua maioria em áreas pagas de portais especializados
como o IAsig (Interactive Audio Special Interest Group http://www.iasig.org/), o
GDCRadio (Game Developers Conference
http://www.gdcradio.net/) e o G.A.N.G (Game
Audio Network Guild http://www.audiogang.org/), comandado por Tommy Tallarico,
6
responsável pelo espetáculo itinerante Video Games Live que reúne orquestra, coro,
iluminação sincronizada, vídeo, ações ao vivo e interatividade com o público.
Uma questão importante é como vozes, músicas e ruídos atuam como índices de
interação. Conseqüentemente, outro fator que será analisado é o emprego do som como
elemento imersivo. Por esta razão, o trabalho de pesquisa ênfase aos games a partir da
sexta geração (1999-2005) até o presente momento, visto que é neste período que ocorre uma
clara convergência entre elementos da linguagem hipermidiática, do cinema e dos jogos
eletrônicos.
A literatura sobre as relações entre sons e imagens no cinema contribui para se pensar
o áudio nos games. Existem motivos para isso. Primeiro: grande parte da narrativa
hipermidiática e dos jogos eletrônicos é fortemente influenciada pelo cinema; segundo: o
advento do Blu-ray e do HD-DVD (e, certamente, de formatos futuros), a melhora crescente
da performance dos microcomputadores pessoais e o aumento da largura de banda na Internet
têm possibilitado o uso cada vez mais freqüente de trechos de filmes e vídeos em aplicativos
hipermidiáticos e em jogos eletrônicos; terceiro: a maioria dos games a partir da sexta geração
emprega técnicas de produção sonora, amplamente utilizadas no cinema. No entanto, há
especificidades relacionadas à criação de áudio para games que serão tratadas com maior
aprofundamento no Capítulo 3.
Stansberry (1997: 71-72) aponta que mesmo em estruturas de navegação não-lineares
há sempre algum nível de linearidade, já que o usuário experiencia tanto a passagem do tempo
quanto a sensação de movimento, seja por meio de diferentes ambientes, fases ou telas. Por
esse motivo, várias formas de organização de conteúdos para obras cinematográficas são úteis
para o desenvolvimento de jogos eletrônicos. Além disso, extensa bibliografia e reflexão
sobre a relação entre sons e imagens no cinema, a começar pelos primeiros teóricos como
Eisenstein e Pudovkin (apud Weis and Belton, 1985), nos anos 1920, passando por autores da
teoria moderna do cinema como Robert Bresson, Mary Ann Doane (apud Weis and Belton,
1985) e Michel Chion (1994), além de criadores como Robert Altman, Walter Murch e
Tomlinson Holman (apud LoBrutto, 1994). Os games incorporam e assimilam linguagens e
técnicas de produção originárias do cinema, e a elas acrescenta as linguagens e ferramentas de
programação, comuns na hipermídia. Por isso, é possível estabelecer paralelos e distinções
entre as relações "elementos sonoros" versus "elementos visuais" nos games e no cinema. Se
no cinema, por exemplo, por mais que se inove, não é possível romper a seqüencialidade dos
fotogramas (cada cena é sempre apresentada quadro a quadro), nos games, ao contrário, a
seqüencialidade raramente ocorre e, quando acontece, é diferente do cinema, uma vez que a
7
renderização das imagens e, em alguns casos, os processamentos do áudio são feitos em
tempo real. Vale a pena exemplificar: o modo de treinamento em Half Life é linear, mas
permite que o jogador realize diversos movimentos e tentativas para aperfeiçoar suas
habilidades. O que acontece, então, é que embora a seqüência dos obstáculos seja literalmente
a mesma para qualquer jogador, cada um a realizará no seu próprio tempo, com acertos e
erros diversos, e com movimentos únicos que refletirão variações tanto na interface gráfica
quanto no ambiente sonoro. O jogador pode, entre outras coisas (que diferenciam o game do
cinema), solicitar que a hostess holográfica repita as instruções de cada desafio quantas vezes
quiser, sem ter que interromper o jogo e realizar a operação de rewind (retrocesso), como
teria que fazer em um rolo de filme ou player. Em outros momentos do jogo, ao se aproximar
de algum personagem, as respostas dos mesmos variam, de acordo com um conjunto de frases
previamente gravadas e executadas de maneira aleatória. Ou seja, a linearidade no cinema e
nos games é qualitativamente distinta. A primeira fase de Half Life cria a sensação de não-
linearidade, uma vez que o jogador pode se deslocar livremente, mas no fundo sim uma
seqüência linear, que as falas dos personagens ao longo do percurso sugerem para onde se
deve ir. Caso o jogador não acate estas sugestões, não avançará para outras fases.
Cook (1998: Prefácio) discute com muita desenvoltura as interações entre sons e
imagens em contextos multimidiáticos, que ele define como situações onde mais de um meio
de expressão é empregado. Como exemplos, o autor apresenta a ópera, o videoclipe e o
comercial de televisão. Há diversos estudos de caso e um modelo de análise conceitual.
Cooley (1998: 01) dá um passo adiante e estabelece relações entre sons e imagens em
ambientes hipermidiáticos. Ela argumenta que as artes performáticas, ao longo da história,
acumularam um corpo teórico consistente acerca do uso de elementos sonoros e que, por isso,
podem servir como referência para a produção de áudio para ambientes hipermidiáticos. Esta
proposição também é válida para os games.
Assim, no Capítulo 1 discutiremos, entre outros assuntos, algumas das características
da hipermídia, presentes nos videogames, e pontos de convergência entre a linguagem do
cinema e a dos jogos eletrônicos. Estas aproximações fazem sentido porque hipermídias,
games e filmes são produtos de comunicação audiovisual. Além disso, parafraseando
Gosciola (2003: 104), a condução da narrativa linear está presente em todos eles, e a não-
linearidade comum à hipermídia e aos games se manifesta no cinema “de formas diversas e
não tão diretas, em trechos ou na íntegra de filmes”.
Ao longo do Capítulo 2, analisaremos as formas de ação (diegéticas ou não-diegéticas)
da máquina e do jogador, e a influência do som na percepção do tempo nos games. Este tema
8
apresenta correlação com o conceito de topologia sonora, que, por exemplo, nos games do
tipo adventure, a exploração de espaços coerentes ocorre em tempos cronologicamente
coerentes, enquanto em action games, mudanças súbitas de níveis e rounds provocam saltos
inexplicáveis no tempo-espaço. Assim, o modo como a variável tempo interfere, e sofre
influência do ato de jogar, diz respeito à topologia sonora de cada gênero, de maneira geral, e
à topologia sonora de cada game específico, em particular.
No Capítulo 3, faremos uma interlocução entre emprego do som nos games e a teoria
cinematográfica de produção sonora, abordando assuntos como: o modelo analítico de Chion,
o espaço sonoro e o ponto de audição, Synchresis e o pacto audiovisual (audiovision
contract), a primazia recorrente da imagem sobre o som, usos assíncronos do som em relação
a imagens, o modelo de análise de Bordwell e Thompson, o emprego da voz e da música nos
games, a priorização do canal sonoro como possibilidade estética e o silêncio como expressão
e forma sonora.
Finalmente, no Capítulo 4, falaremos exclusivamente dos audio games, jogos
eletrônicos baseados no som. Em alguns deles, não interface gráfica, de modo que todo o
espaço do jogo é topologicamente constituído por meio de sons.
O presente estudo se concentra na linguagem sonora dos games e suas implicações
estéticas, bem como na pesquisa sobre aspectos relacionados à gravação, edição e mixagem
de áudio, de modo a facilitar a integração (dos sons produzidos) em engines e plataformas de
middleware. É importante lembrar, no entanto, que as linguagens de programação em si e o
estudo detalhado das plataformas de middleware não fazem parte do escopo desta tese.
9
Capítulo 1 –
Games: diálogos com o cinema e a hipermídia
Neste capítulo, vamos falar de alguns elementos que caracterizam a linguagem dos
games e seus encontros com o cinema e a hipermídia.
Moscou, 1975. O então estudante secundarista Lev Manovich assiste a aulas de
cálculo e programação de computadores. Durante os dois anos do curso, Manovich não um
computador sequer. O professor utiliza um quadro negro para explicar conceitos e os alunos
escrevem códigos de programação em seus cadernos. As correções e avaliações são feitas a
partir das anotações em papel. No mesmo ano, Tom Quinn, comprador de artigos esportivos
da Sears Roebuck, adquire da Atari 150.000 unidades da versão doméstica do jogo de arcade
Pong
4
. No natal de 1975, Pong torna-se o líder de vendas da Sears.
Figura 1Pong
Nova Iorque, 1985. Manovich trabalha na Digital Effects, uma das primeiras
produtoras de animação 3D para cinema e televisão, responsável pela computação gráfica do
filme Tron (Tron Uma Odisséia Eletrônica). Um ano antes, a indústria do videogame passa
por uma crise. As vendas de consoles despencam. O consumidor norte-americano
aparentemente prefere gastar U$ 200 em um computador pessoal que também serve para
outras coisas do que U$ 150 num videogame. A cada edição, as revistas especializadas em
informática oferecem quatro ou cinco programas novos, inclusive jogos.
4
http://jogos.uol.com.br/reportagens/historia/1975.jhtm
10
Enquanto isso, no Japão, nasce o Nintendo Entertainment System (NES). Seus
primeiros jogos são Nuts & Milk e Lode Runner, ambos com recursos de gravação de dados
em fitas cassete. O Famicom, nome oriental do console, pode se transformar em um
computador com o uso do periférico Family Basic. Surge também a Namcot (atual Namco),
que leva seus clássicos de arcade como Pac-Man e Galaxian para o videogame de 8 bits da
Nintendo. No rastro do sucesso do Macintosh, da Apple, a Atari desenvolve um computador
de 16 bits, baseado no chip 68000 da Motorola. Ainda em 1985, a Microsoft lança a segunda
versão do MSX, o MSX2.
Linz, Áustria, 1995. Manovich participa da edição anual de um dos mais prestigiados
festivais de arte eletrônica, o Ars Electronica. A categoria computação gráfica é substituída
por uma nova, a net art. O computador não é mais apenas uma ferramenta de trabalho;
transforma-se em um aparato midiático universal responsável não somente pela produção,
mas também pelo armazenamento e distribuição de conteúdo. As expressões mídia digital e
new media emergem deste novo cenário: websites, jogos eletrônicos, aplicativos
hipermidiáticos em CD-ROMs, instalações interativas, etc. No mesmo ano, é lançado nos
Estados Unidos pela Sony o PlayStation, console bem recebido pelo público e pela mídia. A
década de 1990 testemunha as transformações da cultura em cultura digital, e da mídia em
new media.
Estados Unidos, 2005. É lançada a versão em DVD de Soft Cinema, de Manovich,
obra emblemática da sociedade informacional baseada em bancos de dados. Este trabalho se
apresenta como contraponto ao cinema tradicional em dois aspectos. Em primeiro lugar, a
reprodução contínua, mecânica, do projetor lugar à não-linearidade da hipermídia em sua
lógica computacional; e, segundo, o modus operandi industrial da produção cinematográfica e
seu consumo de massa cedem espaço para novas formas de realização e acesso do público por
meio das tecnologias da informação. 2005 também é o ano em que Sony, Microsoft e
Nintendo começam a revelar ao público as características da sétima geração de videogames:
PlayStation 3, Xbox 360 e Revolution (mais tarde Wii), respectivamente. O que diferencia o
Wii (Nintendo) em relação à concorrência é a incorporação do gestual na prática do jogo. Seu
controlador, o Wii Remote, permite a codificação e decodificação dos movimentos do jogador,
mimetizando a prática de esportes como esgrima, tênis e motociclismo, entre outros. Embora
os gráficos e recursos sonoros sejam mais simples do que os dos demais consoles atuais, seu
aspecto lúdico abre portas fora dos nichos específicos de gamers. É pura diversão; ao
movimentar o controlador em um jogo de esgrima, por exemplo, o som do deslocamento da
“espada” no ar está mais próximo da linguagem dos desenhos animados e dos brinquedos
11
infantis do que dos filmes de ação e ficção científica. Em contrapartida, o PlayStation 3
(Sony) e o Xbox 360 (Microsoft) apostam na resolução de som e imagem, e em uma
experiência imersiva e dramática, “cinematográfica”. Em relação ao áudio, a integração do
surround potencializa a imersão.
Naturalmente, não uma correlação direta entre os episódios da vida de Manovich
aqui apresentados e as evoluções tecnológicas dos videogames. No entanto, pode-se pensar
em um paralelismo entre o desenvolvimento da linguagem dos jogos eletrônicos e da
hipermídia, com influência do cinema, especialmente a partir de meados dos anos 1990. A
hibridização e a convergência das mídias vão além das citações, metalinguagens e referências.
Elas são literais como pode ser atestado por novas formas de publicidade, entretenimento e
intervenções urbanas.
A canadense TimePlay Entertainment
5
, por exemplo, transforma salas de cinema em
arenas de jogos high-tech. Por U$ 8 a cada meia hora, as pessoas podem participar de jogos
coletivos como trívia, bingo ou cabo de guerra, utilizando como interface uma tela touch-
screen de 10 polegadas (para cada participante) e o telão do cinema. Para Jon Hussman,
fundador da empresa, uma sala de cinema é o lugar perfeito para experiências de
interatividade. Já a espanhola CineGames
6
aposta em jogos sofisticados como o Battlefield
2142 da Electronic Arts. Um dos projetos da companhia prevê uma batalha com até 100
avatares na tela, cada um controlado por um jogador na platéia, com direito a refrigerante,
pipoca e, porque não, um longa-metragem depois.
Em Las Vegas, é possível interagir com peças publicitárias projetadas em telas,
paredes e pisos. Os anúncios gigantes (chegam a ter três por sete metros) criados pela Monster
Media
7
estão em toda parte, desde aeroportos e hotéis até centros de compras e lazer. Para
acioná-los, basta pisar ou mover a mão sobre eles. O programa que gera imagens funciona
com Blue Tooth e é capaz de gerar mensagens instantâneas e áudio. Ao ativar promoções, por
exemplo, um comunicado é enviado para o celular do consumidor. Ao passar diante do
anúncio de um automóvel, outra imagem aparece como a do interior do veículo ou do seu
motor; e, contrariando aqueles que crêem que o filme de 30 segundos está “morto”, a empresa
comercializa veiculações “tradicionais” sensíveis ao toque.
5
http://www.timeplay.com/ (acessado em 08/04/2008)
6
http://www.youtube.com/watch?v=TDGkeZBu_5s&feature=related (acessado em 08/04/2008)
7
http://www.monstermedia.net/ (acessado em 08/04/2008)
12
No meio acadêmico, há diversos exemplos de estudos relacionados à convergência das
mídias. Dentre eles, merece atenção o Comparative Media Studies
8
(CMS), ou Estudos de
Mídia Comparada, sediado no edifício de Ciências Humanas do campus do MIT
(Massachussets Institute of Technology). O projeto liderado por Henry Jenkins propõe a
reflexão acerca das diferentes mídias, panoramas teóricos, contextos culturais e períodos
históricos, e estimula o vínculo entre teoria e prática, de modo que o processo de criação seja
resultado do diálogo entre o saber fazer e a análise crítica.
Os cenários midiáticos que se constroem não mais permitem a simples replicação de
paradigmas; é necessário que as pessoas se preparem para trabalhos e profissões que ainda
não existem, o que vai ao encontro das idéias de Bairon (2003) a respeito da construção do
conhecimento, utilizando-se da linguagem das novas tecnologias não como instrumentos,
mas, principalmente, como formas de pensar. Especificamente sobre os jogos eletrônicos,
Nesteriuk (2007: 203) afirma:
Talvez em nenhuma outra época os jogos tenham estado tão intimamente
ligados à tecnologia e seus avanços como podemos observar hoje nos games.
A criação e o desenvolvimento de um game pode ser tão ou mais complexo
que a criação de sistemas da ciência ou do trabalho. A necessidade de
equipes responsáveis por áreas aparentemente tão distantes, quanto, por
exemplo, a roteirização, a programação, o design e as artes, torna o
desenvolvimento de um game uma tarefa essencialmente transdisciplinar,
remontando-nos à Grécia Antiga, onde o conceito de techné não impunha
qualquer separação entre as noções de arte, técnica e ciência.
Os cartazes da Research Fair, evento organizado pelo CMS, instigam os estudantes a
refletir sobre os cruzamentos entre as diferentes dias por meio de perguntas que operam
como jogos de palavras: Can you hear a film? (Você pode ouvir um filme?), Can you watch a
song? (Você pode assistir a uma canção?), Can you play the news? (Você pode tocar (ou
jogar com) as notícias?).
Como podemos ver, não há uma “realidade virtual” mágica, apartada do mundo “real”;
uma “outra realidade” para a qual nos transportamos através dos meios digitais. Existe, sim,
uma realidade expandida resultante do acoplamento entre as imagens digitais, os códigos de
programação de software, as estruturas materiais urbanas, os equipamentos e objetos de uso
8
http://cms.mit.edu/ (acessado em 12/04/2008)
13
cotidiano e a emergência de produtos culturais transmidiáticos (filme, game, website, etc.). O
“futuro” já chegou e o nosso tempo é agora. Leopoldseder (1999: 67-70) afirma:
A televisão oferece uma realidade secundária, uma realidade que se consiste
de elementos da realidade primária... A imagem gerada por computador, por
outro lado, cria uma realidade primária autônoma de imagens que não
existem em nossa realidade: o mundo de imagens da Cultura Digital em si
mesmo torna-se uma realidade primária. Passamos então a lidar não com
elementos da realidade ordinária, mas de uma realidade sinteticamente
construída. Uma realidade em espaço tri-dimensional, com qualquer
movimento, dinamismo ou transformação imaginária.
A digitalização dos meios de produção unificou alguns procedimentos específicos e
característicos de modalidades artísticas como pintura, desenho, fotografia, música, animação
e escritura, entre outras, na tríade cut-copy-paste. A este respeito, Santaella (2001a: 390) diz:
“Antes da digitalização, os suportes eram incompatíveis: papel para o texto, película química
para a fotografia ou filme, fita magnética para o som ou vídeo. Pós-digitalização, todos os
campos tradicionais de produção de linguagem e processos de comunicação humanos
juntaram-se”. Conseqüentemente, é possível estabelecer mapeamentos e trans-codificações
entre meios de expressão distintos (imagens, sons, textos, etc.), o que representa não apenas
uma diferença na técnica, mas, principalmente, nas possibilidades de criação. O que está em
jogo não é mais a natureza física do suporte, mas seu conteúdo sígnico, os acoplamentos entre
signos de naturezas diversas, a concepção estética no processo criativo e a lógica por trás dos
códigos binários. No plano dos sentidos, a digitalização nos possibilita “ouvir” as imagens e
“enxergar” os sons. O meio digital permeia o conteúdo comunicacional e sua forma de
produção, edição, processamento e finalização. Diversas manipulações das sonoridades em
jogos eletrônicos seriam simplesmente impensáveis no meio analógico. Como exemplos,
podemos citar os processamentos de áudio em tempo real, as transformações realizadas por
softwares e plug-ins de áudio, os sequencers musicais, as game audio engines (engines que
gerenciam o áudio de um game) e as plataformas de middleware (intermediárias entre as
estações de trabalho de produção sonora e as engines e códigos de programação de jogos
eletrônicos). A transição do analógico para o digital provocou uma mudança expressiva na
maneira como os elementos sonoros (vozes, músicas e ruídos) e outros signos materializam-se
e são concebidos.
14
Vejamos agora mais algumas aproximações entre os jogos eletrônicos e a hipermídia.
Ambos apresentam uma característica comum: a não-linearidade. Embora não esteja
exclusivamente circunscrita ao meio digital, como pode ser atestado com exemplos da
literatura como as obras Cent Mille milliards de poèmes (Cem Trilhões de Poemas), de
Raymond Queneau, O Jogo da Amarelinha, de Julio Cortazar, e Finnegans Wake, de James
Joyce, entre outras, a não-linearidade é sem dúvida um dos fundamentos da roteirização de
games e de hipermídias, de modo que o percurso que o jogador/usuário realiza não é, na
maioria das vezes, predeterminado; uma seqüência de A a Z. Isto proporciona a liberdade de
construção de suas próprias rotas de acordo com os seus interesses, necessidades e desejos.
Entretanto, é importante lembrar que jogos eletrônicos e hipermídias podem também
apresentar obstáculos ou desafios para que se possa adentrar em áreas específicas ou continuar
o percurso. Nos games, isto se constitui por meio de fases. Este recurso é, com freqüência,
empregado em hipermídias voltadas ao treinamento empresarial e é, certamente, um elemento
chave na concepção de elementos sonoros, como veremos ao apresentarmos os modelos de
navegação propostos por Samsel e Wimberley (1998: 23-40). Gosciola (2003: 99) lembra que
a não-linearidade permite ainda o “acesso direto e preciso (até mesmo randômico) a uma
informação particular entre muitas informações que compõem um conjunto de conteúdos”.
Desta maneira, “o acesso direto a qualquer conteúdo ou parte de uma obra” acontece “sem
que o usuário perca a continuidade da fruição”. O autor afirma ainda que o “usuário obtém
várias leituras de uma mesma obra”. Neste ponto, vale a pena chamar a atenção para o fato de
que, se a navegação se estrutura a partir das escolhas do jogador ou usuário, a topologia
sonora de um game ou hipermídia pode refletir estas mudanças e percursos em tempo real,
como discutiremos adiante. Nos games, eventos como cumprimento de tarefas, power-ups
(recursos ou habilidades extras) e cheats (truques) possibilitam, entre outras coisas,
deslocamentos não-lineares instantâneos, o que Aarseth (apud Leão, 2001: 62) chama de
sudden displacements. Esta arquitetura não-linear, presente tanto em games como em
hipermídias, constitui um paradigma de espaço-tempo multidimensional em ambientes
gráficos bi ou tridimensionais que contém diferentes níveis de camadas de informação.
Podemos afirmar que algum parentesco entre estes deslocamentos não-lineares
instantâneos (na hipermídia e nos games) e as elipses que ocorrem no cinema. Martin (2007:
77) cita um exemplo clássico:
15
Se quisermos mostrar um personagem deixando seu escritório para ir para
casa, faremos uma ligação “no movimento” do homem fechando a porta do
escritório e, em seguida, abrindo a de sua casa, com a condição,
naturalmente, de que não se passe nada de importante para a ação durante o
trajeto...
As elipses são muito comuns nos games também. Em jogos de corrida, por exemplo,
não é comum vermos o piloto (que representa o jogador) dirigir-se até o carro, abrir a porta e
sentar-se ao volante. Após algumas configurações iniciais como escolha do veículo, cor, tipo
de câmbio (manual ou automático) e circuito, entre outras, o que vemos é o interior do carro
(em primeira pessoa) ou o carro inteiro visto por trás em plongée (câmera de cima para
baixo). Martin (ibid) continua:
... como tudo o que vemos na tela deve ser significativo, não se irá mostrar o
que não o é, a menos que por razões precisas o diretor queira dar uma
impressão de lentidão, ociosidade, tédio, às vezes de inquietação, e mais
comumente o sentimento de que “vai acontecer alguma coisa”: planos
bastante longos e aparentemente destituídos de qualquer ação produzem de
fato tal impressão.
Em Burnout Revenge (para Playstation 2), por exemplo, quando o carro do jogador é
destruído em um acidente, vê-se um replay em câmera lenta da colisão fatal. Se o jogador
mantiver pressionado um dos botões do controlador, ouvirá ruídos de baixa freqüência
(graves) que, associados à imagem vagarosa, provocam dois efeitos: o aumento da
dramaticidade do impacto e a sensação de prolongamento temporal da cena. Voltaremos a
falar adiante sobre as relações temporais entre sons e imagens.
A não-linearidade abre também as portas para a pluralidade de discursos. A
possibilidade de coexistência, em uma mesma hipermídia (o que também pode ocorrer em um
game), de discursos distintos, por vezes conflitantes, não deve ser confundida com uma
abertura para um relativismo absoluto. A idéia é a de que a pluralidade permita reunir
diferentes vozes, em simultaneidade ou não, porém de forma articulada. E como se faz isso?
Que critérios podem ser considerados no desenvolvimento de um roteiro não-linear, sem que
se perca de vista a complexidade? Leão (2001: 65) defende as interações entre pares
complementares, ou seja:
16
A ordem complexa dos sistemas ocorre quando conjunção entre ordem e
desordem.
A complexidade é viabilizada, se houver também simplicidade.
As escolhas aleatórias podem existir se houver uma programação prévia que
determine “leis” que governem as ações possíveis e que, ao mesmo tempo,
permitam diferentes graus de liberdade e de fluidez durante a navegação e links
entre os nós (blocos de informações).
As buscas não seqüenciais são possíveis porque em algum momento foi
realizado um trabalho de organização prévia, seqüencial.
A elasticidade do sistema está diretamente associada ao grau de precisão da
construção e organização prévias do conteúdo.
Deste modo, a organização/estruturação do roteiro hipermidiático determina e ao
mesmo tempo possibilita (Leão, 2001: 71):
Os variados graus de abertura e de fechamento do sistema.
A ordem seqüencial ou não-seqüencial.
Os links aleatórios e os predeterminados.
O registro do percurso realizado e a recuperação do trajeto (“histórico”). Aqui vale
destacar que alguns programas permitem que o usuário crie “marcadores” em
determinados pontos realçando, assim, sua importância.
Na hipermídia estruturada em bases complexas, assim como em diversos games,
parece não haver um único centro. Pode-se citar como exemplo os Massively Multiplayer
Online Games (MMOGs). Pessoas que, provavelmente, jamais entrariam em contato umas
com as outras de outra maneira, jogam em equipes, criam grupos de discussão e compartilham
idéias, interesses e experiências. No que diz respeito à topologia sonora, os jogos online
proporcionam uma forma de interação por intermédio da oralidade. Jogadores de todo o
mundo, com diferentes idiomas e sotaques criam em tempo real uma babel às avessas. É
curioso notar como o desempenho da conexão à Internet interfere na performance do (s)
jogador (es) e, conseqüentemente, no conteúdo das conversações. Em jogos de tiro em
primeira pessoa, por exemplo, jogadores com acesso mais veloz levam vantagem e zombam
daqueles cuja navegação é mais lenta dizendo coisas do tipo: “Olha cara, você já era!”.
17
A arquitetura hipermidiática também se caracteriza por uma relação diferente com o
espaço. Quando um profissional acessa remotamente a Intranet da empresa onde trabalha, ele
“está na empresa” e, ao mesmo tempo, em outro lugar qualquer. A mesma lógica é válida para
o jogador online que está no universo do game e, simultaneamente, em sua casa, lan house,
etc. Isso revela a noção de território móvel nos meios digitais. Leão (2001: 134) cita um
paralelo desta idéia na religiosidade árabe, onde o tapete, que representa a terra sagrada, ao
ser desdobrado, ao fiel a “presença” em território espiritualmente elevado. Desta forma,
pode-se dizer que a hipermídia, assim como o game, permite a criação e o habitar de novos
territórios simbólicos. Cada lugar em um game ou hipermídia pode ser uma passagem de e/ou
para outro (s) lugar (es), bem como representar um nível de aprofundamento e/ou síntese e/ou
apresentação do (s) conteúdo (s) de outro (s) lugar (es). Assim, se é possível pensar em uma
topologia para a construção e análise de ambientes digitais, naturalmente, é pertinente a
concepção de uma topologia sonora estruturada nos modelos e mapas de navegação.
Modelos estruturais de navegação
Samsel e Wimberley (ibid) descrevem alguns modelos estruturais de navegação,
responsáveis pela definição dos limites do percurso e as experiências do usuário/jogador e
pela integração de todos os elementos criativos (sons, imagens, textos, animações, formas de
interação e navegação, entre outros). São eles:
Seqüencial
Seqüencial com Cul-de-Sacs
Com ramificações
Com ramificações condicionais
Com ramificações e percursos predeterminados
Com afunilamento
Com ramificações e cenas opcionais
Exploratório
Com percursos paralelos
Com “universos” (ambientes distintos)
Multilinear
18
O modelo seqüencial é o mais simples e costuma ser empregado em games
corporativos e hipermídias como e-books, livros eletrônicos que acrescentam à dimensão do
texto escrito, vídeos, animações e elementos sonoros, entre outros recursos. Através dele, o
usuário/jogador navega por um percurso com procedimentos estritamente definidos, um após
o outro. É impossível saltar do ou fase “A” para o ou fase “C”, por exemplo, sem antes
ter passado por “B”. No entanto, dentro de cada ou fase, pode haver diferentes níveis de
abertura e não-linearidade. Como vimos anteriormente, o modo de treinamento em Half Life é
linear, mas permite que o jogador realize diversos movimentos e tentativas para aperfeiçoar
suas habilidades. Um e-book infantil também é linear, mas oferece a possibilidade de acesso a
inúmeros objetos e personagens animados em cada gina. Nos games de treinamento
empresarial a linearidade é recorrente, que determinadas informações e conceitos
costumam ser apresentados em seqüências específicas. Mas, nem sempre isto é imprescindível
e, talvez, falte a alguns roteiristas e desenvolvedores o domínio da linguagem dos meios
digitais para explorar suas potencialidades em níveis mais sofisticados. Aqui estamos
utilizando os termos “nó” e “fase” como sinônimos com finalidade didática. No entanto, nem
sempre isto ocorre. Como vimos anteriormente, nós são blocos de informações, de modo que
em um game, cada fase pode ser constituída de diversos nós.
Para o produtor de áudio, a linearidade aparentemente simplifica o processo de criação e
produção, mas isto nem sempre é verdadeiro, que um projeto linear, às vezes, requer um
design sonoro mais complexo em termos qualitativos e quantitativos que um não-linear. Um
ótimo exemplo disso é o game Rez HD que, embora linear, proporciona uma experiência
audiovisual altamente imersiva. Iremos comentar este jogo no Capítulo 4.
Figura 2 – Seqüencial
Eventualmente, a seqüência linear pode ser interrompida por caminhos alternativos
que levam a áreas distintas e desvinculadas dos objetivos do percurso principal. Estas regiões
são chamadas de Cul-de-Sacs. Em geral, representam uma pausa na navegação e podem
assumir formas diversas como cenas adicionais, curiosidades, quebra-cabeças, extras, áreas
secretas ou informações complementares relacionadas ao tema/trama central da hipermídia ou
game, porém, de modo a não interferir em seu conteúdo ou funções.
19
Figura 3 – Seqüencial com Cul-de-Sacs
Um exemplo do uso de Cul-de-Sacs é a hipermídia Um Príncipe na Escola, da Editora
Scipione. Ele apresenta uma história linear sobre um pequeno príncipe e seu primeiro dia na
escola. A criança pode navegar através das telas e clicar em diversos objetos dentro de cada
cena. Esta ação leva a Cul-de-Sacs, nós que contêm animações, jogos e até mesmo o morph
de um papagaio estilizado para outro real, em formato QuickTime. A partir de cada uma
destas áreas, pode-se retornar ao ponto em que o enredo central foi interrompido ou mesmo
saltar para outro ponto qualquer da história. Em alguns games, estruturas similares a Cul-
de-Sacs, no sentido de que o jogador não é obrigado a percorrê-las. Trata-se de cenas ou
missões opcionais ou, ainda, lugares que o jogador tem a liberdade de conhecer, ou não. Em
Diablo II: Lord of Destruction, pacote de expansão de Diablo II, diversas quests
facultativas que não interferem na resolução do jogo.
A topologia sonora pode ou não deixar “explícito” o fato de que o jogador/usuário
está em um Cul-de-Sac. A decisão cabe aos desenvolvedores e/ou ao produtor de áudio e está
condicionada ao contexto, características e objetivos do game ou hipermídia. Se o que se
busca é criar a sensação de continuidade, o emprego do som pode ser estratégico. Chion
(1994: 47) afirma que o som é um elemento unificador das imagens em vários aspectos:
primeiro, em termos temporais, permitindo que imagens sejam apreendidas como um fluxo
contínuo; segundo, estabelecendo uma atmosfera que envolva, englobe as imagens, através de
“cenários sonoros” como ondas do mar ou cantos de pássaros; terceiro, criando coesão no
fluxo de imagens através do uso de músicas não-diegéticas (sobrepostas ao espaço da
narrativa; tipicamente, as “trilhas sonoras” como são conhecidas no cinema e em outros
produtos audiovisuais). Martin (2007: 114) endossa:
... enquanto a imagem de um filme é uma seqüência de fragmentos, a trilha
sonora restabelece de certo modo a continuidade, tanto ao nível da simples
percepção, quanto ao da sensação estética; a trilha sonora é efetivamente,
por natureza e necessidade, bem menos fragmentada que a imagem: em
geral é relativamente independente da montagem visual e muito mais de
20
acordo com o “realismo” no que concerne ao ambiente sonoro; de resto, o
papel da música é primordial como fator de continuidade sonora ao mesmo
tempo material e dramática.
Falaremos mais detalhadamente sobre o papel da música no Capítulo 3. Por outro
lado, também é possível utilizar o som como um elemento de “ruptura”, delimitador de um
espaço específico. Por exemplo, ao ingressar em um Cul-de-Sac, a topologia sonora pode se
transformar por completo, alterando o conjunto de sons presentes, a “paleta” de timbres,
acordes, estilos, alturas, escalas, envelopes, “climas”, texturas, composições e índices de
materialidade, entre outros fatores. Isto ocorre com freqüência quando o conteúdo do Cul-de-
Sac é muito específico, diferenciando-se claramente do restante da hipermídia ou game como
um todo.
O modelo com ramificações é o mais elementar na estruturação de um mapa com
possibilidades de escolhas pelo usuário/jogador. Ele oferece opções e caminhos diversos,
previamente estipulados e apresentados através de bifurcações a partir do percurso principal.
Em decorrência da opção que o usuário/jogador fizer, chega-se à outra área, com conteúdo
distinto. Este formato é bastante popular porque demonstra com facilidade o conceito básico
de interatividade: a escolha pelo usuário/jogador. Ao utilizar este modelo, recomenda-se
manter o fluxograma gerenciável, de modo a evitar um número excessivo de sub-
ramificações. Em certos games, os objetivos e intenções de um jogador/personagem podem
conduzir a uma ou mais ramificações, associadas a tarefas, que terão implicação moral e ética.
Em alguns casos, como no RPG para computador Arcanum, as ramificações são mutuamente
excludentes e têm conseqüências no longo prazo.
No que diz respeito à topologia sonora, os princípios de continuidade/descontinuidade
apresentados no modelo estrutural seqüencial com Cul-de-Sacs também são válidos. Além
disso, é a estrutura com ramificações que provavelmente serviu de base para a criação e o
emprego do que chamamos de áudio adaptável ou adaptive audio, como o termo é conhecido
internacionalmente.
Figura 4 – Com Ramificações
21
O próximo modelo, com ramificações condicionais, é semelhante ao anterior, mas
apresenta barreiras que devem ser superadas. A condição para prosseguir a
navegação/jogo é uma ação predeterminada que pode assumir a forma de um desafio,
tarefa, pergunta ou embate. É muito empregado em games de ação, treinamentos e cursos
interativos, de modo que o usuário/jogador deve mostrar que têm habilidade e/ou domina
as informações necessárias e está apto a continuar. Deve-se, contudo, ter o cuidado de
evitar questões pouco pertinentes ao objetivo central da hipermídia/game. Os obstáculos
precisam estar vinculados a algo relevante. Do contrio, o usuário/jogador pode sentir-se
incomodado e abandonar a interação.
Ao final de cada fase ou etapa, é comum haver um feedback (positivo ou negativo;
de acerto ou erro), seja porque o jogador/usuário obteve êxito ou falhou. Este feedback
pode ser uma palavra ou expressão (fail, game over, extra time, etc.) uma vinheta ou ainda
uma cut-scene (cena ou seqüência previamente criada e renderizada para descrever ou
narrar acontecimentos). A topologia sonora delimita, assim, a etapa encerrada (com ou
sem sucesso do jogador/usuário) e sugere o que virá a seguir. Pode apresentar apenas um
efeito sonoro, sincronizado com uma palavra ou expressão, ou um conjunto mais amplo e
complexo de sons (vozes, músicas e/ou ruídos).
Figura 5 – Com Ramificações Condicionais
O modelo com ramificações pode apresentar, ainda, percursos predeterminados.
Freqüentemente, esta variação limita as opções de outra maneira. Ao mesmo tempo em que
apresenta várias alternativas de escolha, o programa segue seu curso, a despeito da vontade do
usuário/jogador. Em essência, o software cria a ilusão de diversidade de opções sem, no
entanto, oferecer meios de alterar o que foi previamente planejado. A interação limita-se ao
22
conjunto de opções oferecidas pelo desenvolvedor. Digamos, por exemplo, que a história leve
o jogador/usuário até o saguão de um hotel onde um atendente está sentado, atrás de um
balcão. Suas alternativas são:
a) solicitar um quarto;
b) sair do hotel.
Caso escolha “a”, o atendente lhe entregará a chave. Se optar por “b”, o atendente o
seguirá e colocará a chave em sua mão. Observe que, em ambos os casos, o jogador receberá
a chave, independentemente de sua vontade. Assim, são várias as opções de caminhos a
percorrer, mas todos eles levam a um mesmo resultado.
Neste contexto a topologia sonora apresenta pequenas e sutis variações entre as
opções “a” e “b”, que se expressam por meio da “adaptabilidade” planejada pelo produtor de
áudio e/ou pelo desenvolvedor.
Figura 6 – Com Ramificações e Percursos Predeterminados
Outra forma de inserir condicionantes à navegação em estruturas ramificadas,
especialmente no caso de narrações interativas, é criar um afunilamento destas ramificões, de
modo que os diversos nós ramificados são reconduzidos à linha central da história, seu fio
condutor. É um recurso crucial ao se considerar as possibilidades exponenciais, criadas por
uma estrutura com ramificações convencionais. Quando os s são reconduzidos a uma linha
única, é mais fácil administrar a estrutura. Esta forma é largamente empregada em jogos e
filmes interativos. Segundo o game designer Terry Borst (apud Samsel and Wimberley, 1998:
23
29), em The Wing Commanders, por exemplo, longos corredores com várias portas que, ao
final, levam o jogador a um mesmo destino. As portas seguem o clichê “a princesa ou o
tigre”, quer dizer, uma escolha favorável ou não.
Embora a topologia sonora no momento do afunilamento seja com freqüência a
mesma, qualquer que tenha sido o percurso realizado anteriormente pelo jogador/usuário, é
importante que as transições ocorram de maneira “imperceptível”, isto é, sem que o
jogador/usuário se conta delas, a menos é claro que se queira enfatizar a mudança. Em um
game, como não se sabe exatamente em que momento o jogador vai migrar de um espaço a
outro, uma das estratégias possíveis é a criação de matrizes de transições. Elas permitem que
o sistema selecione uma transição apropriada (dentre as diversas que tenham sido criadas
previamente) entre qualquer par de arquivos sonoros (com marcas de metadados). O desafio,
neste caso, é compor ou produzir áudios que funcionem bem como transições entre diversos
outros trechos de áudios. Isto exige um pensar sonoro (musical ou não) completamente não-
linear.
Figura 7 – Com Afunilamento
Em certos casos, o usuário/jogador deve escolher entre alternativas que m origem na
linha central e mais tarde retornem a ela, seja numa hipermídia ou num game. Cenas
opcionais ou alternativas são muito utilizadas em programas educacionais ou de treinamento,
quando é necessário demonstrar um grande número de conceitos ou variáveis. Podemos citar,
como exemplo, o CBT (Computer Based Training), desenvolvido para as teleoperadoras da
Credicard pela Menes Learning Insight (2003). Parte do roteiro foi gravado por atores,
simulando situações reais nas quais clientes da empresa fazem solicitações e/ou reclamações.
24
O sistema é bastante intuitivo. A operadora ouve a explanação do “cliente” e deve responder,
segundo padrões através dos quais foi orientada. A resposta é gravada e, depois, analisada e
comentada por um (a) supervisor (a).
Em estruturas ramificadas com cenas opcionais, o usuário/jogador pode ser solicitado
a responder a uma questão ou a um conjunto delas e, em caso de acerto, é remetido de volta à
linha central, de onde poderá prosseguir, indo para a próxima missão, nó ou fase. Assim como
acontece nos Cul-de-Sacs e nas ramificações condicionais, a topologia sonora pode
caracterizar cada cena opcional, de modo mais ou menos integrado e homogêneo em relação
ao resto da hipermídia/game.
O próximo modelo estrutural permite ao usuário/jogador fazer pausas durante a
navegação para explorar “universos dentro de universos. Os títulos da rie infantil
Living Books, por exemplo, empregam dois estilos de estruturas: seqüencial e
exploratório. A criança muda de uma gina para outra da história linearmente. Dentro de
uma determinada gina, palavras e ilustrações apresentam acontecimentos específicos
como o aniversário de um personagem. A hisria é, então, narrada atras de locução
previamente gravada. Em seguida, o usuário pode passar a explorar os detalhes da cena.
Ao clicar em festa”, por exemplo, ouve-se a palavra. A explorão é estimulada através
de áreas clicáveis ocultas, de onde são acionadas animações. Este todo ajuda a fixar
detalhes da história e seus personagens e, ao mesmo tempo, enriquece a experiência do
usuário e estimula as capacidades de associão e memorização.
O modelo exploratório favorece o desenvolvimento de ambientes 3D que ampliam
o sentido de imersão, permitindo ao usuário/jogador movimentar-se em curvas de até 360º
dentro do ambiente virtual. Particularmente nos games, a topologia sonora pode estar
relacionada a “gatilhos de presença, à velocidade de movimento do (s) jogador (es) e
outros objetos e veículos, a níveis de zoom e posicionamentos de câmera (ângulo de
visão), a elementos randômicos, à existência (ou não) de áreas secretas, missões de
treinamento e configurões de níveis de dificuldade e ao que mais os programadores
implementarem.
25
Figura 8 – Exploratório
Há ainda um modelo estrutural com percursos paralelos, onde diversos caminhos
coexistem em vários níveis. Pode-se criar uma única seqüência linear, onde o jogador/usuário
tem a opção de experienciar entre diferentes trajetos, pontos de vista ou circunstâncias
particulares.
Na peça Tamara, de John Krizanc (Samsel and Wimberley, 1998: 33), várias cenas
ocorriam simultaneamente em locais diferentes de uma casa, de modo que cada espectador
podia acompanhar o enredo do ponto de vista de um determinado personagem. Portanto, para
uma apreensão multilinear da peça, seria necessário assisti-la repetidas vezes.
Percursos paralelos possibilitam topologias sonoras diversas. As características,
ambientações, design, iluminação, texturas, cenografia, figurino, enredo, “clima” e outros
fatores de cada percurso podem influenciar sua respectiva topologia sonora, de modo que
podemos identificar algumas, dentre as inúmeras possibilidades de relacionamento entre elas:
A criação de topologias sonoras específicas relacionadas a cada percurso, ou seja,
cada um deles apresenta uma “paleta” única de sons e tonalidades. As transições
em caso de mudança de percurso pelo jogador podem ocorrer por meio de matrizes
de transições.
A criação de topologias sonoras com “paletas” de sons e tonalidades similares
entre diferentes percursos. Neste contexto, as transições, em caso de mudança de
percurso pelo jogador, podem ocorrer também por meio de camadas (layers) e
colagens, além de matrizes de transições.
26
É possível ainda fazer combinações de grupos de percursos, de modo que alguns
apresentem topologias sonoras similares e outros heterogêneas.
Figura 9 – Com Percursos Paralelos
Quando dois ou mais ambientes estão interconectados através de um fio condutor
único que pode ser um tema, propósito, missão ou história, tem-se o modelo estrutural com
“universos”. Ao adicionar a ele uma série de eventos ou tarefas pré-definidas que o
usuário/jogador deverá desvendar, para seguir para uma próxima fase, proporciona-se um
grau elevado de interatividade. A concepção da topologia sonora requer a definição de
aspectos como:
Elementos que dão vida ao ambiente, desde objetos que o usuário/jogador poderá
tocar ou manipular até histórias pregressas de personagens.
Tarefas ou coisas que o usuário/jogador deverá fazer para avançar no enredo.
“Gatilhos” que, disparados, causam mudanças de “estado” no ambiente,
personagens, circunstâncias e/ou objetos. Um “gatilho” pode ser uma área
sensível, um personagem, algo que é manipulado ou o qualquer outra coisa que o
desenvolvedor decidir. Um “gatilho” pode ser acionado por proximidade ou ação
do jogador.
Criando variáveis
Diante da complexidade que uma história assim estruturada pode assumir, é possível
fazer uso de uma série de recursos, que permitem criar uma rica gama de variáveis, dentro de
um mesmo enredo básico. Por exemplo:
27
Músicas que sugiram determinadosclimas”, elementos estéticos, sonoplastia e/ou
pequenas passagens baseadas em variáveis psicológicas, que alterem o tom da cena
ou parte da informação.
Personagens e suas relações com outros personagens. Se, por exemplo, um
personagem morre e o usuário/jogador está interagindo com um conhecido dele
sobre o fato, é possível adequar suas reações emocionais à circunstância
apresentada. Reações emocionais podem ser customizadas (inclusive
randomicamente) para diferentes usuários ou execuções da aplicação e, ainda
assim, o evento narrado permanece o mesmo.
“Adendos” ou trechos não essenciais podem ser acrescentados ou suprimidos, de
acordo com a história acumulada. São ações tangenciais à narrativa central.
A topologia sonora em estruturas com “universos” possibilita o uso intensivo de
elementos sonoros associados a objetos, seres, tarefas ou “gatilhos” e, ao mesmo tempo,
permite o emprego do som como “pista”, algo mais subjetivo, que o usuário/jogador poderá
ou não reconhecer. O som dentro do espaço diegético (onde se a narrativa) on-screen (cuja
(s) fonte (s) sonora (s)
9
pode (m) ser visualizada (s) na tela) e off-screen (cuja (s) fonte (s)
sonora (s) não é (são) visualizada (s) na tela) maximiza a experiência do usuário/jogador em
três níveis: abstrato (sensações, “climas”), indicial (coisas e seres) e simbólico
(representações, símbolos). Estes veis apresentam correspondência imediata com as
categorias peirceanas de primeiridade, secundidade e terceiridade (Peirce 2000: 14). Ao longo
do Capítulo 2, discutiremos a importância dos planos diegético (que faz parte do universo do
jogo) e não-diegético (sobreposto ao universo do jogo) no planejamento e produção de áudio
para games.
Figura 10 – Com “Universos
9
Qualquer ser, máquina, objeto, etc. enquanto estiver emitindo som.
28
Finalmente, no modelo multilinear, podemos citar, como exemplos, a Internet, os
simuladores em geral, os games com “finais abertos” como Sim City e The Sims, além dos que
possibilitam ao jogador explorar o ambiente à vontade (“mundo aberto”), podendo realizar ou
não as missões, como a série Grande Theft Auto (atualmente na versão IV). Esteja navegando
na Web, pilotando uma aeronave, construindo uma cidade virtual, recriando um evento
histórico ou atuando como personagem em um game, não é possível prever, com exatidão,
toda e qualquer atitude do usuário/jogador. Desta forma, ao conceber um ambiente simulado e
sua respectiva topologia sonora, é importante definir primeiramente todos os principais
elementos interativos e, então, atribuir características específicas (atributos e
comportamentos) a esses elementos “um compêndio de leis” ou “livro de regras” que
viabilizem sua existência.
Figura 11 – Multilinear Simples
Figura 12 – Multilinear Complexa
No modelo à esquerda, pode-se navegar entre nós ou áreas contíguas; no da direita, é
possível ir de qualquer lugar para qualquer outro. Nele, o usuário/jogador pode realizar
leituras diversas de uma mesma hipermídia ou game e em cada uma delas, a topologia sonora
se configura de maneira singular, de acordo com os movimentos e ações do usuário/jogador,
os parâmetros físicos e computacionais da engine e o planejamento prévio realizado pelo
produtor de áudio. O grande desafio é fazer com que haja consistência na topologia sonora,
qualquer que seja o percurso realizado. As transições entre os vários nós ou áreas ocorrem a
partir dos mesmos princípios discutidos no modelo com percursos paralelos. Também é viável
a criação de regras específicas como transições que denotem se uma área é (ou não) contígua
àquela de onde o personagem (jogador) veio. Em um modelo multilinear, a física da engine
desempenha um papel crucial, definindo inclusive o comportamento do som a partir de fatores
como velocidade (do ouvinte/jogador e da (s) fonte (s) sonora (s)), direção (vetores),
29
proximidade, posição (esquerda X direita; frente X trás), dimensões e características do
espaço e das superfícies (reflexão X absorção X difusão; tipos de materiais, etc.). Esta física
pode ou não corresponder à física do mundo em que vivemos. Se, por um lado, uma física
realista proporciona ao jogador um senso maior de “realidade”, uma física modificada cria
efeitos estéticos e sensoriais interessantes. Michael Heim (1998: 71) descreve um projeto
artístico em Realidade Virtual, de Brenda Laurel e Rachel Strickland, intitulado Place Holder.
Nele, o usuário pode assumir a forma de uma aranha, cobra, peixe ou corvo: “No mundo
virtual, os trajes das criaturas proporcionam as propriedades perceptivas em primeira pessoa
do animal escolhido, assim como as suas habilidades vocálicas e de movimento”.
Os modelos estruturais aqui apresentados têm finalidade analítica. Na prática, esses
modelos se fundem, se misturam. Não há, a rigor, um padrão a ser obedecido. O que existe
são necessidades, objetivos e maneiras de alcançá-los. Cada ou fase pode apresentar níveis
de complexidade distintos, contendo diversos sub-níveis de aprofundamento (numa espécie de
eixo vertical da organização do conteúdo) ou ainda sub-nós ou sub-fases (divisões do percurso
em etapas que constituem um eixo horizontal da organização do conteúdo). Assim, é possível
representar a estrutura de uma hipermídia ou game de forma tridimensional. Daí a
importância do espaço no planejamento da topologia sonora, por meio da análise das formas
de estruturação da navegação.
Podemos estabelecer ainda outro desdobramento do conceito de topologia sonora a
partir do que Henry Jenkins (2008) fala sobre o papel expressivo do espaço na narrativa dos
games. O pesquisador descreve: espaços evocativos como parques temáticos; ambientes em
que o jogador pode “encarnar” um personagem, como o game Enter the Matrix; jogos
impregnados de elementos narrativos distribuídos espacialmente, como Myst; e games que
possibilitam a emergência de narrativas criadas pelos próprios jogadores, como The Sims. Em
cada um destes contextos, pode-se conceber e estruturar diferentes topologias sonoras, como
veremos a seguir.
Topologias sonoras em espaços narrativos
A idéia de narratividade nos jogos eletrônicos é um tema que divide opiniões entre
gamers, acadêmicos e desenvolvedores de jogos eletrônicos. grande polêmica entre os
chamados ludologistas, cujo foco de estudo é a mecânica do ato de jogar, e os narratologistas,
interessados na análise de games em paralelo a outras formas de expressão narrativa. Henry
30
Jenkins (2008) pondera sobre as duas correntes de opinião e afirma que compreende “o que
estes escritores (ludologistas) contestam – várias tentativas de mapear games a partir de
estruturas narrativas tradicionais, a despeito de suas especificidades como forma emergente de
entretenimento”. Por exemplo, a aplicação literal da teoria cinematográfica no exame da
linguagem dos jogos eletrônicos é insuficiente. Porém, faz sentido supor que estruturas
narrativas possam contribuir com o desenvolvimento e a crítica de games. Por este motivo, o
autor propõe um olhar sobre os games não como histórias, mas como espaços ricos em
possibilidades narrativas. Confira:
Criadores de jogos não apenas contam histórias; eles modelam espaços e
concebem mundos. Não por acaso, documentos de projetos de games
apresentam detalhamentos muito mais minuciosos acerca da criação de
níveis, por exemplo, do que da concepção do enredo ou motivações do (s)
personagem (ns). Uma “pré-história” dos games pode nos levar à evolução
dos jogos de tabuleiro e dos paper mazes, ambos contextualizados na
criação de espaços, inclusive com contextos narrativos. Monopoly
10
, por
exemplo, pode conter uma narrativa a respeito de como fortunas são
conquistadas ou perdidas; as cartas individuais oferecem pretextos
narrativos para ganhar ou perder uma certa quantidade de imóveis; mas, o
que nos lembramos é da experiência de se mover ao longo do tabuleiro e
parar em uma propriedade de alguém. Alguns teóricos descrevem o RPG
como um modo colaborativo de se contar histórias, mas as atividades do
Mestre começam com a concepção do espaço onde a jornada dos
personagens irá acontecer. Mesmo jogos pregressos, baseados em texto,
como Zork, que devem ter possibilitado uma vasta gama de histórias, têm
como ponto em comum habilitar os jogadores a transitarem por espaços
permeados por narrativas: "Você está olhando para a face norte de uma casa
branca. Aqui não portas e todas as janelas estão cobertas de tábuas. Para
o norte, em um caminho estreito, venta sobre as árvores". Os primeiros
jogos da Nintendo possuíam ganchos narrativos resgatar a princesa
Toadstool mas o que surpreendia os jogadores, ao jogarem pela primeira
vez, eram os complexos e criativos ambientes gráficos que eram muito mais
sofisticados do que as estruturas simples de jogos como Pong e Pac-Man,
concebidos uma década antes. Quando nos referimos a games como Super
Mario Bros., de Shigeru Miyamoto, como jogos de rolagem, vamos ao
encontro de uma tradição muito mais antiga de narrativa espacial: muitas
pinturas japonesas em rolos de papel mostram a passagem das estações, por
10
No Brasil, Banco Imobiliário.
31
exemplo, na medida em que as desenrolamos. Ao adaptar um filme para um
game, o processo normalmente envolve a tradução dos eventos do filme
dentro dos ambientes do game. Quando uma revista especializada em games
pretende descrever o ato de jogar, aproxima-se mais da reprodução de
mapas do jogo do que do recontar suas histórias. Antes de falarmos de
narrativas nos jogos eletrônicos, necessitamos discutir acerca dos espaços do
jogo.
Henry Jenkins (ibid) defende a idéia de que os consoles sejam vistos como máquinas
de geração de espaços atraentes que ajudam a compensar o declínio dos espaços físicos, nas
grandes cidades, como quintais, jardins e vizinhanças. Ao mesmo tempo, lembra que as
narrativas centrais de muitos games estão direcionadas a desafios relacionados à exploração,
mapeamento e domínio dos espaços conquistados. Segundo o autor, as histórias que os
espaços são capazes de contar “criam as precondições para uma experiência narrativa
imersiva em pelo menos quatro formas”: evocam associações narrativas pré-existentes a partir
de espaços baseados em um tema; proporcionam um lugar para a representação dos
acontecimentos nas histórias onde o jogador interpreta um personagem; incorporam
informações narrativas em seus cenários e ambientes; proporcionam condições para que os
jogadores criem suas próprias histórias.
É em relação a esses espaços que discutiremos, a seguir, o conceito de topologia
sonora.
Don Carson (apud Jenkins, 2008), ex-designer sênior de espetáculos para a Walt
Disney, relata que os desenvolvedores de games podem aprender muito estudando técnicas de
“narrativas ambientadas”, em espaços evocativos, que a empresa utiliza na criação de atrações
para o parque de diversões. Carson explica:
“...os elementos da história são introduzidos no espaço físico que os
visitantes percorrem. É o espaço físico em si que realiza grande parte do
trabalho de conduzir a história que os designers estão tentando contar... O
público, influenciado pelas visões apresentadas por filmes e livros, é
facilmente capturado pelo universo recriado.”
A estratégia é apelar para as lembranças e expectativas e encantar as pessoas com as
aventuras do mundo representado, mas o parque de diversões deve ir além de reproduzir a
história literária. Se, por exemplo, a atração girar em torno de piratas, Carson afirma que
32
“cada textura que você usar, todo som que tocar, cada detalhe no caminho deve reforçar o
conceito de piratas”. Qualquer contradição pode comprometer o senso de imersão do espaço
narrativo. Jenkins (ibid) analisa:
As atrações mais envolventes dos parques de diversão são concebidas a
partir de histórias e gêneros bem conhecidos pelos visitantes, de modo que
os espaços físicos são materializações de lugares muitas vezes antes
visitados em fantasias. Estes locais projetam seus mundos de maneira muito
geral e o imaginário dos visitantes/jogadores faz o resto. Algo similar
acontece em diversos games. Por exemplo, American McGee's Alice é uma
interpretação original de Alice no País das Maravilhas (Alice in
Wonderland) de Lewis Carroll. Alice é levada à loucura após vários anos
vivendo na incerteza se suas experiências no País das Maravilhas eram reais
ou alucinações; agora ela está de volta a este mundo e quer sangue. O
universo do jogo não é uma paisagem onírica, mas um reino de pesadelos.
Seguramente, pode-se assumir que os jogadores começam com um mapa
mental bem desenvolvido acerca dos espaços, personagens e situações
associadas ao universo ficcional de Carroll. Na medida em que jogam,
fazem a leitura das imagens distorcidas e, freqüentemente, monstruosas, a
partir do repertório prévio criado por meio das ilustrações de livros e filmes
da Disney. McGee reescreveu a história de Alice, em grande parte,
reconstruindo os espaços originais.
A topologia sonora de um espaço evocativo pode ir ao encontro do tema do jogo ou se
basear nele para propor algo novo, a partir do emprego de gêneros
11
e formas
12
musicais,
clichês e convenções sonoras (por exemplo, sons picos de cartoons). No caso de games
baseados em filmes, as referências são mais evidentes e óbvias. Alguns exemplos: Pirates of
the Caribbean, Lego Star Wars, King Kong (inspirado na versão de Peter Jackson), Jurassic
Park: Operation Gênesis, Spiderman 2, The Lord of the Rings: The Return of King, The Fast
And The Furious e The Matrix: Path of Neo, entre outros. Naturalmente, ocorre com muita
freqüência o caminho inverso, ou seja, filmes baseados em games. Mas este não é o objeto
desta tese.
11
Gêneros são categorias que contêm músicas que compartilham elementos em comum e integram estilos como
blues, rock, pop, gospel, cajun, folclórico, jazz, new age, rap, reggae, eletroacústico, baião, minimalista e samba,
entre muitos outros. Embora este tipo de classificação seja arbitrária e controversa, costuma ser útil no trabalho
de produção musical para games, vídeos e filmes.
12
A Forma é a estrutura e o desenho da música (http://pt.wikipedia.org/wiki/Forma_musical - acessado em
24/07/2008). Por exemplo: rondó, canção, sonata, tema e variação, binária, ternária, estrófica, concerto,
moderna, etc.
33
Autores como Jasper Juul (apud Jenkins, 2008) criticam os games inspirados em
filmes: “você não pode deduzir a história de Guerra nas Estrelas (Star Wars) a partir do game
de mesmo nome”. Jenkins rebate e defende a noção de narração transmidiática, isto é, cada
formato depende menos de si mesmo e se articula com outros, criando assim um contexto
narrativo mais amplo, ou seja, filmes, games, websites e outros formatos se complementam ao
invés de simplesmente se mimetizarem.
O jogo Guerra nas Estrelas não necessariamente reconta a história do filme
e não deve fazê-lo, com o objetivo de expandir a experiência proporcionada
pela saga. Afinal, antes mesmo de comprar o game, os usuários já conhecem
o filme e ficariam frustrados se o game se limitasse a recontar a história. Ao
invés disso, o game dialoga com os filmes da saga, estimulando novas
experiências por meio da manipulação criativa dos detalhes do ambiente. É
possível imaginar games ocupando seu espaço em um amplo contexto
narrativo, onde o enredo é arquitetado em formas diversas como livros,
filmes, programas de TV, quadrinhos e outras mídias, cada qual oferecendo
o que tem de melhor, com relativa autonomia, enriquecendo a experiência
daqueles que acompanham a história através de diferentes canais.
Ainda, no que diz respeito à topologia sonora dos games inspirados no cinema, outras
aproximações podem ser feitas utilizando-se também os diálogos e o design sonoro dos
ruídos, além das composições musicais. Uma maneira interessante que pode ser adotada neste,
e em muitos outros contextos, é o uso de relações intervalares entre freqüências fundamentais
de sons diversos, inclusive não musicais. Cancellaro (2005: 141-144) sugere a identificação
(aproximada) da freqüência fundamental de sons diferentes, por meio de um analisador de
espectro, e a manipulação dos mesmos, possivelmente com um equalizador (o autor não é
explícito), multiplicando o valor da fundamental pelos números da tabela a seguir, de acordo
com a relação intervalar desejada.
Intervalo Fator Multiplicador
Uníssono 1,0000
Segunda menor 1,0595
Segunda maior 1,1225
Terça menor 1,1892
Terça maior 1,2599
Quarta justa 1,3348
34
Intervalo
Fator Multiplicador
Trítono 1,4142
Quinta justa 1,4983
Sexta menor 1,5874
Sexta maior 1,6818
Sétima menor 1,7818
Sétima maior 1,8897
Oitava 2,000
O leitor com conhecimentos de teoria musical talvez conteste esta estratégia, uma vez
que os ruídos de maneira geral não se enquadram nas regras harmônicas da música ocidental.
No entanto, Cancellaro (ibid) argumenta:
... em algumas circunstâncias quando é desejada uma relação entre a trilha
musical e a de ruídos, uma proporção deve ser usada para estabelecer uma
relação intervalar entre dois ruídos... A escuta, a menos que o ouvinte tenha
ouvido absoluto, não se ocupa da identificação exata da fundamental de um
som, mas das relações deste som com outros sons.
Também é possível com um sampler associar um som qualquer a diferentes notas
MIDI e, com isso, estabelecer relações “musicais” intervalares com outros sons. Em um
comercial de whisky, veiculado em rádio na cidade de São Paulo, em 2008, ouvia-se sons
“afinados” de pedras de gelo em meio aos demais instrumentos da música instrumental.
Cancellaro (2005: 180) apresenta uma tabela que relaciona os diferentes intervalos
musicais da escala temperada a possíveis qualidades emocionais. Embora possa ser
questionada, sua ampla utilização na composição de trilhas sonoras originais no cinema
comercial demonstra sua eficácia junto ao grande público.
Intervalo Qualidade Emocional
Oitava perfeita Completude, abertura, unidade
Sétima maior Mistério, estranheza, algo fantasmagórico ou sinistro
Sétima menor Expectativa, ansiedade, incerteza, suspense, algum desequilíbrio
Sexta maior Equilíbrio, paz
Sexta menor Melancolia, calma, suavidade
35
Intervalo Qualidade Emocional
Quinta justa Força, foco, poder, vitória, glória
Trítono Terror, horror, medo
Quarta justa Transparência, claridade, luminosidade, pureza, elevação
Terça maior Neutralidade, determinação, tranqüilidade
Terça menor Relaxamento, positividade, “alto astral”
Segunda maior Imprevisibilidade, algo indefinido, não resolvido
Segunda menor Tensão, ansiedade, dificuldade, falta de clareza
Uníssono Paz, força, calma, segurança
Ao conceber espaços onde ocorra o ato de jogar, Jenkins (ibid) descreve também as
histórias interpretadas pelo jogador, nas quais, ele assume o papel de um personagem. Ao
dizermos “João é um mago”, estamos nos referindo ao papel dele no jogo. O mesmo não
acontece quando estamos assistindo a um filme ou espetáculo teatral. Embora possamos nos
identificar com um ou outro personagem, é no game que ocorre um mapeamento de nossa
presença dentro do universo do jogo. Mapear significa projetar no universo do game o tempo
do jogar, como veremos no Capítulo 2, e as ações do jogador. Por exemplo: o jogador clica
com o mouse, mas também é o prefeito de uma cidade fictícia (condição projetada no
universo do game); em Enter the Matrix, ao “encarnar” Niobe na luta contra os agentes, as
diversas ações no controlador direcionam os movimentos da personagem; em Star Wars,
ações do jogador têm correspondências com movimentos do sabre de luz ao enfrentar Darth
Maul; em Axis and Allies (game relacionado à Segunda Guerra Mundial) ao deslocar uma
peça, o jogador está invadindo um país com suas tropas; ao manejar o teclado do computador,
move-se também a protagonista de Lara Croft; ao movimentar o mouse ou o joystick, o
personagem salta, corre ou voa e assim por diante.
Em jogos com histórias interpretadas pelo jogador, a narrativa costuma ocorrer em
dois níveis: em metas amplas (principais) e em eventos localizados (pontuais). Games que
utilizam esta forma de jogabilidade apresentam estrutura narrativa flexível, desvinculada de
seqüências minuciosamente pré-definidas. Jenkins (ibid) explica que “a organização e
apresentação dos eventos possuem certa autonomia e dispensam a organização episódica, de
modo que cada parte (ou episódio) tem autonomia em relação às demais podendo, inclusive,
ter sua ordem rearranjada sem comprometer o desenvolvimento da trama como um todo”.
Estamos falando de histórias que privilegiam a exploração espacial ao invés do desenrolar
estruturado da narrativa. São definidas por metas e conflitos específicos e acontecem na
36
medida em que o jogador se movimenta, explora o espaço e enfrenta desafios ou oponentes.
Em alguns casos, a aventura termina quando se chega a um determinado lugar; em outros, ao
concluir uma missão ou um conjunto delas.
O GTA IV (Grand Theft Auto IV), por exemplo, lançado em 2008 para PlayStation 3 e
Xbox 360, se passa em Liberty City, cidade ficcional inspirada na Nova York contemporânea.
O jogador interpreta Niko Bellic, um veterano de guerra do leste europeu que vai para os
Estados Unidos, iludido pelo primo Roman, em busca do “sonho americano”. Embora
algumas missões baseadas no enredo precisem ser realizadas para avançar e habilitar certos
lugares do mapa, o jogador é livre: pode se engajar na missão principal, participar de missões
paralelas ou, ainda, ignorar todas as missões para simplesmente perambular pela cidade, sair
com prostitutas, acessar websites (fictícios), enviar e receber e-mails, acessar bases de dados
da polícia, assistir televisão, tomar táxis, fazer ligações telefônicas e cometer (ou não) alguns
delitos como agredir e atropelar pedestres, roubar veículos e enfrentar policiais. Pela primeira
vez em toda série GTA, o jogador é confrontado com decisões morais, como assassinar
alguém ou poupar sua vida ou, então, matar um entre dois personagens. O game tem dois
finais possíveis e dependem das escolhas feitas ao longo e no final do jogo. Também, pela
primeira vez, é oferecida a opção multiplayer com até 16 jogadores simultâneos e 15 modos
diferentes, inclusive um que disponibiliza o mapa completo para jogar sem uma meta final ou
missão para completar.
A topologia sonora do GTA IV merece destaque. A música tema (da introdução) é
Soviet Connection, de Michael Hunter, também compositor de Grand Theft Auto: San
Andreas. O jogo conta com a maior trilha sonora de games até o momento (2008). Ao todo,
são 214 canções de artistas como Queen, The Sisters of Mercy, Busta Rhymes, Femi Kuti,
Fela Kuti, R.E.M., Elton John, ZZ Top, Smashing Pumpkins, Liquid Liquid, Thin Lizzy, The
Who, Phillip Glass, Kanye West, The Who, Seryoga, The Boggs, Justice, Bob Marley, Nas,
Aphex Twin, John Coltrane, Simian Mobile Disco, Barry White, Ne-Yo e Black Sabbath. A
exemplo das versões anteriores, ao dirigir um carro, pode-se ouvir rádio. São 18 emissoras; 3
delas com programas informativos e de variedades e 15 dedicadas a diversos gêneros musicais
e décadas. A grande diferença é que, exceto em Grand Theft Auto: San Andreas, em todas as
versões anteriores do jogo, o som de cada emissora de rádio era constituído por um único
arquivo de áudio em loop que repetia, na mesma seqüência, as músicas, locuções e
comerciais. No GTA IV, cada peça musical, anúncio, comunicado ou evento do enredo está
em um arquivo de som independente que é mixado randomicamente em tempo real, de modo
37
que, não importa quantas vezes ou horas jogue, o jogador tem a impressão de estar ouvindo
rádio. Em algumas músicas há, inclusive, referências à cidade, Liberty City.
A empresa desenvolvedora, Rockstar Games, firmou parcerias comerciais com a Apple
(iTunes) e a Amazon.com (mp3), o que possibilita a compra de arquivos digitais das músicas
do jogo. Além disso, digitando ZIT-555-0100 no celular do protagonista, Niko, o jogador
pode “marcar” suas músicas preferidas e receber uma mensagem de texto com o nome da
canção e do artista. Caso esteja cadastrado no Social Club, área do site da Rockstar, recebe
um e-mail com link para um playlist da Amazon.com com todas as músicas “marcadas”. Para
conseguir o licenciamento e as autorizações de uso de todas as músicas, os desenvolvedores
contataram mais de 2000 pessoas, até mesmo um detetive particular para localizar os parentes
de Skatt Bros, integrante do Sean Delaney, para a cessão dos direitos de Walk the Night. Com
um custo de cinco mil dólares por cessão de direitos autorais por música mais cinco mil por
fonograma (direitos conexos), totalizando 10 mil dólares por peça, o custo parcial da
produção do áudio foi de U$ 2,14 milhões. Bobby Konders, produtor e executivo do mercado
fonográfico, chegou a ir à Jamaica para gravar com artistas da cena do dancehall referências a
Liberty City para a Massive B Soundsystem 96.9. Para a emissora segmentada em hip-hop The
Beat 102.7, o DJ Green Lantern foi contratado para a composição de peças exclusivas.
As vozes dos apresentadores e participantes dos programas são de artistas como Iggy
Pop, Jimmy Gestapo, Femi Kuti e Ruslana, o radialista Lazlow Jones e o estilista Karl
Lagerfeld. Há locuções também para o GPS dos carros. A topologia sonora de GTA IV reflete
ainda as mudanças climáticas e as horas do dia.
O terceiro tipo de espaço de jogabilidade, proposto por Jenkins (ibid), é o que o autor
denomina narrativas intrínsecas ao espaço. Nelas, a organização do enredo depende, entre
outros fatores, do design da geografia do universo do jogo, dos desafios e recursos que
impulsionam o protagonista em direção às suas metas. Formas de jogabilidade são, em muitos
casos, definidas por meio de elementos narrativos dispostos no espaço do game. Myst é um
exemplo clássico. Também podemos pensar em jogos de investigação, onde enigmas
precisam ser desvendados. Majestic, de Neil Young, extrapola os limites do jogo, utilizando
múltiplos canais de informação. O jogador precisa decifrar códigos e transmissões
adulteradas, organizar documentos e seguir com persistência, passo a passo, as pistas
distribuídas dentro e fora do espaço do game. Para isso, é necessário navegar em websites,
acompanhar webcasts, obter informações por meio de e-mails, faxes e até telefonemas. Não é
por acaso que boa parte das narrativas intrínsecas ao espaço acontecem em histórias de
38
detetive ou de conspiração, já que requerem a exploração e o exame detalhado do ambiente do
jogo e, ao mesmo tempo, estimulam o jogador a reconstruir eventos passados.
No cinema, o uso de flashbacks é muito comum. O passado retratado pode ser tanto
objetivo, quanto subjetivo e se constituir por lembranças verdadeiras, falsas ou imaginadas.
Isto, por si só, possibilita uma vasta gama de topologias sonoras possíveis e diferentes
relações entre os planos diegéticos (presente e passado) além de outras relações entre esses
dois planos e os planos não-diegéticos (presente e passado). A exemplo do que foi dito ao
discutirmos o modelo de navegação seqüencial com Cul-de-Sacs, algo que pode ser feito é o
emprego de “paletas” sonoras específicas de timbres, estilos, escalas, “climas”, envelopes,
texturas, composição e índices de materialidade, entre outros fatores, para cada um dos quatro
planos, além de efeitos de transição que distorçam ou manipulem a sonoridade, provocando a
percepção de que alguma coisa mudou. Gosciola (2003: 104) relaciona uma série de filmes
que lançam mão de manipulações espaço-temporais em três categorias:
Narrativa temporal não-linear, relação direta entre personagens de
períodos históricos diversos: The Time Machine, de George Pal,
Back to the Future, de Robert Zemeckis, e 12 Monkeys, de Terry
Gillian;
Narrativa por desconstrução espacial, que destrói a lei da gravidade
e a continuidade espacial: Royal Wedding, de Stanley Donen, 2001,
a Space Odyssey, de Stanley Kubrick, Cube, de Vicenzo Natali, e
Being John Malkovich, de Spike Jonze;
Narrativa simultânea por sobreposição de ações, sobreposição de
telas ou encadeamento de telas em projeção, que possibilita ao
espectador atentar para uma tela ou alternar as telas
consecutivamente, criando uma narrativa mais complexa e diversa.
Em relação ao terceiro item (Narrativa simultânea por sobreposição de ações), a
topologia sonora pode ser pensada de diversas formas:
Escolha de uma das ações e/ou telas.
Alternância entre diferentes ações e/ou telas, de modo que a atenção do espectador
seja direcionada pelo som.
Criação de uma topologia sonora independente das ações e/ou telas simultâneas.
39
Gosciola (ibid) comenta que as sobreposições de ações e/ou telas ocorrem tanto por
composição em uma mesma tela, quanto por variações de profundidade de campo, usos de
grafismos e textos em movimento, e encadeamento de telas independentes e simultâneas.
No contexto do segundo item (Narrativa por desconstrução espacial), é possível
conceber, entre outras alternativas, usos não naturalistas dos sons ou associações inusitadas e
inovadoras. Quem imaginaria que a valsa de Johann Strauss filho, Danúbio Azul, apresentada
pela primeira vez em um baile de Carnaval em Veneza, a 15 de fevereiro de 1867, se tornaria
uma referência sonora de ficção científica? O acoplamento entre som e imagem atribuiu à
composição de Strauss filho uma dimensão que possivelmente ele jamais imaginou. Mais
adiante, falaremos mais a respeito das múltiplas associações possíveis entre sons e imagens.
No que diz respeito ao primeiro item (Narrativa temporal não-linear) Martin (2007:
230-233) enumera uma série de procedimentos para transportar a narrativa a um tempo
passado:
O travelling para frente que denota uma “passagem à interioridade”, à
subjetividade.
A fusão, “como se o passado invadisse pouco a pouco o presente da consciência,
convertendo-se também em presente”, de modo que a câmera avance até se fixar
em um rosto em primeiro plano ou um fundo neutro.
Mudanças na iluminação.
O chamado de um personagem por seu nome.
Movimentos de câmera.
O autor comenta que até mesmo uma junção (corte seco) pode transportar a narrativa a
uma outra temporalidade. Estamos certos que outras formas podem ser experimentadas e
descobertas. O Ano Passado em Marienbad (L'Année Dernière à Marienbad), de Alain
Resnais, por exemplo, é um verdadeiro “quebra-cabeça temporal”: diversas temporalidades
são embaralhadas. Martin (ibid) relata que a ação se passa ao mesmo tempo no presente (ou
melhor, num presente) e em diversos passados (e também, sem dúvida, nas lembranças desses
passados), assim como num futuro imaginado”. O pesquisador cita, ainda, exemplos
interessantes de empregos do som em transições entre temporalidades:
A transição visual é sublinhada pela trilha sonora de diversas maneiras:
transição realista, na maioria das vezes, por simples substituição de sons
40
(fusão sonora); intervenção através de um tema insinuante e lírico, que o
espectador aprendeu a reconhecer como a introdução a uma outra
temporalidade (Trágico Amanhecer); ou ainda a distorção do som,
sugerindo um mergulho doloroso no passado (Adúltera). Devo citar também
o flashback das lembranças de juventude do sábio junto ao leito de morte de
sua mulher (Michurim Dovgenko): o passado é introduzido sem nenhuma
transição visual (por corte), mas o passeio nos campos, que representa a
volta ao passado, é acompanhado por um tema musical alegre e de cores
vivas, em contraste com a tristeza da cena da morte.
Para alguns pesquisadores, nos games, o uso do flashback não é possível, já que a ação
acontece sempre em tempo presente. Jenkins (ibid), no entanto, discorda, uma vez que certos
espaços podem levar o jogador a determinadas conclusões a respeito de eventos prévios ou
sugerir perigos potenciais à frente. Por exemplo:
... portas arrombadas, traços de explosão recente, um veículo destruído, um
piano derrubado de grande altura e sinais recentes de incêndio, entre outros.
O jogador pode retornar posteriormente a um espaço familiar e descobrir
que este espaço sofreu a ação de eventos que ele não testemunhou. Clive
Barker's The Undying, por exemplo, cria um forte senso de história
pregressa precisamente desta maneira. Ao visitar o espaço de cada
personagem, tem-se idéia do ser humano que um dia foi e do monstro que se
tornou... Em Black and White, as escolhas éticas do jogador deixam traços
na paisagem ou reconfiguram as aparências físicas de seus personagens...
Carson chama este tipo de recurso narrativo de “seguindo Saknussemm”,
uma menção à maneira como o protagonista de Viagem ao Centro da Terra,
de Júlio Verne, deixa pistas por onde passou.
O som também pode funcionar como elemento indicial, a exemplo do que ocorre no
cinema com os leitmotivs (temas musicais recorrentes associados a determinados personagens
ou circunstâncias), efeitos sonoros e frases musicais que denotem a presença de alguma
ameaça em jogos do gênero survival horror, além de qualquer som que tenha caráter
indicativo de movimento, ação ou ocorrência nos games de maneira geral. Com dissemos
acima, o som pode ainda estar associado a temporalidades e épocas diferentes, seja por meio
da trilha sonora que caracterize um período histórico, seja por algum tratamento específico
que denote uma transição para um momento passado ou futuro. Discutiremos, no Capítulo 3,
o modelo de análise de relações entre sons e imagens, proposto por Bordwell e Thompson,
41
que envolve entre outros fatores, o tempo e o espaço. Uma sonoridade clássica é a do
theremin
13
, um dos primeiros instrumentos musicais eletrônicos. Criado pelo russo Léon
Theremin (Lev Sergeyevich Termen), podia ser tocado sem contato físico e operava
basicamente com duas antenas metálicas que captavam as posições das mãos do
instrumentista e controlavam osciladores de rádio freqüência, de modo que uma das mãos
alterava a freqüência e a outra a amplitude. Durante os anos 1940 e 1960 sua sonoridade
misteriosa foi amplamente empregada em filmes como Spellbound, Quando Fala o Coração
(Spellbound), de Alfred Hitchcock (1945), e O Dia em que a Terra Parou (The Day the Earth
Stood Still), de Robert Wise (1951). Na TV, um dos inúmeros casos de utilização do theremin
foi o seriado Quinta Dimensão (The Outer Limits), produzido entre 1963 e 1965. O theremin
serviu como inspiração para Robert Moog criar o famoso sintetizador que leva seu
sobrenome, em 1964. Em 1971, desenvolveu o Minimoog
14
, hoje considerado um instrumento
vintage.
Figura 13 – Léon Theremin
Figura 14 – Minimoog
13
http://en.wikipedia.org/wiki/Image:Leon_Theremin_Playing_Theremin.jpg
14
http://en.wikipedia.org/wiki/Image:Minimoog.JPG
42
Nos games, a função indicial do som opera por meio de sua adaptabilidade, isto é, a
maneira como se modifica em função das ações e escolhas do (s) jogador (es). Além disso, o
som apresenta duas outras funções: a afetiva e a conceitual. A afetiva está relacionada à
imersão, sensação que temos quando, por exemplo, estamos jogando e nos sentimos “dentro”
da história; nos emocionamos, sentimos medo, nos identificamos, enfim, é algo que está mais
próximo dos sentimentos e das impressões subjetivas, vagas e imprecisas. Neste caso, o som
atua principalmente como elemento estético, criando “atmosferas” e “climas” dentro do
espaço do jogo. Jenkins (ibid) fala da importância do caráter afetivo em um game:
Desenvolvedores de jogos que estudam drama conseguem compreender
como objetos e lugares podem transmitir informações afetivas. Trata-se de
projetar externamente estados internos de personagens por meio da direção
de arte, da escolha do figurino ou da iluminação. Na medida em que
adentramos um certo espaço, sentimos seu impacto emocional,
especialmente quando este espaço sofreu transformações de eventos
narrativos. Pense, por exemplo, em Doutor Jivago (Doctor Zhivago) onde
os personagens retornam à mansão, agora completamente deserta e cercada
de gelo, ou quando Scarlet O'Hara viaja ao longo do caminho castigado pelo
fogo em E o Vento Levou (Gone With the Wind)... Em Rebecca, A Mulher
Inesquecível (Rebecca), a personagem título nunca aparece, mas exerce forte
influência sobre outros personagens, especialmente a segunda esposa de
DeWinter que é compelida a viver em um espaço repleto de lembranças de
Rebecca. Hitchcock cria diversas cenas onde a protagonista vaga pelos
aposentos da casa onde viveu Rebecca, abrindo portas trancadas,
observando seu retrato na parede, tocando em suas coisas em gavetas ou
sentindo a textura de roupas e cortinas. Não importa aonde na casa, não
consegue evitar a memória de Rebecca.
Por fim, a função conceitual do som em um game é aquela em que predominância
da objetividade, da racionalização, da codificação. O áudio é utilizado para criar ou fixar
conceitos, definições, formulações, julgamentos e avaliações. Um exemplo pico são as
locuções e dramatizações dos serious games, jogos em que o foco principal não é unicamente
o entretenimento e que apresentam um amplo espectro de aplicações: educação, saúde, arte,
política, religião, gestão pública, forças armadas e treinamentos corporativos, entre outras.
A função conceitual do som, assim como a afetiva e a indicial, estão presentes também
em mídias tradicionais. Na TV ou no rádio, ao ouvirmos um som amplamente associado a
uma marca, empresa, produto ou contexto, imediatamente, estabelecemos uma associação
43
mental. Basta lembrarmos do “plim-plim” da Globo, do “logo sonoro” da Intel, na assinatura
dos comerciais da empresa, e dos efeitos sonoros que denotam o transcorrer do tempo nas
transmissões de jogos de futebol pelo rádio.
O que podemos perceber é que em maior ou menor grau as três funções coexistem. Em
um game, ou em qualquer peça audiovisual, não um som que seja exclusivamente afetivo,
indicial ou conceitual. Estas categorias têm finalidade esquemático-didática e servem para nos
orientar no planejamento e análise de topologias sonoras. Em um advergame, por exemplo,
intenção de estimular o comportamento de consumo a partir da construção da imagem da
marca na mente do consumidor, tanto de forma objetiva (os benefícios e características do
produto ou serviço), quanto subjetiva (a identificação “pessoal” do consumidor). Para que isto
ocorra, é necessário fazer com que o consumidor fique “imerso” no universo simbólico da
marca, reconheça racionalmente seus benefícios (criação de um conceito) e se identifique com
os acontecimentos e ações do seu personagem, “índices” que estimulem o ato de compra.
Finalmente, o quarto modelo, proposto por Jenkins (ibid), a respeito de como as
possibilidades narrativas podem ser mapeadas no espaço do jogo é representado por games
como The Sims. Trata-se de narrativas emergentes a partir do ato de jogar em si, isto é, as
histórias não são pré-estruturadas ou pré-programadas. O grande rito deste tipo de game é
conseguir assegurar a coesão do enredo.
Will Wright freqüentemente descreve The Sims como um jogo semelhante a
uma caixa de areia ou a uma casa de bonecas. Ele sugere que o game deve
ser entendido como uma espécie de ambiente de autoração, dentro do qual,
os jogadores podem definir seus objetivos e escrever suas próprias histórias.
Mas, ao contrário de um processador de textos, o jogo não tem início com
uma tela em branco... Wright criou um mundo repleto de possibilidades
narrativas, no qual cada decisão do projeto foi tomada com o objetivo de
potencializar as condições de romance ou conflito interpessoal. A habilidade
de produzir seus próprios skins estimula os jogadores a criar personagens
que sejam emocionalmente significativos para eles, simular seus
relacionamentos com amigos, familiares ou colegas de trabalho ou mapear
personagens de outros universos ficcionais dentro de The Sims... Os
personagens possuem vontade própria e nem sempre se submetem
facilmente ao controle do jogador. Um protagonista deprimido, por
exemplo, se recusa a procurar emprego, preferindo ficar em casa fazendo
hora. Cada personagem possui desejos, expectativas e necessidades
44
diversas, o que pode provocar conflitos dramáticos nos diversos encontros e
relações. As escolhas do jogador geram conseqüências como quando se
gasta todo dinheiro e não é possível sequer comprar comida. A linguagem
inarticulada e os símbolos que piscam permitem ao jogador mapear o que
quer dizer nas conversas, assim como o tom de voz e a linguagem corporal
informam acerca de estados emocionais específicos. Os desenvolvedores
fizeram algumas escolhas acerca dos tipos de ações que são possíveis dentro
deste universo e dos que não são possíveis. Por exemplo, beijos entre
personagens do mesmo sexo são permitidos, mas limitações no grau de
atividade sexual explícita permitida. Naturalmente, programadores
experientes conseguem superar estas barreiras, mas a média dos jogadores
fica restrita às regras originais.
Jenkins (ibid) afirma ainda que as escolhas de Wright trabalham não apenas no nível
da programação, como também através do espaço do game.
Assim como uma casa de bonecas oferece uma representação organizada
que elimina muito da desordem de um espaço doméstico real, as casas em
The Sims possuem um pequeno número de artefatos que apresentam funções
narrativas específicas. Jornais, por exemplo, informam ofertas de emprego.
Personagens dormem em camas. Estantes tornam as pessoas mais
articuladas. Bebidas estimulam o contato íntimo. Escolhas como estas
resultam em um espaço narrativo muito legível.
A topologia sonora de games com narrativas emergentes deve ser flexível o bastante
para não restringir as possibilidades de interação entre os personagens. É por isso que, no caso
dos diálogos, foi empregada uma forma inarticulada de linguagem falada que funciona em
diversos contextos. Este jogo com as sonoridades sem significado pré-estabelecido encontra
um paralelo nas várias sátiras no YouTube de uma cena do filme Downfall (A Queda), onde as
falas de Hitler (interpretado por Bruno Ganz) são legendadas com conteúdos diversos e
alheios ao significado original
15
. Naturalmente, estas piadas fazem sentido para pessoas
que não compreendem o alemão. Afinal, para quem não entende o idioma, são as modulações,
afetos e musicalidade da voz que oferecem pistas a respeito daquilo que se diz.
15
http://www.youtube.com/watch?v=hO2ItLaCJtk Hitler é banido da Xbox Live.
http://www.youtube.com/watch?v=ExeyrNZwzwQ&feature=related Hitler tem problemas com o Windows Vista
http://www.youtube.com/watch?v=T8dl4faCpJE&feature=related O carro de Hitler é roubado
http://www.youtube.com/watch?v=0JF03i7NfIU&feature=related Hitler é banido do World of Warcraft
45
Jogos com narrativas emergentes requerem adaptabilidade do áudio, já que não é
possível prever com exatidão o que o jogador vai fazer.
Enfim, em cada um dos contextos sugeridos por Jenkins (ibid), as decisões a respeito
da construção e organização dos espaços têm conseqüências na estrutura narrativa do jogo. (1)
Nas narrativas evocativas, o design do espaço pode tanto intensificar a imersão do jogador
em um universo que lhe é familiar, como apresentar novas perspectivas acerca da história por
meio de modificações de aspectos previamente conhecidos. (2) Nas histórias interpretadas
pelo jogador, a narrativa pode ser estruturada em torno dos movimentos e ações do
personagem no espaço, de forma que as características e os elementos distribuídos no espaço
contribuam para acelerar ou retardar os rumos do enredo. (3) Nas narrativas intrínsecas ao
espaço, é o próprio espaço do jogo que reúne os elementos que devem ser explorados e
decifrados para que o jogador reconstitua a trama. (4) Finalmente, nas narrativas emergentes,
os espaços do jogo são criados para expandir o potencial narrativo, possibilitando a
construção de enredos pelos próprios jogadores. O pesquisador conclui: “em cada um dos
contextos acima, faz sentido pensar em criadores de games menos como contadores de
histórias e mais como arquitetos de espaços narrativos”. E, certamente, é possível a
elaboração de uma topologia sonora para cada um desses espaços.
Interatividade, imersão e intensidade da informação
Outro ponto de convergência entre games e hipermídias é o conceito de interatividade.
Segundo o game designer Chris Crawford (Samsel and Wimberley, 1998: 7), a interatividade
ocorre em três níveis, de modo que a aplicação deve ser capaz de apreender estímulos,
interpretá-los e responder ao usuário.
O terceiro nível, responder (expressão), é o mais próximo do que vem sendo
empregado na indústria de jogos eletrônicos e na hipermídia, e pode ser explorado por meios
diversos: sons (músicas, ruídos e vozes), imagens, animações etc. também a possibilidade
de desenvolver aplicações baseadas em redes neurais.
O termo rede neural representa uma estrutura de dados derivada de modelos
simplificados do “real”. Neural remete a algo que é orgânico e conectado por fibras nervosas.
Biólogos e cientistas da computação afirmam que “computadores biológicos” como o cérebro
humano, têm a capacidade de identificar e classificar eventos isolados dentro de um contexto
46
complexo e não estruturado logicamente. A diferença entre um processador eletrônico e o
cérebro humano também pode ser apresentada em termos de “arquitetura”.
O processador é um único dispositivo que realiza milhares de operações matemáticas
em curto período de tempo, enquanto o cérebro dispõe de muitos milhões de processadores,
cada um com um número limitado de operações e velocidade de processamento menor,
porém, conectados de uma maneira extremamente complexa. Este é o motivo pelo qual um
computador pode ser um gênio em cálculos matemáticos, enquanto uma rede neural, por não
ser numericamente exata, pode reconhecer modelos e generalizar “regras” que não integram
um conjunto de exemplos previamente conhecidos. A idéia básica, por trás do emprego de
redes neurais em software, é usar um processador de alta performance para simular um
sistema complexo de células nervosas interconectadas, e estudar as variações de
comportamento dessas “estruturas neurais” diante de estímulos externos.
Figura 15 – Diagrama simplificado de uma Rede Neural
um grande número de aplicações práticas para redes neurais: reconhecimento de
voz e imagem, reconhecimento óptico de caracteres, previsão do tempo, medições precisas,
jogos, sistemas inteligentes de gestão empresarial, entre outras. A grande revolução da
linguagem interativa ocorrerá quando os sistemas puderem responder com mais autonomia e
capacidade de reconhecimento de padrões consistentes dentro de estruturas aparentemente
caóticas. Os primeiros passos neste sentido estão ocorrendo por meio de sistemas
inteligentes capazes de apreender estímulos e interpretá-los. Como vimos a pouco, é o
caso, por exemplo, dos jogos estruturados em narrativas que emergem do ato de jogar como
The Sims, em que as decisões do (s) jogador (es) provocam conseqüências que escapam ao
controle de quem joga.
Brenda Laurel (apud Gosciola, 2003: 88-89) argumenta que a interatividade “é
definida pelas variáveis de freqüência (com qual freqüência interação), alcance (quantas
escolhas estão disponíveis) e significância (o quanto as escolhas afetam o conteúdo)”. Para
47
Michael Heim (1998: 6-7), a interatividade, associada à imersão e à intensidade da
informação compõem o que ele chama de três “I”s da realidade virtual. Observe como estas
três variáveis podem também ser aplicadas a games e hipermídias: a imersão deve isolar os
sentidos suficientemente para que o usuário/jogador sinta-se transportado para um outro
ambiente; a interação deriva da habilidade do computador em responder rápido o suficiente
aos movimentos do usuário/jogador na medida em que altera sua posição física e perspectiva;
finalmente, a intensidade da informação é a “noção de que um mundo virtual pode oferecer
qualidades especiais como tele-presença e entes artificiais que apresentem um certo grau de
comportamento inteligente”. Os games de sétima geração são exemplos notáveis de graus
elevados dos três “I”s, definidos por Heim.
A sétima geração de jogos eletrônicos foi inaugurada com o lançamento, no final de
2005, do Xbox 360, pela Microsoft, e é representada também pelo Wii, da Nintendo, e pelo
Playstation 3, da Sony. Uma série de inovações tem conseqüências mais ou menos diretas na
topologia sonora dos jogos desenvolvidos para estes consoles. A Microsoft, por exemplo,
criou o serviço Xbox Live por meio do qual é possível participar de chats e fóruns, fazer
downloads de atualizações e correções e, naturalmente, jogar online, conversando com
parceiros e adversários. O Playstation 3, da Sony, permite, além do jogo em rede, a conexão
com monitores de alta definição e o armazenamento de 25 GB (em camada única) ou 54 GB
(em camada dupla) nos seus discos Blu-ray. Comparado a um DVD convencional com
capacidade de 4,7 GB, isto representa um aumento de mais de onze vezes na capacidade de
armazenamento. Nesteriuk (2007: 139) lembra que:
Em termos mais objetivos, essa ampliação de espaço para o
desenvolvimento e armazenagem de um game pode ser traduzida na forma
de tramas narrativas maiores e mais desenvolvidas em todos os seus
aspectos constituintes (como, por exemplo, o aprimoramento da inteligência
artificial dos denizens, personagens autônomos não controlados pelo
jogador) e/ou em aperfeiçoamentos expressivos em termos de interfaces e
maior resolução de som e imagem.
Este incremento de espaço disponível está diretamente ligado não apenas à resolução
do áudio, que pode ser maior, mas também aos formatos disponíveis, em especial os vários
padrões de surround, e à complexidade da trama sonora. Não se trata apenas de
aperfeiçoamentos técnicos (McLuhan (1995: 21) já dizia que “o meio é a mensagem”). O
surround, além de potencializar a imersão, contribui para a interatividade, uma vez que reflete
48
eventos e ações de personagens e jogadores, e para a intensidade da informação, se
considerarmos que agentes autônomos podem emitir sons e/ou realizar movimentos. Em
Metal Gear Solid 4, por exemplo, é muito mais fácil acertar os adversários, se o jogador tiver
à disposição um sistema de áudio surround.
A topologia sonora do game contribui para que o
jogador tenha a sensação de estar em meio a um campo de batalha, e reforça a percepção de
participar de uma guerra. Ao mesmo tempo, mais espaço disponível significa uma ampliação
qualitativa e quantitativa dos elementos sonoros. Isto acontece porque, entre outras coisas, é
possível:
Ampliar a quantidade de arquivos de áudio para diferentes objetos, seres,
máquinas, fenômenos ou eventos.
Ampliar a quantidade de arquivos de áudio para um mesmo objeto, ser, máquina,
fenômeno ou evento, por meio do uso aleatório de diferentes sons.
Ampliar a quantidade de variações temático-musicais.
Sofisticar os arranjos e aumentar o tempo de duração de frases, temas, loops ou
composições musicais.
Ampliar a quantidade de diálogos.
Aumentar a resolução e com isso utilizar manipulações psicoacústicas que
denotem localização e características da (s) fonte (s) sonora (s).
Outra aproximação possível entre a hipermídia e os games são os três conceitos
associados ao hipertexto, desenvolvidos por Jim Rosenberg (apud Leão, 2001: 125-129):
actema, episódio e sessão.
Actemas são links; permitem ligações e relacionamentos entre diferentes nós (blocos
de informações) e podem ser:
Disjuntivos (do tipo ou): levam o usuário/jogador de um nó a outro.
Conjuntivos (do tipo e): permitem a simultaneidade. Exemplos:
o Pop-up viewer: pequena janela que se sobrepõe à anteriormente vista.
o Áreas sensíveis, onde o simples movimentar do mouse revela novos
elementos na tela (no caso de hipermídias ou jogos para PC).
49
Episódios são “unidades de sentido” que emergem a partir de um conjunto de actemas,
formando um todo coerente na mente do usuário/jogador. Podem resultar de:
Combinações do histórico do trajeto percorrido.
Intenções do usuário.
Associações mentais com outros elementos, diversos do conteúdo original, que o
usuário/jogador efetua.
Sessões são períodos dedicados à exploração/navegação no sistema. Podem ter
durações variadas e dependem de fatores, pelo menos a priori, alheios à hipermídia ou ao jogo
como, por exemplo, disponibilidade de tempo, interesse pessoal, estados emocionais, humor,
relaxamento e bem-estar, entre outros.
Disso, infere-se que:
Um episódio pode ser formado por acúmulo em diversas sessões. Por outro lado,
uma única sessão pode proporcionar diferentes episódios.
Em uma hipermídia ou game baseado em links disjuntivos, o episódio pode se
formar a partir de “um trecho do percurso ou do percurso como um todo” (Leão
2001: 126). Um mesmo percurso também pode gerar episódios distintos.
Liestøl (apud Gosciola, 2003: 100) “desenvolve o conceito de discurso decorrido
como resultado de uma leitura”:
O discurso armazenado, que contém toda a obra construída;
O discurso decorrido, que é o percurso realizado pelo usuário.
Assim, o roteiro de uma hipermídia ou de um game deve ser capaz de criar sentido (s),
a despeito de o usuário/jogador ter ou não navegado por todo aplicativo.
Outro aspecto importante a ser discutido é a natureza dos nós (blocos de informações),
conectados pelos actemas (links). Num game ou hipermídia, os nós podem ser constituídos
por textos, áudios, vídeos, imagens estáticas ou animadas e até mesmo odores e sensações
táteis, dependendo da interface utilizada. Em feiras de cosméticos, por exemplo, já são
50
usados, algum tempo, “tótens multimídia” com sensores de presença e acionadores de
essências. No MIT (Massachusetts Institute of Technology) está em desenvolvimento uma
série de interfaces táteis ligadas a sistemas computadorizados. Gosciola (2003: 56) lembra
que nos anos 1960, o cineasta norte-americano Morton Heilig lançou o Sensorama
16
, “uma
extensão do cinema fazendo o espectador imergir em um ambiente que explorava todos os
sentidos: visão, audição, paladar, tato e olfato”.
Figura 16 – Sensorama
Há a tendência de que os games busquem ampliar ao máximo o alcance dos sentidos e
os primeiros passos nesta direção foram dados com controladores que vibram, gráficos 3D
realistas e topologias sonoras complexas, entre outros. O Wii, da Nintendo, por exemplo,
emite sons de objetos manipuláveis a partir do próprio controlador.
O olhar em primeira pessoa
Que aproximações e comparações podem ser feitas entre a linguagem dos games e a
do cinema? É cada vez mais freqüente a afirmação de que jogos eletrônicos e filmes
mutuamente se influenciam. Lev Manovich (apud Galloway, 2006: 39-40) chama de
“automação do olhar” a forma cada vez mais maquínica com que a câmera fixa o olhar em
16
http://www.mortonheilig.com/sensorama-1.jpg
51
filmes como Quarto do Pânico (Panic Room) e The Matrix. A propósito, as cenas de
preparação de Neo, interpretado por Keanu Reeves, em The Matrix, remetem aos níveis de
treinamento presentes em diversos jogos. Estes veis de treinamento podem ser incorporados
à narrativa do jogo como em Metroid Prime ou não, como ocorre em Half-Life. Sem
estabelecer um debate acerca da evolução tecnológica dos efeitos especiais, podemos analisar
uma técnica visual muito mais simples que está presente tanto em jogos eletrônicos como em
filmes, e que nos ajuda a compreender as semelhanças e diferenças entre os dois meios: a
câmera “subjetiva” em primeira pessoa. Curiosamente, enquanto no cinema a perspectiva
subjetiva tende a criar um efeito de alienação, medo, afastamento ou violência, nos games
sugere ação e movimento. Paul Willemen (apud Galloway, 2006:40) descreve vários eixos
visuais em seu ensaio O Quarto Olhar: “o da câmera, o da platéia, o intradiegético entre os
personagens e o que é dirigido ao espectador, a partir de um personagem na tela”. Galloway
(2006: 40-41) lembra ainda:
No cinema clássico de Hollywood, os dois primeiros estão subordinados ao
terceiro. O quarto costuma ser evitado porque entra em conflito com a
posição “voyerística” de quem assiste ao filme. Ocasionalmente, o olhar da
câmera e o olhar de um personagem em particular se fundem, de modo que
a lente da mera e os olhos do personagem sejam uma coisa , visual e
subjetivamente. O resultado é uma tomada em “primeira pessoacomo se a
câmera estivesse posicionada sobre o pescoço de um personagem. Este eixo
é o oposto do que Willemen chama de quarto olhar: um aponta para dentro
do filme e o outro para fora, rompendo o limite da tela... de modo que se
cria uma tensão entre o plano diegético do filme e o plano extra-diegético da
platéia.
Galloway (2006: 41) destaca a importância de se diferenciar a tomada subjetiva
(quando a câmera assume o olhar de um personagem) daquelas que representam um ponto de
vista qualquer (PDV). Embora as tomadas de pontos de vista também mostrem o que
supostamente um personagem está vendo ou poderia ver, as subjetivas têm o papel de
identificação absoluta com o olhar do personagem, enfatizando aspectos psicológicos e
emocionais. Tomadas de PDV são aproximações da visão do personagem, mas não são
recriações desta visão, que não apresentam qualquer semelhança com a visão humana. Do
contrário, a câmera se moveria de forma súbita e desordenada, haveria interrupções
decorrentes do piscar de olhos, manchas, pontos, lágrimas e assim por diante. Elas são
comumente estruturadas em campo e contracampo: primeiro, se mostra o personagem
52
olhando para algo; depois se o que o personagem estava enxergando. O uso correto da
linha do olhar é importante para a criação de espaços coerentes. A tomada de PDV é abstrata;
em termos peirceanos, é um índice da visão do personagem. Outro uso deste tipo de tomada é
a simulação da visão binocular através de dispositivos como telescópios, binóculos e buracos
de fechaduras. Nestes casos, os quadros (frames) do filme são emoldurados por uma máscara
preta como os contornos de um binóculo, por exemplo. O problema deste tipo de
representação é que a visão humana não se por enquadramentos retangulares, de modo que
jamais veríamos contornos pretos nas imagens. Na verdade, é uma tentativa de simular a
evidência do fato narrado. Cartas, telegramas, e-mails e anotações recebem tratamento
similar. Em Casablanca, por exemplo, um bilhete de despedida ocupa toda a tela para que
seja lido com facilidade pelo público. Em seguida é reconduzido ao espaço diegético do filme
por meio de gotas de chuva que caem sobre o papel. Em O Todo Poderoso (Bruce Almighty),
Bruce Nolan, o personagem de Jim Carrey, fica estafado com a quantidade de e-mails que
recebe. A imagem do monitor de um computador ocupa toda a tela do cinema e uma
enxurrada de mensagens surge. Este tipo de tomada é remanescente da era do “Cinema
Mudo”.
Poucos são os filmes em que as tomadas subjetivas são predominantes. Um exemplo é
A Dama do Lago (Lady in the Lake), de Robert Montgomery (1947). Nele, a câmera assume a
visão do personagem principal, Marlowe. Convenções cinematográficas como filmagens em
campo e contracampo e edição baseada em continuidade, entre outras, o deixadas de lado
em nome da “fusão” do olhar da câmera com o do personagem. Mas, o filme falha nas
ocasiões em que o corpo de Marlowe aparece na tela: em um espelho, ao fumar, rastejar, ser
beijado, etc. A ilusão da tomada subjetiva se perde e o público é lembrado da presença da
lente da câmera. Outro caso é Prisioneiro do Passado (Dark Passage), de 1947. A narrativa
acontece com câmera subjetiva até o momento em que o personagem Vicent Parry,
interpretado por Humphrey Bogart, ganha um novo rosto por meio de cirurgia plástica, após
fugir da prisão. Tomadas subjetivas diferem de tomadas de PDV que são realizadas na altura
da linha do olhar. As primeiras são muito mais voláteis, passíveis de ofuscamento e perda de
foco e, dentro do plano diegético, encaram o “quarto olhar” de Willemen, à medida que a
câmera representa um personagem. Em termos práticos, trata-se de situações em que outros
personagens se dirigem diretamente para a câmera. Edward Branigan (apud Galloway,
2006:45) acrescenta que em tomadas subjetivas o que mais importa “não é o fato de o
personagem estar vendo alguma coisa”, mas se está enfrentando algum desafio ou dificuldade
para ver, ou seja, o estado mental do personagem é de suma importância. Assim, ao observar
53
a maioria dos filmes, podemos constatar que são raros os que utilizam tomadas subjetivas e
quando o fazem, é de maneira pontual.
Na maioria das vezes, o uso de tomadas subjetivas está associado a situações
negativas: perversas, desumanas, cruéis, assustadoras, alienantes, etc. Um dos casos mais
típicos é a representação de estados mentais alterados por drogas, álcool, acidentes, quedas,
lutas, sonhos, visões, delírios e outras circunstâncias. Em Quero ser John Malkovich (Being
John Malkovich), a câmera subjetiva denota a descorporificação dos personagens ao
assumirem o corpo de John Malkovich. Neste filme há uma correlação entre a perspectiva em
primeira pessoa e o títere que é manipulado. Um Corpo Que Cai (Vertigo), de Hitchcock,
utiliza uma tomada subjetiva para baixo em zoom para demonstrar o medo e desorientação de
quem sofre de vertigem. A Bruxa de Blair (The Blair Wich Project) emprega uma técnica
em que a subjetividade do manuseio “amador” de uma câmera portátil se aproxima das
tomadas subjetivas.
Tomadas subjetivas são também amplamente utilizadas em filmes de terror e games do
gênero survival horror. Monstros, zumbis, fantasmas, alienígenas, psicopatas e assassinos,
com freqüência, são representados, no cinema, a partir da perspectiva em primeira pessoa.
Alguns exemplos: Psicose (Psycho), Halloween, O Silêncio dos Inocentes (The Silence of the
Lambs), Tubarão (Jaws), Friday the 13th (Sexta-feira 13) e Alien, o Passageiro (Alien).
Nos games, ao contrário, a perspectiva em primeira pessoa é a do jogador que se defronta com
as ameaças.
Na ficção científica, particularmente em filmes onde os protagonistas são máquinas ou
ciborgues, a câmera subjetiva obtém excelentes resultados. Isto acontece porque a visão
maquínica dos personagens acoplada à da lente da câmera é muito mais convincente do que
quando a tomada subjetiva é realizada a partir de um olhar humano. A visão de O
Exterminador do Futuro (Terminator), interpretado por Arnold Schwarzenegger, é composta
por uma lente reticular sobre a qual são dispostas camadas de dados, diagramas, elementos
gráficos e textos. Lembra os Head-Up displays de jogos eletrônicos. Em 2001, Uma Odisséia
no Espaço (2001: A Space Odyssey), a visão do computador HAL é modelada pelo uso de
uma grande angular. A Estrada Perdida (Lost Highway) não é ficção científica, mas possui
cenas em que o olhar é guiado por lentes de câmeras de segurança, caracterizadas por imagens
granuladas e de baixa definição. A visão de Robocop também é suplementada por
informações digitais. Predator (Predador) utiliza uma visão “termográfica”, de forma que em
alguns momentos vêem-se imagens coloridas, “sensíveis ao calor” que representam a visão do
predador. Efeito similar é empregado em Metal Gear Solid 3 para facilitar a localização de
54
inimigos em meio à mata. Filmes como os acima citados marcam uma transição do cinema
para o meio digital e, conseqüentemente, para os games.
Tomadas subjetivas acrescidas de armas em jogos de tiro em primeira pessoa (first-
person shooters FPS) constituem um tipo específico de visualidade nos games. Já para a
análise de jogos de estratégia em tempo real (real-time strategy RTS), turn-based strategy
games e outras modalidades, abordagens distintas são necessárias. Os jogos de tiro em
primeira pessoa foram criados nos anos 1970 e aperfeiçoados na década de 1990 pela Id
Software com jogos como Wolfenstein 3D e Doom. Sem dúvida, sua estética tem origens no
cinema. Galloway (2006: 58) lembra que em 1925 Buster Keaton utilizou no filme Go West o
que pode ser considerado um “protótipo” deste tipo de visualização. Trata-se de uma tomada
onde se vê, na parte inferior do quadro, a cabeça de um touro com seus chifres indo na direção
de um homem que está de costas para o touro. “Embora a cena, tecnicamente, esteja em
terceira pessoa (a perspectiva do bovino), que a câmera está posicionada sobre a cabeça do
touro e não onde seus olhos supostamente estariam, os elementos fundamentais da visão em
primeira pessoa estão presentes: uma perspectiva emocional centrada no eu” e uma arma (os
chifres) em primeiro plano”. Dentre outros filmes que lançam mão deste recurso estão
Spellbound, Quando Fala o Coração (Spellbound), de 1945, O Grande Roubo do Trem (The
Great Train Robbery), de 1903, Topázio (Topaz), de 1969, Elefante (Elephant), de 2003, Os
Bons Companheiros (Goodfellas), de 1990, A Ilha do Tesouro (Treasure Island), de 1950,
Magnum 44 (Magnum Force), de 1973, Essa Pequena é uma Parada (What's Up, Doc?), de
1972, O Estranho Sem Nome (High Plains Drifter), de 1973, Aguirre, a Cólera Dos Deuses
(Aguirre The Wrath Of God), de 1973, Revolta Em Alto Mar (Damn The Defiant), de 1962,
e O Silêncio dos Inocentes
(The Silence of the Lambs), de 1991.
Nos games, a perspectiva em primeira pessoa apresenta um caráter mais amplo. Está
ligada à mobilidade e à ação do jogador; estimula respostas emocionais e potencializa a
imersão. Para Galloway (2006: 69), “jogos eletrônicos são a primeira mídia de massa a
empregar efetivamente tomadas subjetivas, enquanto o cinema as utiliza apenas em ocasiões
especiais”. Uma das diferenças entre os games e o cinema é o fato de que, no games, a câmera
subjetiva funciona não apenas associada ao jogador, mas também, ao espaço digital como um
todo. Em jogos de tiro em primeira pessoa isto acontece porque a perspectiva subjetiva é tão
onipresente e central à gramática do jogo, que as fronteiras entre o espaço do jogo e o jogador
se confundem.
Galloway (2006: 61-62) comenta que “filmagens tradicionais raramente requerem a
construção de espaços completos. Cenógrafos, diretores de arte a marceneiros desenvolvem
55
apenas as partes do cenário que serão enquadradas pela câmera”. O design de jogos
eletrônicos, ao contrário, exige modelagem, texturização e renderização completa do ambiente
3D, já que a seqüência exata dos movimentos do (s) jogador (es) é imprevisível.
Enquanto a linguagem cinematográfica se estrutura no princípio da montagem, nos
games, a montagem é exceção: as cut-scenes com seus trechos pré-editados são os exemplos
mais fáceis de identificar. Mas uma modalidade de edição” em tempo real que acontece
quando o jogador, entre outras possibilidades, altera o modo de visualização ao abrir um mapa
em World of Warcraft, ao utilizar miras ou dispositivos de visão noturna, ao permutar ângulos
de visão ou ao olhar para o retrovisor em jogos como True Crime. Em Metroid Prime, há uma
forma engenhosa de transição entre a perspectiva em terceira pessoa e a em primeira pessoa.
A câmera curva-se para cima e para trás, faz um movimento vertical rápido de 360º, retorna
em direção ao crânio (sobre a nuca) e funde a visão em primeira pessoa do personagem com a
do jogador.
Nos games, a perspectiva em primeira pessoa é uma categoria de visão ativa que tem
algo de tátil; ela não apenas olha, mas se movimenta para frente e para trás, para cima e para
baixo, colide, pára e recomeça. Todos os fatores apontados até aqui têm impacto na forma
como a topologia sonora dos games pode ser planejada. A seguir, no Capítulo 2, vamos
discutir mais uma instância deste conceito, por meio da análise das formas de ação nos games.
56
Capítulo 2 –
O game como forma de ação
Neste capítulo, vamos analisar as correlações entre o conceito de topologia sonora, as
formas de ação (diegéticas ou não-diegéticas) da máquina e do jogador e a influência do som
na percepção do tempo nos games.
Jogar faz parte da natureza humana. O jogo está impregnado na cultura desde tempos
imemoriais e se manifesta até mesmo no vocabulário cotidiano por meio de expressões como:
“entrar no jogo”, “saber jogar”, “fazer parte do jogo”, “jogo de palavras”, “jogo de cintura”,
“jogar sujo”, “jogar limpo”, “abrir o jogo”, “virar o jogo”, “ter o jogo na mão”, “esconder o
jogo”, “mostrar o jogo”, “jogo duplo” e “jogo da verdade”, entre outras. Huizinga (2004: 5)
analisa o jogo como elemento da cultura e não apenas como elemento na cultura. Daí,
identifica motivações presentes no dia-a-dia que levam o jogador a jogar: saciar desejos e
apetites, afirmar-se perante seus pares, socializar-se, desafiar perigos ou obstáculos, superar-
se, descarregar energia, relaxar, divertir-se, preparar-se para novas tarefas, exercitar o
raciocínio, promover o autocontrole, enfrentar desafios, competir, restaurar energias, elevar a
auto-estima, desvendar mistérios, experimentar coisas novas, inovar, brincar, improvisar,
sentir um “frio na barriga”, etc. O autor enumera algumas características do ato de jogar: é
livre, não é parte da vida “normal”, é delimitado por tempo e espaço, cria ordem (na forma de
regras) e promove a formação de comunidades de jogadores. Para o filósofo e historiador
holandês, o jogo é tão essencial quanto o raciocínio (Homo Sapiens) e a fabricação de objetos
(Homo Faber), de modo que Homo Ludens é a expressão do lúdico na base da civilização.
Caillois (1990: 13-26) classifica os jogos em quatro grandes categorias que
eventualmente se sobrepõem: Agon, Alea, Mimicry e Ilinx. Agon (competição) agrega os jogos
competitivos. Neles, se disputa o reconhecimento pelo esforço, persistência e superioridade;
Alea (sorte) reúne os “jogos de azar”, cujos desdobramentos não dependem diretamente do
jogador e estão além de suas habilidades; Mimicry (mimese) é o domínio da fantasia, do
simulacro, do faz-de-conta, da encenação; Ilinx (vertigem) proporciona escapes da realidade
ordinária. Dá “barato”, “loucura”, êxtase, arrepio. Nesteriuk (2007: 51) complementa:
Da mesma forma, as atitudes psicológicas que levam um jogador a optar por
um determinado jogo são as mesmas: a ambição de triunfar em uma
competição regulamentada (agon); a demissão da vontade a favor da sorte
(alea); o gosto em assumir uma personalidade diferente (mimicry), e, a busca
pela vertigem (ilinx). No caso do agon, o jogador conta, basicamente, com
57
ele mesmo; na alea, com tudo exceto ele mesmo; na mimicry, imagina-se um
outro, e, no ilinx, descondiciona os padrões da percepção procurando abalar
a sua consciência.
Para Caillois, no jogo, apesar de suas regras, uma forma de liberdade, alegria e
poder de improvisação que ele chama de paidia e que se relaciona com ludus, o gosto pela
dificuldade fortuita. Paidia representa o prazer descompromissado, a gratuidade do jogo, “(...)
uma recreação espontânea e repousante, habitualmente excessiva, cujo caráter improvisado e
desregrado permanece como sua essência, para não dizer única, razão de ser” (Caillois: 1990,
48). Ludus, por sua vez, sugere desafio, superação. “O prazer que se sente com a resolução de
uma dificuldade tão propositadamente criada e tão arbitrariamente definida, que o fato de a
solucionar tem apenas a vantagem da satisfação íntima de o ter conseguido” (Caillois: 1990,
50).
Subjacente aos jogos há, com freqüência, o princípio do potlatch (competição). Trata-
se do impulso agonístico de afirmar a superioridade perante o adversário. Mas o que está em
jogo não é poder, riqueza ou aniquilação do oponente. Embora exista uma certa dose de
hostilidade, paradoxalmente laços de amizade e o desejo velado, ou não, de zombar do
rival. O potlatch manifesta o querer competir e expressar habilidades pessoais ou da equipe no
campo da força, inteligência, equilíbrio, rapidez, destreza, etc. Para muitas pessoas, a
competição é tão importante, que fica difícil entender jogos cooperativos como RPGs, onde
não um ganhador e prevalece o conceito de Mimicry (mimese). Por vezes, a vontade de
vencer está mais diretamente ligada à superação dos próprios limites do que aos adversários.
Nestes casos, a vitória é conseqüência e não a meta principal, de forma que uma derrota
apertada contra um adversário superior pode ser mais gratificante do que ganhar por conta da
sorte (Alea).
Outros jogos requerem mais do que a participação do jogador. Exigem um tipo de
desprendimento, entrega, cênica como diria o dramaturgo russo Constantin Stanislavski.
Aqui reina a improvisação e o mimetismo (Mimicry). “A regra desse jogo é única: consiste no
ato de fascínio do ator (jogador) sobre o espectador, evitando um erro que possa quebrar a
imersão” (Caillois, 1990: 23). Cria-se, desta maneira, uma segunda realidade paralela ao
“real” que nada tem a ver com uma ruptura da capacidade de discernimento. No faz-de-conta
ocorre uma contenção da reação emocional porque a criança que brinca de luta, por exemplo,
controla sua força para não machucar seu (s) amigo (s). Ao mesmo tempo, ao mimetizar um
58
super herói que é capaz de voar, a criança não se joga de uma altura que a colocaria em
perigo. Assim, podemos perceber que tanto o sentimento despertado mimeticamente como o
sentimento motivado por razões “verdadeiras”, embora sejam muito semelhantes, têm
natureza distinta. O sentimento determinado esteticamente se constitui e se mantém através da
imaginação, da fantasia que o reforça, e isso faz com que se expresse de modo "controlado" e
ao mesmo tempo possua grande intensidade. A predisposição de imergir no universo do jogo
demonstra que jogar é uma atividade narrativa, paralela à vida em sociedade “fora do jogo”.
Nesteriuk (2007: 35) relata que ao gerar “um mundo próprio, suspenso e autônomo, cria-se
uma espécie de alteridade, uma dualidade entre sujeito-jogador. O jogador enquanto Outro do
sujeito, ou o sujeito enquanto Outro do jogador”.
Jogos são também oportunidades de socialização. Nesteriuk (2007: 21) aponta que “no
meio da multidão, o ambiente do jogo favorece a uma espécie de catarse, uma tensão
compartilhada, ainda que entre desconhecidos”. Quem, por exemplo, pensa que os
videogames se restringem a práticas solitárias, provavelmente nunca entrou em uma lan
house, onde estivesse acontecendo uma sessão de jogo multiusuários. Jogar é também uma
oportunidade de encontrar os amigos, colocar a conversa em dia e conhecer gente nova. Por
outro lado, jogos single player são alternativas que agradam a muitos e dependem
exclusivamente da disponibilidade de tempo do jogador e da inteligência artificial do game.
A realidade paralela proporcionada pelo jogo, aliada ao ritmo de vida nas sociedades
urbanas contemporâneas, faz com que games sirvam ainda como “válvulas de escape”, linhas
de fuga do cotidiano, um convite a viagens a universos mágicos e fantásticos. A satisfação e o
êxtase experimentados pelo jogador (Ilinx) com alguma freqüência são mais “reais” do que a
vida ordinária. Galloway (2006, xii) enfatiza:
Nossa geração manifesta indiferença àqueles que vêem a cultura dos games
como algo tão recente e chocante. Eles m de algum outro lugar e estão
pouco familiarizados com a tecnologia digital. Nós nascemos dentro dela e a
apreciamos. Atenção rápida e fugaz, fragmentação cultural, aceleração da
vida, identificação de mudanças em cada esquina ou rachadura estas são
neuroses na imaginação do médico, não na vida do paciente... A primeira
questão é: você joga videogames? Então, a próxima coisa a fazer é explorar o
que eles fazem.
59
Quatro formas de ação
Em geral, jogos são atividades definidas por regras, onde os jogadores tentam alcançar
alguma meta. Podem ser descompromissados ou “sérios”; serem jogados sozinhos ou em
cenários sociais complexos. A análise, proposta por Galloway (2006: 1-38), sobre as formas
de ação nos games disseca o videogame como meio de massa a partir dos anos 1970 até o
início do novo milênio e, ao mesmo tempo, funciona como campo de aplicação do conceito de
topologia sonora, como veremos adiante. Um videogame é um produto cultural que se
constitui de dispositivo eletrônico computacional e jogo executado por software. A máquina
pode apresentar-se em uma grande variedade de formas: PCs, arcades, consoles ou
dispositivos portáteis, entre outras. O jogador ou operador, que pode também ser um bot
17
ou
script
18
, é um agente que se comunica com o software e o hardware, enviando mensagens
codificadas através dos dispositivos de entrada (controlador, teclado, joystick, etc.) e
recebendo feedbacks por meio dos dispositivos de saída (monitor ou outra interface física).
Galloway (2006: 2) argumenta que “se fotografias são imagens e filmes são imagens
em movimento, videogames são ações”. No estudo dos games, ação é a palavra número um.
Sem ação, os jogos existem apenas em páginas de livros de regras abstratas. Sem a
participação ativa de jogadores e máquinas, games existem apenas como código
computacional estático. O autor nos convida a refletir sobre as diferenças formais entre os
jogos eletrônicos e as outras mídias. Ele nos lembra que:
... sabemos que alguém tira a fotografia, atua em um filme. Mas estas
atividades expiram antes ou durante a produção de um trabalho que, ao
final, assume a forma de um objeto físico. Nos games, ao contrário, a
manifestação do trabalho é um conjunto de ações. Alguém joga o game; o
software roda. O operador e a máquina jogam o game juntos, passo a passo,
movimento a movimento. Aqui a palavra “trabalho” não é lida ou integral
como em outras mídias. Pense na diferença entre a câmera e o joystick, ou
entre imagem e ação, ou entre assistir e agir.
17
Um bot, diminutivo de robot, é um utilitário concebido para simular ações humanas, em geral numa taxa
muito mais elevada do que seria possível para um editor humano sozinho. No contexto do software pode ser um
utilitário que desempenha tarefas rotineiras ou, num jogo de computador, um adversário com recurso à
inteligência artificial. Fonte Wikipédia:
http://pt.wikipedia.org/wiki/Bot (acessado em 03/04/2008)
18
Scripts são instruções formais escritas com linguagens interpretadas por programas de computador que lêem
um código fonte de uma linguagem de programação e o converte em um arquivo executável.
60
Nos games, a ação existe não apenas como um exemplo de representação, mas como
alicerce de uma nova mídia. Aarseth (apud Galloway, 2006: 3)
afirma que games são objeto
e processos ao mesmo tempo, e não podem ser lidos como textos ou ouvidos como músicas,
precisam ser jogados”. Assim, para entender os games é preciso compreender como a ação
ocorre durante o ato de jogar em si, considerando sua diversidade de formas e intensidades.
Sintetizando, games são ações e, contrariando o argumento da chamada “audiência ativa” que
postula que o público sempre traz suas próprias interpretações e recepções do trabalho,
Galloway (2006: 3) defende a tese, “cuja raiz encontra-se na cibernética e na tecnologia da
informação, de que uma mídia ativa é aquela cuja materialidade se move e reestrutura em si
mesma pixels ligados e desligados, bits trafegando pelo hardware, discos acelerando e
desacelerando”.
Na opinião de Galloway (ibid), “pela primeira vez em muito tempo, ocorre um salto
qualitativo na cultura de massa... Enquanto o cinema, a literatura, a televisão e assim por
diante continuam a ser palco de debates acerca da representação, textualidade e subjetividade,
emerge uma nova mídia... cuja fundação não é o olhar e a leitura, mas sim, o estímulo à
mudança material através da ação”. Ao jogar, as pessoas mexem as mãos, balançam o corpo,
movem olhos, gritam, se contorcem, etc. De forma similar, as máquinas agem segundo suas
próprias gramáticas de ação, não se limitando a responder às ações dos jogadores. Exemplos
interessantes são os power-ups
19
e os network lags
20
.
Galloway (2006: 5) descreve dois tipos de ação nos games: ações da máquina e ações
do operador.
Ações da máquina são realizadas por hardware e software, enquanto ações
do operador são feitas pelo (s) jogador (es). Assim, em Metroid Prime,
vencer é uma ação do operador; perder é uma ação da máquina. Localizar
um power-up no Super Mario Bros. é uma ação do operador, mas o power-
up em si, que aumenta a saúde do personagem, é uma ão da máquina.
Certamente, esta divisão é completamente artificial ambos, a máquina e o
operador trabalham juntos em uma relação cibernética que afeta as várias
ações do game como um todo. Os dois tipos de ação são ontologicamente o
mesmo. Na verdade, durante o ato de jogar, os dois tipos de ação ocorrem
unificados como um fenômeno único, ainda que sejam distinguíveis para o
propósito de análise. Portanto, não deve haver preponderância de um sobre
19
Power-ups são objetos que instantaneamente beneficiam ou adicionam habilidades extras para o personagem
do jogador no game.
20
Network lags são atrasos decorrentes de lentidão na conexão com a Internet.
61
o outro. Nos games, a ação da máquina é tão importante quanto a ação do
operador.
Games são máquinas algorítmicas, que envolvem tanto atores orgânicos quanto
inorgânicos, e como toda máquina funcionam por meio de regras específicas e codificadas.
Quando o jogo acontece, o código se move. Ocorrem mudanças físicas na máquina: elétrons
se deslocam, portões lógicos se abrem e fecham, telas se iluminam e assim por diante, de
modo que os dispositivos de entrada e de armazenamento transmutam elementos físicos em
matemáticos e vice-versa. Fundamentalmente, games são software. Galloway (2006: 6)
argumenta que “em termos genéricos, o game Dope Wars tem mais em comum com o
gerenciador financeiro Quicken do que com outros jogos tradicionais como xadrez, roleta e
bilhar”. É possível, assim, questionar onde está o divertimento em um jogo realizado entre um
operador e uma máquina. Mas o fato é que os games podem também ser muito cativantes e,
ao proporcionarem níveis elevados de imersão e engajamento, ocupam muito tempo dos
jogadores, de uma maneira que não costuma ocorrer em outras mídias de massa. Alguns jogos
eletrônicos requerem entre 60 a 80 horas para serem completados. Há ainda outros que
ultrapassam este limite. Por exemplo: Sims on Line e World of Warcraft.
É possível fazer uma outra distinção analítica nos games: entre ações que ocorrem no
espaço diegético (dentro do universo do jogo) e ações que acontecem no espaço não-diegético
(fora do universo do jogo). Os termos diegético e não-diegético são emprestados da teoria
cinematográfica e representam respectivamente o espaço narrativo onde os eventos
dramáticos têm lugar e o espaço externo a estes eventos. Em School of Rock (Escola de
Rock), por exemplo, quando os alunos de Dewey Finn, interpretado por Jack Black, ensaiam
ou se apresentam, podemos dizer que a música que se ouve é diegética; nas ocasiões em
que alguma música é sobreposta ao espaço narrativo, na forma de trilha sonora, afirmamos
que é não-diegética. Mas, nos games, estes termos passam por modificações sutis. Gérard
Genette (apud Galloway, 2006: 128) emprega o termo “extra-diegético” no lugar de não-
diegético para designar a narração em oposição ao fato narrado: “Qualquer evento recontado
pela narração está em um nível diegético imediatamente acima do nível no qual o ato narrado
(em si) acontece”.
O plano diegético em um game é a totalidade do universo onde a ação narrativa
ocorre. Embora haja aqueles que defendam a inexistência de narrativa nos jogos, é inegável
que em grande parte deles a narrativa está presente e se explicita por meio de introduções, cut-
62
scenes, objetivos e missões. Assim como no cinema, há nos games elementos on-screen e off-
screen, isto é, personagens, coisas e eventos que são mostrados ou que são apenas presumidos
ou referenciados. Mesmo em games que não apresentam narrativas estruturadas, sempre
um cenário elementar ou situação de jogo que funciona como plano diegético. Galloway
(2006: 7) exemplifica: “no Pong uma mesa, uma bola e dois rebatedores; em World of
Warcraft há dois grandes continentes e um oceano entre eles”. Complementarmente, os
elementos não-diegéticos fazem parte do aparato do jogo externo ao mundo da ação narrativa
e seus personagens. No entanto, com freqüência, elementos não-diegéticos nos games estão
associados ao ato de jogar: em alguns casos, incorporados ao universo do jogo; em outros,
apartados deste universo. Galloway (2006: 8) comenta: “em Max Payne, dar pausa é uma
ação não-diegética, enquanto ativar o efeito de câmera lenta durante a luta, uma ação
diegética”. Ações não-diegéticas são mais comuns em games do que no cinema, onde os
fatores não-diegéticos o, por exemplo, a trilha sonora e os letreiros. Nos jogos, às vezes, é
difícil demarcar as fronteiras entre os planos diegético e não-diegético, uma vez que para
assegurar uma boa jogabilidade, imersão e continuidade, é comum fundir as ações dos dois
planos, de maneira que o jogador não se dê conta disso.
A sobreposição dos eixos ortogonais máquina e operador (jogador) X diegético e
não-diegético é um recurso utilizado por Galloway (ibid) para estruturar sua teoria da ação
nos games. Em seu modelo, “pausar é tão importante quanto disparar contra o inimigo;
ludibriar é tão importante como estabelecer estratégias”. Os quatro quadrantes desses dois
eixos delimitam as diferentes ações realizadas pelo jogador e pela quina nos planos
diegético e não-diegético. Cada quadrante revela uma perspectiva diferente, não apenas das
características formais de um jogo eletrônico, mas também das possibilidades de
configurações de uma topologia sonora.
Galloway (2006: 8-12) propõe que “o primeiro quadrante diz respeito ao domínio
puramente maquínico e à vitalidade da matéria pura. Consideremos o jogo Shenmue
21
de Yu
Suzuki. Uma pessoa joga Shenmue por meio da sua participação no processo do jogo”. Se o
jogador parar de jogar, ainda restará uma forma de ação, um ritmo de vida expressivo e
autônomo no universo do game. Estamos falando das ações diegéticas da máquina.
Em jogos como Shenmue e Grand Theft Auto IV, quando o jogador pára de jogar, uma
ordem intrínseca ao programa se estabelece, criando uma espécie de estado de repouso
21
Shenmue (final de 1999 no Japão, 2000 no Ocidente) é um videogame produzido e realizado por Yu Suzuki da
Sega-AM2 para Dreamcast. Suzuki criou um novo gênero de jogo, F.R.E.E. (Full Reactive Eyes Entertainment),
com interatividade e liberdade incomparáveis até então, bem como um sistema inovador que simulava as
condições do clima em tempo real. Fonte: http://pt.wikipedia.org/wiki/Shenmue (acessado em 13/03/2008).
63
dinâmico. Não se trata de um paradoxo ou de um loop de acontecimentos pré-definidos,
enquanto o jogador não volta a atuar. Na verdade, o jogo se configura como um ambiente que
age de forma autônoma, porém, que não interfere no personagem ou no desempenho do
jogador. A pontuação ou o tempo disponível para realizar determinadas tarefas, na maioria
das vezes, não se altera. Este estado em que o ambiente “age” (chove, o sol se põe e volta a
nascer, as árvores balançam seus galhos ao vento, etc.) difere da condição em que o jogo é
pausado. Neste caso, é o jogador que é pausado, de modo que o jogo continua a acontecer
como um processo puro da máquina. Micromovimentos emergem de repetições aleatórias ou
conjuntos de repetições que ocorrem com diferentes periodicidades. Galloway (2006: 11)
argumenta que:
... podemos dizer que a atuação do ambiente é uma ação, executada pela
máquina, que emana para fora em direção ao jogador (supondo-se que este
apenas observa como testemunha). Neste aspecto, o game pode ser
comparado com outras formas de expressão como a pintura e o cinema. Isto
é, o universo do jogo passa a existir puramente como objeto estético em
movimento que pode ser observado, destacado do mundo. Porém, há sempre
uma certa expectativa na ação do ambiente à espera do retorno do jogador.
Alguns dos micromovimentos configuram micro-ritmos visuais, movimentos rápidos
que ocorrem na superfície das imagens por causa de circunstâncias como chuva, flocos de
neve, ondulações da água em um lago, fumaça de cigarro e qualquer tipo de micro-variações
intermitentes como granulações, chuviscos, etc. Quanto maior a incidência de micro-ritmos
visuais, mais intensa é a influência do som na temporalização das imagens, ou seja, na forma
como o áudio contribui para a percepção do tempo nas imagens. Ainda neste capítulo,
aprofundaremos essa questão.
A topologia sonora de um game define um senso de lugar que tem sua “assinatura”
própria e funciona como índice de presença de seres, máquinas, objetos e tipos de atividade.
A topologia sonora, vinculada às ações diegéticas da máquina, pode prever variações de
comportamento das fontes sonoras, segundo parâmetros intrínsecos ao universo do jogo
como: hora do dia, estação do ano, acontecimentos prévios, tempo de inatividade do jogador e
quantidade de fontes sonoras, entre outros, além de parâmetros relacionados à programação,
aleatoriedade, inteligência artificial e processamento de áudio em tempo real, como acontece
64
por meio de tecnologias como a EAX Advanced HD (Environmental Audio eXtensions) e a
OpenAL. Tomemos emprestado as palavras de Krause (2002: 6):
O som chega até nós através de uma combinação simultânea de aspectos
fixos e variáveis. Sabiás sempre cantam em meu quintal durante a
primavera. Isto é algo estabelecido, um evento previsível que ocorre todos
os anos. No entanto, eles cantam em diferentes árvores, a diferentes
distâncias e em diferente número: este é o aspecto variável.
outra categoria de ações do ambiente que merece destaque. São os diversos
segmentos cinemáticos de um game, compostos por interlúdios, transições e outros
comportamentos machinicos
22
. James Newman utiliza o termo off-line para descrever os
momentos de passividade do jogador, em oposição a on-line para os momentos nos quais o
jogador atua (apud Galloway, ibid).
A maioria dos games incorpora, em algum momento, animações lineares como as
transições entre veis em Pac-Man ou as seqüências fílmicas em Enter the Matrix. Em
Understanding Media, que em português ganhou o título de Os meios de comunicação como
extensões do homem, McLuhan (1995: 22) afirma que “o conteúdo de qualquer meio ou
veículo é sempre um outro meio ou veículo”. Nestes momentos, a presença do operador
(jogador) é momentaneamente irrelevante, de modo que ele perde a capacidade de interferir
no jogo. Mas ao invés de serem interpretadas como um estado de inatividade, as seqüências
cinemáticas são percebidas como algo intencional que pode apresentar diversas funções:
revelar novos desafios, conduzir a trama de um modo que não seria possível durante o ato de
jogar, proporcionar um momento de relaxamento após um longo período de ação e “premiar”
o jogador após uma conquista, entre outras. As seqüências cinemáticas estão fora do jogo,
mas não da narrativa do jogo. E como o próprio nome sugere, a topologia sonora de
seqüências cinemáticas é muito semelhante à do cinema: músicas capazes de evocar emoções
22
O termo machinima surgiu da fusão entre os vocábulos machine (máquina) e animation (animação), e é
utilizado para designar tanto um conjunto de técnicas associadas para a produção de animações na maioria das
vezes tridimensionais –, quanto o próprio tipo de produto audiovisual derivado da utilização dessas técnicas. Sua
produção baseia-se, sobretudo, na utilização de engines os softwares motores utilizados para a criação de
games – ao invés de softwares específicos normalmente utilizados para a animação audiovisual. Assim, é
possível aproveitar-se de digos de programação abertos, de ferramentas digitais (como a iluminação e as
câmeras virtuais), de certos parâmetros pré-definidos (movimentação de corpo e física aplicada) e de outras
fontes de acesso livre (biblioteca de cenários e objetos de cena modelados e de texturas aplicáveis)
amplamente disponíveis nas engines para games. Com isso, pode-se obter resultados em tempo real, otimizando
a produção, reduzindo seus custos e acelerando drasticamente o tempo gasto no desenvolvimento de uma
animação. Podemos comparar de forma análoga esse processo às diferenças existentes entre a edição de vídeo
tradicional, em ilhas de edição analógicas ou digitais, e a performance de um VJ (Video Jockey) capaz de editar e
manipular sons e imagens ao vivo e em tempo real. (Nesteriuk, 2007: 164).
65
intensas, efeitos sonoros de impacto e diálogos que esclarecem elementos da trama ou
apontam novas direções; tudo muito bem gravado e mixado para potencializar a imersão e o
arrebatamento do jogador. Não é por acaso que certas seqüências cinemáticas lembram
trailers de filmes.
As ações aqui destacadas são chamadas de ações diegéticas da máquina porque são
momentos de puro processo; a máquina está ligada e rodando, não mais que isso. Porém,
possivelmente a máquina não apresentasse determinadas seqüências cinemáticas sem a ação
prévia do operador (jogador), que é tão importante quanto a máquina na consecução do ato de
jogar.
O segundo quadrante dos eixos máquina e operador (jogador) X diegético e não-
diegético é representado pelas ações não-diegéticas do operador (jogador). São ações de
configuração, sempre executadas pelo operador e recebidas pela máquina. Acontecem fora do
universo do jogo, mas estão integradas ao seu funcionamento e são parte do software. Um
exemplo é a pausa, ação que suspende o jogo. Nada, dentro do universo do jogo explica este
ato que interrompe temporariamente o jogo, é reversível e não causa danos à jogabilidade.
Outros exemplos são os cheats (truques) e os “hackeamentos”. Muitos games possuem cheats,
originalmente criados para testes e correções de erros de programação, que são posteriormente
divulgados para o público ou descobertos por acaso. Trata-se também de ações realizadas pelo
jogador fora do universo do jogo que podem ser efetivadas via hardware, como o Game
Genie, ou por meio do próprio software do game, utilizando-se seqüências predeterminadas
de botões do controlador. Galloway (2006: 13) lembra que “teclas de atalho e truques também
podem resultar de softwares ou scripts adicionais, como o uso de macros em Everquest ou
add-ons em World of Warcraft, ou ainda, cheats como a habilidade de enxergar através de
paredes no Counter Strike”.
Cheats, também chamados de “xits” ou “xiters” no Brasil, oferecem, entre outras
coisas, super poderes, revelações de segredos do jogo, recursos infinitos ou em grande
quantidade, munição, saúde, vidas, imortalidade, atalhos para estágios e fases mais avançadas,
mapas ou cenários. Alguns cheats, conhecidos como exploits, são considerados ilegais porque
se aproveitam de falhas no jogo ou alteram partes dos arquivos para oferecer vantagens não
previstas pelos desenvolvedores. São procurados com freqüência para jogos multiplayer
online. Muitos usuários reprovam o uso de cheats, já que violam o conjunto de regras
estabelecidas no jogo. No entanto, macros e add-ons são normalmente aceitos. Da mesma
66
forma, um emulador em hardware pode inserir comandos não-diegéticos, como pausa,
inexistentes no jogo original.
Dentro do quadrante das ações não-diegéticas do operador (jogador), podemos
encontrar duas formas. A primeira está restrita à área de set-up: definição de preferências,
configurações do jogo, meta-análise do jogo, carregamento (load), salvamento (save), seleção
do número de jogadores, etc. A pausa e os cheats incluem-se nesta categoria que inclui o pré-
jogo, o pós-jogo e as atividades entre o jogo. A segunda forma, diferentemente, interfere no
desempenho do operador e na jogabilidade em si. Galloway (2006: 14) comenta que “todos os
simuladores de gerenciamento de recursos, assim como a maioria dos jogos de estratégia em
tempo real (real-time strategy RTS) e turn-based strategy games como Civilization III são
produzidos desta maneira”. Nestes casos, o ato de configurar define a jogabilidade e os rumos
do jogo. Em Final Fantasy X, por exemplo, o processo de configuração de várias armas e
armaduras ou a escolha de como o combate vai se desenrolar são realizados em menus e
interfaces que estão fora do universo diegético do game. Embora possam estar intimamente
conectadas à narrativa, estas ações existem apenas como uma camada informacional apartada
do universo do jogo. Assim, o ato de jogar pode, ainda que por momentos limitados, escapar
completamente do plano diegético. Deste modo, enquanto em Shenmue (na ausência de
atividade do jogador) o movimento emana da máquina para fora, em Final Fantasy X (durante
a configuração prévia do jogo) o movimento ocorre para dentro da máquina.
Assim como em Shenmue, o diferencial de jogos como Myst e Ico é a habilidade de
capturar a sensibilidade do jogador, proporcionando uma imersão que se mantém coesa pela
topologia sonora dos ambientes 3D. Em Myst, os intrincados enigmas e o visual mágico
também contribuem para isto.
Operador /
Jogador
Diegético
Não-
diegético
Máquina
Final Fantasy X
Shenmue
Figura 17 – Os Quadrantes de Galloway
67
A topologia sonora de um game requer atenção ao espaço das ações não-diegéticas do
operador (jogador). Dado o caráter eminentemente indicial das ações de configuração, bem
como dos incrementos de recursos (saúde, vidas, dinheiro, poderes, armas, munição, fases,
níveis, etc.), é recomendável que o som atue como feedback para o jogador de que a ação
realizada foi bem sucedida ou que seu status no jogo foi modificado. Aqui mais uma vez,
podemos lançar mão de “paletas” sonoras específicas associadas ao tema do jogo e/ou a
estilos, timbres, “climas” e índices de materialidade, entre outros fatores. Em Blade II, da
Activision, por exemplo, os dois principais sons da área de configuração nos remetem à
sonoridade metálica de uma espada (índice de materialidade de uma das armas utilizadas pelo
protagonista, interpretado no cinema por Wesley Snipes) e de uma vocalização reverberante
ameaçadora (Aaaaaaahhhhhh....) que sugere a presença de vampiros. A música apresenta uma
sonoridade obscura, com predominância de notas graves e prolongadas que contextualizam o
jogador na temática do game: a caça a vampiros e a missão de evitar o surgimento de uma
espécie de supervampiro, conhecido como reaper. A similaridade entre os sons de
configuração e os sons do espaço diegético do jogo proporciona uma “unidade” sonora que
contribui para o engajamento e imersão do jogador. Em Tony Hawk's Pro Skater 4, os áudios
associados às ações de configuração são sons de manobras como: atrito de eixos em
superfícies, derrapagem e deslizar de rodas. O produtor de áudio pode empregar sons
característicos do espaço diegético do game em ações não-diegéticas do jogador. Mas, isso
não é uma regra. O desenvolvedor e o produtor de áudio podem optar por “paletas” sonoras
contrastantes. A propósito, o contraste é bem-vindo no caso de incremento de recursos que
alteram o status do jogador como, por exemplo, sons relacionados a HUDs (Head-Up
displays): barras de status ou níveis de saúde, menus pop-up e displays de pontuação. O
motivo é que um som diverso da “paleta” de sons, presente no espaço diegético, chama a
atenção para o fato de que algo mudou. Ao mesmo tempo, a redundância dos sons associados
às ações de configuração cria um “vocabulário” específico de elementos sonoros que o
jogador aprende pela experiência a identificar. Pontuschka (2008) afirma que “somente com a
repetição dos padrões sonoros é que o usuário será capaz de estabelecer classificações
sonoras, mesmo que de forma inconsciente, situação que pode ser atingida com um certo
tempo de navegação...”
A próxima categoria que analisaremos são as ações diegéticas do operador (jogador).
Este quadrante envolve a ação como ela é mais freqüentemente compreendida, isto é, como
movimentos deliberados de indivíduos, ações diretas do jogador dentro do universo do jogo.
68
As ações diegéticas do operador (jogador) possuem duas variações que mutuamente se
sobrepõem: ações de movimento e ações expressivas. Em termos simples, as ações de
movimento alteram a posição física do jogador e, conseqüentemente, o ponto de audição ou,
ainda, a orientação do ambiente do jogo, de modo que outras áreas podem ser visualizadas,
bem como diferentes sons podem ser ouvidos. Da mesma forma como em um DVD ou disco
de Blu-ray, por exemplo, é possível mostrar diferentes perspectivas e pontos de vista de uma
mesma imagem, no áudio, podemos apresentar sonoridades associadas ao espaço (visível ou
não) ou ao psiquismo de um ou mais personagens. Efeitos de proximidade como a respiração
de alguém ou determinadas características do som como a resposta de freqüências em uma
ligação telefônica, por exemplo, podem ser indícios de pontos de audição.
Ações de movimento são comumente realizadas por meio de joysticks, teclas ou
controladores e, com freqüência, aparecem na forma de movimentos do personagem do
jogador: pular, correr, dirigir, agachar, etc. Galloway (2006: 22) recorda que “mesmo em
jogos como Tetris, onde não um avatar que representa o jogador, ações de movimento
ocorrem em termos de tradução espacial, rotação, empilhamento e posicionamento de objetos
no game”.
Paralelamente, ocorrem as ações expressivas do jogador como clicar, selecionar,
pegar, adquirir, rotacionar, abrir, destravar, examinar, utilizar, conversar, atirar, atacar,
aplicar, digitar, jogar e arremessar, entre outras. Estas ações podem ser simples como disparar
em Quake ou Unreal, por exemplo, ou complexas como no caso da seleção de objetos e
combinações em jogos de estratégia ou de aventura. Em alguns games uma mesma ação
expressiva pode apresentar finalidades diferentes. Em Metroid Prime, por exemplo, disparar
uma arma pode ser usado tanto para atacar como para abrir portas.
É importante lembrar que nem tudo em um game está disponível para ações
expressivas; alguns objetos são acionáveis e outros não. Além disso, os objetos podem ter seu
status modificado ao longo do jogo, dependendo do desenrolar dos acontecimentos. Em
Warcraft III, por exemplo, uma mina de ouro é acionável enquanto produz, mas deixa de ser,
se estiver em ruínas. ainda outros objetos acionáveis como botões, chaves, portas,
obstáculos, palavras, blocos e NPCs (non player characters – personagens que não são
jogadores), entre outros. Os objetos não acionáveis, por outro lado, funcionam como massa
inerte no jogo. A acionabilidade dos objetos é determinada durante o design da fase do game.
Ao longo deste processo, algumas ações diegéticas da máquina também são determinadas
como, por exemplo, pontos de geração de eventos, luzes, sombras, obstáculos, etc. A
importância e a finalidade dos objetos acionáveis variam de jogo para jogo e de gênero para
69
gênero. Galloway (2006: 24-25) aponta que “jogos de aventura como The Longest Journey
requerem atenção especial aos objetos disponíveis no campo visual; já nos games do tipo RTS
(real-time strategy), estes objetos não representam a meta principal do jogo”.
Galloway (2006: 25) comenta também que:
A discussão acerca das ações diegéticas do operador (jogador), bem como
de suas ações não-diegéticas, pode ser documentada em uma espécie de
“arqueologia” do design de controladores. Toda ação (diegética ou não-
diegética) corresponde a uma ação física. No jogo para PC, Half Life, as
ações do operador estão inscritas em várias regiões do teclado e no mouse.
Enquanto a esfera do mouse está vinculada a ações de movimento, seus
botões estão associados a ões expressivas. Assim, conjuntos de teclas
como A, W, S, D, espaço e Ctrl atuam em ações de movimento, enquanto
outros como R, E e F, em ações expressivas... Em jogos para Playstation, os
botões Start e Select, normalmente utilizados em ações não-diegéticas,
podem em alguns casos assumir outras funções no plano diegético.
Como dissemos pouco ações de movimento modificam a posição do jogador e, por
extensão, o ponto de audição. A tecnologia EAX Advanced HD (Environmental Audio
eXtensions), desenvolvida pela Creative Labs, por exemplo, permite, entre outras coisas, o
controle não apenas da reverberação de um ambiente, mas também das reflexões prévias
(primeiras reflexões do som antes que a reverberação ocorra), das transições entre os
diferentes níveis de reverberação, à medida que o jogador transita de um local para outro, e a
representação dinâmica da distância em que a (s) fonte (s) sonora (s) se encontra (m) do
jogador. Dessa forma, o som oferece informações importantes a respeito do ambiente, objetos
e personagens. A capacidade de representar múltiplos ambientes simultaneamente, em tempo
real, permite ao jogador escutar os sons de seus adversários vindo de outros lugares e
direções. Certamente, isso representa uma vantagem competitiva em games em que o jogador
interage com outros jogadores e/ou personagens autônomos, dotados de inteligência artificial.
Quanto às ações expressivas do jogador (clicar, selecionar, pegar, adquirir, rotacionar,
abrir, destravar, examinar, utilizar, conversar, atirar, atacar, aplicar, digitar, jogar e
arremessar, etc.), podemos criar “paletas” de sons realistas ou não-realistas (como nos
cartoons, por exemplo), indo ao encontro das características visuais do ambiente do game ou
em contraponto a elas. Assim como acontece com freqüência no cinema, nos jogos
eletrônicos, não vemos as fontes sonoras reais dos sons que ouvimos, mas o que os
70
desenvolvedores nos fazem crer serem as fontes sonoras. Isso é viável graças a dois
fenômenos que serão discutidos no próximo capítulo: a synchresis (contração das palavras
synchronism e synthesis) e o pacto audiovisual (audiovision contract), ambos definidos por
Chion (1994: 1-137).
Em alguns games tanto as ações de movimento como as ações expressivas acontecem
fundamentalmente orientadas pelo som (audio games). Alguns exemplos: Ratapon, Rez,
Locoroco, Elektroplancton, Elite Beat Agents, Gitaroo Man, Rock Revolution, Guitar Hero,
Amplitude, Wii Music, Rock Band, SingStar e Lips, entre outros, além dos games
desenvolvidos especialmente para pessoas com deficiência visual, os accessible games. No
Capítulo 4, falaremos mais a respeito.
Pontuschka (ibid) estuda a navegação em ambientes digitais interativos (games,
hipermídias, GPSs e outras interfaces homem-máquina) a partir do som:
... postulamos o princípio metodológico que afirma que as estruturas sonoras
podem e devem ser utilizadas como elementos midiáticos e orientadores, a
fim de produzirem-se experiências sonoras em seus ouvintes, indicar
caminhos, objetos e eventos... Trata-se da navegação e interação por meio e
dentro de um sistema sonoro (áudio), designado por nós como hiperáudio.
O trabalho do pesquisador que vincula áudio e lógica de programação possivelmente
aponte caminhos inéditos na utilização do som como resposta aos estados psicológicos e
emocionais do interator/jogador, identificados pelo sistema por meio de sensores, interfaces e
outros dispositivos.
A manipulação sonora pode apresentar um bater de porta com menos
amplitude e menos ataque nas situações nas quais a personagem estiver
calma e, ao contrário, caso a mesma esteja nervosa. Sons mais agressivos
podem aparecer quando a personagem estiver estressada. Tais sons,
apresentados desta forma, procuram estipular um vínculo do estado de
espírito no qual a personagem se encontra, com as correspondentes
sensações que o usuário sente ao navegar...
O quarto quadrante do sistema analítico de Galloway (2006: 28) é o lugar das ações
não-diegéticas da máquina. Trata-se de ações realizadas pela máquina que não fazem parte
estritamente do universo do jogo, embora integrem a totalidade da experiência do jogar. Nesta
categoria estão ações internas como metas, estatísticas de pontuação, ajustes dinâmicos de
71
dificuldade (DDA dynamic difficult ajustments), HUDs (Head-Up displays) e ocorrências
externas (conhecidas ou não) como falhas do sistema ou do software, períodos temporários de
inatividade, quedas de servidor, network lags e contagem baixa de polígonos. Alguns
elementos como power-ups e “pacotes” de saúde dissolvem a fronteira entre as ações não-
diegéticas da máquina e as ações diegéticas da máquina.
A mais contundente ação não-diegética da máquina é o game over, momento em que o
ato de jogar é interrompido à revelia da vontade do jogador. O controlador deixa de aceitar os
comandos e a jogabilidade somente é restabelecida algum tempo depois, por meio de uma
ação no menu. O game over normalmente coincide com a morte do personagem do jogador ou
o fracasso em uma missão, e está diretamente ligado à performance de quem joga.
também ações não-diegéticas da máquina, chamadas por Galloway (2006: 31) de
ações de capacitação, que enriquecem a experiência do jogar: disponibilização de
informações adicionais, aumento de velocidade, invulnerabilidade temporária, vida extra,
aumento na saúde, um portal de tele-transporte, pontos, armas, dinheiro e outros tipos de
bônus”. Como veremos ainda neste capítulo, o som pode funcionar como índice de eventos
(ações), estados (fases, bônus, etc.) e modos (de dificuldade, velocidade, treinamento, etc.). A
topologia sonora do game pode prever sons específicos associados a mudanças de
funcionalidade dos objetos, em decorrência de ações de capacitação que, embora não-
diegéticas, apresentam laços estreitos com aspectos diegéticos do jogo. A exemplo do que
acontece nas ações diegéticas expressivas do operador (jogador), as “paletas” de sons
utilizados nas ações de capacitação não-diegéticas da máquina podem apresentar diferentes
graus de realismo e contraste em relação aos demais sons empregados no game e, ao mesmo
tempo, atuam como índices de que o status do jogo (ou do jogador) mudou. O game over é
emblemático. Diversos comportamentos são aplicados ao som para refletir a interrupção na
jogabilidade. Dentre eles, estão: redução gradual e rápida no andamento (ralentando), no
pitch (tornando o som mais grave), em ambos, ou ainda a criação de sonoridades dissonantes,
artificiais, cômicas, etc. que denotem que o jogo acabou. Em Guitar Hero, por exemplo, o
público vaia intensamente o jogador e a banda pára de tocar.
A conexão entre as ações de capacitação e o universo diegético do jogo se estabelece
tanto pela perícia e perspicácia do jogador como por cheats. Em The Thing, gravadores de voz
são utilizados para salvar estações; em Half-Life, os trajes HEV, desenvolvidos para
ambientes hostis, são carregados com suplementos de saúde; em Adventure (Colossal Cave
Adventure), a palavra mágica “xyzzy” tele-transporta o jogador entre dois locais. Galloway
(2006: 32) recorda que “a mesma lógica de “xyzzy” ocorre em Vice City: ao morrer, o
72
personagem do jogador retorna ao início da missão”. Enfim, com freqüência, objetos
diegéticos são empregados para mascarar funções não-diegéticas do jogo.
Existe ainda um outro tipo de ação não-diegética da máquina que merece atenção.
Galloway (ibid) destaca:
O design gráfico da versão de Space Invaders do Atari 2600, por exemplo, é
uma corporificação direta de como um byte de dados (seqüência de 8 bits de
zeros e uns) pode ser representado como uma faixa de oito pixels ligados ou
desligados... É a matemática se fazendo visível. A forma e o tamanho do
personagem Mario na versão da NES de Super Mario Bros. são
determinados não apenas por aspectos artísticos ou narrativos, mas pelas
especificações de design do microchip 6502 de 8 bits.
A afirmação de McLuhan (1995: 21) de que o meio é a mensagem é, no caso acima,
literal. Outro caso de influência da lógica da informática na jogabilidade é o uso de
multithreading (compartilhamento do uso do processador entre várias tarefas
simultaneamente) e a programação orientada a objetos. Galloway (2006: 32-33) explica:
Em State of Emergency, o efeito caótico de tumulto é fomentado a partir da
experiência, criada durante o jogar, e incorporado na narrativa. Deste modo,
a função de criar aglomerações é uma ação não-diegética que tem sua
origem na gica informática (emergência, redes sociais, vida artificial, etc.)
ao invés de em algum elemento necessário da narrativa que “explique” e
incorpore esta força não-diegética na história (tumulto).
Outra questão relevante que apresenta impactos nas ações não-diegéticas da máquina é
a distinção entre jogos de arcade e jogos de console ou computador. Arcades requerem
pagamento e, em geral, são instalados em locais públicos como Shopping Centers e bares. Por
essa razão, seus jogos o estruturados em torno de “vidas”, recursos (bolas em um pinball,
por exemplo) e limiares (o próximo nível). Para que a duração dos jogos de arcade seja menor
(com o objetivo de aumentar o faturamento financeiro), mais penalidades e limitações.
Jogos para computadores ou consoles, ao contrário, costumam estar em residências e, uma
vez comprados, são utilizados livremente. Por isso, sua jogabilidade se baseia em “saúde” ou
“vitalidade”, de modo que é mais contínua, prolongada, menos repetitiva e pode ser pausada.
Super Mario Bros. é um caso interessante: surgiu como jogo de arcade e migrou para
consoles da Nintendo, onde mantém o conceito de “vidas”, mas incorpora uma série de
73
power-ups que aumentam a “vitalidade” em cada vida individual. A transição dos games de
arcade para as casas provocou uma série de mudanças como: maior duração dos jogos,
possibilidade de salvar, acesso a configurações de velocidade e de níveis de dificuldade, e
maior variedade e flexibilidade do tempo nos games, como veremos adiante ao falarmos da
temporalidade nos jogos eletrônicos.
Jogos de arcade possuem uma espécie de vinheta em loop que Hoffert (2007: 124)
classifica como “atrator” (attractor). Sua função é, basicamente, atrair as pessoas para jogar e,
na maioria das vezes, é acompanhada por um trecho em loop com um dos temas musicais do
game. Por isso, segundo o professor (Hoffert, 2007: 130), esse tipo de música deve “transmitir
a essência do que o jogador pode esperar do jogo suspense, ação, divertimento, excitação e
assim por diante”. Os loops são curtos, normalmente com andamento rápido (up-beat) e
chamam atenção. Games de console ou de computador, por outro lado, são jogados em
períodos de tempo mais prolongados, o que possibilita a criação de loops e trechos de áudio
(músicas, falas e efeitos sonoros) mais longos. Nesses games, a música da tela inicial tende a
contextualizar o tema, o ambiente ou o “clima” do jogo.
Arcades costumam ser grandes. Assim, é possível utilizar alto-falantes e
amplificadores com potência suficientemente elevada para chamar a atenção do público,
potencializar a imersão e causar impacto, aproveitando uma gama vasta de freqüências, dos
graves profundos aos agudos mais altos. os games de console ou computador dependem,
em termos sonoros, do equipamento de reprodução de áudio que o jogador tiver disponível.
Relações entre ações diegéticas e não-diegéticas
Existem casos em que os planos diegético e não-diegético se mesclam. Em Metal Gear
Solid, o personagem paranormal Mantis possui poderes tão extraordinários que interfere em
ações não-diegéticas do operador (jogador). Em algumas situações simula interrupções na
imagem do monitor; em outras utiliza seus poderes psíquicos ao se referir a games jogados
pelo jogador, após escanear sorrateiramente o memory card no console. A quebra mais
extrema da experiência diegética ocorre quando é recomendado ao jogador trocar a porta
física do console, onde está conectado o controlador, para enfrentar Mantis.
Em jogos de tiro em primeira pessoa, duas camadas de signos se sobrepõem,
contradizem e complementam. A primeira é composta pelo universo do jogo com sua
tridimensionalidade, texturas e variedade; a segunda é formada pelo HUD (Head-Up display)
74
com suas informações acerca do desempenho do jogador dispostas em um plano
bidimensional sobreposto à primeira camada. Trata-se de uma fusão dos planos diegético e
não-diegético durante o jogar.
sempre uma relação de tensão e distensão entre as diversas ações diegéticas e não-
diegéticas tanto da máquina quanto do operador (jogador). Durante as ações diegéticas da
máquina, a intensidade do jogo diminui, mas seu universo fica repleto de movimento, sons e
energia. Ações diegéticas do operador (jogador) também são definidas por intensidades ou
vetores de ão: o desdobramento do jogo ao longo do tempo pode ser permeado por
momentos de paz e tranqüilidade e outros de ação e violência. Comumente, Galloway (2006:
36) exemplifica, “essas diferenças de intensidades são incorporadas diretamente pelo jogo
as sombras em oposição à luz em Manhunt, por exemplo, ou ainda a diferenciação entre
lugares seguros e locais hostis em Halo”. Ações não-diegéticas do operador (jogador),
definidas em termos de configuração, são também personalizações probabilísticas de ajustes
da evolução de parâmetros como fome e depleção em The Sims. Por fim, ações não-diegéticas
da máquina proporcionam também variações de intensidade nas diversas etapas do jogo.
Reunindo os quatro tipos de ações, retornamos ao diagrama dos diferentes momentos da ação
nos games.
Operador /
Jogador
Diegético
Não-
diegético
Máquina
Máquina:
processo puro;
ações do
ambiente
Jogador: ações
de movimento e
ações
expressivas
Jogador: ações
de configuração,
menus,
pausa
Máquina: power-
ups, game-over,
network lags,
estruturas
generativas
Figura 18 – Formas de ação segundo Galloway
A estrutura analítica de Galloway (2006: 37) contesta a proposição de que games são
simplesmente jogos praticados em computadores. O autor evita ainda privilegiar a narrativa
ou a jogabilidade, valorizando a relevância de ambas. “Há diversos aspectos importantes que
75
acontecem fora do ato de jogar (por exemplo, configurações) ou não fazem parte da narrativa
tradicional (como personificações maquínicas)”. Por esta razão, podemos entender os games
como uma mídia complexa que envolve pessoas e máquinas e que transita livremente entre os
espaços diegético e não-diegético.
Games são, acima de tudo, ações: ações diegéticas da máquina (puro processo), ações
não-diegéticas do jogador (interferências no digo realizadas tanto durante o ato de jogar
quanto fora dele), ações diegéticas do jogador (ações realizadas dentro do universo do jogo) e
ações não-diegéticas da máquina (a experiência do jogar como resultado de estruturas
generativas de programação). A topologia sonora dos games pode ser pensada em função do
tipo de ação, segundo o modelo classificatório de Galloway (vide quadro abaixo). Por este
motivo, ao longo deste capítulo estabelecemos um diálogo entre o autor e os estudos sobre a
produção sonora no cinema (Film Sound). Em seguida, vamos discutir a influência do fator
tempo na elaboração de possíveis topologias sonoras.
Ação e tempo nos games
A partir da premissa de que games são formas de ação e que ações acontecem no
transcorrer do tempo, vale a pena falarmos do modelo de análise do tempo nos games,
proposto por Juul (2004: 131-142). O pesquisador afirma que basicamente duas categorias
de tempo: o play time (tempo de jogo), tempo em que o jogador joga, e o event time (tempo do
evento), o tempo que se passa no interior do universo do game. Por exemplo, em Age of
Empires, poucas horas de jogo (play time) podem representar culos no event time. Isso, por
si só, estimula questões acerca da concepção de topologias sonoras: como o event time
pode ser representado em termos sonoros? A topologia sonora deve oferecer pistas ou
indícios a respeito do event time? De que maneiras a topologia sonora manifesta alterações
(ou não) dos sons que o jogador ouve, em função do event time? Uma das possibilidades é a
modificação dos sons de acordo com horários do dia, estações do ano, períodos e contextos
históricos, ações dos personagens, ocorrências climáticas ou geológicas, entre outros fatores,
no event time, além do emprego de gêneros musicais característicos de determinadas épocas.
A escolha desses gêneros pode se basear em dados históricos ou em convenções
cinematográficas.
As categorias de tempo (play time e event time) variam de acordo com o tipo de game.
Enquanto os jogos de ação acontecem em tempo real, os de estratégia e de simulação
76
apresentam tempo variável, com possibilidade de aceleração e desaceleração. Em
contrapartida, jogos abstratos, como Tetris, não projetam um universo no qual eventos
acontecem. O tempo do jogar é puramente cronológico, isto é, “tudo no jogo acontece agora,
enquanto jogamos” (Juul, 2004: 132). Assim, não apresentam o event time (tempo do evento).
Em games abstratos baseados em turnos, como jogos de tabuleiro, por exemplo, as mudanças
de estado ocorrem somente quando o jogador joga e não um limite de tempo
preestabelecido para o jogador atuar, embora limites possam ser definidos por regra (em
torneios) ou por pressão de outros jogadores. em games abstratos em tempo real, como
Tetris, não agir acarreta conseqüências.
Em jogos de ação como Unreal Tournament, assim como em games tradicionais de
arcade, uma correlação 1:1 entre o play time e o event time. Já em Sim City, a correlação
entre o play time e o event time é diferente. O que ocorre dentro do universo do jogo
construção de edifícios, investimento em infraestrutura, etc. acontece mais rapidamente do
que podemos supor em nosso cotidiano. Neste game, o event time depende de índices como
datas ou expectativas convencionadas culturalmente acerca da duração dos eventos que
ocorrem dentro daquele universo. Assim, poucos minutos no play time podem representar um
ano no event time. Além disso, Juul (2004: 135) lembra que “em certos games como Shotgun:
Total War e The Sims, o jogador pode selecionar a velocidade do jogo, especificando, assim, a
relação entre o play time e o event time”. Ou seja, “o jogador decide quanto tempo um período
de jogo será mapeado no event time”. Celia Pearce (apud Juul, 2004: 133) comenta que a
possibilidade de manipulação do tempo (acelerar, reduzir, salvar, etc.) ajusta-se não apenas
aos níveis de habilidade do jogador, mas também a estratégias de jogo. Em The Sims, por
exemplo, ao carregar (load) personagens com tarefas rotineiras de menor importância, Celia
dobra a velocidade do jogo até que estejam concluídas para que possa focar atenção em
atividades mais interessantes como socialização. A natureza dos games durante o jogar (play
time) permite que se definam universos de maneira mais livre e menos coerente do que
aceitaríamos em outras formas culturais. Mizuko Ito (apud Juul, 2004: 131) argumenta que os
games possibilitam aos jogadores experimentar diferentes identidades e se tele-transportar
para universos fantásticos. Eles proporcionam ainda experiências temporais impossíveis na
vida cotidiana: desvios, rupturas, viagens e congelamentos temporais. No caso de objetos,
pessoas e lugares, certos gêneros de games (como simuladores de vôo e de esportes)
demandam graus maiores de realismo. Porém, a maioria dos jogos eletrônicos tira proveito da
oportunidade de criação não realista de personagens, lugares e propriedades físicas. Em
relação ao tempo, pausas, desvios e replays são recursos técnicos disponíveis aos jogadores.
77
Isso permite que a topologia sonora seja mais abstrata e experimental, uma vez que não
necessariamente o compromisso de que o som do game seja naturalista. Por outro lado, o
contínuo desenvolvimento dos processadores e dos sistemas de armazenamento possibilita
criar, cada vez com mais detalhes e precisão, o tempo que se passa no universo do jogo (event
time).
Juul (2004: 136) afirma ainda que o desenvolvimento do tempo nos games pode ser
visto como uma interação entre dois modelos de jogos: o adventure game (jogo de aventura) e
o action game (jogo de ação). No adventure, a exploração de universos coerentes ocorre em
tempos cronologicamente coerentes. Já no action game, acontecem saltos inexplicáveis no
tempo-espaço por meio de níveis e rounds não conectados. Como a topologia sonora se
configura em cada caso? Se cada novo nível apresentar um universo ontologicamente
desvinculado do universo anterior, quais serão as conseqüências em termos sonoros? Algumas
respostas possíveis foram sugeridas quando comentamos o modelo estrutural de navegação
com Cul-de-Sacs no Capítulo 1. E o que dizer dos games que interrompem o fluxo do jogar
com cenas ou seqüências previamente criadas para descrever ou narrar acontecimentos, as
chamadas cut-scenes? Nesses casos, a teoria cinematográfica de produção sonora certamente
tem espaço assegurado. As cut-scenes podem também funcionar como introdução do jogo, ou
de uma nova situação, ou ainda servir como fio condutor (normalmente com elementos de
narrativa) de cada nova etapa ou missão. Elas representam acontecimentos que ocorrem no
event time (tempo inerente ao universo do jogo), mas desvinculam-se do play time,
provocando uma ruptura da correlação entre o play time e o event time. Como não alteram o
estado do jogo, podem ser saltadas. Além disso, o jogador não exerce qualquer controle sobre
elas. Também é interessante notar que enquanto o jogo se desenrola em tela cheia (maior
imersão), as cut-scenes são apresentadas no formato letterbox (com barras horizontais pretas
acima e abaixo das imagens) em uma clara alusão ao cinema. Isto denota para o jogador que a
interatividade está interrompida.
Alguns games de aventura, como Half Life, procuram manter a integridade e a
continuidade do event time, ainda que para isso interrompam eventualmente o play time
durante as mudanças de nível. Ao contrário, nos games clássicos de arcade, as mudanças de
nível representam uma ruptura total tanto no event time como no play time. Além disso, cada
novo nível apresenta um universo ontologicamente apartado do universo anterior e o substitui.
Nas transições entre os níveis são utilizadas cut-scenes que nada têm a ver com o event time
ou até mesmo com o universo do jogo, e que funcionam como separadores ou intervalos entre
dois universos distintos. De maneira similar, em games como Quake III e Counter Strike
78
saltos entre diferentes níveis não são explicados. Esta descontinuidade cuja origem histórica
pode ser encontrada em Space Invaders (1977) empresta dos esportes e de outros jogos pré-
eletrônicos a noção de round e ao mesmo tempo projeta um universo onde o jogo acontece.
Isto faz sentido no play time, mas não no event time. No entanto, este fato não representa um
problema para quem joga.
Vale a pena chamar a atenção também para a possibilidade de salvar, já que muitos
games exigem diversas sessões para serem completados. O ato de salvar é uma manipulação
do tempo do jogo e permite o congelamento do estado do game para futuras sessões, a partir
do ponto em que o jogador parou. Os críticos do recurso de salvamento argumentam, entre
outras coisas, que o tempo do jogo é cortado, fragmentado; a tensão dramática é reduzida,
que o jogador pode recomeçar se algo der errado; ocorre uma banalização dos obstáculos,
facilitando demais. Por outro lado, salvar permite viabilizar o ato de jogar, uma vez que em
alguns games é aparentemente impossível chegar ao final sem pausas e reloads. Além disso,
salvar maximiza a imersão e reduz a frustração de ter que recomeçar um determinado nível do
zero, somente por causa de um erro quase no final desse nível. O recurso de salvar é mais
adequado a games do tipo single player e à maioria dos jogos exploratórios e de aventura. Já
em games multiplayer como MUDs
23
e EverQuest, não é possível salvar o event time, apenas
coisas. Isto ocorre porque o jogo não pára com a saída do jogador.
A partir do momento em que se faz uma pausa no ato de jogar (play time), supõe-se
uma interrupção também dos sons, de modo que o jogo fique em standstill. Mas não é o que
acontece em alguns games. Em Black and White, os sons do ambiente continuam tocando
enquanto o game está em pausa; em The Sims, o CD player que o jogador comprou para os
seus Sims continua tocando, enquanto o game está em standstill; Space Quest apresenta uma
ruptura curiosa. uma série de configurações de velocidade que interferem na relação play
time x event time e possibilitam ao jogador mover-se mais rápido. Em uma das cenas, gotas de
ácido pingam do teto em velocidade constante, a despeito das configurações de velocidade do
jogo. Assim, fica muito mais fácil fugir do perigo, configurando o jogo em velocidade mais
alta. Nesse caso específico, a topologia sonora, pelo menos no que diz respeito aos sons das
gotas caindo, não reflete as variações de velocidade. Por fim, como a topologia sonora pode
se relacionar com o play time, estimulando o jogador a ficar mais ou menos tempo no game?
Diversos jogos eletrônicos lançam mão de músicas cujo ritmo conduz o jogador a um estado
de imersão e ao mesmo tempo refletem os acontecimentos em tempo real. Por exemplo, após
23
http://en.wikipedia.org/wiki/MUD
79
uma pequena introdução quase minimalista de notas que acompanham o desenhar do percurso
do jogo, Pengo
24
(um game criado em 1982) começa com uma vinheta com duas seqüências
de notas ascendentes que anunciam o início do jogo. Acompanhado por um tema ritmado em
loop com uma melodia simples, o pequeno pingüim (personagem do jogador) deve percorrer
os corredores, deslocar e atirar blocos de gelo sobre os adversários que tentam comê-lo no
estilo Pac-Man e, ao mesmo tempo, se proteger. Cada vez que acerta um adversário, um
efeito sonoro agudo, que lembra um assobio, é reproduzido, seguido de um som que remete à
sonoridade típica de mola nos cartoons; ao surgir um novo adversário, toca-se um efeito
sintetizado médio-grave; ao vencer um round, uma vinheta com andamento mais rápido saúda
o jogador; ao ser comido, uma vinheta com notas descendentes anuncia o fim da “vida” do
jogador.
Tanto o play time como o event time em um game podem ser influenciados por
aspectos do jogo que o caracterizam como uma máquina de estado
25
. Juul (2004: 132-133)
empresta este termo das ciências da computação para definir um game como um sistema que
pode apresentar diferentes estados, que contém funções de entrada (inputs) e de saída
(outputs) e definições sobre qual estado e qual input vai conduzir ao próximo estado. Por
exemplo: se o jogador está na casa E2 pode ir para E4, mas não para E5; se bater em um
obstáculo, perde energia; no xadrez, se o rei for encurralado, perde-se o jogo. Assim, o que
predomina em jogos como damas, tênis ou Tetris não é imersão, mas a mudança de estado,
isto é, o movimento contínuo de um estado inicial para outro. Juul (2004: 133) afirma também
que:
Quando está jogando, você está interagindo com a máquina de estado que é
o game. Em um jogo de tabuleiro, este estado é armazenado nas posições das
peças sobre o tabuleiro; nos esportes, o estado é os jogadores. Em computer
games, os estados são registrados por meio de variáveis e representados na
tela. Jogar é interagir com o estado do jogo em cada instante.
24
http://en.wikipedia.org/wiki/Pengo_(arcade_game)
25
Definição de máquina de estado (state machine) por John I. Davies (Copyleft 2004):
http://homepages.nildram.co.uk/~jidlaw/pages/glossary.html. A definição do comportamento de um sistema em
termos de inputs e outputs e um estado variável interno ou variáveis. Qualquer sistema computacional ou
programa pode ser representado como uma máquina de estado, como Alan Turing explicou muitos anos. Um
protocolo utilizado para comunicação entre sistemas é freqüentemente descrito por meio de uma quina de
estado, comumente na forma de uma tabela de estados, que é ordenada pelo input recebido e o estado variável no
momento presente que contém instruções para gerar o próximo output e um novo estado.
80
Brewster et al. (1994) afirma que earcons (“ícones” sonoros musicais abstratos),
utilizados em sistemas de telefonia baseados em reconhecimento de voz, possibilitam a
representação de eventos, estados ou modos. Eventos são ocorrências em um sistema (game)
induzidas pelo próprio sistema (programação) ou pelo usuário (jogador), por meio de um
dispositivo de entrada (mouse, joystick etc.). Estados são valores de variáveis do sistema em
um momento particular. Reconhecê-los é fundamental, à medida que determinam qual (ais)
será (ão) o (s) próximo (s) estados (s). Uma mudança de estado em um game costuma ser
iniciada por eventos. Por exemplo, o jogador adquire mais “vidas”, mais “força” ou armas,
depois de passar por um ou mais desafios. Mudanças de estado podem ser refletidas na
topologia sonora, por meio de alterações de velocidade, ritmo, densidade (textura), resposta
de freqüências, timbres, envelopes, granulação, amplitude, dinâmica, quantidades, variedades,
intervalos e arranjos (músicas), entre outros fatores, dos sons.
Modos são mapeamentos específicos do comportamento do sistema diante das ações
do usuário (jogador). Modos diferentes provocam reações distintas do sistema para uma
mesma ação. Nos games, modos como níveis de dificuldade (baixo, médio e alto), de
velocidade (baixa, média e alta), de treinamento e de ação, entre outros. Dessa maneira, a
topologia sonora de um game pode incorporar sons que funcionem como índices de eventos,
estados e modos, a exemplo do que acontece nos sistemas de telefonia com os earcons. Por
esse motivo, podemos considerar o game como uma máquina de estado,
e sua topologia
sonora como um conjunto de variáveis.
Os vários eventos, estados e modos têm influência sobre o play time, assim como no
event time. Csikszentmihalyi (apud Juul, 2004: 139) fala sobre o conceito de fruição, o tempo
que “voa”. Trata-se de um estado de desfrute, compartilhado entre as pessoas, em situações
como escaladas, jogos e criação musical. Fruição requer, entre outras coisas, metas claras e
feedback. É algo que altera a percepção de duração: “horas passam em minutos e minutos
levam horas para passar”. Para um game proporcionar este estado, não deve ser muito fácil
(chateação, desinteresse) ou difícil demais (ansiedade). Assim, conclui-se que a experiência
subjetiva de tempo resulta não apenas da relação entre o play time e o event time, e das tarefas
e escolhas realizadas pelo jogador, mas também da interação entre a dificuldade apresentada e
a habilidade do jogador. A seguir, discutiremos como o som, em relação às imagens, contribui
para a percepção do tempo.
81
O som como elemento definidor da percepção do tempo
Para Chion (1994: 13-21), o som exerce influência na percepção do tempo das
imagens, de três maneiras:
A primeira é a animação temporal de uma imagem, isto é, a maneira por meio da
qual o som estimula nossa percepção da passagem do tempo em uma imagem, seja
de forma precisa (concreta) ou vaga (flutuante, ampla).
A segunda é a linearização temporal. Se apresentarmos uma seqüência de imagens
sob uma trilha de áudio comum, elas parecerão configurar uma sucessão de
imagens, quer estejam conectadas ou não. O som funciona, nesse caso, como
elemento unificador, uma espécie de “cola” capaz de juntar diferentes imagens.
A terceira é a “vetorização” da imagem pelo som em direção a um evento, objetivo
ou situação eminente, criando expectativa.
A temporalização da imagem pelo som também depende da natureza e das qualidades
do som como densidade (textura), timbre, resposta de freqüências, dinâmica e andamento,
entre outras. Este fenômeno pode ocorrer com maior ou menor intensidade, com maior ou
menor condução ou restrição rítmica, e depende de fatores como:
Tipo de sustentação do som: quanto maiores as flutuações no som, mais intensa
será a temporalização; quanto mais estáveis e contínuos os sons, menor será seu
efeito rítmico sobre as imagens. Quanto maior a variação no som, maior será a
tensão e o foco no movimento. Quanto mais imprevisível o som, maior também
será o senso de movimento nas imagens. Sons irregulares nos colocam em estado
de alerta.
Grau de previsibilidade da progressão do som: sons mais regulares e previsíveis
tendem a temporalizar menos as imagens do que os sons irregulares e
imprevisíveis. Um ritmo que se repete constantemente em loop costuma causar
monotonia, mas também pode criar um efeito de tensão, se o jogador ficar na
expectativa de ruptura da regularidade. Isso vai depender do contexto. Nos games,
ritmos em loop com freqüência funcionam como “fio condutor” do próprio ato de
jogar, a exemplo do que ocorre em clássicos como Super Mario Bros. e Sonic the
82
Hedgehog. A interrupção do loop costuma representar alguma mudança de estado,
como o fim de uma fase ou a perda de uma “vida”. Em jogos de arcade, como os
de corridas de carros, músicas com andamento acelerado (up-beat) em loop
aumentam a “adrenalina” do jogo.
Tempo: quanto maior a irregularidade do tempo no som, maior será a percepção de
velocidade nas imagens, a despeito do andamento real do som (mais rápido ou
mais lento).
Definição do som: um som rico em médias e altas freqüências é percebido com
maior acuidade, aumentando o poder de temporalização das imagens. Comumente,
os graves provocam a sensação de que a imagem está mais lenta, enquanto os
médios e agudos sugerem que a imagem é mais veloz. A indústria de hardware tem
desenvolvido, nos últimos anos, conjuntos de caixas acústicas de baixo custo,
otimizadas para games.
Grau de previsibilidade dos pontos de sincronia: quanto maior a irregularidade,
maior será a temporalização.
Presença ou ausência de micro-ritmos visuais. Como vimos anteriormente, micro-
ritmos visuais são movimentos rápidos que ocorrem na superfície das imagens. Por
exemplo: chuva, neve, chuviscos, granulações, ondulações da água em um lago,
fumaça de cigarro, etc. Quanto maior a incidência de micro-ritmos, mais intensa
será também a temporalização das imagens pelo áudio.
Grau de diegese do som: sons diegéticos (que fazem parte do espaço da narrativa)
impõem um tempo linear, cronológico, às imagens. Sons não-diegéticos, ao
contrário, permitem criar a sensação de simultaneidade nas imagens, ainda que elas
sejam apresentadas seqüencialmente.
Estabilização do ponto de audição: quando o áudio permanece estável diante de
alternâncias entre planos visuais muito diferentes, cria-se a sensação de um tempo
contínuo.
Prolongamento do som no plano imagético seguinte: mais comum no cinema do
que nos games, trata-se da manutenção temporária dos sons associados ao plano
anterior, no início do novo plano. Rodríguez (2006: 329) explica que “o resultado
é uma leve sensação formal de união entre os planos, apesar de as imagens serem
completamente diferentes”.
83
Como podemos perceber, os sons têm papel significativo na percepção do tempo.
Também vale a pena discriminar as diferentes formas, por meio das quais a música
temporaliza as imagens:
A primeira decorre da sincronização de ritmos, harmonias, dinâmicas e outros
parâmetros musicais a imagens. Aqui, ocorre o sincronismo baseado em pontos de
sincronia claramente definidos. Falaremos detalhadamente a respeito dos pontos de
sincronia no Capítulo 3.
A segunda está associada a "gênero". Um bom exemplo são as apresentações de
balé clássico. A temporalização das imagens é mais facilmente percebida por meio
das qualidades gerais do movimento, do que por intermédio de pontos de sincronia
específicos.
A terceira é fruto do próprio processo composicional, como ocorre em comerciais
ou animações para games. Neste caso, a música é muitas vezes composta a partir
de "células" que são sincronizadas com imagens específicas. Essas "células", por
sua vez, adquirem sentido dentro no contexto para o qual foram criadas e têm
papel determinante na temporalização das imagens.
Alheia à qualquer barreira no tempo-espaço, a música transita livremente entre os
planos diegético e não-diegético, e entre diferentes planos visuais (no espaço diegético).
A variação do tempo nas imagens provoca um efeito curioso. Chion (1994: 135) nos
diz que algumas espécies de fenômenos velozes que ocorrem nas imagens criam impressões
de natureza auditiva. Ridley Scott combina sonoridades amplas e ressonantes com texturas
visuais densas. As sonoridades amplas são facilmente percebidas como impressões visuais (de
espaço), enquanto as texturas densas criam a impressão de que alguma coisa foi ouvida, ou
seja, com freqüência, sonoridades de espaços reverberantes provocam uma impressão mais
visual do que propriamente auditiva, assim como o ritmo e a qualidade das imagens podem
provocar sensações acerca de determinadas sonoridades. O autor afirma ainda que:
Elementos de natureza espacial criam associações com imagens.
Espaço = Visualidade
Elementos de natureza temporal criam associações com sonoridades.
Tempo = Sonoridade
84
Para Chion (1994: 135), tudo o que possui natureza espacial, tanto em termos sonoros
quanto imagéticos, é codificado como uma impressão de natureza visual. E tudo o que é
temporal, incluindo os elementos visuais, provocam uma impressão de natureza auditiva.
O cinema, assim como os games, utiliza os canais visual e auditivo. Porém, não
representam apenas a soma da trilha de áudio com imagens em movimento. Ritmo, por
exemplo, é algo que não é, necessariamente, visual ou sonoro. Pode ser um ou outro ou,
ainda, os dois. Chion (1994: 136) defende:
... quando um fenômeno rítmico é percebido através de um canal sensorial,
este canal, visual ou auditivo, não é nada mais do que o canal, através do
qual, o ritmo chega até nós. Uma vez que tenha sensibilizado os olhos ou os
ouvidos, o fenômeno atinge uma região do cérebro conectada a funções
motoras e, somente neste nível, é decodificada como ritmo.
Quando sensações de movimento são transmitidas através de um único canal sensorial,
este único canal pode transmitir as sensações a todos os outros sentidos de uma vez. A tese
de Chion acerca da percepção trans-sensorial se aplica não apenas ao ritmo, mas a percepções
de qualidades como texturas, bem como materiais e, certamente, à linguagem. Mas, ao
contrário do que se possa supor, a idéia de trans-sensorialidade nada tem a ver com sinestesia.
Para Chion, os sentidos são canais, caminhos, vias de acesso e não territórios ou domínios, de
modo que não uma relação determinista direta entre os órgãos, como olhos e ouvidos, e
percepções como imagens e sons. Chion (1994: 137) argumenta:
O cinema mudo, por um lado, e a música concreta, por outro, ilustram esta
idéia. O cinema mudo, na ausência de sons sincronizados, às vezes
expressava sonoridades melhor do que os próprios sons conseguiriam fazer,
freqüentemente apoiado em um estilo de montagem ágil e fluido. A música
concreta, em sua recusa à visualidade, proporciona visões mais belas do que
as imagens poderiam ser.
Para os desenvolvedores de jogos eletrônicos, a manipulação das relações Espaço &
Visualidade, e Tempo & Sonoridade contribui para a criação de múltiplas sensações que
intensifiquem o grau de imersão do (s) jogador (es). Chion (1994: 112) diz que:
85
É manhã; eu abro as cortinas da janela do meu quarto. Sou atingido por
múltiplas impressões, todas ao mesmo tempo; uma violenta sensação de luz
em minhas rneas, o calor do sol, e os ruídos externos que vão ficando
mais altos à medida que eu abro as cortinas. Tudo isso me toca como um
todo, de forma integral, e o através de elementos dissociados, separados
individualmente.
A
seguir, no Capítulo 3, discutiremos dentre outros assuntos o papel do som como
elemento imersivo nos jogos eletrônicos.
86
Capítulo 3
Teoria cinematográfica de produção sonora
aplicada aos games
Este capítulo é inteiramente dedicado à teoria cinematográfica de produção sonora
(Film Sound), cujos preceitos são em grande parte aplicáveis à concepção de topologias
sonoras nos jogos eletrônicos. Dentre os tópicos que abordaremos estão: o espaço sonoro e o
ponto de audição; as diferentes formas de relacionamento entre sons e imagens; o uso da voz;
a música para videogames (VG music); e o silêncio como expressão e forma sonora.
A partir da teoria cinematográfica de produção sonora (Film Sound), podemos afirmar
que o som em game:
Unifica as imagens.
Potencializa a imersão do jogador por meio da criação de um ambiente sonoro 3D.
Atua como índice de materialidade sonora, uma “assinatura” da fonte sonora (ser,
objeto, máquina, etc.).
Demarca um território.
Funciona como índice de espacialidade (características físicas do ambiente).
Ajuda o jogador a se localizar (ou a se perder).
Dilata ou contrai a extensão do ambiente sonoro.
Pode representar ambientes silenciosos.
Influencia a percepção das características físicas de um objeto. Pode-se categorizar
os sons em: mecânicos, eletrônicos, orgânicos ou misturas variadas de duas ou três
das categorias citadas.
Agrega valor, alterando o modo como interpretamos as imagens. Faz com que uma
imagem adquira novo (s) significado (s) a partir de sua influência, da mesma forma
como pode ter seu significado alterado a partir da influência da (s) imagem (ns).
Isto ocorre em função de fenômenos como a synchresis e o pacto audiovisual, que
serão tratados adiante.
Direciona a atenção para algum aspecto da imagem através de manipulações de
freqüências, timbre, dinâmica, etc.
87
Define a percepção do tempo nas imagens em função de pontos de sincronia
(keyframes sonoros).
Pode transferir características rítmicas às imagens (quando as imagens estão em
movimento). Por exemplo, na cena de Psicose em que o pára-brisa parece estar em
sincronia com a música, mas não está.
Confere “perspectiva” às imagens estáticas.
Esclarece, contradiz ou torna ambíguo um evento visual.
Faz com que algo pareça mais ou menos real.
Pode ter função narrativa.
Cria “cenários” como saloons em filmes de cowboy, por exemplo, por meio de
gêneros musicais.
Cria “realidades”.
Identifica personagens (leitmotivs), objetos, ambientes, lugares e contextos (amor,
mistério, drama, etc.).
Permite atribuir características humanas a objetos e outros seres.
Indica mudanças na narrativa.
Antecipa pistas sobre um acontecimento.
Oferece dicas e informações sobre o enredo.
Facilita a identificação de aliados e antagonistas.
Ajuda a reconhecer os estados emocionais de outros personagens.
Exerce influência sobre o estado emocional do jogador, por meio de “climas”,
“atmosferas”. Em Space Invaders, por exemplo, a aceleração progressiva do
andamento da música aumenta a tensão do jogador.
Reduz a curva de aprendizado em um game.
Contribui para a continuidade do ato de jogar.
É índice da ocorrência de eventos, estados (mais “vidas”, “força”, “saúde”, etc.) e
modos (de dificuldade, velocidade, etc.).
Funciona como feedback em interações.
Indica acertos e erros.
Denota o sucesso ou o fracasso do jogador.
Atua como logotipo sonoro.
Demarca o início ou o fim de uma fase.
Como no cinema, funciona como “ponte” entre duas cenas ou fases.
88
Estimula atividades motoras do (s) jogador (es), especialmente em jogos para Wii e
PlayStation que utilizam o Eye Toy (câmera USB).
Maximiza o aspecto lúdico do jogo.
Promove músicas, selos e artistas.
Vamos falar sobre cada uma das funções citadas acima. Uma das questões recorrentes
é “para que serve o som?”. Christian Metz (apud Weis and Belton, 1985: 154-160) aponta que
os elementos sonoros, que para ele têm autonomia e status equivalente ao das imagens, são
percebidos pela maioria das pessoas não como "coisas" em si, mas como características de
outros objetos, ou seja, a percepção está vinculada ao conhecimento do mundo e é, portanto,
constituída socialmente. Assim, o som de um carro não é, em geral, considerado em si
mesmo, mas como atributo, índice, de outro objeto; o carro. Este argumento faz um
contraponto ao conceito de escuta reduzida, proposto por Chion (1994: 29), que será discutido
no Capítulo 4.
Curiosamente, o som não é mais efetivo ou verossímil quando representa com
fidelidade a sua fonte causadora. Quem, entre s, esteve em um submarino a centenas de
metros debaixo d' água, para saber como é o som "natural" de um submarino? Quantas
explosões presenciamos no espaço? A propósito, na ausência de ar, o haveria qualquer
percepção sonora. Como é o som do caminhar sobre a neve, o ruído de ossos humanos sendo
quebrados e triturados, ou o roçar em um corpo alienígena? E o que dizer dos sons de golpes
nos filmes de ação? Isso nos leva a duas constatações evidentes: primeiro, com muita
freqüência, o som construído, montado, é mais convincente do que o som real provocado por
sua fonte; segundo, "aprendemos" no próprio cinema e em outras mídias o que soa "natural".
Chion (1994: 108) argumenta que o cinema, a televisão e o teatro criaram convenções tão
fortemente estabelecidas que o som representado é mais "fiel" do que o som literal. Além
disso, o ambiente controlado dos estúdios de gravação permite um registro apurado, nem
sempre possível com captação de som direto, que possibilita a criação de ambientações
sonoras hiper-realistas. Em Forrest Gump O Contador de Histórias (Forrest Gump), por
exemplo, durante a cena de batalha no Vietnam ouve-se com clareza o tilintar de cartuchos de
balas caindo sobre o chão de terra. Algo similar acontece durante as batalhas em Halo 3,
desenvolvido para Xbox 360. Bem, em primeiro lugar, no caso do filme, a terra absorveria as
freqüências altas que naturalmente não soariam daquela maneira; outro aspecto curioso é o
fato de que após a queda da primeira granada próxima dele, o protagonista estaria
impossibilitado de ouvir qualquer coisa. Em Metal Gear Solid 4 este fenômeno é melhor
89
resolvido por meio da representação, ainda que passageira, do comprometimento da audição.
Isso demonstra que no cinema, assim como nos games, é possível trabalhar o som com um
nível de detalhamento muito mais refinado do que podemos constatar no cotidiano. O trabalho
do produtor de áudio é, no caso, “recortar” e isolar determinados sons e realçá-los de acordo
com a intenção dramática. A perda de audição simulada, por sua vez, está relacionada com
processamentos sonoros como redução de amplitude, alteração de resposta de freqüências e
utilização de um som senoidal constante. O leitor possivelmente já teve experiência similar ao
ouvir um “apito” agudo contínuo após sair de um local muito ruidoso.
Chion (1994: 103) afirma também que a escuta direta dos fenômenos acústicos tem
sido substituída por uma escuta mediada por amplificadores, alto-falantes e fones de ouvido.
Para ele, esta escuta mediada está se transformando em um padrão.
É uma forma de escuta que não mais é percebida como uma reprodução,
como uma imagem (com todas as implicações em termos de redução e
distorção da realidade), mas como um contato mais direto e imediato com o
evento acústico. Quando uma imagem é mais presente do que a realidade, ela
tende a substituir esta última, ainda que degrade seu status como imagem.
Paradoxalmente, quanto mais imersos estamos na realidade sonora mediada
eletronicamente, mais "valorizamos" as sonoridades naturais. Além disso, o aumento da
definição dos meios de registro e reprodução de áudio faz com que o som atue como elemento
caracterizador do espaço da cena, influindo nos enquadramentos (sons mais vastos
possibilitam imagens mais intimistas), na quantidade de elementos sonoros simultâneos e na
própria "ausência" de sons (uma maior resolução em bits permite uma maior definição de
elementos sonoros com baixa amplitude). Até mesmo a maneira como falamos é influenciada
pelas vozes que ouvimos no rádio, na TV, no cinema e nos games. As vozes mediadas, bem
como suas entonações e musicalidades, são referências de "naturalidade" para a fala cotidiana,
ainda que a maioria das pessoas não domine as técnicas de locução utilizadas por atores,
locutores e apresentadores. Por outro lado, os diretores de cinema, TV e jogos eletrônicos
procuram na fala cotidiana das pessoas "comuns", indicações para a orientação e criação da
fala mediada. Diretores de filmes publicitários costumam dizer: “Olha, eu quero uma locução
que não pareça locução”. Trata-se de um processo que se retroalimenta: as mídias se inspiram
na maneira como falamos, e a maneira como falamos é influenciada pela fala mediada, que
90
imprime suas marcas como estereótipos, entonações, vícios, técnicas e estilos de locução e de
interpretação.
Martin (2007: 117) defende que os sons, assim como as imagens, devem ser
selecionados. Uma representação absolutamente realista do som muitas vezes é caótica ou
difícil de representar. O exemplo clássico é o da cena de cavalo galopando na praia. Se
estivéssemos no local, facilmente iríamos identificar cada um dos sons: das ondas do mar, do
vento, das patas na água e dos cascos sobre a areia. Escutaríamos tudo com facilidade quer
estivéssemos a 50, 100 ou 150 metros de distância. No entanto, a captação do som seria
bastante complicada: Rodríguez (2006: 33) explica:
... qualquer microfone de alta fidelidade colocado a 50 centímetros das patas
do corcel captaria perfeitamente o ruído dos cascos sobre a areia, mas fazer
isso com um cavalo galopando não é tarefa fácil. Se nosso cineasta optasse
por seguir o cavalo com um veículo do qual seria feita a tomada de som,
isso criaria uma situação em que o veículo produziria muito mais ruído que
o próprio cavalo. Além disso, no momento em que esse tipo de microfone se
distancia da fonte sonora o resultado da gravação já é muito deficiente,
razão pela qual a tomada de som de um ponto fixo também não poderia ser
feita. Outra opção seria fazer a tomada de som à distância, com um
microfone tipo canhão (altamente direcional). Com essa solução, o som se
distorceria, perdendo todas as freqüências graves, e o ruído do galope ficaria
pouco natural. De qualquer forma, em nenhuma dessas duas situações seria
possível obter também, ao mesmo tempo, uma gravação satisfatória do
rumor das ondas. Esse som teria de ser gravado independentemente, e
depois ambos seriam mixados no estúdio de áudio.
Duas soluções possíveis para o galope seriam utilizar coletâneas de efeitos sonoros
pré-gravados ou realizar a gravação com o técnico de som montado sobre o cavalo. A
segunda, no entanto, poderia trazer “efeitos colaterais” indesejados como, por exemplo, ruídos
da sela sobre o animal e variações de posicionamentos do microfone. O fato é que,
misturando-se os sons gravados separadamente, estaríamos distantes da sensação auditiva que
teríamos se estivéssemos na praia ouvindo o cavalo correr. Assim, como as diferenças entre a
percepção no local (a praia) e a sua representação artificial são expressivas, pode-se optar pelo
emprego de uma música não-diegética que transmita o “clima” da cena. Deste modo,
Rodríguez (2006: 32-33) conclui que:
91
... o que configura a linguagem audiovisual é esse jogo articulado de
recursos expressivos, que fornecem soluções narrativas à incompletude
audiovisual para resolver as diferenças existentes entre a realidade
referencial e a realidade reproduzida audiovisualmente. Assim, toda
narração audiovisual se apóia sempre em um equilíbrio constante entre:
a) A semelhança naturalista da mensagem com aquilo que é contado.
b) Os recursos expressivos que escamoteiam sua verdadeira natureza de
cópia incompleta.
Burch (1992: 117-118) descreve problema similar ao se tentar captar diálogos dentro
de um carro em movimento:
... na vida real, facilmente conseguimos abstrair os ruídos que atrapalham
nossa audição (como barulhos de motor, de vento, de rádio, etc.) e ainda
assim ouvir o que dizem as pessoas dentro do carro. Um microfone, por sua
vez, gravando a mesma conversa nas mesmas condições, certamente nos
restituiria toda mistura de sons, reproduzindo-os todos por igual, na
projeção, através de uma única fonte, o sistema de reprodução de som do
cinema, fenômeno comparável à maneira como a câmera reduz as três
dimensões de um campo real às duas dimensões da tela.
A solução costuma ser a gravação do som ambiente primeiro, separado dos diálogos,
que depois são dublados em estúdio e mixados aos ruídos.
Estabelecemos aqui um paralelo entre o zoom da câmera e o volume do áudio. Da
mesma forma como é possível dar zoom in para realçar um detalhe da imagem (a expressão
do olhar de um personagem ou um maior nível de detalhamento na visualização em games
3D, por exemplo), o controle de volume de cada som possibilita enfatizar um determinado
aspecto da cena. Se em meio a uma multidão, a voz de um personagem específico for
realçada, o foco da ação será direcionado para ele. Em grande parte dos games, é a engine que
realiza o trabalho de mixagem em tempo real, enfatizando este ou aquele som. Em Halo 3, por
exemplo, se uma granada explodir perto do personagem do jogador ao mesmo tempo em que
alguém fala com ele, o sistema de áudio será responsável por definir o nível de amplitude de
cada som. Martin (2007: 172-173) comenta uma cena do filme Les Étoiles du Midi, de Marcel
Ichac, em que se um alpinista, em primeiro plano, agarrado a uma parede rochosa; “um
fulgurante travelling para trás nos reconstitui então o conjunto da paisagem: o homem, como
92
um minúsculo e frágil inseto, está escalando o formidável pico do Grand Capucin, nos Alpes”.
Em cenas como esta, em que o nível de zoom define o tamanho do plano da imagem, o
ambiente sonoro pode ou não refletir as mudanças de enquadramento, dependendo das
escolhas do produtor de áudio. O mesmo princípio vale para os games, onde o jogador tem a
opção, em alguns casos, de definir em tempo real o nível de zoom. O quanto a topologia
sonora refletirá, com maior ou menor realismo, o tamanho do plano é uma decisão a ser
tomada pelos desenvolvedores. De forma similar, os sons podem dilatar ou contrair a extensão
do ambiente sonoro. Esta extensão designa a amplitude do espaço sugerido pelos sons, além
dos limites do campo visual da tela ou do monitor. Portanto, extensão é um parâmetro
baseado no uso dos sons cujas fontes sonoras não são visíveis. Se apresentarmos, por
exemplo, a imagem de uma sala ao som de um relógio de parede, o campo sonoro estará
circunscrito ao ambiente imediato. O mesmo não irá ocorrer, se a mesma imagem for
mostrada ao som de ondas distantes do mar. Neste caso, não apenas a extensão sonora será
ampliada, como o áudio funcionará como índice de que aquela sala em particular está em uma
casa próxima a uma praia. Tecnologias como o Dolby Digital, o DTS e o THX são bastante
úteis para a reprodução de ambientes sonoros, por meio da utilização de múltiplos alto-
falantes (surround) em torno do jogador.
Em games 3D, a extensão sonora pode variar entre ambientes distintos e/ou em um
mesmo ambiente, assim como funcionar como índice de materialidade do espaço visual
(cênico ou não); uma espécie de assinatura sonora do espaço. No cinema, em decorrência da
necessidade freqüente de inteligibilidade da fala, a perspectiva dos sons, particularmente da
voz falada, costuma não seguir as leis da física com fidelidade. Isto é, em muitas ocasiões, a
voz de um determinado personagem é ouvida em primeiro plano, ainda que ele esteja sendo
mostrado à certa distância. Enfim, uma relação onde a imagem está distante e o som está
próximo. O efeito inverso acontece em transmissões esportivas como as de futebol, onde
lentes teleobjetivas aproximam a imagem, enquanto as vozes dos jogadores e técnicos são
captadas por microfones distantes, ou seja, a imagem está perto e o som, longe. Já nos games
de tiro em primeira pessoa, onde a localização dos adversários é, por vezes, determinante para
o sucesso do jogador, a física do espaço costuma ser mais naturalista.
No filme The Bride Wore Black, de Truffaut, o personagem Claude Rich mostra a seu
amigo Jean-Claude uma gravação de um som periódico e não-identificável de algo que parece
estar sendo friccionado. Jean-Claude demonstra não reconhecer a fonte sonora. Então, Rich
conta que gravou o movimento de uma mulher cruzando as pernas, sem que ela soubesse. Ele
93
diz ainda que a mulher usava meias de nylon, e que uma outra tentativa de gravação, em que a
mulher trajava meias de seda, não havia soado bem. Isso sugere que Rich não estava
interessado em evocar o reconhecimento da fonte sonora em si, mas em seu efeito simbólico
de erotismo, sensualidade, contato e intimidade. Assim, podemos afirmar que em
determinadas situações o foco de um som em um filme, vídeo, hipermídia ou game não é sua
fonte sonora, mas um efeito ou qualidade que esta fonte sonora esteja apta a apresentar, ou
seja, o signo sonoro parece representar não o objeto, mas o seu significante, como poderíamos
afirmar em termos peirceanos. O filme de Truffaut também põe em cheque duas crenças
comuns sobre a natureza dos signos sonoros: a de que um som possui um vínculo "objetivo"
com sua fonte causadora e a de que este som tem a capacidade de evocar impressões precisas
a respeito da natureza de sua fonte. Nem sempre isso é verdadeiro. Normalmente, o que faz
com que identifiquemos um determinado som com sua provável fonte sonora são suas
qualidades internas (forma de onda e timbre) e o contexto em que ocorre. Chion (1994: 114)
chama de índices de materialidade sonora as qualidades que denotam a natureza de um
determinado som:
Os índices de materialidade sonora são detalhes dos sons que fazem com
que "sintamos" as condições materiais da fonte sonora e dizem respeito ao
processo concreto de produção do som. Esses índices nos dão informações
acerca da substância de que é feita a fonte sonora - madeira, metal, papel,
tecido assim como o som é produzido por fricção, impacto, oscilações
não uniformes, movimentos periódicos, etc. Entre os ruídos mais comuns
que nos cercam, há aqueles que são pobres em índices de materialidade e, ao
serem ouvidos apartados de suas fontes sonoras (acusmatizados), se
transformam em enigmas: o som de um motor, por exemplo, pode adquirir
uma qualidade abstrata, privada de referencialidade.
Por esta razão, facilmente conseguimos discriminar sonoridades próprias de materiais
como metal e vidro. Mas o que dizer a respeito de algo que ainda não existe (objetos de filmes
de ficção científica, por exemplo) ou de um crânio sendo esmagado? Neste caso específico,
costuma-se esmagar um melão para o registro do som que será sincronizado com as imagens.
No filme A Pele, de Liliana Cavani, uma melancia foi esmagada para produzir o som que
representa o atropelamento de um garoto por um tanque de guerra. Outra questão interessante
é o fato de que com muita freqüência um signo sonoro adquire significado quando
associado a signos verbais. No exemplo do filme de Truffaut, o som apresentado a Jean-
94
Claude não faria qualquer sentido sem o relato verbal do amigo a respeito da natureza da
fonte sonora (as pernas de uma mulher).
O modelo analítico de Chion
A topologia sonora de um game pode prever variações do comportamento do som entre
cenas e/ou fases diferentes. Chion (1994: 73-86) desenvolveu um modelo analítico que auxilia
o pensar sonoro no cinema que, certamente, é adequado aos jogos eletrônicos. Este modelo
apresenta duas grandes áreas: on-track e off-track. On-track significa que o som está presente
e pode ser ouvido; off-track, ao contrário, representa os “negativos sonoros”, isto é, sons
sugeridos pelas imagens, mas que não estão presentes por uma escolha estética, ou sons que
não podem ser ouvidos em decorrência de mascaramento por outros sons de maior amplitude
com espectro similar de freqüências.
A área on-track pode ser dividida em duas regiões: a diegética e a o-diegética. A
não-diegética refere-se a tudo aquilo que é sobreposto ao plano da narrativa. Por exemplo,
músicas incidentais e a locuções voice over. A região não-diegética é freqüentemente
planejada para criar “climas” específicos, causar impacto, surpreender, criar tensão e
relaxamento. Já a diegética está relacionada diretamente aos acontecimentos apresentados e
subdivide-se em visível e acusmática. A visível contém os sons on-screen, isto é aqueles cujas
fontes (seres, objetos, máquinas ou pessoas) podem ser vistas na tela. A região acusmática,
por outro lado, reúne os sons off-screen, cujas fontes não são visíveis, responsáveis pela
delimitação da extensão do ambiente sonoro. Em alguns games é comum o uso de falas off-
screen que informam o jogador a respeito de seu status ou pontuação, por exemplo. Essas
falas ficam na fronteira entre as regiões diegética e não-diegética, pois dizem respeito ao
espaço narrativo do jogo mas, ao mesmo tempo, não fazem parte dele. Chion (1994: 85)
classifica os sons off-screen em dois tipos: ativos e passivos. Ativos são todos aqueles que
instigam, deixam dúvidas, causam inquietações como “o que será isso?”, ou “quem será?", ou
ainda “como será?”. Podem funcionar como keyframes sonoros, isto é, sons que ocorrem em
sincronia com transições ou cortes de imagens. Os passivos, por sua vez, são responsáveis
pela criação de uma “atmosfera” ou de um ambiente sonoro (ambient sounds). Eles são
elementos sonoros que envolvem e estabilizam as imagens, como ruídos de tráfego, de vento
ou do ambiente. Ao contrário dos ativos, não exercem papel importante na edição das
imagens (no caso de filmes e vídeos) e se subdividem, conforme Chion (1994: 85), em sons
95
do lugar (territory sounds) e elementos discretos do ambiente sonoro (elements of auditory
setting).
Sons do lugar são ambientações sonoras contínuas, como ruídos de máquinas em uma
fábrica. Configuram-se na forma de massas ou texturas sonoras; os elementos discretos do
ambiente sonoro são sons pontuais que oferecem pistas acerca do espaço existente no entorno
da imagem apresentada. Por exemplo, o canto de um pássaro ou as badaladas do sino de uma
igreja. No cinema, esses sons podem também atuar como keyframes sonoros. nos games,
algo diferente acontece. Gregory More et al. (2003: 130) afirma que “em um ambiente não-
linear, as relações entre sons individuais podem ser exploradas além da necessidade de
criação de relações composicionais para o ouvinte”. Assim, a topologia sonora dos games
costuma proporcionar um tipo de escuta muito próxima da experiência auditiva de estar em
um ambiente “real”. Em jogos eletrônicos como EverQuest e Ultima Online, passa-se horas,
ou mesmo dias, realizando tarefas rotineiras, como caminhar, pescar ou cortar madeira. A
diferença entre os ambientes sonoros lineares e os não-lineares pode ser exemplificada ao se
considerar a maneira como a organização do tempo é criada. No formato linear, a organização
temporal dos eventos sonoros é predeterminada. Em um contexto não-linear, ao contrário, o
ambiente sonoro se modifica em decorrência das ações e/ou movimentos do jogador. Por esse
motivo, o produtor de áudio, ao conceber uma topologia sonora, deve considerar as maneiras
potenciais por meio das quais os sons poderão interagir entre si, e como serão percebidos pelo
jogador.
Dentro das categorias on-screen e off-screen de sons diegéticos podem ocorrer também
sons internos (objetivos e subjetivos) e sons on the air. Sons internos objetivos estão
relacionados a processos biológicos como respiração, batimentos cardíacos, etc. Caso o
personagem não seja humano, pode-se criar sons internos específicos a partir das suas
características morfológicas, mecânicas, eletrônicas e/ou físico-químicas. Em games do
gênero survival horror é freqüente o emprego de sons internos objetivos, como os de
respiração do jogador em primeira pessoa. Sons on the air são emitidos por dispositivos como
receptores de rádio, TV, intercomunicadores, celulares, iPods, computadores conectados a
websites, etc.
96
Observe os gráficos a seguir:
Figura 19 – O modelo analítico de Chion (1)
Figura 20 – O modelo analítico de Chion (2)
97
Podemos esquematizar o sistema classificatório de Chion da seguinte forma:
OFF-TRACK – Negativos Sonoros: sons sugeridos, porém ausentes.
ON-TRACK – Diegéticos / Não-Diegéticos.
Diegéticos: sons que integram o espaço da narrativa.
o On-screen: suas fontes sonoras são visíveis.
o Off-screen: suas fontes sonoras não são visíveis.
Ativos: instigantes, chamam a atenção, atuam como keyframes sonoros.
Passivos: ambient sounds ou sons ambiente.
Sons do lugar (territory sounds): sons contínuos, massas ou
texturas sonoras.
Elementos discretos do ambiente sonoro (elements of auditory
setting): também podem atuar como keyframes sonoros.
Dentro das categorias on-screen e off-screen de sons diegéticos há:
Sons internos:
o Objetivos: respiração, batimento cardíaco, etc.
o Subjetivos: sonhos, devaneios, delírios, etc.
Sons on the air.
Não-diegéticos: sons sobrepostos ao espaço da narrativa.
Chion propõe (1994: 73-86) alguns critérios para a criação e sistematização de
elementos sonoros:
A oposição entre sons acusmatizados
26
e não acusmatizados
27
.
A oposição entre os planos objetivo e subjetivo, ou real e imaginário.
As diferenças entre os momentos presente, passado e futuro.
26
Cujas fontes não podem ser vistas.
27
Cujas fontes podem ser vistas.
98
O espaço sonoro e o ponto de audição
Como vimos no Capítulo 2, especificamente no tópico sobre as ações diegéticas do
operador (jogador), a percepção do espaço é, em muitos games, um fator determinante para o
sucesso do jogador. É o que, no cotidiano, nos informa a respeito dos ambientes onde estamos
e nos locomovemos. Na “era de ouro” do rádio, entre os anos 1940 e 1950, era comum o uso
de painéis móveis grandes para reproduzir o comportamento acústico de paredes, e técnicas
engenhosas de sonoplastia e microfonação para simular os ambientes onde se desenrolavam
as tramas das radionovelas. No cinema foi Jack Foley, que iniciou sua carreira na época do
cinema mudo, quem criou os procedimentos que ajudaram a Universal na transição para os
filmes sonoros. Sua técnica, batizada com seu sobrenome, Foley, se consiste na recriação, em
estúdio, por artistas que produzem ruídos mimetizando os movimentos dos atores, de todos os
sons humanos (exceto falas, respiração, grunhidos, etc.) que acontecem em um filme ou
game. Curiosamente, o som produzido com Foley soa mais “natural” e convincente do que o
som direto captado na cena. Especificamente nos games, o foley costuma ser menos
“performático”, no sentido de que na maioria das vezes não atores humanos, cujos
movimentos seriam mimetizados. O que ocorre é uma mistura de captação de som direto com
design sonoro. O produtor de áudio Jay Weinland, em viagem de férias ao México, gravou
seus próprios passos correndo sobre a areia e a água do mar, em uma praia, e utilizou estes
sons em Halo 3. No mesmo jogo, os sons da queda de uma calota de um Warthog (veículo
semelhante a um jipe) foram feitos com pancadas de machado em uma frigideira e um som
sintetizado grave para aumentar o impacto.
Assim como acontece no cinema, onde há grande variedade de planos (geral, médio,
americano, primeiro, close e detalhe), posicionamentos (frontal, diagonal, inclinado, plongée,
contra-plongée, etc.) e movimentos de câmera (travelling, pan, tilt, circulares, mistos com
gruas, etc.) em diversos jogos eletrônicos de sexta e sétima gerações, as possibilidades de
níveis de zoom que estruturam os planos, bem como a flexibilidade de movimentos e
posicionamentos fazem com que a topologia sonora se altere dinamicamente em tempo real.
Rodríguez (2006: 281) reflete:
A reconstrução sonora dessas mudanças de pontos de vista, de modo que
soem como as escutaria um ser humano que observa passando pelas mesmas
variações de posição que a câmera, supõe tantas alterações da paisagem
sonora quanto as mudanças que houver no plano visual. Surge, então, o
99
problema de onde colocar o microfone em cada momento: a tomada de som
deve ser ajustada a um critério naturalista e estrito e, portanto, ficar
sistematicamente presa à câmera e ao tipo de plano? Ou, ao contrário, o
microfone deve ser tornar independente e utilizar uma gica diferente da
que segue a captação da imagem?
O leitor pode contestar a referência à análise de Rodríguez, afirmando que em um
game modelado em 3D não tomada de som com microfone preso à câmera. No entanto,
considerando-se o fato de que, com muita freqüência, é um tipo de experiência cinemática que
os games procuram proporcionar, essa aproximação faz sentido. Além do mais, no próprio
cinema, pouco do que se ouve realmente foi captado apenas com som direto. Enquanto os
ruídos são em grande parte recriados por meio de foley e design sonoro, as vozes são dubladas
pelos próprios atores. A diferença em relação aos games é que ao invés de dublar sobre uma
imagem captada, o ator (ou atriz) grava primeiro as falas que, posteriormente, servem de base
para a sincronia labial dos personagens do jogo. Também é comum o emprego de sons pré-
gravados (sound production libraries) que são trabalhados com autonomia em relação às suas
fontes sonoras originais. É a sincronia e a capacidade do som em unificar as imagens que
asseguram a coesão da cena ou fase do game. Rodríguez (2006: 282) comenta que “as
imagens que vemos não são as fontes que produziram o som; o espaço que escutamos não é
sempre o espaço que vemos; as distâncias que escutamos normalmente não correspondem às
que vemos... e, finalmente, o espaço que vemos não existe”.
A noção de espaço sonoro está relacionada à percepção volumétrica de cenários 3D.
Aqui o conceito de topologia sonora está relacionado a aspectos como as distâncias entre as
fontes sonoras e o jogador, as direções de que os sons provêem, os movimentos das fontes
sonoras e do jogador, as características físicas do espaço como pisos, tetos, paredes, móveis,
objetos, etc. e os materiais de que são feitas as superfícies (tijolo, madeira, concreto, metal,
grama e terra, entre outras). Rodríguez (2006: 287) nos lembra que é possível manipular o
som de tal maneira que transmita “a sensação de que sua fonte sonora está localizada em um
túnel, um poço, uma sala abobadada, diante de uma parede, em um espaço aberto, em um
quarto pequeno... ou que comunique distâncias, perspectivas e movimentos”. Em um game, os
elementos sonoros funcionam com uma espécie de terceira dimensão, complementar à
bidimensionalidade da tela.
É importante destacar que, dentro do espaço sonoro
tridimensional, a criação da sensação de distância e de movimento do jogador e das fontes
sonoras é muito mais complexa do que o simples ajuste de volume e pan (panorâmica) de
100
cada som. Sabemos que à medida que nos distanciamos da fonte sonora não apenas a
amplitude do som é atenuada, como também sua resposta de freqüências se modifica. Se
estivermos em um ambiente fechado, o deslocamento fará com que ouçamos menos o som
direto e mais o som refletido nas superfícies, o que implica em uma “coloração” do som
decorrente das características físicas do ambiente como índices de absorção dos materiais,
tipos e medidas das superfícies, etc. Ou seja, perceberemos mais o som reverberado e menos o
som direto. Por outro lado, se nos deslocarmos em um ambiente aberto, será perceptível a
redução de graves, em um primeiro momento, e de agudos enquanto nos afastamos. Essa
redução é diferente em cada região de freqüências, o que explica o fato de que a uma certa
distância não mais conseguimos ouvir os agudos. O leitor possivelmente deve ter tido a
experiência de estar em casa ouvindo música em volume elevado ou moderado e, ao dirigir-se
a outro cômodo da residência, perceber a queda do volume e a alteração da resposta de
freqüências. A complexidade da construção do espaço sonoro em um game aumenta
expressivamente ao considerarmos que não apenas o jogador se desloca, mas também as
diversas fontes sonoras. Isso quer dizer que as próprias características timbrísticas do som se
modificam ocorrendo, inclusive, fenômenos como o efeito Doppler
28
. Rodríguez (2006: 295)
comenta que “por meio da amplificação artificial, é possível reproduzir a influência da
distância sobre a intensidade, mas não se pode reconstruir o efeito dos reflexos sonoros no
espectro (impressão espectral) e na forma temporal (reverberação)”.
A representação de uma fonte sonora em um espaço qualquer passa necessariamente
pelas variações de amplitude, cujo controle está relacionado a três fatores: a energia emanada
pela fonte, a distância da fonte em relação ao ponto de audição e o nível de amplificação
eletrônica. O primeiro fator é facilmente percebido porque o timbre apresenta variações
extremas, dependendo da intensidade da vibração da fonte. Por exemplo, um sino tocado com
violência tem uma sonoridade muito diferente do que teria se tocado com suavidade, ainda
que o nível de amplificação eletrônica das duas versões fosse similar. Em relação à
proximidade do ponto de audição, quanto mais perto, mais som direto e menos som refletido
28
O efeito Doppler é causado por mudanças na freqüência e no comprimento de uma onda sonora para um
observador que se move em relação à fonte sonora; para um observador que, parado, escuta uma fonte sonora em
movimento ou ainda quando o observador e a fonte sonora se movem. Este efeito é comumente ouvido quando
veículos como motocicletas e automóveis se aproximam e passam diante do observador em alta velocidade ou
também quando se ouve a sirene de uma ambulância que se desloca. A freqüência percebida pelo observador é
mais aguda do que a freqüência emitida quando a ambulância se aproxima, é a mesma emitida quando passa pelo
observador, e é mais grave do que a freqüência emitida na medida em que se distancia.
101
e, contrariamente, quanto mais distante, menos som direto e mais som refletido e, portanto,
maior a influência do ambiente.
A noção de profundidade de campo e perspectiva na imagem possui uma correlação
com a idéia de plano sonoro. Estamos nos referindo à possibilidade de representação espacial
das diversas fontes sonoras por meio do controle de variáveis como níveis de amplitude,
distâncias em relação ao ponto de audição e, conseqüentemente, atrasos (delays) dos sons
provenientes de cada fonte, vetores de movimentos e, em decorrência, posições panorâmicas
(pan) e, por fim, variações espectrais em função da constituição material (coeficientes de
absorção sonora das superfícies) e arquitetônica (formas geométricas) do espaço simulado.
Assim é possível fazer com que uma ou mais fontes sonoras se desloquem lateralmente e/ou
para frente e para trás, de forma análoga ao que fazemos com as imagens por meio de relações
de profundidade ou, ainda, de figura-fundo. A perspectiva sonora é criada a partir do ponto de
audição, isto é, o local onde o jogador se encontra. O ponto de audição em um game não
permite a identificação de planos sonoros diversos como também está diretamente ligado ao
som como elemento indicial do que acontece ou, potencialmente, pode acontecer no universo
do jogo. Assim, ao mesmo tempo em que o jogador imerge no game por meio do som, presta
atenção nos elementos sonoros para perscrutar pistas e informações. É importante lembrar que
à medida que o jogador se desloca, o ponto de audição se atualiza dinamicamente. Por esse
motivo, ao contrário do que ocorre nos filmes, onde o processamento de sinal (equalização,
compressão e outros filtros) e a mixagem são previamente realizados em estúdio, nos games
esses procedimentos costumam ser feitos em tempo real pela engine do jogo. Isso acontece
porque, como já dissemos anteriormente, não é possível prever com exatidão todo e qualquer
movimento do jogador. Além dos deslocamentos do ponto de audição, pode ocorrer ainda
outro fenômeno interessante: a mudança de ponto de audição. Segundo Rodríguez (2006:
316), trata-se de “um salto brusco de um lugar para outro em um mesmo espaço sonoro, ou
um salto repentino de um espaço sonoro para outro completamente diferente”. O autor
descreve uma seqüência de Toy Story (veja o Apêndice), onde ocorre tanto o deslocamento
quanto a mudança de ponto de audição. A comparação com determinados games é válida,
que em uma animação 3D (no cinema, assim como nos jogos eletrônicos), ao contrário dos
filmes convencionais, o um espaço “real” que possa ser representado e todo ambiente
sonoro precisa ser criado artificialmente. Nos games multiplayer a complexidade adquire
dimensões ainda maiores, uma vez que cada jogador representa um ponto de audição distinto
dentro do universo do jogo.
102
Para demonstrar graficamente a noção de planos sonoros, recorremos a Gibson (1977:
55 e 75) que criou uma metodologia de representação especial do som que ele chama de
mixagem visual. O mapeamento é feito em um cenário que remete a um ambiente
tridimensional onde: a profundidade está relacionada ao nível de amplitude de cada fonte
sonora; o posicionamento horizontal mais à esquerda ou à direita, à posição panorâmica; e,
finalmente, a localização mais acima ou abaixo no eixo vertical, à predominância de
freqüências baixas (graves), médias ou altas (agudos). Observe:
Figura 21 – Os níveis de amplitude de cada
fonte sonora, representada por uma forma
geométrica, são similares.
Figura 22 – Os níveis de amplitude de cada
fonte sonora, representada por uma forma
geométrica, são muito diversos.
Figura 23 – A distribuição panorâmica das
fontes sonoras é simétrica.
Figura 24 – A distribuição panorâmica das
fontes sonoras é assimétrica.
103
Figura 25 – A mixagem das fontes sonoras é
esparsa.
Figura 26 – A mixagem das fontes sonoras é
densa.
Figura 27 – A equalização busca uma
sonoridade natural.
Figura 28 – A equalização busca uma
sonoridade artificial.
Figura 29 – A reverberação representada pelo
retângulo em perspectiva tem amplitude
elevada.
Figura 30 – A reverberação representada pelo
retângulo em perspectiva tem amplitude baixa.
104
Vejamos um exemplo prático da aplicação do conceito de mixagem visual: se por meio
do controle da amplitude das vozes de dois NPCs (non-player characters), representamos a
distância entre eles e, simultaneamente, entre eles e o jogador, ou seja, estamos construindo
uma relação de planos sonoros (profundidade vide figuras 21 e 22), ao aplicarmos delays
(atrasos) diferentes na voz de cada um dos NPCs, estamos criando artificialmente paredes
e/ou superfícies que dão pistas ao jogador acerca da localização exata de cada NPC.
O leitor também pode exercitar a prática da mixagem visual, utilizando um software
editor de áudio, um editor de imagens e o cenário criado por este pesquisador, a partir do
modelo de Gibson (ibid). Caso não possua os programas necessários, basta fazer os
downloads nos endereços a seguir:
Audacity (software livre para edição de áudio digital):
http://audacity.sourceforge.net/
Paint.NET (software livre para edição de imagens): http://www.getpaint.net/
O cenário encontra-se disponível no endereço abaixo:
http://blog.lawrenceshum.com.br/up/l/la/blog.lawrenceshum.com.br/img/Mixagem_Visual.jpg
Para salvá-lo, é clicar com o botão direito do mouse sobre a imagem e escolher a
opção “Salvar imagem como...”.
Figura 31 – Cenário para a prática de mixagem visual. O arquivo jpg está disponível para download em
http://blog.lawrenceshum.com.br/up/l/la/blog.lawrenceshum.com.br/img/Mixagem_Visual.jpg
105
A proposta do exercício prático tem mão dupla:
1. Pode-se criar e/ou editar sons no Audacity (ou outro programa de edição de áudio)
que, posteriormente, sejam representados de forma visual por meio da criação de
figuras geométricas sobre o cenário.
2. Pode-se também criar e/ou editar imagens no Paint.NET (ou outro programa de
edição de imagens) que, posteriormente, sejam representadas de forma sonora por
meio da criação e/ou edição de sons.
Synchresis e o pacto audiovisual (audiovision contract)
A intersecção entre os territórios do cinema e dos games na relação entre sons e
imagens é o conceito, proposto por Chion (1994: Prefácio), de pacto audiovisual. Ele parte da
premissa de que não existe qualquer relação natural, entre signos sonoros e signos visuais, que
seja resultante de alguma espécie de harmonia preexistente entre nossas percepções. Ao
contrário, a idéia é a de que em um filme ou em um game, o espectador, ou o jogador,
participa de um pacto simbólico, no qual os elementos sonoros e os elementos visuais passam
a integrar ou fazer parte de um mesmo objeto, ser, entidade, ambiente ou universo. Trata-se de
uma espécie de "faz-de-conta" estético. O produtor (de cinema, de deo ou de game) cria
uma determinada "realidade" e nós "acreditamos" nela. Isso não quer dizer que sejamos
ingênuos ou alienados. O que possibilita o pacto audiovisual (audiovision contract) é um
fenômeno chamado por Chion (1994: 63) de synchresis, uma contração das palavras
synchronism e synthesis. Trata-se de uma "conexão espontânea e irresistível produzida entre
um fenômeno auditivo particular e um fenômeno visual quando ambos ocorrem ao mesmo
tempo". Independente de qualquer lógica racional, é o que nos faz acreditar que o som que
ouvimos é proveniente daquilo que percebemos se mover ou vibrar, isto é, realizamos uma
síntese a partir dos elementos (sonoros e visuais) que estejam em sincronia. Isso
possivelmente se deve ao fato de que, no cotidiano, os elementos sonoros e visuais tendem a
coincidir no tempo quando provêem da mesma fonte. Rodríguez (2006: 319) define sincronia
como:
... a coincidência exata no tempo de dois estímulos diferentes que o receptor
percebe como perfeitamente diferenciados. Esses dois estímulos podem ser
106
percebidos pelo mesmo sentido (audição: sincronia entre diferentes
instrumentos musicais) ou por diferentes sentidos (visão e audição:
sincronia audiovisual).
Se lembrarmos que a película de cinema não registra sons durante as filmagens,
perceberemos que é a synchresis que torna possível a dublagem, a pós-produção de áudio e a
mixagem de efeitos sonoros. A voz intencionalmente afetada de Borges de Barros, dublador
brasileiro do Dr. Zachary Smith, da série televisiva da década de 1960, Perdidos no Espaço,
era mais "adequada" ao caráter ambíguo do personagem do que a voz do próprio ator
Jonathan Harris. É também a synchresis que viabiliza a criação de vozes e de efeitos sonoros
onomatopaicos para desenhos animados e animações gráficas. Quanto maior for a
coincidência temporal entre um som e uma imagem, e quanto mais breves forem os elementos
sonoros e visuais que ocorram simultaneamente, mais intensa será a fusão. Chion (1994: 63)
explica:
Synchresis é algo pavloviano. Mas não acontece de forma totalmente
automática. Possui também uma função de representação, e é organizada de
acordo com as leis de gestalt e determinações do contexto em que ocorre.
Sincronize trechos de áudio aleatórios e eventos visuais e você perceberá
que em certas ocasiões a synchresis ocorrerá; em outras não.
Como vemos, enquanto no cinema a synchresis pode ser planejada e pré-definida, nos
games, o controle exercido pelo produtor de áudio é muito menor. Um caso curioso é o game
Audiosurf que permite ao jogador incluir suas músicas preferidas (arquivos mp3),
personalizando o ambiente sonoro. A synchresis, nesse caso, é proporcionada pela engine que
estabelece correspondências entre o ritmo da música, inserida pelo jogador, e as imagens na
tela. Outro exemplo interessante é o recurso EAX Voice que possibilita ao jogador, utilizando
um microfone conectado a uma placa de som compatível com a versão 5.0 do EAX Advanced
HD, falar e escutar a sua voz e as de outros jogadores com os mesmos processamentos de
sinal do ambiente (reverberação, flange, chorus, etc.). Guitar Hero World Tour radicaliza ao
permitir que os jogadores componham suas próprias músicas no modo Music Studio. Os
games começam, então, a esboçar as primeiras possibilidades de co-autoria da topologia
sonora entre programadores e jogadores.
107
A synchresis é estruturada por meio da determinação de pontos de sincronia. Um
ponto de sincronia é um momento de destaque no qual um evento sonoro e um evento visual
ocorrem simultaneamente. Um ponto de sincronia pode ser:
Uma ruptura inesperada no fluxo de sons e imagens. Um corte simultâneo tanto
dos sons quanto das imagens.
Uma forma de pontuação ao fim de uma seqüência, onde se estabelece o
sincronismo entre os sons e as imagens. Neste caso, o ponto de sincronia funciona
como um ponto de convergência onde os fluxos de sons e imagens se encontram.
Um momento de ênfase seja no fluxo das imagens, através de um close, por
exemplo, seja no fluxo dos sons para destacar um ponto de maior amplitude ou de
mudança brusca de resposta harmônica, andamento e/ou pitch, entre outras
possibilidades.
Um local ou instante no fluxo de sons ou imagens, onde haja interesse em se
chamar atenção. Este local pode ser ocupado por uma palavra, uma imagem, um
som ou qualquer outro tipo de signo.
Rodríguez (2006: ibid) descreve três leituras possíveis a partir de diferentes níveis de
sincronia:
1. Quando a sincronia é permanente e muito precisa, o receptor
percebe que os dois fenômenos provêm da mesma fonte ou de
fontes diferentes que estão em relação direta (produz-se a
unificação).
2. Quando a sincronia se estende no tempo, mas uma margem de
precisão pequena ao se tomar pontos concretos de referência, o
receptor percebe os dois fenômenos como provenientes de fontes
diferentes que procuram harmonizar sua evolução no tempo. Esse
tipo de sincronia produz um efeito de fascínio no receptor (produz-
se uma sincronia estética).
3. Quando a sincronia é pontual, esporádica e imprevisível, o receptor
percebe os dois fenômenos como totalmente independentes,
decidindo racionalmente que sua coincidência no tempo é
puramente acidental (produz-se uma sincronia casual).
108
São os pontos de sincronia que governam o ritmo geral do fluxo sígnico entre sons e
imagens. Chion (1994: 59) estabelece um paralelo entre os pontos de sincronia em projetos
audiovisuais e os acordes (que também são encontros verticais de diferentes elementos) na
música. Ele fala, ainda, de falsos pontos de sincronia que ocorrem a partir de progressões (de
sons e imagens) que não se concluem como se poderia prever de antemão; algo que quebra
uma expectativa ou sai de um padrão esperado. Um ponto falso de sincronia também é aquele
em que ela é sugerida a partir de uma relação indicial entre um som e uma imagem. Assim, o
elo entre o signo sonoro e o signo visual é previamente estabelecido na mente do espectador
ou do jogador. Um exemplo é a cena tradicional de suicídio na qual se ouve o tiro, mas não se
a imagem da pessoa sendo atingida. Os pontos de sincronia permitem ainda flexibilizar a
relação temporal em torno si mesmos, através de manipulações de velocidade das imagens
(câmera lenta ou acelerada) e dos sons (time stretch e pitch shift). O nível de amplitude
também contribui para a sensação de sincronia, pois, como argumenta Rodríguez (2006: 320),
a sincronia também “é detectada nas coincidências temporais entre os máximos de intensidade
sonora”. Outro fator significativo para a sincronia é o grau de definição sonora. Como a
acústica do ambiente e a distância interferem na resposta de freqüências que os ouvidos
humanos captam, tendemos a identificar mais facilmente os pontos de sincronia, cujas fontes
sonoras apresentam resposta de freqüências mais ampla e definida. Os filmes e jogos de
guerra utilizam este recurso de forma exemplar. Ao atenuar os agudos, por exemplo,
provocam a impressão de que determinadas fontes sonoras estão distantes e, portanto, na
região diegética off-screen. Em oposição, os sons cujas fontes sonoras são visíveis e estão
próximas ao jogador tendem a ter resposta de freqüências plena (20 Hz a 20 kHz).
A diferença principal entre um ponto de sincronia em um filme e um ponto de
sincronia em um game é que, no filme, ele fora previamente determinado na sala de
montagem, enquanto no game, os pontos de sincronia são construídos dinamicamente à
medida que se joga. Isso não quer dizer que não possam ser planejados, a exemplo do que
ocorre no cinema, por intermédio de engines e plataformas de middleware, que possibilitam
um controle minucioso de cada detalhe sonoro. É exatamente esse o trabalho de quem planeja
a topologia sonora de um game.
Ritmo e significado também desempenham um papel muito importante para que a
synchresis ocorra. Um exemplo é uma imagem de alguém caminhando. Qualquer que seja o
som sincronizado com os passos, a synchresis vai acontecer, ainda que desperte um efeito
cômico. Outro aspecto curioso é a magnetização do som pela imagem. Temos a sensação de
que os sons são provenientes dos passos, ainda que a fonte sonora seja mono, enquanto a
109
imagem se desloca de um lado a outro da tela ou do monitor. Hábitos culturais e de escuta
também influenciam. A possibilidade de synchresis aponta o fato de que uma vez que um
determinado signo sonoro se desprenda de sua relação indicial com algum signo visual, ele (o
signo sonoro) pode estabelecer novos vínculos com uma grande variedade de signos visuais.
Além disso, as ferramentas e técnicas de manipulação e edição dos sons contribuem para a
libertação dos signos sonoros de suas fontes causadoras, tornando-os matérias-primas
maleáveis para a criação de novas sonoridades para filmes, games e outras obras audiovisuais.
Chion justifica seu argumento por meio de um estudo conduzido por François Delalande e
Bernadette Céleste (apud Chion, 1994: 120-121) sobre as vocalizações emitidas por crianças
para representar e pontuar movimentos de objetos, bonecas, carrinhos e outros brinquedos.
Uma das constatações da pesquisa é a de que as crianças não imitam o (s) ruído (s) produzido
(s) pela (s) coisa (s) em si, mas, evocam o movimento da (s) coisa (s), por intermédio do
isomorfismo entre o som produzido e o movimento que é representado. No caso de um
carrinho, por exemplo, o som emitido pela criança está mais relacionado à trajetória do
brinquedo do que ao timbre que supostamente seria o som de um carro. Isso quer dizer que a
materialidade sonora (forma de onda e timbre) tem, neste caso, menos importância do que o
movimento. Além disso, outra questão relevante: a própria evolução do som ao longo do
tempo é determinada não apenas por sua trajetória, mas, também, por suas variações
espaciais, morfológicas, espectrais e energéticas. É o que justifica, entre outros
procedimentos, o uso de sons musicais ascendentes para representar os passos de um
personagem subindo uma escada, ainda que não haja qualquer associação literal entre sons de
passos e escalas musicais. Este tipo de técnica de sincronização de imagens com figuras
musicais (ascendentes, descendentes, em zigue-zague, etc.) e de pontuações musicais de
eventos como quedas, batidas e socos, entre outros, ficou conhecida como Mikeymousing.
Chion (1994: ibid) afirma que, embora às vezes possa parecer redundante, o emprego do som
em animações velozes facilita a própria apreensão das imagens, que se considerando a
"relativa inércia e lentidão dos olhos, comparada à agilidade dos ouvidos para identificar
figuras em movimento, o som ajuda a imprimir, na memória, sensações visuais fugazes".
Enquanto para os olhos, vinte e quatro quadros por segundo são suficientes para "enganar" a
visão, criando a ilusão de movimento, para os ouvidos a taxa de amostras de um som tem que
ser muito mais elevada. Alguns equipamentos de produção de áudio reproduzem o som a uma
taxa de 192 kHz, ou seja, 192.000 amostras por segundo. O formato proprietário do consórcio
Sony e Philips para o Super Audio CD (SACD), denominado Direct-Stream Digital (DSD),
trabalha com uma taxa de 2,8224 MHz (2.822.400 amostras por segundo). Nossos olhos,
110
comparados aos ouvidos, são tão "preguiçosos" que, às vezes, as imagens ocorrem tão
rapidamente, que são os elementos sonoros pontuais como ruídos de socos, por exemplo, que
nos permitem enxergar” o que de outra forma não conseguiríamos ver. Um dos casos mais
emblemáticos de como o som “engana” a visão é a cena de O Império Contra-Ataca (The
Empire Strikes Back) em que Irving Kershner sobrepôs um som de ar comprimido à
justaposição de dois planos de uma porta, primeiro aberta e depois fechada. Sem que
houvesse qualquer movimento, é o áudio que cria a ilusão de que a porta se fechou.
Podemos dizer que embora a synchresis seja responsável pelo pacto audiovisual, e que
este último contribui para nossa imersão em uma determinada obra, uma coisa é o mundo tal
como o percebemos; outra é a sua representação, seja através de um vídeo, filme, hipermídia
ou game. Em todos esses contextos, a realidade representada estará reduzida à
bidimensionalidade da tela (do televisor, do cinema ou do monitor) e o áudio será reproduzido
com maior ou menor definição, de acordo com a qualidade do equipamento utilizado. De
qualquer maneira, ainda uma redução sensorial (visual e auditiva), mesmo nos sistemas hi-
end. É provável, no entanto, que em um futuro não muito distante, sejam desenvolvidos
sistemas de alta definição de realidade expandida que diluam os limites entre ficção e
“realidade”.
Assim, para que o pacto audiovisual proposto por Chion seja efetivo, muita técnica
tem que ser empregada. Mary Ann Doane (apud Weis and Belton, 1985: 54) destaca o fato de
que a escola hollywoodiana desenvolveu, ao longo dos anos, um padrão, segundo o qual,
"quanto menos perceptível for o uso da técnica na criação da trilha de áudio, melhor será o
resultado". Segundo ela, a retórica do som no cinema é conseqüência de uma técnica, cujo
objetivo, é ocultar a enorme quantidade de trabalho necessário para se criar algo que pareça
espontâneo e natural. Nos jogos eletrônicos, estas técnicas ganham expressão por meio do
emprego de áudio adaptável (adaptive audio), isto é, o áudio que se adapta ao estado do jogo
e às ações do jogador.
Contrário a esta tendência quase onipresente, Godard (apud Chion, 1994: 42) é um dos
poucos cineastas que denunciam o trabalho de edição do som, através de cortes bruscos, saltos
e descontinuidade intencional. Em alguns de seus filmes, Godard chegou mesmo a limitar as
pistas de áudio simultâneas a duas. A estratégia de Godard é a que mais se aproxima da idéia
de se criar "unidades" sonoras a partir de segmentos de áudio claramente demarcados. Mas,
Chion contesta esta tese ao afirmar que a percepção do som, que acontece ao longo do tempo,
simplesmente ignora os cortes e obstáculos, e prossegue, saltando para outro (s) elemento (s)
sonoro (s), esquecendo-se do som ouvido anteriormente. Isso quer dizer que uma ruptura no
111
continuum do áudio não representa, necessariamente, a "fronteira" ou limite de uma "unidade"
sonora. Embora o autor acredite que possam ser identificadas, ao longo do fluxo do som,
"células" ou "unidades" sonoras, essas "unidades" – sentenças, ruídos, trechos de músicas, etc.
– são percebidas da mesma forma como ocorre na experiência cotidiana.
Se houver diálogo, nossa escuta analisará o fluxo vocal através de sentenças,
palavras unidades lingüísticas. Nossa percepção dos limites dos ruídos
distinguirá eventos sonoros mais facilmente, à medida que forem compostos
por sons isolados. No caso de uma peça musical, nós identificamos
melodias, temas e unidades rítmicas de acordo com nosso treino e
conhecimento de música.
Chion argumenta que o mesmo princípio é válido para imagens em constante
movimento, que a visão sob esta circunstância acontece em um fluxo temporal contínuo e
não conta com uma referência espacial estável. Videoclipes e filmes de ação são alguns
exemplos. Numa seqüência de imagens estáticas, ou com menos movimento, somos capazes
de identificar unidades de signos visuais, seja na de forma composições, cenas, layouts,
perspectivas, paisagens ou performances. Seguindo a lógica de Chion, em um game, o uso de
telas relativamente estáticas (fundos, menus, texturas, etc.) favorece a identificação de
"unidades" de signos visuais, ao contrário do que acontece com o áudio. Além disso, não é
possível estabelecer qualquer espécie de relação abstrata ou estrutural entre dois segmentos de
sons sucessivos (um trecho de música e o som de uma janela abrindo, por exemplo), da
mesma forma que se pode fazer com imagens. É por isso que, com freqüência, a unidade
visual da cena é mais saliente do que a (s) unidade (s) sonora (s). Como dissemos pouco,
uma eventual ruptura do fluxo sonoro não caracteriza quaisquer "demarcações" de "unidades"
sígnicas auditivas. Por outro lado, os jogos eletrônicos apresentam uma especificidade que os
diferem dos contextos audiovisuais analisados por Chion: a possibilidade de retorno (s) do
jogador para um determinado local, fase ou missão. A conseqüência direta deste fato é que,
através da redundância (se não houver programação de sons randômicos, cada vez que o
jogador repetir um percurso, ele ouvirá o (s) mesmo (s) som (ns)), é viável estabelecer, sim,
unidades sígnicas sonoras. Estas unidades podem ter a função de "situar" o jogador dentro do
game como um índice, assim como reconhecemos um playground pelos sons de crianças
brincando. Contrariamente, a topologia sonora de um game pode prever a criação de
diferentes paisagens sonoras para uma mesma tela, cena ou fase, estimulando a irrupção de
novas leituras e interpretações dos elementos visuais e da própria experiência do jogar.
112
Também é possível que as unidades de signos sonoros possuam um caráter simbólico. Por
exemplo, uma determinada voz, trecho musical ou ruído que funcione, em um game, como
um indicador de status ou feedback, como sons emitidos em conclusões de tarefas ou etapas,
ao superar um obstáculo ou sucumbir perante um adversário, a voz de um personagem, help
ou hostess, etc. Transpondo a técnica de Godard do cinema para os games, o uso de cortes
bruscos no som pode romper o elo imersivo entre o jogador e o software. Mas, isso não é uma
regra, já que cortes bruscos permitem, por exemplo, a transição entre "estados", níveis, nós ou
telas.
Doane (apud Weis and Belton, 1985: 54-62) prossegue e diz que a característica
intangível do som requer que esteja associado a questões de ordem emocional ou intuitiva.
Portanto, se na ideologia da indústria cinematográfica uma demanda de que as imagens
representem algo factível, no que diz respeito ao som é esperado que também represente uma
"verdade" intrínseca, porém de natureza subjetiva. Nos jogos eletrônicos também é possível
fazer o caminho inverso, isto é, trabalhar com sons literais ou objetivos, cujas fontes sonoras
sejam facilmente reconhecíveis, e apresentar imagens abstratas. O uso freqüente de termos
como "clima" e "atmosfera" pelos técnicos de áudio, no cinema e nos games, atestam a
importância da criação de uma outra "verdade". Doane afirma que o ouvido é o órgão que se
abre para a realidade interior do personagem não exatamente o que não é visível, mas
desconhecido. E a única garantia para esta realidade é aquilo que se apresenta ao olhar. Desta
forma, o conteúdo da fala de um personagem pode ser reiterado através do uso "invisível" de
elementos musicais e/ou efeitos sonoros. Ernest Walter (apud Weis and Belton, 1985: 55)
descreve esta prática:
A música é utilizada para se criar uma atmosfera que de outra maneira seria
impossível [...] Enquanto o editor cria efeitos sonoros para apresentar um
efeito quase musical, o compositor cria o background instrumental que, por
vezes, se transforma em um efeito sonoro em si mesmo. Freqüentemente a
mistura desses sons com os diálogos da cena acabam valorizando-a sem que
o espectador tenha percepção do processo de construção da sonoridade
apresentada.
A editora Helen Van Dongen (apud Weis and Belton, 1985: 56) afirma que:
Imagens e sons, em um certo grau, têm composições próprias e individuais,
mas quando combinados formam um todo. O áudio torna-se, então, não
113
apenas algo que se acrescenta, mas uma parte integrante e inseparável das
imagens. Imagens e sons fundem-se de tal maneira, que cada qual funciona
através do outro. Não há, assim, separação entre o que vejo na tela e o que
ouço na pista de áudio. Ao contrário, o que eu sinto, o que experiencio,
através daquilo que emerge da junção entre sons e imagens.
Para se alcançar esta homogeneidade, algumas técnicas de edição são empregadas. No
cinema, por exemplo, raramente sons e imagens são cortados exatamente no mesmo ponto. A
continuação de um mesmo som sobre um corte na imagem distrai a atenção para este corte. É
o que se chama de "ponte sonora". O filme Poucas e Boas (Sweet and Lowdown) de Wood
Allen explora com muita freqüência este recurso. Zettl (1999: 346-347) propõe que as
relações entre sons e imagens podem ser estabelecidas através da maneira como são
sobrepostos, no que ele chama de estrutura monofônica e polifônica. Nas estruturas
monofônicas, as imagens e os sons estão absolutamente sincronizados, cena a cena, evento a
evento, como se fizessem parte de uma linha melódica única.
Alguns exemplos são videoclipes em que as imagens apresentadas correspondem
literalmente ao que está sendo tocado e/ou cantado e cenas de filmes, onde os sons diegéticos
e/ou não-diegéticos estão diretamente relacionados aos acontecimentos mostrados. Em jogos
eletrônicos, as estruturas monofônicas costumam ser empregadas em:
Locuções específicas de cada tela ou cena.
Músicas específicas de cada tela ou cena.
Efeitos sonoros específicos de cada tela ou cena.
Sons de botões, ícones e áreas sensíveis.
Nas estruturas polifônicas, sons e imagens são organizados como linhas melódicas
paralelas e independentes, ora sincronizadas, ora fora de sincronia. Alguns exemplos são
videoclipes onde o áudio não corresponde exatamente ao que está sendo mostrado e filmes
que utilizam os seguintes recursos:
Flashbacks sonoros (sons anteriores à ação apresentada)
Fastforwards de imagens (imagens posteriores ao áudio apresentado)
Fastforwards sonoros (sons posteriores à ação apresentada)
Flashbacks de imagens (imagens anteriores ao áudio apresentado)
114
Nos games, as estruturas polifônicas costumam ser empregadas em:
Locuções simultâneas a mais de uma tela ou cena.
Locuções randômicas (ou fragmentos) utilizadas em diversas telas ou cenas.
Músicas simultâneas a mais de uma tela ou cena.
Músicas randômicas (ou fragmentos) utilizadas em diversas telas ou cenas.
Efeitos sonoros simultâneos a mais de uma tela ou cena.
Efeitos sonoros randômicos (ou fragmentos) utilizados em diversas telas ou cenas.
Em estruturas polifônicas, as possibilidades de associações entre signos sonoros e
signos visuais costumam ser mais complexas. Mas que outros critérios podemos empregar
para relacionarmos sons e imagens?
Há, no senso comum, a crença de que os sons devem subordinar-se às imagens. Isso se
deve provavelmente ao fato de que vivemos em uma cultura que privilegia a visão em
detrimento de outros sentidos. Rodríguez (2006: 273) aponta algumas razões:
Desde a pré-história, o homem tem sido capaz de desenvolver técnicas de
desenho que lhe permitem fixar em maior ou menor grau as sensações
proporcionadas pelo sentido da visão. a possibilidade de fixar sons não
surgiu até a invenção da escrita, ou seja, muito mais tarde. Ainda assim, a
escrita se restringe a fixar as sensações sonoras vinculadas à língua, mas se
revela um instrumento limitadíssimo para fixar outros tipos de som.
Enquanto o naturalismo cresce e se desenvolve progressivamente na pintura,
desde o século XVII até o século XIX, e com ele o conhecimento sobre as
sensações visuais e as técnicas para a sua reprodução, até bem avançado o
século XX não tinham surgido sistemas confiáveis que permitissem fixar e
reproduzir os sons.
Acrescente-se ainda o fato de que, enquanto as imagens muito tempo são
mensuradas com relativa facilidade pelo leigo através de unidades de medida e volume, o som
“flui no tempo e escapa à capacidade de análise objetiva até que, em meados do século XX, a
informática um impulso definitivo à sonografia e à espectrografia”, como nos lembra
Rodríguez (ibid). Além disso, ao contrário das imagens, facilmente registradas por câmeras
digitais econômicas (de imagens still ou em movimento), os sons requerem instrumentos de
medição específicos e pouco acessíveis ao grande público. Outro exemplo interessante ocorre
115
na história do cinema. Rick Altman (apud Weis and Belton, 1985: 44) aponta a
predominância da influência da imagem no vocabulário desenvolvido ao longo de quase um
século de crítica cinematográfica:
Com poucas exceções, a terminologia utilizada é orientada para a imagem.
A distância da câmera para o objeto, seu posicionamento vertical,
movimentação horizontal, lentes e foco são características associadas à
câmera em si e fornecem a base para a linguagem da pesquisa sobre a sétima
arte. Um outro conjunto de termos também enfatiza o aspecto visual do
cinema: bancos de imagens, pontuação, iluminação e efeitos especiais, entre
outros. No campo do áudio, no entanto, conceitos correspondentes são quase
desconhecidos pela maioria das pessoas. Os tipos e posicionamento de
microfones, métodos de gravação, práticas de mixagem, características de
alto-falantes e muitas outras considerações fundamentais permanecem
restritas ao universo particular de poucos especialistas.
Um contraponto ao fato de que equipamentos de áudio raramente têm destaque
acontece em Metal Gear Solid 3: Snake Eater. Para localizar o chefe The End, cuja
camuflagem é eficiente, o jogador precisa utilizar um microfone direcional que possibilita
rastrear o inimigo por meio dos sons emitidos por ele como respiração, movimentos, passos,
falas e até mesmo seu ronco, caso o jogador leve muito tempo para localizá-lo.
Outras razões pelas quais o vocabulário vinculado às imagens ainda predomina,
podem ter origem no próprio advento do cinema. No início, na era do Cinema Mudo ou Silent
Movies, a linguagem cinematográfica desenvolveu-se principalmente em torno da sintaxe das
imagens. Entretanto, embora não houvesse o som das falas dos atores, efetivamente, nunca
existiu de fato algo que possa ser considerado "cinema silencioso". Muito antes do advento
das grandes salas de projeção, o fonógrafo foi utilizado para "sonorizar" os primeiros filmes.
Porém, eram frágeis e de difícil sincronização com as imagens. Além disso, à medida que a
duração dos filmes aumentava, mais e mais gravações seriam necessárias, o que dificultaria o
trabalho de produção e exibição. O próximo recurso empregado foi o de animadores que, cada
um a seu estilo, narravam os acontecimentos apresentados na tela. Esses profissionais
"interpretavam" as falas dos personagens: o que "ele disse a ela" e o que "ela disse a ele" (esta
última em falsete). No entanto, quando as salas ganharam maior proporção, a utilização
desses animadores mostrou-se pouco viável. A música ganhou, então, maior importância. A
princípio, seu uso tinha, basicamente, duas finalidades: mascarar o ruído dos projetores e criar
uma atmosfera emocional. Com o desenvolvimento comercial do cinema, a música tornou-se
116
mais elaborada e assumiu um papel maior nas projeções. O piano foi substituído por um trio,
o trio por uma pequena orquestra e esta última, por uma orquestra maior. Na verdade, o
aprimoramento não foi apenas quantitativo, mas também qualitativo: surgiram os leitmotivs.
Certos temas eram associados a determinados personagens e executados assim que esses
personagens surgissem na tela.
O passo seguinte foi o advento do cinema falado em 1927. O Cantor de Jazz (The Jazz
Singer) apresentava diálogo e canto sincronizado com imagens. Mas foi um ano depois, em
1928, que estreou o primeiro filme totalmente falado (all talking), Luzes de Nova Iorque
(Lights of New York). No início, a introdução do som causou muitos problemas: luzes que
faziam barulho precisaram ser substituídas; microfones com raio de ação restrito limitavam a
movimentação dos atores; alto-falantes de baixa qualidade provocavam distorção nas salas de
exibição e assim por diante. Houve mudanças também no tipo de película e nas técnicas de
maquiagem. O microfone que a princípio ficava escondido em algum lugar do cenário (um
vaso, por exemplo), foi pendurado em uma vara (boom), dando mais liberdade de ação aos
atores. Limitações e dificuldades técnicas à parte, a incorporação do som foi motivo de
críticas e polêmica entre os primeiros teóricos do cinema. Enquanto as músicas e efeitos
sonoros foram aceitos com facilidade, os diálogos sofreram grande resistência. Acreditava-se
que a arte cinematográfica ficaria reduzida a uma espécie de teatro filmado, "refém" da
linearidade da fala. Entre 1929 e 1931, muitos sucessos do teatro ganharam versões
cinematográficas com pouca ou nenhuma adaptação. O discurso silencioso das imagens
estaria ameaçado. Diretores como Charles Chaplin e teóricos como Paul Rotha se opuseram
com veemência à chegada do som. Havia ainda uma objeção de ordem econômica. Walter
Murch (apud Chion, 1994: X, Foreword) afirma que se nos Estados Unidos, a introdução da
fala foi incorporada com naturalidade devido à universalização da língua inglesa, na Europa,
em 1927, ao contrário, havia mais de 27 idiomas, sem falar nos dialetos, nos sotaques
regionais e em países multilíngües como a Bélgica e a Suíça. A Paramount, receosa de perder
mercado, chegou a montar em Joinville-le-Pont, próximo a Paris, um centro de produção onde
alguns de seus filmes chegaram a ter 15 versões estrangeiras. Durante o período do Cinema
Mudo, traduzir e substituir os cartões com letreiros era uma prática comum e
incomparavelmente mais simples e barata do que trocar o áudio. Chion (1994: 170) conta que
esses cartões permitiam grande flexibilidade narrativa, uma vez que serviam para estabelecer
o "clima" da cena, para tomar parte na ação, para estabelecer julgamentos acerca dos
personagens e, certamente, para possibilitar uma tradução livre dos diálogos que eram
construídos de forma direta ou indireta ("Ele disse a ela que..."). Os cartões apresentavam,
117
contudo, um inconveniente: os cortes constantes no fluxo das imagens. Curiosamente, como
nos lembra Mattos (2006: 50), “os filmes falados em inglês eram muito bem aceitos pelo
público, não latino, como mundial, e os “ídolos da tela” norte-americanos tão queridos
pelos fãs, que os executivos dos estúdios logo perceberam não haver necessidade das versões
estrangeiras, e acabaram adotando as legendas”.
Em agosto de 1928, os diretores soviéticos S.M. Eisenstein, V.I. Pudovkin e G.V.
Alexandrov (apud Weis and Belton, 1985: 83-85) publicaram uma declaração conjunta a
respeito do uso do som no cinema em uma revista de Lenigrado. O manifesto revelava a visão
eisensteiniana, segundo a qual, uma fotografia de um objeto tende a "neutralizá-lo",
removendo-o de sua realidade imediata e transformando-o num bloco de material a ser
trabalhado. O uso naturalista do som ameaçaria este processo que teria o poder de restaurar
o vínculo da imagem com a realidade da qual foi extraída. Isso limitaria as possibilidades
estéticas da montagem cinematográfica porque as imagens, de matéria-prima maleável,
passariam a sofrer resistência da realidade à qual estariam ainda vinculadas. A solução seria o
uso dos sons em contraponto com as imagens. A significação da somatória entre os dois tipos
de signos deveria, assim, emergir da montagem e não do vínculo naturalista entre eles. O que
Eisenstein propõe é a desintegração de um espaço contínuo, presente no cinema realista, e a
valorização da plasticidade dos planos através de um ritmo próprio. Ele procurou na
experimentação cinematográfica uma produção de sentido. Eisenstein (apud Cook, 1998: 82-
86) aponta também para a natureza imprevisível daquilo que resulta da interação entre
diferentes formas de expressão. Às vezes, quando ele e Prokofiev juntavam imagens e
músicas, obtinham "efeitos para os quais estavam totalmente despreparados". O princípio
básico da teoria de montagem cinematográfica, segundo Eisenstein, é o de que:
... dois pedaços de filme, de qualquer espécie, colocados juntos,
inevitavelmente se combinam em um novo conceito, uma nova qualidade,
que emerge da justaposição... e esta justaposição não é apenas a soma das
partes, mas uma criação, uma terceira coisa, diferente das suas partes,
observadas em separado.
Evidentemente, a montagem é, em grande parte, responsável pela construção de
sentido. Quanto ao seu “tom”, Martin (2007: 97) afirma que “será trágico se houver aumento
de tensão de um plano a outro (os soldados os túmulos) e cômico no caso contrário (o
118
orador – as harpas)”. Também é possível haver algo de trágico em um filme cômico, ou cenas
cômicas em uma obra trágica.
Eisenstein utilizou profunda e sistematicamente uma analogia com a música para
pensar o cinema e, principalmente, a montagem. Para classificar os diversos tipos de
montagem, Eisenstein usou de maneira metafórica os termos empregados na música erudita.
Sugeriu as montagens métrica, rítmica, tonal e atonal.
Na métrica, os planos eram montados a partir de um ritmo metricamente medido,
como num compasso musical: 3/4, 2/4 e 2/2, entre outros. Nela, o conteúdo dos planos não
influenciava a cadência do ritmo. Este último, por sua vez, se relacionava com a duração dos
planos.
Na montagem rítmica o conteúdo do quadro devia influenciar o seu corte. Um
determinado movimento dentro do quadro podia impulsionar o ritmo dos planos seguintes
dentro da seqüência.
A grande mudança em relação a uma utilização mais abrangente e profunda da
estrutura musical se deu por meio da montagem tonal. Nela, ocorria uma analogia com o
conceito de tonalidade musical, segundo o qual uma sonoridade central, determinada pelo
tom (a tônica), para onde devem convergir todos os sons. Na montagem tonal, dentre as
diversas possibilidades de continuidade dos planos, os aspectos não mensuráveis
espacialmente deviam predominar. Dentre eles, podemos destacar (Ramos, 1996: 4):
[...] a linha do calor, crescendo de plano em plano, a linha de primeiros
planos variados, crescendo em intensidade plástica, a linha do crescente
êxtase, mostrada através do conteúdo dramático dos primeiros planos [...]
Na montagem atonal, como no atonalismo na música, onde os sons não convergem
para uma tonalidade, não havia a predominância de algum aspecto em particular. Nela,
todos os outros tipos de montagem podiam coexistir.
A noção de "contraponto", designando a autonomia entre sons e imagens, em uma
produção audiovisual, é criticada por Chion (1994: 36-39). O autor enfatiza que o conceito de
contraponto, na música ocidental, está associado a um vetor horizontal (a música no decorrer
do tempo de sua execução), no qual diferentes vozes simultâneas coexistem. Na relação entre
sons e imagens, ao contrário, o vetor predominante é o vertical, o da simultaneidade entre o
que se ouve e o que se vê em um determinado instante. Chion (1994: 40) argumenta que "cada
119
elemento sonoro estabelece uma relação vertical de simultaneidade com os elementos
narrativos contidos nas imagens (personagens, ações) e com os elementos visuais de texturas
e cenários". Muitos casos apresentados como modelos de contraponto são, para Chion,
excelentes exemplos de "harmonia dissonante", uma vez que apontam discrepâncias
momentâneas entre aquilo que se ouve e aquilo que se vê. Por esta razão, Chion (1994: 36)
afirma que "no cinema, relações harmônicas e verticais (sejam elas consonantes, dissonantes
ou nem uma coisa, nem outra) são mais evidentes". Ele afirma, ainda, que devemos ser
cautelosos ao empregar termos musicais, como harmonia e contraponto, a signos que possuem
naturezas distintas; sons e imagens. O que o pesquisador propõe é uma relação dialética de
interdependência entre os signos sonoros e os signos visuais. Mas, Eisenstein também
estendeu seu conceito de montagem para aquilo que chama de montagem vertical, ou seja, a
montagem de sons e imagens, cuja significação emerge diretamente da justaposição entre os
dois tipos de signos.
Chion critica também o reducionismo que se abriga sob o manto da noção de
contraponto entre sons e imagens: ouço "X", mas deveria ouvir "Y", que vejo "Z".
muitas possibilidades de relacionamentos entre signos sonoros e signos visuais, além daquelas
em que ocorre simplesmente "consonância" ou "dissonância". Várias dessas possíveis
relações são convencionais, "conservadoras"; outras permitem diferentes leituras da
associação entre sons e imagens, sem que haja qualquer tipo de "contradição" ou "negação"
entre um tipo de signo e outro. Ao invés de uma lógica binária, maniqueísta, temos à nossa
disposição um "dégradé" de inúmeras combinações e relações de complementaridade entre
signos sonoros e signos visuais. Estas idéias de Chion são aplicáveis tanto aos filmes quanto
aos jogos eletrônicos.
Pudovkin, outro signatário do manifesto de 1928, declarou que o uso não sincronizado
do som enriquece a imagem, revelando complexidades previamente imperceptíveis, quando
do vínculo naturalista entre sons e imagens. Para ele, o som no cinema não deve duplicar
eventos e, sim, alterar a maneira como os percebemos. Nossa atenção é focada em uma coisa
e depois em outra. Segundo o autor, quando olhamos algo com muita atenção, não o ouvimos
tão profundamente quanto o olhamos e vice-versa. É preciso, então, criar um algo mais. Este
algo mais é o desenvolvimento das trilhas de sons e imagens em cursos rítmicos totalmente
independentes. Confira este exemplo citado por Pudovkin (apud Weis and Belton, 1985: 87):
[...] na vida real, você, leitor, pode subitamente ouvir um grito de socorro;
você apenas a janela; você então vai até ela, olha e nada além do
120
tráfego. Mas você não ouve o som natural de carros e ônibus; ao invés
disso, você ainda ouve o grito que lhe chamou atenção. Finalmente, você
localiza o ponto de onde o som partiu; há uma multidão aglomerada e
alguém carrega um homem ferido que, agora, está calado. Mas, neste
momento, olhando para o homem, você ouve o ruído dos carros e, aos
poucos, o de uma ambulância aproximando-se. Nesse instante, sua atenção
está nas roupas do homem ferido: ele veste-se como seu irmão que, a
propósito, você se lembra, ficou de visitá-lo às duas horas. Na tremenda
tensão que se segue, diante da ansiedade e da dúvida se aquele homem
ferido não é o seu irmão, todos os sons cessam e, em sua percepção, o
mais absoluto silêncio. Podem ser duas horas agora? Você olha para o
relógio e, ao mesmo tempo, ouve seu ruído. Este é o primeiro momento em
que sons e imagens estão sincronizados.
O som também funciona como elemento de fusão entre imagens. Martin (2007: 87-88)
apresenta dois exemplos:
... a música que acompanha o mergulho da professora no passado é invadida
pelos ruídos da rua quando ela volta à realidade (Filhos de Hiroshima /
Gembaku no ko Shindô); do ruído que fazem os pés de Marc pisando no
vidro espalhado, no chão do apartamento bombardeado, passamos ao que é
feito por Boris, chafurdando na lama no campo de batalha (Quando Voam
as Cegonhas – Kalatozov).
Sempre há dois ritmos: o ritmo do mundo objetivo e o ritmo no qual o homem observa
e percebe o mundo. O tempo de suas impressões varia de acordo com o calor de suas
emoções, enquanto o mundo objetivo varia de acordo com o tempo cronológico. É possível
utilizar os sons (ou as imagens) para expressar um ou outro ritmo. Por exemplo, enquanto os
sons exprimirem aspectos objetivos, as imagens apresentarão questões subjetivas. Ou, ao
contrário, enquanto as imagens exprimirem aspectos objetivos, os sons apresentarão questões
subjetivas. Também é possível misturar as duas estratégias em uma mesma seqüência.
Martin (2007: 99-100) cita diversos exemplos de emprego de sons assíncronos:
... o rosto da jovem atriz que o marido acaba de matar por ciúme projeta-se
diante da tela onde ela canta “Tive apenas um amor, foste tu (Prix de
Beauté Genina); a dor de um prisioneiro que perdeu seu melhor amigo é
sugerida pelo ranger da carroça que ele empurra e onde se encontra o
cadáver (Veliki Utechitel / O Grande Consolador Kulechov); um ladrão
121
descobre um cadáver ensangüentado e fica mudo de horror, enquanto fora
dali se ouve o uivar de um cão (La Tête d’un Homme Duvivier); um
homem retira um prego que marginais enterraram em suas costas: procura
conter a dor, mas uma sirene ao longe parece gritar por ele (O Bruto / El
Bruto – Buñuel); um soldado é morto apertando entre os dentes o fio
telefônico que fora encarregado de consertar: restabelecida a comunicação,
escuta-se em off o anúncio da vitória (Veliki Perelom / A Volta Decisiva
Ermler); uma lenta panorâmica mostra as ruínas da sede do Reich nazista
em Berlim, enquanto ouvimos a voz de Hitler prometendo paz e felicidade
ao povo alemão (Alemanha, Ano Zero / Germânia, Anno Zero Rosselini);
no momento em que o jardineiro examina a piscina onde talvez se encontre
um cadáver, a professora assassina ensina a seus alunos o verbo to find,
encontrar (As Diabólicas / Les DiaboliquesClouzot)...
Outro exemplo do uso de som assíncrono pode ocorrer em um diálogo entre duas ou
mais pessoas. Digamos que o objetivo seja chamar a atenção para uma determinada pessoa:
enquanto ela fala, a câmera está focando o seu rosto. Mas, mesmo depois de sua fala e
enquanto ouve-se a voz de um interlocutor, a câmera pode permanecer focada na primeira,
enfatizando, desta forma, sua reação emocional ao discurso do interlocutor. A imagem da
segunda pessoa é, então, mostrada depois que sua voz foi ouvida. Neste caso, o som
precede a imagem. O contrário também pode ocorrer: ao final da fala da primeira, a imagem
da segunda pessoa é apresentada, antes que esta última comece a falar. Aqui, a imagem
precede o som. Outros efeitos também são possíveis. Suponha que haja várias pessoas.
Enquanto ouve-se uma pergunta, a câmera mostra diversos rostos, revelando, assim, suas
diferentes reações ao discurso apresentado. O uso assíncrono do som pode também estar
relacionado a elipses sonoras. Em Desencanto (Brief Encounter), de David Lean, a voz da
vizinha tagarela em uma viagem de trem é suprimida e o que se ouve é o monólogo interior de
Laura.
O brasileiro radicado na Inglaterra, Alberto Cavalcanti (apud Weis and Belton, 1985:
98-111), que teve grande influência na produção de documentários britânicos nos anos 1930,
também defendia o uso não naturalista do som. Para ele, enquanto as imagens estariam
associadas à objetividade, os sons sugeririam elementos subjetivos. Portanto, um filme não
deveria apenas reproduzir a realidade, mas criar uma nova realidade com dimensões afetivas.
A idéia é de que os sons possam revelar ou enfatizar caracteres interiores de pessoas e coisas.
Podemos imaginar, por exemplo, uma cena de guerra, onde as imagens de um soldado
agonizante, em meio a um tiroteio, sejam apresentadas justapostas a uma música suave.
122
O emprego não naturalista do som que à primeira vista poderia ser interpretado como
uma incoerência é, no audiovisual, sintetizado pelo espectador, conforme nos aponta
Rodríguez (2006: 265):
Quando no cinema aparece uma voz associada à imagem de um
rosto que não move os lábios, interpretamos que estamos escutando
os “sons” de seu pensamento.
Quando escutamos um som de locução vinculado visualmente a
uma mímica bucal que tem sincronia apenas parcial, tendemos a
integrá-los, associando globalmente a voz ao movimento dos
lábios.
Quando vemos uma pessoa que se distancia enquanto fala, ainda
que o som de sua voz não diminua de intensidade, continuamos
associando a voz ao falante que vai embora.
Rodríguez (2006: 266) argumenta que a incoerência na relação entre sons e imagens
deve ser usada estrategicamente com finalidade dramática. Ele exemplifica com uma cena
onde se um condenado à morte na prisão, enquanto se ouve o tique-taque de um relógio. O
autor afirma que se o som ritmado do relógio fosse percebido como um utensílio doméstico,
ao invés “de ser compreendido como signo inexorável da passagem do tempo para a morte, a
narração teria fracassado”. Assim, a incoerência pode ser realçada por meio de estratégias
como mostrar que não há, na cela, qualquer relógio ou fazer com que a intensidade,
ressonância, reverberação, etc. não se ajustem ao espaço físico apresentado. Notamos ainda
que a ruptura com a escuta naturalista possibilita a expressão de estados psíquicos,
emocionais ou fisiológicos de um personagem. Por exemplo, a fantasia acordada, o sonho, a
vertigem, o desfalecimento, a alucinação, a embriaguês e a morte. Para isso, alguns
procedimentos técnicos são adotados, conforme lembra Martin (2007: 188):
... flou, chicote, mera lenta, imagem acelerada, inversão ou congelamento
do movimento, superposição visual ou sonora, distorção da imagem ou do
som, introdução, transformação ou desaparecimento da cor, modificação da
iluminação do ambiente, desenho animado; os procedimentos de introdução
propriamente ditos são o corte, a fusão, o fade-out e o travelling para frente.
Especificamente, em relação ao som, podemos citar as manipulações e distorções
relacionadas a parâmetros como amplitude, freqüência, timbre, duração e dinâmica.
123
É engraçado notar que um dos clichês de Hollywood é o uso de reverberação na voz
para representar pensamentos. A artificialidade evidente do som reverberante em contraste
com o naturalismo do rosto em close-up parece sugerir que a voz com reverberação vem de
um outro plano; no caso, o plano psíquico do personagem. Um exemplo interessante de
emprego da tecnologia sonora para representar pensamentos ocorre no filme O Escafandro e a
Borboleta (Scaphandre et le Papillon). Trata-se da história de Jean-Dominique Bauby que,
após um derrame cerebral, perde todos os movimentos do corpo, exceto o do olho esquerdo.
Na mixagem surround, os diálogos foram posicionados no canal central (frontal) e a voz do
protagonista nos canais laterais, indicando sua incapacidade de falar e de ser ouvido pelos
demais personagens. Para representar pensamentos, outro recurso empregado é o efeito de
proximidade do ator ou da atriz, diante do microfone, o que realça os graves da voz, dando a
impressão de que estamos ouvindo uma “voz interior”. Também tendemos a interpretar este
tipo de sonoridade como se alguém estivesse falando em nosso ouvido.
Martin (2007: 118-119) cita ainda alguns exemplos contrastantes ou não realistas de
relacionamentos entre sons e imagens: em Roma, Cidade Aberta (Roma, Città Aperta), de
Rosselini, a animação de um jazz em contraponto à dor de um homem que testemunha o
assassinato de sua amada; em Sindicato de Ladrões (On the Waterfront), quando o
protagonista confessa a Edie que provocou deliberadamente a morte do irmão, ouve-se a
sirene estridente de um rebocador que impede a escuta de suas palavras; em O Grande Amor
de Beethoven (Un Grand Amour de Beethoven), “um assobio lancinante materializa a surdez
nascente do compositor... Mais tarde, imagens ruidosas (moinhos, lavadeiras, sinos) aparecem
mudas porque são vistas por Beethoven surdo”; em Cidadão Kane (Citizen Kane) a
iluminação que se extingue acompanhada de um “decrescendo dilacerante” que denota o
fracasso de Susan em sua carreira como cantora. Martin (2007: 117-118) também afirma que
o uso não realista do som produz um tipo de metáfora interessante e cita alguns exemplos:
Em Mascarade (Willie Forst), relinchos sobrepõem-se à imagem de um
burguês rindo, gritos de gansos à de meninas, grunhidos de porcos à de três
bêbados derreados, e cacarejos de galinhas à de garotas de music hall
tagarelando; em Milagre em Milão / Milagro a Milano (De Sica), as
palavras de dois capitalistas que discutem a posse de uma terra
transformam-se pouco a pouco em latidos; em O Milhão, René Clair
superpõe à briga de homens que disputam uma jaqueta os apitos de uma
imaginária partida de rugby; efeito cômico parecido encontra-se em Idylle à
124
la Plage (Stork), quando a imagem de um homem que salta de moita em
moita para se aproximar de sua namorada sem ser visto pela mãe dela é
sonorizada por ruídos de tiros e explosões: por azar a mãe percebe sua
presença e lança-lhe um olhar furioso... dublado por uma rajada de
metralhadora! Num curta metragem cômico de Michel Gast, Les Frères
Brothers en Week-end, no momento em que um homem aperta a campainha
de uma casa, ouve-se o ruído de uma caixa de descarga.
Chion (1994: 38) também recomenda o uso não naturalista do som e critica o olhar
literal para os signos sonoros:
Tome, por exemplo, a cena do filme Carmem de Godard onde se o metrô
de Paris ao som de gritos de golfinhos. Os críticos de cinema identificam
esta passagem como um contraponto porquê golfinhos são considerados
signos de uma "cena marinha", enquanto o metrô é signo de uma "cena
urbana". Isto é o que eu chamo de interpretação linear: algo que reduz os
elementos sonoros e os visuais a abstrações, de modo que suas múltiplas
particularidades concretas, que são muito mais ricas e cheias de
ambigüidade, são descartadas. Trata-se de uma leitura estereotipada do
significado dos sons, alicerçada em um código previamente convencionado
(golfinhos = cena marinha), ao invés da procura das características sônicas
do som em si mesmo.
As características sônicas do som em si mesmo, como veremos no Capítulo 4,
representam um ferramental consistente para a criação de sonoridades novas tanto para filmes
quanto para games.
Favorável também ao uso assíncrono do som, Balaz afirma que a significação de um
som pode ser apreendida através da observação de seu efeito sobre o rosto, em close, de
alguém que o esteja ouvindo. O uso de sons cujas fontes sonoras não são vistas ou
identificáveis pode, desta maneira, criar efeitos dramáticos intensos. Para Balaz (apud Weis
and Belton, 1985: 119) "nós podemos não nos dar conta do significado de um som ou ruído se
não vermos o seu efeito no espelho de uma face humana".
Mais adiante, ao falar sobre música, o autor (Balaz apud Weis and Belton, 1985: 120)
afirma que “a emoção produzida pela música e demonstrada por um rosto em close
potencializa o poder desta música diante de nossos olhos muito mais do que um incremento
de decibéis”.
125
Durante as décadas de 30 e 40 do século XX, o uso assíncrono do som predominou
entre a maioria dos teóricos do cinema. René Clair (apud Weis and Belton, 1985: 94), em um
de seus trabalhos, utilizou os sons de uma batida de porta e o do arrancar de um carro juntos
com a imagem, vista por uma janela, de um rosto aflito de mulher. Desta forma, os sons
sugeriam um estado psíquico da personagem. Mas, a partir dos anos 1950, alguns teóricos vão
além da postulação do uso assíncrono do som e propõem uma maior autonomia da linguagem
sonora. Vejamos um exemplo prático: Robert Bresson defendia o uso totalmente autônomo
dos sons, de modo que a pista de áudio tivesse o mesmo status da de imagens. Para ele, o som
deveria substituir, não complementar, uma imagem. Assim, enquanto para Clair, o som
"liberava" a imagem, eliminando a necessidade de se mostrar ações que estivessem ocorrendo
para além dos limites da lente da câmera, Bresson afirmava que o som deveria dominar a
imagem ou vice-versa. Justaposto a uma imagem com pouca definição ou escurecida, por
exemplo, o som se tornaria o canal principal de informação, cancelando em maior ou menor
grau o papel da imagem. Em suas anotações pessoais, Bresson (apud Weis and Belton, 1985:
149) fez algumas considerações a esse respeito.
Para saber qual o papel que tem o som (ou a imagem) na produção:
O que for feito para o olhar não deve duplicar aquilo que for concebido para a
escuta.
Se o olhar for privilegiado, ofereça nada ou quase nada para a escuta ou vice-
versa. Algo não pode ser, ao mesmo tempo, totalmente visual e auditivo.
Quando um som puder substituir uma imagem, corte-a ou neutralize-a. A escuta
é mais subjetiva do que a visão.
Um som nunca deve auxiliar uma imagem e vice-versa.
Quando for inevitável que um som complemente uma imagem, maior
destaque ao som ou à imagem.
O olhar, solicitado isoladamente, faz com que os ouvidos fiquem impacientes; a
escuta, solicitada isoladamente, faz com que os olhos fiquem impacientes. Use
essas impaciências.
Evite os excessos de velocidade e de som; utilize as pausas e os silêncios.
Partindo das idéias de Bresson, fica evidente que o som facilita o emprego de elipses
de imagens que, em muitos casos, são motivadas pelo que Martin (2007: 80) chama de
“censura social”: “a morte, a dor violenta, os ferimentos horríveis, as cenas de tortura ou
assassinato eram em geral dissimuladas ao espectador e substituídas ou sugeridas de diversas
126
formas”. O autor cita como exemplo o filme A Um Passo da Eternidade (From Here to
Eternity) em que a trilha sonora atua como contraponto às imagens de uma luta de faca que é
ocultada por um monte de caixas. Em contraste a esta estratégia, alguns games como Resident
Evil, Silent Hill e F.E.A.R. e filmes como O Albergue (The Hostel) e Jogos Mortais (Saw)
expõem abertamente o horror e a violência.
Burch (1992: 116), embora concorde com as idéias de Bresson, questiona a
legibilidade do som quando apartado da imagem. Ele cita o filme de Gregory Markopoulos,
Twice a Man, que é precedido por cinco minutos de ruídos.
... para metade dos espectadores, parecerá chuva caindo e, para a outra
metade, uma multidão aplaudindo... Daí provém nossa sensação de que a
legibilidade do som é tão variável quanto a da imagem: um primeiríssimo
plano sonoro de uma gota d’água caindo numa pia pode ser, para o ouvido,
tão dificilmente identificável quanto, na tela, um primeiríssimo plano da
articulação do polegar de uma mulher.
O filme Demolidor O Homem Sem Medo (Daredevil) relaciona a falta de
legibilidade do som com um primeiríssimo plano sonoro alterado para representar o hiper-
desenvolvimento da audição do jovem Matt Murdock, após perder a visão em um acidente.
Ao acordar no hospital, o garoto ouve sons semelhantes ao de explosões que, em seguida, são
identificados pelo público como sendo provenientes de gotas de soro caindo, uma a uma.
Depois, percebe-se que todos os sons à volta são percebidos por Matt com amplitude muito
maior do que naturalmente se ouviria. O trabalho dos produtores de áudio, no caso, foi
processar e amplificar os sons de forma não natural para revelar a transformação perceptiva
pela qual o personagem passou.
David Bordwell e Kristin Thompson (apud Weis and Belton, 1985: 181-199), ao
contrário de Bresson que apenas sugere alguns caminhos, apontam uma metodologia para a
construção de relações entre sons e imagens. Como ponto de partida, algumas considerações:
O som estimula nossos sentidos. Assim, um estímulo visual pode ser acompanhado
por um auditivo.
O som é capaz de alterar o modo como interpretamos as imagens.
127
A respeito desta última questão, os autores apresentam um exemplo interessante: em
um segmento de Letter from Siberia, citam o trabalho em que Chris Marker demonstra o
poder do som em alterar nossa percepção das imagens. Por três vezes, é mostrada uma
seqüência de imagens de trabalhadores soviéticos trabalhando ao ar livre sob o rigor do
inverno russo. Na primeira versão, uma locução em off enaltece o “entusiasmo” e o “vigor”
dos funcionários; na segunda, outro off critica as condições “desumanas” e “opressorasdo
regime que “obriga as pessoas a trabalharem naquelas condições”; finalmente, uma terceira
versão simplesmente descreve o trabalho sem atribuir juízo de valor. Como resultado, se tem
a criação de três modos distintos de interpretação das mesmas imagens.
Bordwell e Thompson (ibid) lembram ainda que:
A manipulação do som pode direcionar nossa atenção para algum aspecto
particular da imagem.
[...] o som pode nos guiar através das imagens, apontando-nos o que olhar.
Esta possibilidade adquire uma complexidade ainda maior quando se
considera que um indício sonoro de um elemento visual pode antecipar este
elemento e chamar atenção para ele.
Elementos sonoros podem esclarecer um evento visual, contradizê-lo ou torná-lo
ambíguo. Se por exemplo, ouve-se o som de uma porta abrindo (mas não
fechando), enquanto vê-se o rosto de alguém e, em seguida, uma porta é mostrada
aberta, supõe-se que o som ouvido fosse o da porta apresentada. Mas se a porta
fosse mostrada fechada, haveria dúvida se o som ouvido era realmente o daquela
porta ou, até mesmo, se era um som de porta.
O uso de recursos sonoros abre novas e instigantes possibilidades dramáticas para
a inserção dos silêncios e pausas.
Das possibilidades de edição do som podem emergir diversos caminhos criativos;
novas relações entre os sons.
Através da edição, podem-se associar imagens de espaços diferentes, criando uma
relação significativa entre eles.
128
Diversos sons, ocorrendo simultaneamente, em diferentes níveis de amplitude, podem
gerar um único som composto, resultante da somatória dos demais. No filme Twister vários
sons de elementos, os mais díspares, como locomotivas, motores e vento, entre outros, foram
usados na composição dos sons dos tornados. Cada tornado tem um arranjo sonoro distinto. O
som do último tornado, o mais intenso, é proveniente da mixagem entre os sons de todos os
tornados precedentes.
A metodologia construída por Bordwell e Thompson (ibid) leva em consideração os
seguintes aspectos: ritmo, fidelidade, espaço e tempo.
[...] primeiro, porque o som tem duração, tem um ritmo. Segundo, sons
podem relacionar-se com suas fontes com maior ou menor grau de
fidelidade. Terceiro, sons se relacionam com eventos visuais dentro de uma
dimensão temporal. E quarto, sons revelam as condições espaciais em que
ocorrem.
Em relação ao ritmo, podemos dizer que embora a tendência mais óbvia seja a
sincronização absoluta entre sons e imagens, as próprias imagens, a edição delas e os sons têm
ritmos específicos. Ao contrário do efeito Mickeymousing, em que todo e qualquer
movimento está sempre sincronizado com o áudio, pode-se optar por criar disparidade entre
os ritmos dos sons, da edição e das imagens. Uma das maneiras de se fazer isso é manter a
fonte sonora em off e mostrar alguma outra imagem, como vimos no tópico a respeito dos
usos assíncronos do som. No filme Legião Invencível
(She Wore a Yellow Ribbon) de John
Ford, o capitão de cavalaria Nathan Brittles, recentemente aposentado, observa sua tropa
deixando o forte. O som é composto por uma canção entoada com entusiasmo pelos soldados
e pelo ruído dos cavalos em disparada. Em alguns momentos, em que são mostrados os
soldados partindo, os sons estão em sincronia com as imagens. Mas, na maior parte do tempo,
o que é apresentado é o rosto do velho capitão, sentado e estático sobre seu cavalo, ao som
vibrante da cavalaria em movimento. O contraste entre o ritmo rápido do som e a imagem
solitária do capitão enfatiza seu arrependimento por aposentar-se.
Jacques Tati, em Playtime, também utiliza ritmos contrastantes. Próximo a um hotel
em Paris, um grupo de turistas embarca em um ônibus a caminho de uma casa noturna. O que
se ouve é um jazz vibrante. Na verdade, a música faz parte da cena seguinte. Assim,
129
sobrepondo uma imagem com ritmo lento a uma música rápida, Tati cria um efeito cômico e
prepara a transição para um novo espaço.
Uma alteração de ritmo também pode servir como uma mudança de expectativas. Em
Alexandre Nevsky (Aleksandr Nevsky), Sergei Eisenstein apresenta uma cena de batalha onde
o som aumenta em ritmo e intensidade na medida em que os exércitos russo e alemão entram
em conflito direto. Ao final da batalha, Eisenstein cria um novo contraste, através da
introdução de uma música com andamento vagaroso.
O termo fidelidade, para Bordwell e Thompson (ibid), não tem qualquer relação com
qualidade de áudio. Na verdade, está relacionado à maneira como os sons estão associados às
suas fontes sonoras. Em outras palavras, o quanto os sons são fiéis à natureza de suas fontes
sonoras, pelo menos como as imaginamos. Fidelidade também nada tem a ver com os sons
originais captados de suas fontes. Trata-se de uma pura questão de expectativas. Por exemplo:
espera-se de um cão um latido e não um miado. Mas o latido não precisa ser necessariamente
o latido real do cão; pode, inclusive, ser criado eletronicamente. No cinema, assim como nos
games, grande parte dos efeitos sonoros é recriada por meio de técnicas como o foley e o
design sonoro (sound design). Outro caso interessante são os desenhos animados: colisões
entre objetos e personagens são muitas vezes associadas a sons percussivos, criando um efeito
cômico.
Sons são caracterizados por fontes que ocupam um lugar no espaço. Como vimos
anteriormente, se a fonte for um personagem ou um objeto que esteja dentro do espaço da
narrativa, podemos dizer que os sons são diegéticos. Caso contrário, são considerados não-
diegéticos. Como exemplos, podemos citar o voice over, vozes em off que não pertencem a
qualquer personagem e as músicas temáticas de filmes e games. Entretanto, como discutimos
no tópico relacionado ao modelo analítico de Chion, se a música que se ouve é proveniente de
uma banda, inserida dentro do espaço da narrativa, trata-se de um som diegético. O mesmo
princípio é válido para as vozes em off de personagens de jogos e filmes. Também é
importante relembrar o fato de que o espaço da narrativa não está limitado àquilo que pode ser
visto. Uma voz em off não está necessariamente fora do espaço da narrativa. Um bom
exemplo é o diálogo, na cena final de O Show de Truman O Show da Vida (The Truman
Show) entre o personagem, interpretado por Jim Carrey, e Christof (Ed Harris), diretor,
produtor e criador do programa televisivo onde a vida de Truman era apresentada em tempo
130
real vinte e quatro horas por dia. Nesta cena, a voz em off de Christof é reproduzida com uma
reverberação irrealista para criar o efeito de uma "presença onipotente".
No cinema e no vídeo, o tempo está relacionado às imagens de duas maneiras: o tempo
do filme (ou vídeo) e o tempo da narrativa. O tempo do filme (ou vídeo) é cronológico,
absoluto, o seu tempo de projeção/duração. o tempo da narrativa é o tempo em que a
história ocorre. A maneira como os sons e as imagens são apresentados simultaneamente
difere, dependendo da referência. Do ponto de vista do tempo do filme (ou deo), os sons
podem ser sincronizados ou não sincronizados. Um exemplo curioso do uso não sincronizado
do som aparece em Casseta e Planeta, mais precisamente no antigo quadro Fucker and
Sucker, onde dois policiais, supostamente norte-americanos, são dublados fora de
sincronismo, com o objetivo de satirizar alguns seriados estrangeiros. A antecipação do som
em relação à imagem tem também função de causar impacto emocional. Um pequeno atraso
de 40 milissegundos da imagem em relação ao som é suficiente para assustar o espectador
(filme) ou o jogador (game). Rodríguez (2006: 322-323) comenta:
... quanto mais se adiantar o som em relação à imagem, maior será o
impacto que a aparição do monstro provocará
29
no receptor. Utiliza-se
também o efeito inverso: se o som se atrasa com relação à visão da fera, o
impacto emocional do monstro desaparece completamente, e isso ocorre
mesmo que a mencionada aparição seja repentina e terrível.
Já, tomando-se como referência o tempo da narrativa, os sons podem ser simultâneos
ou não simultâneos (quando são anteriores ou posteriores às imagens às quais estão
associados). Vejamos dois exemplos extraídos de Psicose, de Hitchcock.
Sons anteriores às imagens: enquanto as imagens revelam o rosto de Marion Crane
trafegando por uma estrada, em fuga, em posse do dinheiro que furtou da empresa
onde trabalha, se ouve as palavras do chefe de Marion, solicitando que depositasse
a quantia em um banco.
Sons posteriores às imagens: mais adiante, na mesma seqüência de cenas, Marion
imagina um possível diálogo futuro entre seu chefe e um cliente do escritório, ao
descobrirem que o dinheiro não foi depositado.
29
Rodríguez (2006: ibid) cita o filme Alien, o Oitavo Passageiro como exemplo da estratégia de antecipação do
som em relação à imagem para provocar impacto emocional.
131
Ao analisarmos os parâmetros (ritmo, fidelidade, espaço e tempo) do modelo de
análise de Bordwell e Thompson, originalmente pensado para o cinema, no contexto dos
games, algumas considerações precisam ser feitas:
Nos jogos eletrônicos não é comum a disparidade entre o ritmo do som e o das
imagens. Na maioria das vezes, uma correspondência entre os dois ritmos. Em
Patapon, por exemplo, a capacidade do jogador em acompanhar o ritmo da
música, conduzindo seus pequenos personagens, é fundamental.
O fator fidelidade, nos games, varia de título para título e está relacionado também
ao gênero. Em jogos de guerra, por exemplo, os ambientes sonoros são
extremamente naturalistas, o que não ocorre em alguns games cuja sonoridade está
mais próxima dos cartoons do que dos filmes. Além disso é possível conceber
topologias sonoras que pouco ou nada tenham a ver com expectativas pregressas
dos jogadores, ao se criar novos sons para ações de configuração, por exemplo.
Quanto aos espaços diegético e não-diegético, diversos procedimentos dramáticos
do cinema também são adequados aos games. No Capítulo 2 foi realizada uma
discussão acerca de como os elementos sonoros podem ser planejados em relação
aos diversos tipos de ação diegéticas ou não-diegéticas da máquina e do jogador.
No que diz respeito ao parâmetro tempo, pode ser estabelecido um contraponto
com o modelo analítico de Juul, discutido no Capítulo 2 (tópico
ação e tempo nos
games).
Confira na página seguinte um gráfico esquemático das relações entre sons e imagens
propostas por Bordwell e Thompson.
132
Espaço da Fonte Sonora
Diegético (dentro do espaço da
narrativa)
Não-Diegético (fora do espaço da
narrativa)
Relação temporal
Diegéticos Simples:
Não-diegéticos:
Sons simultâneos às imagens;
colocados sobre as imagens.
1. Sons simultâneos
às imagens
Externos: diálogos, efeitos e
músicas.
Internos: pensamentos de um
personagem que podem ser
ouvidos.
Diegéticos não simultâneos:
Não-diegéticos:
Sons de um tempo passado
sobrepostos a imagens atuais.
Exemplo: a voz de Winston
Churchill sobre a Inglaterra atual.
2. Sons anteriores
às imagens
Externos:
Flashback sonoro.
Fastforward de imagens.
Internos: Lembranças de um
personagem.
Diegéticos não simultâneos:
Não-diegéticos
Narrador no momento presente
fala de eventos apresentados
como fatos passados.
3. Sons posteriores
às imagens
Externos:
Manutenção dos sons do
momento presente com
Flashbacks de imagens.
Fastforward sonoro.
Personagem narrando
eventos passados.
Internos:
Visões de futuro de um
personagem.
Ainda em relação ao fato de que o som interfere na maneira como percebemos as
imagens e vice-versa, vale a pena comentar o trabalho de pesquisa denominado Sound +
Image in Computer-Based Design: Learning from Sound in the Arts (Cooley, 1998). A
percepção através do canal auditivo influencia, e transforma, a percepção oriunda do canal
visual. O inverso também é verdadeiro, isto é, o que percebemos em termos visuais também
influencia nossa escuta. Chion (1994: XXVI, Prefácio) afirma que "nunca vemos a mesma
coisa quando também ouvimos; nunca ouvimos a mesma coisa quando também podemos vê-
133
la". Uma prova deste argumento são os experimentos realizados por Cooley (1998: 05) acerca
do que ela chama de "princípios de interações entre sons e imagens". A autora desenvolveu
cinco experimentos: em quatro deles, foram apresentadas uma animação com diferentes
opções de combinações sonoras. Em outro, várias animações distintas foram mostradas com
uma mesma combinação sonora. Ao final de cada experimento, foram feitas algumas
perguntas para um grupo de oito pessoas sobre as diferentes associações entre sons e imagens.
A resposta mais comum foi a de que os diferentes sons podiam afetar a percepção de cada
uma das animações de forma intensa e surpreendente (em quatro dos experimentos) e que (em
um experimento) as diferentes imagens alteravam a percepção do som.
No primeiro experimento, Bumping Squares, dois quadrados (situados nas laterais
esquerda e direita da tela) moviam-se em direção um ao outro e tocavam-se, ao se
encontrarem no centro da tela. Cada vez que isso ocorria, um som diferente (com qualidades e
texturas distintas) era apresentado em sincronia com o movimento. Em seguida, foi
perguntado para o público se os diferentes sons faziam com que os quadrados parecessem
mais leves ou pesados, mais ou menos densos, ásperos ou lisos, grandes e distantes ou
pequenos e próximos. O experimento demonstrou duas coisas: primeiro, que os sons são
capazes de fazer com que as imagens pareçam mais ou menos reais; segundo, que os sons
influenciam a percepção das características físicas de um objeto.
No segundo experimento, Walking Triangles, um triângulo percorria a tela da
esquerda para a direita com um movimento trêmulo. Cada vez que isso acontecia, o
movimento era acompanhado por um som diferente. Em seguida, foi perguntado como (e se)
cada um dos sons contribuía (ou não) para que o triângulo parecesse ser um personagem
animado com traços de personalidade, atitudes e sentimentos. O objetivo do experimento foi
demonstrar como sons vocálicos podem ajudar a atribuir características humanas a objetos
inanimados. Outro exemplo interessante é o robô R2D2 do filme Guerra nas Estrelas (Star
Wars). O personagem ganha vida com a série de sons sintetizados que emite.
O terceiro experimento, Boat, apresentava um pequeno ponto luminoso, em uma tela
escura, similar à lanterna de um barco visto ao mar durante a noite. Quatro sons diferentes de
buzinas de barco podiam ser associados à imagem. Progressivamente, cada um dos sons fazia
com que o "barco" (de onde era emanada a luz) parecesse estar mais próximo. Embora as
diferenças de volume (amplitude) entre os sons fossem insignificantes, as pessoas tiveram a
sensação de maior ou menor distância de acordo com a presença, ou ausência, de altas
freqüências (agudos) em cada som de buzina. Isso acontece porque as freqüências mais altas
são atenuadas à medida que nos afastamos de uma fonte sonora. O objetivo do experimento
134
foi demonstrar como utilizamos o som ao avaliarmos a distância entre nós e uma fonte sonora
qualquer.
No quarto experimento, Petunia, seis animações diferentes foram apresentadas, com
uma mesma trilha de áudio, com pequenas variações de ritmo entre cada uma das associações
entre sons e imagens. Enquanto o som apresentava similaridade com um grunhido de porco
(algo onomatopaico), dentre as animações, apenas uma delas remetia à imagem do animal.
Foi perguntado aos espectadores se as associações entre as animações e a trilha de áudio
pareciam ser convincentes. Os resultados variaram entre “nada convincentes” e “muito
convincentes”. No entanto, a maioria das respostas foi afirmativa, indo ao encontro da noção
de Synchresis (contração de sincronismo e síntese), postulada por Chion (1994: 63). A
proposta deste experimento foi mostrar como diferentes imagens podem afetar a percepção de
um mesmo som.
Finalmente, o quinto experimento, Girl´s Story, apresentava um texto animado a
respeito de uma garota que havia se perdido. A diagramação do texto, com diferentes estilos,
tamanhos, movimentos e posicionamentos de fontes, enfatizava alguns aspectos relevantes da
história. As imagens foram sincronizadas com três trilhas de áudio diferentes: duas com
música, e uma com efeitos sonoros. A primeira era uma música com uma atmosfera “leve” e
“otimista”; a segunda, uma composição “triste”, “sombria”; a terceira, uma montagem feita
exclusivamente com efeitos sonoros. As pessoas foram questionadas a respeito de suas
sensações e interpretações da mesma história apresentada três vezes, cada qual com uma trilha
de áudio diferente. Diante da música alegre”, o público teve a impressão de que o fato da
garota estar perdida não a incomodava; ao contrário, ela parecia até se divertir. Com a música
“triste”, a garota, na avaliação do público, parecia assustada e a situação era ameaçadora. A
terceira trilha, agregou menos informação à história. Os efeitos sonoros, editados em
consonância com os fatos narrados, conferiram um aspecto mais realista, porém com menor
valor agregado. Ao final, a terceira trilha surpreendia com efeitos sonoros dissonantes do
contexto da história. Este foi o momento que mais chamou a atenção das pessoas. Cooley
(1998: 07) acredita que “quando sons e imagens são dissonantes, o público é estimulado a
imaginar mais”. No caso, os sons reproduzidos foram os de uma colisão automobilística.
Cooley (1998: 06) também constatou que nos dois primeiros experimentos, Bumping
Squares e Walking Triangles, as associações entre sons e imagens consideradas convincentes
pelas pessoas ocorreram com maior freqüência. É curioso notar que esses dois experimentos
foram os que utilizaram as imagens mais abstratas. Isso levou Cooley a sugerir que mais
fácil estabelecer uma relação convincente entre sons e imagens quando estas imagens são
135
abstratas, do que quando elas são realistas. Imagens abstratas são mais maleáveis às sugestões
dos sons". Alguém pode dizer que "um pneu freando não soa desta maneira", mas ninguém
afirma que uma "circunferência não soa desta maneira".
Diversos temas relacionados à teoria cinematográfica de produção sonora discutidos
até aqui são úteis para a reflexão sobre possíveis topologias sonoras nos games. Alguns
exemplos:
Synchresis e pacto audiovisual: embora não seja possível prever com exatidão as
ações do jogador, pode-se estabelecer vínculos entre sons e fontes sonoras, além de
determinadas regras de sincronia entre sons e entre sons e imagens, a exemplo do
que acontece em Rez HD, jogo que comentaremos no Capítulo 4.
Sons assíncronos em relação às imagens: em geral, os sons vinculados às ações do
jogador devem necessariamente estar sincronizados a estas ações (e às imagens
correspondentes) para que o jogador saiba que suas ações foram bem-sucedidas.
No entanto, em certos games, os elementos sonoros não estão sincronizados a
fontes sonoras explícitas como acontece nas ambientações urbanas da série GTA
que configuram a extensão do ambiente sonoro, assim como ocorre nos filmes.
Autonomia dos sons em relação às imagens: alguns accessible games para
deficientes visuais, que nem sequer possuem interfaces gráficas, levam esta
proposta a limites extremos. Outros jogos voltados ao grande público, em certos
momentos, também adotam a autonomia dos sons.
Predominância do som ou da imagem: diversos jogos eletrônicos adotam critérios
defendidos por Bresson, ao priorizar a experiência sonora ou a visual. No ambiente
escuro e nebuloso de Silent Hill
30
, por exemplo, o som de um rádio fora de sintonia
é um prenúncio de ameaça iminente. Hotel 626
31
é um caso interessante. Para
começar, o jogo online funciona somente entre 18 h. e 6 h. da manhã. Na gina
inicial do game, na qual o jogador deve se cadastrar ou fazer o login, ouve-se o
som de um relógio de parede antigo que remete a residências do século XIX e
início do XX. A intenção é soar como uma casa mal-assombrada. Os
desenvolvedores recomendam que o jogador apague as luzes do ambiente e utilize
fones de ouvido para potencializar a imersão e os enormes sustos provocados pelas
30
http://www.gamespot.com/ps/adventure/silenthill/index.html
31
http://www.hotel626.com/
136
cenas de terror em um hotel, cujos corredores lembram cenas de O Iluminado (The
Shining), de Stanley Kubrick. momentos de quase escuridão absoluta em que o
jogador precisa orientar-se pelo som. Também é possível conectar webcam e
microfone que registram expressões de medo do jogador.
Emprego não naturalista do som: desde clássicos como Super Mario Bros. e Pac
Man, até jogos recentes, grande parte dos games utiliza sons não-naturalistas. O
naturalismo sonoro é uma tendência mais recente, em especial a partir dos jogos
eletrônicos de sexta geração (Xbox, PlayStation 2 e GameCube).
O uso da técnica para “esconder” o trabalho de produção: assim como ocorre no
cinema, o jogador, em geral, não tem idéia da enorme quantidade de trabalho
prévio para viabilizar a experiência audiovisual interativa proporcionada pelo
game.
Relações entre usos objetivos e subjetivos dos sons e das imagens: neste aspecto, o
limite é a imaginação do produtor de áudio tanto no cinema quanto nos games.
Recursos da linguagem imagética (câmera lenta, flou, transformação ou
desaparecimento da cor, superposição visual e mudanças na luminosidade do
ambiente, entre outros) associados a manipulações de parâmetros sonoros
(amplitude, freqüência, timbre, duração e dinâmica, entre outros) permitem
infinitos níveis de objetividade e/ou subjetividade.
Emprego de leitmotifs: músicas podem caracterizar objetos, circunstâncias,
inimigos, chefes, personagens, ambientes, etc.
ainda outras semelhanças entre o uso dos sons no cinema e nos games. Em ambos,
os sons são capazes de alterar o modo como interpretamos as imagens, assim como as
imagens interferem na percepção dos sons. Além disso, todos os recursos e estratégias de
produção de áudio para cinema são amplamente utilizados em introduções, vinhetas,
transições e cut-scenes de jogos eletrônicos. A única diferença significativa é que no cinema a
trilha de áudio é definida previamente pelos produtores, enquanto nos games uma topologia
sonora configura o comportamento dos sons (vozes, músicas e ruídos) em função das ações,
escolhas e movimentos do (s) jogador (es). Trata-se da aplicação do conceito de áudio
adaptável (adaptive audio). A propósito, o tema merece uma problematização que,
possivelmente, a maioria dos desenvolvedores de games desconsidera: um jogador, após ter
superado um determinado desafio ou fase, pode estar com poucos ou muitos recursos como
137
munição, saúde, tempo, etc. Em ambos os casos, o áudio será o mesmo, que o jogador
atingiu sua meta. No entanto, se estiver com uma quantidade pequena de sobrevida, por
exemplo, provavelmente, estará menos confortável e seguro do que estaria se pudesse contar
com 100% de sua energia vital. Consideramos que a topologia sonora deveria refletir estas
condições. Isto pode ser implementado com diferentes graus de complexidade. O mais
simples seria, por exemplo, um comportamento “X” do som, se o jogador estiver com 50% ou
mais de recursos, ou “Y”, caso o jogador esteja com um índice igual ou inferior a 49%.
A seguir, vamos falar a respeito dos possíveis empregos da voz, da música e do
silêncio como expressão e forma sonora nos filmes e nos games.
O uso da voz
Chion (1994: 123) afirma que o uso acusmático do som, além de permitir a criação de
um cenário imaginário, o qual transcende aquilo que pode ser visualizado, também possibilita
efeitos dramáticos intensos. Basta lembrarmos do uso acusmático da voz em filmes como
Psicose, de Hitchcock, e 2001, Uma Odisséia no Espaço, de Kubrick. A voz acusmatizada
parece, às vezes, onipresente, onisciente e, eventualmente, se identifica em primeiro plano
com a câmera. Nos jogos eletrônicos, o uso de sons acusmatizados, especialmente de vozes, é
muito freqüente. Por essa razão, a escolha de vozes cujos timbres, entonações e atuações
dramáticas sejam adequadas aos objetivos e características de cada game, potencializa o (s)
efeito (s) desejado (s) nos jogadores. Em Bioshock
32
, por exemplo, ouve-se testemunhos em
off do criador da cidade submersa Rapture, Andrew Ryan (interpretado por Armin
Shimerman); em Assassin's Creed, ao entrar em uma área especial, uma voz em off dicas
do jogo e instruções de como atacar, andar, etc.; em Ace Combat 5: The Unsung War todas as
conversas ocorrem por meio de rádio; em Blade II, a voz em off, de Abraham Whistler,
orienta as ações do jogador que encarna o personagem título Blade.
Chion (1994: 171-183) estabeleceu categorias para o uso da voz falada que vão ao
encontro dos conceitos de primeiridade, secundidade e terceiridade da Teoria Geral dos
Signos
33
, de Pierce. São elas:
32
http://www.2kgames.com/bioshock/enter.html
33
SANTAELLA, Lúcia (2000b). A Teoria Geral dos Signos. Como as Linguagens Significam as Coisas. São
Paulo: Editora Pioneira.
138
Theatrical Speech – A fala dramatizada (secundidade)
Textual Speech – A fala representativa (terceiridade)
Emanation Speech – A fala em sua sonoridade em si mesma (primeiridade)
Theatrical speech é a fala dos personagens que estrutura as ações que ocorrem na tela,
seja em um filme ou em um game. Trata-se de uma fala dramatizada em "tempo presente" que
cria a sensação de que estamos testemunhando ou participando de algo, através dos diálogos
que ouvimos e/ou travamos com os personagens. Os signos sonoros costumam receber
suporte dos signos visuais, especialmente por intermédio de gestos, olhares, expressões faciais
e posturas corporais.
Em jogos eletrônicos é possível gravar um número X de versões de uma mesma fala
ou um número X de falas distintas, de modo que a (s) ação (ões) do (s) jogador (es) determine
(m) qual (ais) será (ão) reproduzida (s) em cada momento. Este recurso estimula a
interatividade e ajuda a estabelecer uma determinada "atmosfera" e/ou conotação. Em Halo 3,
por exemplo, 35 mil falas diferentes que, multiplicadas por 10 idiomas, resultam em 350
mil falas!
Podemos estabelecer uma correspondência entre este tipo de relação direta com os
acontecimentos e a noção peirceana de secundidade.
Textual speech é a fala "distanciada" do (a) narrador (a) ou do (a) comentarista; o
voiceover. Trata-se de uma fala que engendra as imagens em uma lógica própria do discurso e
que tem influência direta no modo como percebemos as imagens, interpretando-as,
antecipando-as ou mesmo contradizendo-as. A fala representativa parece estar de alguma
forma associada ao desejo de nomear o mundo, isto é, de criar, por meio da linguagem, uma
representação. Podemos usar um personagem ou um narrador externo. A idéia peirceana de
terceiridade fica muito clara, especialmente quando tratamos de serious games.
Muito próxima da noção peirceana de primeiridade, a emanation speech (a fala em sua
sonoridade própria) não é necessariamente ouvida, discriminada ou compreendida em sua
totalidade. Ela pode ser criada a partir de diálogos ou frases "soltas" que não sejam
completamente inteligíveis, por meio de manipulações de edição (cortes, processamentos de
efeitos, sobreposições, etc.) e/ou de mixagem com outros elementos sonoros como músicas e
ruídos de quaisquer espécies. A idéia é que a fala se converta em uma espécie de emanação
dos personagens ou de algum aspecto particular do game (um segredo, uma imagem
139
figurativa ou abstrata, um “clima”, um ambiente, etc.), revelando algum aspecto puramente
qualitativo como impressões de tamanho, forma, tipo de material, sensações subjetivas, vagas
e evanescentes.
Uma fala pode assumir qualquer uma das três categorias e oscilar entre as mesmas.
Para isso, basta:
Utilizar discursos paralelos, complementares ou contraditórios às imagens.
Variar os níveis de amplitude da fala na mixagem com outros elementos sonoros
(outras vozes, músicas e ruídos). Isso pode ser feito através de:
Rarefação: subtração da voz em relação a outros sons.
Sobreposição (somatória de outros elementos sonoros, inclusive vozes em
outros idiomas e/ou captadas com técnicas de microfonação diferentes e/ou de
categorias distintas).
Mixagem com o mesmo som captado por outro (s) microfone (s) posicionado
(s) no ambiente (variação de coloração e de níveis de inteligibilidade).
Oscilações dos níveis de amplitude, fazendo com que certas palavras ou frases
"emirjam" em meio a outros sons.
Variar os níveis de resposta de freqüências e outras características intrínsecas do
som como ataques de transientes e envelope.
Transformar o som em si mesmo, através de processamentos de efeitos em tempo
real.
É fundamental lembrar que as técnicas sugeridas acima são aplicáveis não apenas às
falas, mas a quaisquer espécies de sons.
A voz também pode atuar como parâmetro de jogabilidade. No game Scarface: The
World Is Yours
34
, por exemplo, os diálogos que envolvem o protagonista Tony Montana são
usados tanto para expressar a raiva do personagem durante as lutas, como também para ativar
o “modo fúria” que eleva a pontuação do jogador.
34
http://www.scarfacegame.com/
140
A música
Embora a música se manifeste acusticamente por meio de sons, ela possui
características específicas que a distingue de outros elementos sonoros. Por um lado, podemos
analisar a estrutura interna da música com suas simetrias e movimentos direcionais que
proporcionam diferentes formas de apreensão. Por outro, pode-se falar no contexto específico
de sua criação, de sua performance ou de sua interação com outros elementos (imagens, sons,
etc.). Cook (1998: 8) afirma que a música representa coisas e valores diferentes em diferentes
contextos onde esteja inserida. A questão fundamental é "o que a música significa aqui" e não
apenas "o que a música significa". A significação emerge do contexto, do entorno. Mas pode-
se dizer que a música efetivamente possua uma significação? Ou será que esta significação
(ou rede de significações) é fruto do diálogo entre as formas e modos de jogabilidade, as
possibilidades de navegação e de interação, as regras, os cheats (truques), as imagens e os
ambientes? Se no ato de jogar, a música confere significação às imagens, estas também não
dão significação à música? Em outros termos, ao invés de se pensar no que a música tem,
pode-se investigar o que ela faz dentro de um determinado contexto. Em Shadow of the
Colossus
35
, por exemplo, a música exerce um importante papel dramático nos momentos em
que o jogador enfrenta os gigantes.
Para Deutsch (2001: 6), a música que oferece suporte à narrativa é constituída como
um vetor, “guiando-nos através de um caminho, que culmina ou se dissipa num instante
predeterminado”. O autor parte da seguinte premissa:
Uma progressão de acordes freqüentemente possui um vetor que implica
numa resolução; o acorde da tônica se segue ao acorde dominante. Essa
direcionalidade ajuda a música a definir a forma de um filme. Não apenas ela
nos conduz ritmicamente através da cena, não apenas ela sugere a emoção
apropriada para sentirmos, mas ela nos permite sutilmente saber em que
ponto nós estamos dentro do processo – vai haver um clímax logo em
seguida? Será que os conflitos logo serão resolvidos? Os compositores nos
oferecem algo dessas respostas como parte de seu papel.
Em um game, os desafios são maiores para os compositores porque não se sabe
exatamente qual será o timing do jogador. A esse respeito, Deutsch (ibid) comenta:
35
http://www.us.playstation.com/PS2/Games/Shadow_of_the_Colossus/OGS/
141
Alguns compositores m empregado loops de diferentes durações como um
modo de encher o espaço, mas técnicas como essa são incapazes de prover
um vetor convincente para um contexto devido à indeterminação da duração
sem falar da dificuldade em criar material harmônico que não resolva em
uma cadência, apesar de Wagner.
Em seguida, o autor aponta o fato de que a maior dificuldade em se compor para
games não é de natureza técnica, mas musical.
O processo envolve a composição daquilo que eu chamo de contraponto em
360º, frases musicais que podem ser apresentadas por si mesmas ou com
outras em qualquer combinação, timbre ou densidade, sem perderem seu
vetor ou se tornarem tão vazias quanto a maior parte do minimalismo.
Naturalmente, não é difícil compor esse tipo de música se você se contenta
com um ou dois acordes.
No cinema, costuma-se dizer que uma boa trilha sonora é aquela que o público não
percebe. Nos games, esta premissa adquire uma dimensão muito mais complexa para o
compositor, uma vez que a maioria das pessoas joga mais vezes um game do que assiste a um
filme. Então, como evitar que a música “enjoe”? Deutsch (2001: 8) acredita que “é necessário
que a música se torne tão integrada à atmosfera do game que o usuário perceba seu
desaparecimento como prejudicial ao jogo. E o que também se necessita é um sistema de
composição que pudesse prover infinitas, mas não vazias, variações”.
Em resposta aos apelos como os de Deutsch, os compositores Michael Land e Peter
McConnell desenvolveram, nos anos 1990, quando trabalhavam na LucasArts, uma audio
engine chamada iMUSE (Interactive MUsic Streaming Engine). O conceito por trás desta
tecnologia é sincronizar a música com os eventos visuais, de modo que o áudio esteja
vinculado aos elementos da ação dentro do universo do jogo e as transições entre temas
musicais sejam imperceptíveis, sem cortes ou emendas aparentes. Confira o que diz Phillips
(2005) a esse respeito:
Esta música interativa (conhecida no mercado como iMUSE) é, com
freqüência, uma música que cria “atmosferas sonoras” que se modificam de
acordo com o “clima”, acontecimento ou ação no jogo. Este tipo de música é
comum em games Adventure/Role-Playing. Myst é brilhante neste aspecto
porque, pela primeira vez, a música foi usada como indício de que algo ruim
está prestes a acontecer ou que algum mistério a ser desvendado (como
142
em cenas de Indiana Jones, o uso de graves profundos... movimentos
ascendentes na escala musical que denotem tensão... s sabemos que
estamos à procura dos vilões ou pelo menos é o que pensamos).
Ninguém pode negar que a música causa determinados efeitos nas pessoas e, em
princípio, é perfeitamente possível descobrir que efeitos são esses. Quanto à significação, é
bem diferente. Não apenas visões distintas a respeito do que a música possa significar,
como várias correntes que simplesmente defendem que a música o possui qualquer
significação. Nos games, a significação de uma música pode, em alguns casos, ser descrita em
termos de “climas” que sugere e/ou de indícios que oferece em termos de jogabilidade. Em si
mesma, a música pode não ter um significado mas, certamente, está apta a incorporar
significados "externos" a partir de sua interação com outros signos (visuais, verbais ou mesmo
sonoros).
Como dissemos no Capítulo 1, ao nos referirmos aos espaços evocativos, uma
estratégia amplamente utilizada no cinema e nos games é o uso de estilos ou gêneros. Uma ou
duas notas de um estilo musical facilmente identificável são suficientes para atingir um
público específico e para estabelecer nexos entre o game e valores e idéias codificadas
socialmente. A música realiza um discurso invisível, através do repertório cultural do jogador.
Em outras palavras, a música participa da construção da significação, mas não revela qualquer
significado, manifestando-se apenas por meio dos seus efeitos. Por este motivo, identificar o
papel da música no contexto estético-discursivo de um filme ou jogo eletrônico, ouvindo-a em
si mesma, requer uma escuta crítica. É algo como sair do jogo da experiência estética. É
necessário abandonar o estado imersivo; sair da posição do jogador e assumir o papel do
produtor. Na análise da música nos games, assim como no cinema, há um problema
metodológico a ser solucionado. É comum o uso de palavras como "projetar", "destacar" e
"enfatizar" para designar o papel da música em um jogo eletrônico ou filme. Mas um
perigo nesta terminologia. Quando se usa esses termos, parece que a música é um suplemento
de uma significação preexistente. Se quisermos sintetizar as relações música-imagem e
música-narrativa em poucas palavras, implicação mútua é um termo mais preciso.
Com o objetivo de formular uma teoria geral da significação musical, Daniel Putnam
(apud Cook, 1998: 22) descreveu como as formas da música instrumental, com suas variadas
gamas de intensidade e impacto, amplamente reconhecíveis, podem associar-se às diversas
emoções humanas. Ele enfatiza que as emoções não são apenas abstratas mas, relacionam-se
sempre a algo em algum contexto. Por exemplo, você pode ser ciumento de seu (sua) parceiro
143
(a), mas não pode ser apenas ciumento. Assim, o potencial da música, nos games, adquire
significações específicas a partir do alinhamento com outros tipos de signos (visuais e
verbais), formas de ação e de jogabilidade. A questão "o que a música significa?" trata a
significação como se esta fosse uma característica intrínseca do som, ao invés de um produto
da interação entre a estrutura sonora e as demais variáveis de um game. Analisar a música é
analisar a interação entre os seus elementos: como cada nota influencia e é influenciada por
outras. A análise dos games é similar à medida que se faz necessário compreender como cada
elemento interage com os demais.
Cook (1998: 88-89) não acredita que a significação da música emirja daquilo que o
compositor tem intenção de expressar no momento em cria, nem daquilo que os ouvintes
sentem quando a ouvem, embora não se possa negar que determinados clichês composicionais
são largamente empregados com sucesso junto ao grande público. Para o pesquisador, o cerne
da expressão musical é o movimento que reproduz propriedades dinâmicas de idéias como
amor, medo e alegria: "num sentido amplo, a força ascendente ou descendente de uma nota ou
acorde é também movimento. Este é o elemento que a música tem em comum com nossas
emoções e que, com criatividade, possibilitam uma variedade infinita de formas e contrastes".
Cook (ibid) afirma que a música apresenta características emocionais aparentes: pode
soar triste da mesma forma que um cão São Bernardo pode parecer triste; isto é, não porque
ele esteja de fato triste, mas porque uma certa semelhança entre a sua aparência e a de uma
pessoa triste. Em outras palavras, a tristeza de um São Bernardo ou a de uma música não é a
revelação de um estado de consciência, mas uma gestalt convencionada culturalmente. Em
uma música acontece algo similar: ela pode ser triste não no sentido literal, nem porque o
compositor estivesse triste quando a criou, nem mesmo porque nos faça sentir tristes, mas,
simplesmente, porque apresenta características aparentes, externas, de tristeza. Se por um
lado, o movimento pode sugerir emoções genéricas como alegria e tristeza, por outro, é
incapaz de fazer o mesmo com emoções específicas como "alegria por passar no vestibular"
ou "tristeza por perder uma partida importante". Santaella (2001a: 83) afirma que:
E a emoção é tão falada porque ela apresenta características gerais. É por
isso que damos nomes às emoções: alegria, espanto, raiva, etc. Nesse caso,
podemos nomear o que sentimos porque se trata de um sentimento
codificado, repetível. É nesse nível que costumamos dizer que tal música é
alegre, tal música é triste, tal música é melancólica, etc. É claro que a música
144
em si mesma não é nada disso. Na maior parte das vezes são nossos hábitos
ou convenções culturais que nos fazem projetar esses rótulos sobre a música.
Em seguida, Santaella (ibid) aprofunda a questão:
Entretanto, aqui aparecem alguns complicadores. Há, de fato, certos modos
musicais que são ligados a certos pathos e mesmo certos ethos. Os gregos
atribuíam efeitos morais a cada um dos modos musicais. Da mesma maneira,
as indicações de andamento como allegro, piano, moderato têm relação com
certos estados de espírito. Essas formas expressivas evocam emoções porque
provavelmente as diferentes cadências e ritmos, os tons graves e agudos, os
diferentes coloridos ou timbres dos instrumentos apresentam
correspondências com os ritmos vitais, sensações viscerais e pulsações
biológicas que também são diferentes, mais rápidas ou mais lentas,
dependendo de estarmos sentindo alegria ou desgosto, euforia ou tédio,
placidez, etc. Sob este aspecto, a música provoca aquilo que chamo de
emoção instintiva, ressonância, correspondências que são atraídas por
semelhança de pulsação. Em suma, ritmos sonoros que apresentam
correspondências com ritmos biológicos que acompanham diferentes estados
de sentir. Desse modo, os rótulos culturais de emoção que costumamos colar
a certos tipos de música não são inteiramente arbitrários, mas têm seus
vínculos de motivação nas similaridades entre a música e as pulsações
biológicas.
A teoria do cinema clássico hollywoodiano propõe que imagens e palavras podem
contar histórias que a música não consegue contar. Porém, a música faz coisas que as imagens
e palavras não podem: vasculham e intensificam os pensamentos (ação interna) dos
personagens e adicionam à cena terror, grandiosidade, alegria, mistério ou qualquer outro
"clima". Deste ângulo, palavras e imagens podem ter um caráter denotativo, enquanto a
música, um caráter conotativo. Mas isso não é uma regra. Roland Barthes (apud Cook, 1998:
119-120), ao analisar as relações entre textos e fotografias, por exemplo, afirma que embora,
na maioria das vezes, as imagens ilustrem os textos, no caso da legenda fotográfica, ocorre o
inverso. Por isso, se palavras e imagens podem ter características denotativas ou conotativas
em circunstâncias diversas, é natural que conotação e denotação não sejam atributos de uma
forma de expressão específica, mas funções que cada uma delas pode assumir num
determinado contexto.
145
Bernard Hermann (apud Cook, 1998: 66-67), compositor e colaborador de Alfred
Hitchcock, afirma que a música revela ou intensifica a ação interna dos personagens em um
filme. Ela confere à cena “atmosferas” específicas. Pode ainda ser o fio condutor da narrativa,
impondo-lhe diferentes ritmos, transformar meros diálogos em seqüências poéticas e,
finalmente, ser o elo entre a tela e o público, de modo a proporcionar uma experiência única.
O mesmo princípio é válido para jogos eletrônicos.
A seqüência de Psicose em que Marion (Janet Leigh) está dirigindo na tempestade e
pára diante do motel de Bates (Anthony Perkins) é exemplar. Nela, a música repetitiva de
Hermann não está conectada literalmente a qualquer evento visual; por exemplo, o
movimento regular dos pára-brisas do carro ou o ritmo irregular dos faróis dos veículos que
vêm em direção oposta. Nem mesmo está associada à velocidade do carro e da chuva, já que à
medida que o automóvel diminui a velocidade até parar, a música mantém seu próprio ritmo.
Ao contrário, a característica repetitiva de sua orquestração cria uma qualidade obsessiva tal
qual quando um pensamento insiste em se instaurar na mente, repetidas vezes, ainda que
tentemos nos livrar dele. Assim, a tensão, sugerida pela música, é transferida para o estado
psíquico da personagem. Ou será que é o estado psíquico da personagem que transfere para a
música as suas características? Sugerimos ao leitor experimentar assistir à cena duas vezes:
primeiro, com o áudio ligado e, depois, desligado. Observe suas impressões. O processo de
transferência de atributos também ocorre em direção oposta, ou seja, no contexto do filme, a
música adquire um caráter sinistro que não possui, quando ouvida separadamente; assim, o
filme também afeta a percepção sobre a música. O resultado da interação entre música e
imagem é o que cria a identificação da platéia com a personagem. Experimente agora ouvir a
música sem olhar para a tela e, depois, observando-a. Assim, o papel da música não é o de
reforçar a atmosfera do filme, mas o de tomar parte no processo de construção desta
atmosfera.
A análise de filmes sugere que o resultado da somatória de diferentes formas de
expressão sonoras e visuais representa mais do que a simples combinação dos atributos de
cada uma delas. Como pode ser visto em Psicose, algo que resulta da interação entre a
música e as imagens e esse algo é diferente do que é intrínseco à música ou às imagens
separadamente. Assim, podemos dizer que certas propriedades emergem da interação entre
diferentes formas de expressão dentro de um contexto específico. Mas, quando pensamos nos
games e na possibilidade de emprego dos elementos sonoros de forma aleatória, podemos
criar diversas re-significações, simplesmente, por exemplo, adicionando diferentes músicas a
uma determinada fase ou, ao contrário, apresentando diversas fases com a mesma música ou,
146
ainda, diversas músicas interagindo com diferentes fases. A emergência de significações é um
atributo potencial dos jogos eletrônicos.
Se a música, através de similaridade estrutural, direciona a atenção para a
característica "a" de um game e gera uma conotação "x", então a conotação "x" pode ser
associada à característica "a". Em outras palavras, se atributos de sons e imagens se
interseccionam, então, alguns ou todos os demais atributos dos sons ou das imagens poderão
ser transferidos de um para outro meio de expressão. Ou seja, uma vez feita uma analogia
entre A e B, todo um conjunto de associações passa a ser estabelecido. Não apenas B é como
A de certa maneira, mas, qualquer atributo de A também é de B. Assim, o que parece ser
necessário para a emergência de significação, em relações intermidiáticas, é uma intersecção
limitada de atributos e não uma total concordância ou divergência.
A precondição da criação de metáforas é o que Cook (1998: 67-74) chama de
estabelecimento de similaridade. É preciso encontrar atributos em comum. Por exemplo:
Amor é guerra. Tanto um quanto outro envolvem duas (ou mais) partes e, em ambos, a
possibilidade de conquistas, planejamentos, recuos estratégicos, etc. O significado da
metáfora, entretanto não está associado ao estabelecimento de similaridade, mas, ao contrário,
depende do que a similaridade estabelece, isto é, da transferência de atributos de um termo
para outro. No caso de Amor é guerra, por exemplo, ocorre:
AMOR É GUERRA
Guerra é (x, y, z)
Então, AMOR é também (x, y, z)
A metáfora dá a palavra AMOR um novo significado. Assim, mais do que representar
ou reproduzir um significado, a metáfora participa da construção de um novo significado.
A metáfora é uma forma de se estabelecer similaridades entre diferentes formas de
expressão como sons e imagens. Neste sentido, o modelo de "quase-sinestesia" de Cook
(1998: 29) oferece muitas pistas a respeito do que podemos fazer em termos sonoros para os
jogos eletrônicos. Por exemplo, praticamente qualquer pessoa concorda que uma nota aguda
de uma flauta soa mais "brilhante" do que a mesma nota, tocada em uma tuba. Ao mesmo
tempo, a tuba tem um som "maior" (e não necessariamente com mais amplitude) do que o da
flauta. Da mesma forma, a vogal “i” parece ser mais brilhante que a "u". Isso não significa
que a maioria das pessoas terá uma sensação visual de luminosidade quando ouvir uma flauta
147
ou a vogal "i", o que seria o caso de sinestesia, verdadeiramente. Brilho e tamanho são
características bastante evidentes de "quase-sinestesia". Em Fantasia, de Walt Disney, por
exemplo, diversas correlações entre tamanho e brilho de imagens e sons. Há, porém,
outras. Por exemplo, num famoso experimento, o pesquisador da Gestalt, Wolfgang Köhler
(apud Cook, 1998: 75-76), descobriu que ao associar palavras sem significado como
"maluma" e "taquete" a imagens, a maioria das pessoas vinculava "maluma" a superfícies
arredondadas e "taquete" a angulares. Outro exemplo é o uso de cenas em preto e branco, em
filmes ou videoclipes coloridos, para revelar ou atribuir qualidades como dor ou perda à
música.
O tempo é outro fator determinante na percepção da "quase-sinestesia". Uma cor
brilhante pode corresponder a um som brilhante em sentido absoluto, mas, muito mais
evidente é a relação entre cores claras e escuras, por um lado, e sons claros e escuros, por
outro. Do alinhamento temporal destas relações resulta o fenômeno mais perceptível e
imediato: o paralelismo. Por isso, os games nos oferecem um vasto campo de exploração de
possibilidades, que permitem múltiplos paralelismos. Portanto, as relações entre sons e
imagens podem ser mais facilmente estabelecidas por princípios de gestalt do que por
correspondências intrínsecas entre signos de naturezas distintas.
Cook (1998: 78) afirma também que "qualquer alinhamento entre sons e imagens em
movimento que atinja um determinado ponto de similaridade entre ambos (sons e imagens),
pode causar um efeito de transferência entre as qualidades rítmicas de cada um". No filme Le
Voyage dans la Lune de Georges Méliès (apud Cook, ibid), produzido em 1902, os passos de
um marciano parecem estar em sincronia com a música, mesmo estando com um tempo
diferente. Em Dança das Horas, seqüência de Fantasia, percebe-se que as qualidades rítmicas
apresentadas pelas imagens desaparecem, quando o som é excluído. Em outras palavras,
constata-se que a música transfere suas próprias qualidades rítmicas para as imagens, numa
quase ventriloquia. É um exemplo do que Chion (1994: 13-21) chama de valor agregado, isto
é, a capacidade de influência mútua entre sons e imagens.
Quando vemos algo, o som proveniente deste "algo" pode fazer com que vejamos mais
do que a coisa em si; de maneira equivalente, ao ouvirmos algum som, a imagem de sua fonte
sonora também possibilita que ouçamos algo "mais". Daí é possível afirmar que um som está
sempre apto a agregar valor a uma imagem e vice-versa. Este tipo de relacionamento gera
uma relação triádica onde o signo sonoro e o signo visual estão sempre gerando novos signos
a partir de si mesmos e de suas relações recíprocas, ad infinitum. Algo sempre parece estar
prestes a emergir, ainda que não estejamos conscientes disso. Walter Murch (apud Chion,
148
1994: XXII, Foreword) diz que os sons melhor empregados são aqueles que não apenas
alteram a percepção das imagens mas, também, estabelecem com elas uma espécie de
"ressonância conceitual":
O som faz com que vejamos a imagem de maneira diferente; então, esta nova
imagem faz com que ouçamos o som de forma distinta. Isto, por sua vez, nos
permite ver algo mais na imagem que, então, faz com que ouçamos coisas
novas no som e assim sucessivamente.
Sons e imagens influenciam-se mutuamente, emprestando, um ao outro, suas
respectivas propriedades através de contaminação e projeção. As relações entre os signos
sonoros e os signos visuais são tão intrínsecas que, curiosamente, na maioria das vezes, a
qualidade técnica do som é percebida em termos "visuais", ou seja, quanto melhor for o áudio,
melhor a imagem sepercebida. A partir do conceito de valor agregado, o signo sonoro
ganha uma nova dimensão por meio de características do signo visual ou o inverso, isto é, o
signo visual adquire novos significados a partir de características do signo sonoro.
Transformado pela imagem que ele mesmo (o signo sonoro) influencia, o som novamente
reprojeta na imagem o produto de sua mútua influência.
Um recurso estético do cinema, aplicável ao universo dos jogos eletrônicos, é o
emprego do conceito de valor agregado para criar imagens sonoras objetivas e imagens
sonoras subjetivas. As objetivas são aquelas proporcionadas na mente do jogador por um som
(ou conjunto de sons), cuja (s) fonte (s) não é (são) revelada (s), mas é (são) facilmente
presumida (s), em decorrência, por exemplo, de índices de materialidade sonora, como vidro
quebrando. As subjetivas também são criadas na mente do jogador por um som (ou conjunto
de sons), cuja (s) fonte (s) não é (são) revelada (s). Porém, suas características sonoras não
permitem a identificação instantânea da (s) fonte (s) por meio do som, constituindo uma
espécie de “pista invisível” com as imagens imaginadas pelo jogador que ocorrem em paralelo
às imagens do jogo, o que torna a experiência do jogar única para cada pessoa. Este tipo de
estratégia costuma funcionar muito bem em jogos ambientados em cenários 3D.
Certamente, a música também desempenha papel expressivo na criação de imagens
mentais, e contribui para a imersão e a jogabilidade. Muito do que se pensa a respeito da
composição musical para jogos eletrônicos tem, na teoria cinematográfica de produção
sonora, seu ponto de partida, até porque os primeiros músicos e sound designers da indústria
149
de games vieram de Hollywood. Além disso, da mesma forma que o cinema promove
sucessos no mercado fonográfico, a partir de suas trilhas sonoras, os games também o fazem.
O selo Twitch Records, criado pela SEGA, foi tão bem recebido que atualmente lança artistas
e álbuns que não têm conexão direta com o mercado de games. Tommy Tallarico, célebre
compositor de VG Music (músicas para videogames), comanda o espetáculo itinerante Video
Games Live que reúne orquestra, coro, iluminação sincronizada, vídeo, ações ao vivo e
interatividade com o público.
A expressão VG Music designa um amplo leque de produções musicais realizadas para
videogames. Não se trata necessariamente do que poderia ser chamado, de forma mais ampla,
de música interativa, embora em muitos games a música passe por transformações na medida
em que o jogador atua. Aqui, o termo música interativa é empregado exclusivamente ao
tratarmos de músicas compostas para jogos eletrônicos que apresentam algum tipo de
transformação a partir das ações do jogador. Isso acontece porque música interativa, de forma
abrangente, é algo que pode estar relacionado a muitas outras técnicas e tradições musicais
que não fazem parte do escopo desta tese. A possibilidade de músicas que sejam geradas e
modificadas automaticamente surgiu na Grécia Antiga com instrumentos eólicos que
produziam notas aleatórias por meio dos ventos. Mais recentemente, podemos citar sinos de
igrejas de diferentes dimensões que, tocados simultaneamente, trazem à dimensão sonora o
randomismo e a indeterminação tão celebrados na música eletroacústica contemporânea.
Nesta pesquisa, embora não tratemos de temas como música concreta, música estocástica e
serialismo, são descritas diversas abordagens e procedimentos, cuja gênese encontra-se nestes
gêneros, que contribuem com a reflexão sobre a música e os sons em geral, dentro dos
contextos da produção e da jogabilidade dos games.
Comparados aos atuais, os primeiros consoles de games apresentavam limitações
expressivas na capacidade de processamento e na quantidade de memória RAM, o que acabou
criando um tipo de sonoridade com baixa resolução e complexidade, hoje considerada
vintage, por muitos jogadores. Havia também restrições quanto à quantidade de arquivos de
som que podiam ser armazenados e tocados simultaneamente. Assim, até o final do século
XX, o mercado de produção musical não encarava com seriedade o tipo de música produzida
para videogames. Em 2000, ocorreu um fato novo. A National Academy of Recording Arts &
Sciences (NARAS) homologou três categorias que incluem músicas para games na 42
a
edição
do Grammy: “Melhor trilha sonora para cinema, televisão ou outras mídias visuais”, “Melhor
150
canção para cinema, televisão ou outras mídias visuais” e “Melhor composição instrumental
para cinema, televisão ou outras mídias visuais”. Embora nenhuma peça produzida para jogos
eletrônicos tivesse sido indicada e o termo “outras mídias visuais” inclua, além de games,
aplicações web e multimídia, o primeiro passo foi dado para o reconhecimento pela indústria.
Este fato teve origem cerca de dois anos antes, quando o compositor Chance Thomas sugeriu
a um líder da academia a admissão de músicas feitas para games. O executivo torceu o nariz e
perguntou (Marks, 2001: 309-310): “você se refere a coisas como Pac Man e Donkey Kong?”.
Thomas manteve a calma e explicou que havia completado a trilha sonora de um game, na
qual utilizou uma orquestra ao vivo. Eles trocaram cartões de visita e muitos e-mails,
telefonemas, faxes e encontros depois, finalmente, a NARAS reconheceu a qualidade das
composições musicais para jogos eletrônicos. Thomas comenta que o processo foi “como
aprovar um projeto de lei no Congresso”. Este episódio é fruto da evolução tecnológica
acentuada dos games nos anos 1990. Nesteriuk (2007: 169) relata:
A música e o design de som dos primeiros games remetiam às experiências
da música eletroacústica e aos sons produzidos pelos aparelhos
sintetizadores. No caso específico da música, os arranjos sintéticos se
aproximavam muito das composições minimalistas eletrônicas e
eletroacústicas surgidas nos estúdios radiofônicos alemães durante a década
de 50. Assim, percebemos uma coerência na relação do som com a própria
apresentação dos elementos imagético-visuais na tela dos primeiros games.
Atualmente, as limitações não ocorrem mais no âmbito das possibilidades de
reprodução, processamento, armazenamento e quantidade de arquivos e, sim, na interface
entre compositores e programadores. Poucos são os músicos que também sabem programar
com competência. Por esta razão, em muitos projetos são os programadores que realizam a
implementação final das músicas e dos outros sons no game. É conhecida a reivindicação de
compositores e sound designers de games por uma participação mais efetiva no processo de
implantação do áudio. Em resposta a isso, surgem algumas plataformas de desenvolvimento e
middleware que facilitam o diálogo entre músicos e programadores. Mas, ainda estamos nos
primeiros passos em direção a um cenário, onde os produtores musicais possam trabalhar de
forma totalmente autônoma em relação aos programadores, assim como acontece no cinema
entre compositores e diretores. Não estamos defendendo a ausência de diálogo entre os
profissionais de áreas complementares. O que estamos afirmando é que, da mesma maneira
como um compositor não precisa saber dirigir atores ou a fotografia de um longa, este mesmo
151
compositor, idealmente, deveria ser capaz de ter total controle sobre o comportamento das
músicas que cria para um game, sem necessariamente conhecer linguagens de programação.
A produção musical para jogos eletrônicos difere de outros meios como o vídeo e o
cinema, onde as músicas costumam evoluir linearmente com começo, meio e fim, porque não
é possível prever com exatidão quando o jogador vai agir. Por esta razão, ao pensarmos em
música interativa para games, podemos adotar estratégias distintas. Por exemplo, compor
blocos com introduções, finais, partes intermediárias e transições. Cada um destes trechos
musicais pode tocar em ordens diversas, de acordo com as ações do jogador. Este tipo de
criação se parece com um quebra-cabeças, que diferentes partes e transições devem se
“encaixar” a outras partes, mantendo a coerência harmônica e melódica. Em alguns
momentos, como períodos de inatividade do jogador ou, ainda, menus em standby, a música
pode continuar tocando sem interrupções com ou sem variações de suas partes. Se o jogador
decidir enfrentar seu (s) oponente (s), a música deve reagir de imediato, tornando-se mais
intensa ou, ao contrário, ficando mais calma nas ocasiões em que a ação diminui. Dentre os
parâmetros musicais que podem ser manipulados para refletir estas mudanças de contexto,
estão: timbre, pitch, escala, orquestração, processamentos de efeitos e ntese, inclusive com
modelagem física.
Um dos primeiros ambientes de composição musical modular não-linear teve sua
origem em um controle ActiveX, desenvolvido pela Microsoft em 1996 com o nome de
Interactive Music Architecture (IMA). Atualmente, após várias implementações e com o nome
de DirectMusic Producer, pode ser baixado gratuitamente no site da empresa
36
e oferece uma
série de recursos interessantes. Dentre eles, destacamos:
Possibilidade de composição em blocos intercambiáveis (intro, partes A, B, C, D,
etc., transições e final) com variações em tempo real de acordo com parâmetros
definidos a partir das possíveis ações do jogador/usuário.
Reprodução de efeitos sonoros com até 32 variações do mesmo efeito (em
arquivos de áudio individuais). Pense, por exemplo, em sons de passos. Nenhum é
exatamente igual ao outro! As diferentes versões podem tocar de diversas
maneiras: seqüencial a partir da primeira, seqüencial com a primeira sendo
definida aleatoriamente, em ordem aleatória com repetições, ou em ordem
36
http://www.microsoft.com
152
aleatória sem repetições. Os mesmos princípios são válidos para as músicas criadas
dentro do ambiente.
Carregamento e reprodução de arquivos MIDI, WAV e DirectMusic Producer run-
time.
Definição precisa do timing dos eventos sonoros, de modo que os ruídos e músicas
variem dinamicamente ao longo do tempo ou em resposta às ações do jogador.
Reprodução simultânea de múltiplas fontes, cada uma com seu próprio timing e
conjunto de instrumentos.
Posicionamento 3D das fontes sonoras.
Personalização de timbres de instrumentos musicais com a criação de
Downloadable Sounds (DLS), um padrão aberto da associação de fabricantes
MIDI
37
. Os arquivos DLS garantem que diferentes placas de som reproduzam
arquivos MIDI com os mesmos timbres. Até meados dos anos 1990, os arquivos
MIDI soavam diferente ao serem reproduzidos em placas de som de fabricantes
diversos.
Processamentos de áudio em tempo real como reverb e pitch change.
Outra abordagem promissora no processo composicional de músicas para games é a
música generativa. Nela, alguns parâmetros são definidos previamente e a música evolui de
forma aleatória. Cada vez que é reproduzida, se configura como algo novo, indeterminado.
Este tipo de música, sem dúvida, bebe em fontes profícuas como as idéias de Luigi Russolo
38
,
Pierre Schaeffer
39
, Iannis Xenakis
40
e John Cage
41
, entre outros e, mais recentemente de Brian
Eno que trabalhou no desenvolvimento do aplicativo de música interativa Sseyo's Koan
42
,
rebatizado como Noatikl
43
. Trata-se de uma engine de música generativa que cria informações
musicais na forma de notas e controles MIDI para sintetizadores, samplers e processadores de
sinal. Dentre os parâmetros musicais manipuláveis pelo software estão timbre, progressão de
acordes, regras harmônicas e escalas.
37
http://www.midi.org/
38
http://luigi.russolo.free.fr/arnoise.html
39
http://en.wikipedia.org/wiki/Musique_concr%C3%A8te#History
40
http://www.iannis-xenakis.org/
41
http://en.wikipedia.org/wiki/John_Cage
42
http://www.intermorphic.com/sseyo/
43
http://www.intermorphic.com/tools/noatikl/index.html
153
Figura 32 – Manifesto Futurista de Russolo A Arte dos Ruídos
Figura 33 – Screenshot do Noatikl
154
Outro software que merece destaque, embora não tenha sido desenvolvido para o
mercado de games, especificamente, é o conjunto Max/MSP/Jitter
44
, um ambiente gráfico
interativo de programação para música, áudio e vídeo. Por tratar qualquer tipo de informação
como números, permite que praticamente qualquer coisa seja conectada ao programa.
inúmeros exemplos no portal YouTube de pessoas que criam performances musicais,
utilizando o Max/MSP/Jitter junto com o Wii Remote, da Nintendo. ainda uma
comunidade efervescente de usuários que contribuem com a disseminação de novas
possibilidades de uso, por meio da disponibilização de milhares de objetos criados em C, Java
e Javascrip. O site do fabricante conta ainda com dezenas de tutoriais. Este tipo de jogo entre
diferentes tecnologias estimula a emergência do novo, do virtual no sentido do que pode vir a
se atualizar no presente.
O pacote de programas criados originalmente no Ircam
45
e hoje desenvolvidos pela
Cycling '74, controla dispositivos MIDI, equipamentos com portas seriais, envia dados em
rede e gerencia sinais provenientes de dispositivos de entrada. Qualquer fonte de controle
pode ser conectada a uma vasta gama de equipamentos capazes de receber e/ou enviar sinais
que possam, de alguma forma, ser convertidos em padrões numéricos.
Figura 34 – Barra de ferramentas do Max/MSP
Outro avanço significativo na criação de novas sonoridades é um tipo de síntese
sonora conhecido como modelagem física. Esta tecnologia possibilita a criação de
sonoridades inusitadas por meio da modelagem em software de instrumentos que, na maioria
das vezes, dificilmente existiriam fisicamente. A modelagem física promete ainda a criação de
44
http://www.cycling74.com/products/max5
45
http://www.ircam.fr/
155
vozes estranhas, novas e/ou improváveis e, em um futuro que lembra os filmes de ficção
científica, a “ressurreição” de vozes de pessoas mortas como as de Winston Churchill ou
Carmem Miranda. Certamente isso vai dar o que falar para aqueles que gostam de passar
trotes telefônicos.
Uma alternativa de concepção musical para games é a mistura em graus variados de
abordagens modulares com generativas, promovendo a coexistência, por exemplo, de
bibliotecas DLS (Downloadable Sounds) de alta qualidade com arquivos de áudio pré-
gravados, processamentos de efeitos em tempo real, algoritmos de composição aleatória e de
modelagem física. Segundo Bridgett (2002), “a trilha sonora do game pode, eventualmente,
resultar da definição das regras por meio das quais o aplicativo gera o som a partir de cada um
dos seus parâmetros”.
Outro fator que influencia o processo de composição musical é o gênero do game.
Hoffert (2007: 145-156) cita alguns gêneros
46
e subgêneros e aponta caminhos criativos. As
estratégias sugeridas podem coexistir, assim como em diferentes games misturas de
gêneros variados.
Games de ação (action games), por exemplo, costumam ter trilhas sonoras similares
aos filmes do mesmo gênero, isto é, apresentam uma alternância entre momentos de tensão,
suspense e “adrenalina” com outros de relaxamento. Nos instantes de maior atividade, o
andamento, em geral, se acelera e os estilos variam muito, desde as diversas vertentes do
eletrônico, do rock e da black music, até peças orquestrais, dependendo da temática do jogo.
Em alguns games, são compostas músicas exclusivas, enquanto em outros são licenciados
fonogramas de artistas conhecidos.
Nos RPGs, assim como nos jogos de estratégia, histórias bem estruturadas,
personagens caracterizados com detalhes e necessidade de pensamento estratégico. Assim, é
comum o uso de métodos composicionais típicos do cinema como: músicas baseadas em
gêneros cinematográficos (drama, comédia, terror, aventura, ficção científica, fantasia, etc.);
períodos históricos; regiões geográficas; instrumentos, arranjos e escalas específicas;
leitmotivs; hinos; estilos musicais; “climas”, etc. Hoffert (2007: 148) afirma que RPGs
“tendem a usar música orquestral. Freqüentemente, o tema musical principal reflete a temática
monumental ou heróica do jogo, dando mais ênfase à aventura do que à ação. Em alguns
RPGs como Myst, a música realça a beleza ao invés da grandiosidade”. A propósito, a trilha
46
http://en.wikipedia.org/wiki/Video_game_genres
156
de Myst fez tanto sucesso que, na época, foi encartado com o game um CD com as músicas do
jogo; algo inédito até então. Várias orquestras sinfônicas têm se destacado em performances
de obras compostas para RPGs. Neste gênero de jogo, assim como em seus subgêneros, a
música tem grande importância. Em The Legend of Zelda, por exemplo, a ocarina, um tipo de
flauta, desempenha um papel-chave na jogabilidade.
A respeito dos jogos de estratégia (strategy games), Hoffert (2007: 152) informa que
“o objetivo principal é desvendar a solução ou o melhor movimento, ao invés de prevalecer
sobre inimigos e obstáculos. Com freqüência envolvem soluções de problemas que podem
estar associados ao espaço, como encontrar caminhos e manipular objetos”. Assim, as
músicas criadas para este tipo de game costumam ser mais homogêneas, com menos nuances
e dramaticidade que as compostas para os RPGs. A função principal da música nos jogos de
estratégia é criar uma “atmosfera”, uma ambientação sonora, ao invés de uma sincronização
minuciosa com os eventos na tela. Alguns jogos de estratégia oferecem a opção de escolha
pelo jogador da música, dentro de um conjunto de opções previamente definidas, ou permitem
o desligamento da música.
A exemplo dos games do tipo “mundo aberto”, como o GTA, os jogos de simulação
(sims) apresentam uma particularidade curiosa: a presença, dentro do espaço diegético do
jogo, de fontes sonoras como rádios, intercomunicadores, CD players, iPods, instrumentos
musicais e televisores, entre outros. Estes dispositivos podem ser ligados ou desligados pelos
personagens, alterando o ambiente sonoro, e são classificados por Chion (1994: 76-77) como
on the air sounds (veja mais detalhes no tópico sobre o modelo analítico de Chion). Os sims,
diferentemente dos RPGs, que costumam se desenrolar em universos fantásticos, simulam
ambientes reais, de modo que o jogador ouve os sons provenientes de espaços como casas
noturnas, clubes, restaurantes, teatros e outros lugares freqüentados pelos personagens.
Quanto às músicas não-diegéticas, é comum haver uma mistura entre as estratégias
composicionais utilizadas nos RPGs e nos jogos de estratégia. Em algumas trilhas sonoras de
sims, predomina o tipo de música que podemos chamar de “ambiente”, enquanto em outras,
há composições mais dramáticas orientadas às ações do jogador.
Serious games, jogos instrucionais, tendem a mimetizar games de outros gêneros e,
por este motivo, a estratégia de criação musical costuma variar bastante. Hoffert (2007: 156)
lembra que “alguns títulos são baseados em jogos de estratégia, outros em RPGs, outros em
jogos de ação ou, ainda, em simuladores”.
um tipo de jogo eletrônico em que o papel do compositor se destaca. Estamos nos
referindo aos games musicais, um subgênero dos audio games (jogos baseados no som).
157
Dentre eles, estão: Guitar Hero, Rock Band, Ultimate Band e Wii Music. No Capítulo 4,
falaremos mais sobre o assunto.
Em entrevista publicada em novembro de 2007 no portal Music4Games
47
, Koji Kondo
e Mahito Yokota comentam as composições que fizeram para Super Mario Galaxy
48
.
Koji Kondo: Faz 22 anos que Super Mario Bros. foi lançado. O processo de
criação de músicas para games passou por mudanças decorrentes da melhora
de qualidade da tecnologia de software e hardware. Para este título, Super
Mario Galaxy, também compusemos música orquestral. Embora se tenha
passado 22 anos e o hardware tenha melhorado, nosso objetivo ao compor
para games sempre foi o mesmo: criar sons que permitam que as pessoas se
divirtam mais ao jogar. Desta vez, fizemos músicas orquestrais porque
queríamos que os jogadores sentissem a magnificência do universo do game
e também incorporamos várias idéias acerca de sons interativos que variam
de acordo com as situações durante o jogo.
Mahito Yokota: No game, um modo chamado bola rolante. É como se
equilibrar sobre uma bola, na medida em que ela gira. Quando você inclina
seu Wii Remote, a velocidade da bola muda dependendo do ângulo da
inclinação. Sincronizados com a velocidade da bola, o tempo e os intervalos
tonais da música se modificam gradualmente. Você pode curtir as mudanças
suaves e progressivas no ritmo ao variar a posição do Wii Remote, que
possui sensor de movimento. Além disso, melodias simples são geradas
automaticamente em várias cenas do jogo, sincronizadas com a música
orquestral (por exemplo, quando você pega anéis de estrelas, ou quando
moedas surgem após você superar inimigos, etc.). O ritmo e a melodia dos
efeitos sonoros estão conectados interativamente com a música do jogo, o
que é algo que é possível fazer ao se criar música e efeitos sonoros para
games.
Embora a afirmação de Yokota sobre a singularidade da relação entre músicas e
efeitos sonoros para games seja pertinente, vale a pena destacar alguns trabalhos do cinema
japonês que integram, com elegância e maestria, diferentes expressões sonoras como músicas,
ruídos e falas. Burch (1992: 122) aponta o fato de que o som no cinema autoral de diretores
como Kenji Mizoguchi e Akira Kurosawa tem proximidade com a música concreta
49
ao
47
http://www.music4games.net/Features_Display.aspx?id=186
48
http://www.nintendo.com/sites/supermariogalaxy/
49
http://en.wikipedia.org/wiki/Musique_concr%C3%A8te
158
empregar timbres, notas e instrumentos, cuja sonoridade é similar a dos ruídos diegéticos
associados a objetos em cena.
Retornemos agora à idéia de que seria possível integrar ruídos e música em
um único texto sonoro. É evidente que o terceiro elemento da trindade
sonora – os diálogos – poderia igualmente integrar essa relação. É bem
verdade que a modulação de voz do teatro japonês, gritado, ofegante e
estrondoso, comportando uma gama de timbres próxima do “canto-falado”
(sprechgesang), de Schönberg, presta-se particularmente a este tipo de
organização. Mizoguchi, nos filmes que citamos, e Kurosawa,
particularmente em Donzo-Ko (Ralé) e Kakushitoride no San (A Fortaleza
Escondida), tiraram partido das possibilidades de organização “musical” dos
diálogos, quando não os incorporaram especificamente na trilha sonora.
Certamente, nos games, as possibilidades de acoplamentos entre diversos tipos de sons
são ilimitadas, e podem ocorrer por meio de regras de programação associadas às ações do
jogador e/ou ao mapa de navegação. A música para videogames também pode ser pensada em
termos topológicos, dependendo do lugar que ocupe no jogo, a exemplo do que vimos no
Capítulo 1, nos tópicos a respeito dos modelos estruturais de navegação, propostos por Samsel
e Wimberley (1998: 23-40), e dos espaços sugeridos por Jenkins (2008), além das formas de
ação analisadas por Galloway (2006: 1-38), no Capítulo 2. O conceito de topologia sonora
também pode ser aplicado ao processo de composição musical para games. Hoffert (2007:
124-126) descreve alguns lugares típicos de um game. São eles: attractor (“atrator”), startup
(introdução), situation (situação), transition (transição), success (sucesso), failure (fracasso),
ultimate failure (fracasso final), ultimate success (sucesso final, quando o jogo é completado)
e closing credits (créditos de encerramento). Vejamos cada um:
Attractor (“atrator”): presente em arcades, tem como função atrair as pessoas para
jogar. Em termos musicais, costuma ser acompanhado por loops que caracterizam
o “espírito”, tema ou estilo do jogo e, ao mesmo tempo, chamam a atenção. Nos
games de console ou de computador, o attractor é substituído por uma tela inicial
que lembra as imagens iniciais dos home vídeos em DVD, Blu-ray, etc. Aqui os
loops musicais (e de imagens) costumam ser mais longos, uma vez que não
“urgência” em despertar o interesse do jogador que, primeiro, já pagou pelo jogo e,
segundo, não está em trânsito.
159
Startup (introdução): é a vinheta ou seqüência cinemática inicial. Em geral,
apresenta o contexto ou meta do jogo e é pré-renderizada, de modo que não é
possível modificá-la ou interagir com ela. Para o produtor musical, o trabalho de
composição é similar ao que é feito para trechos lineares de vídeos, filmes e
animações.
Situation (situação): caracteriza-se pelo ato de jogar em si, com desafios,
obstáculos, perguntas, enigmas e/ou quebra-cabeças. Neste caso, cada game
apresenta características e temáticas específicas que devem ser consideradas no
processo de criação musical. Algumas abordagens possíveis foram tratadas a
pouco quando falamos em processos de composição modular e música generativa.
A principal diferença entre as músicas compostas para situações de games de
arcade em relação aos de console e/ou de computador é que, nestes últimos, as
peças costumam ter duração maior, que não é necessário encurtar o tempo de
jogo, visando um maior faturamento, como acontece nos arcades. Dentro de uma
mesma situação, pode haver inúmeras transições no áudio em resposta às ações do
jogador. É importante lembrar que as transições no áudio a que nos referimos aqui
são coisas diferentes do item transition (transição) como lugar em um game. As
transições no áudio são justaposições e sobreposições sonoras que proporcionam a
sensação de continuidade enquanto jogamos, e podem ser constituídas por:
o Silêncio entre áudios (um áudio termina e outro começa).
o Crossfade entre áudios.
o Justaposição (colagem / edição por contigüidade) entre diferentes áudios.
o Sobreposição de áudios (início de nova camada de áudio em sincronia com
a (s) que já estava (m) tocando).
o Transição musical (ou não) não aparente entre dois trechos de áudio.
Criar transições não aparentes não é tarefa cil, que não é possível saber de
antemão o timing do jogador. Então, a engine do game ou o middleware, dedicado
à produção sonora, deve ser capaz de realizar transições de maneira satisfatória a
qualquer momento. Veremos a seguir algumas estratégias para a elaboração de
transições não aparentes:
160
o Justaposições (colagens / edições por contigüidade) diretas entre áudios em
limites de células musicais: neste sistema, quando um novo áudio é
“chamado” pela engine, o áudio corrente toca até seu próximo limite (o
próximo compasso, loop, batida, etc.) e, então, o novo áudio inicia. A
vantagem é a simplicidade; a desvantagem é que a ação do jogador pode
ser súbita e a transição soar “forçada” ou demorada.
o Camadas (layers): neste caso, camadas de áudio são adicionadas ou
subtraídas, aumentando ou diminuindo a quantidade de sons simultâneos.
Em músicas, pode haver incremento ou subtração de instrumentos e/ou
vozes. A vantagem é a continuidade, que a música permanece tocando
enquanto novas camadas são adicionadas ou subtraídas. A desvantagem é a
dificuldade de transição rápida para um áudio completamente diferente.
o Matrizes de transições: permitem que o sistema selecione uma transição
apropriada entre qualquer par de arquivos sonoros (com marcas). O desafio
é compor ou produzir áudios que funcionem bem como transições entre
diversos outros trechos de áudios. Isto exige um pensar sonoro (musical ou
não) completamente não-linear.
Transition (transição): ocorre entre uma fase e outra ou após a conclusão de uma
tarefa, missão ou desafio. A exemplo das vinhetas de startup, as transições são
também pré-renderizadas e representam uma pausa durante o jogo. Para o
compositor, o trabalho é similar ao que é feito para seqüências lineares de imagens.
Success (sucesso): acontece na forma de uma vinheta de congratulação ao jogador,
após ser bem-sucedido em uma etapa do game. Assim como a transição
(transition), é linear, interrompe o ato de jogar e, em geral, é acompanhada de
efeitos como aplausos e gritos de ovação e/ou de músicas com andamento rápido,
“animadas”, “vibrantes”, escritas em escala maior.
Failure (fracasso): também se configura como uma vinheta linear que faz uma
pausa no jogo, mas ao contrário do sucesso, denota falha do jogador, que pode
recomeçar a partir do início do jogo, da fase, do ponto em que está (porém com
menos recursos como saúde e vidas) ou, ainda, do ponto salvo mais recente. Com
freqüência, as músicas são compostas em escala menor e têm conotação de derrota.
Mas, às vezes, o tom é positivo, no sentido de estimular o jogador a tentar
novamente. Nas vinhetas de fracasso é preciso ter o cuidado de que o sejam
161
muito mais interessantes e atraentes do que as de sucesso, incentivando o jogador a
errar de propósito, a menos, é claro, que errar seja o objetivo do jogo, o que não é
comum.
Ultimate failure (fracasso final): similar ao failure (fracasso) em todos os sentidos,
com a diferença que o jogador esgotou todos os seus recursos (tempo, vidas, saúde,
etc.). A música, neste caso, pode ser mais dramática, enfatizando o fato de que é
preciso recomeçar para ter outra oportunidade.
Ultimate success (sucesso final quando o jogo é completado): equivalente success
(sucesso), porém com mais entusiasmo, considerando-se o fato de que é uma
minoria de pessoas que chega ao final dos jogos. Assume a forma de uma vinheta
linear que interrompe o jogo e, normalmente, conta com músicas muito vibrantes,
em alguns casos bem “cinematográficas”, com composições orquestrais ricas em
massas sonoras que refletem o caráter “épico” da vitória.
Closing credits (créditos de encerramento): similar à seqüência de créditos no
cinema, é linear e permite ao compositor criar músicas de maneira “tradicional”
com início, meio e fim. Eventualmente, são desenvolvidos, com mais riqueza de
detalhes, temas musicais apresentados durante o jogo.
O conceito de topologia sonora tem ainda um desdobramento capaz de representar
novas formas de jogabilidade e de navegação em jogos eletrônicos, a partir da possibilidade
da localização, pelo jogador, de seu posicionamento no mapa do jogo com auxílio de músicas
e de outros sons. Hoffert (2007: 56-57) fala das composições musicais que fez para um
projeto do CulTech Research Centre, da York University
50
:
A interface foi desenvolvida para usar a música como instrumento de
navegação junto com os textos e imagens. Isto permitiu que usuários com
deficiência visual conseguissem navegar pelos conteúdos com ajuda dos
trechos musicais... Para indicar a posição do usuário no mapa de navegação,
compus uma série de logos e identidades sonoras. No primeiro nível de
escolha, empreguei seis diferentes sons de instrumentos, tocando uma nota
única, e os associei a cada uma das opções do menu principal. Ao identificar
o instrumento, o usuário sabe qual foi a opção escolhida. No segundo nível,
escrevi arpeggios com três notas. Isso permitiu a diferenciação da categoria
principal da sub-categoria pela duração dos sons musicais (uma nota para o
50
http://www.yorku.ca/web/index.htm
162
primeiro nível; três notas para o segundo). Para os dois últimos níveis,
adicionei mais notas para cada melodia, além de harmonia e ritmo. Ao todo,
foram 1.296 peças musicais curtas, cada qual associada a um conteúdo
específico.
Os primeiros videogames não tinham músicas propriamente ditas, mas
apresentavam sons que conferiam ritmo e “musicalidade” ao jogo. Pong, por exemplo, conta
apenas com três sons sintetizados muito parecidos, talvez versões diferentes de um mesmo
som. O primeiro ocorre quando a bolinha (na verdade, um quadrado) bate nas laterais da
quadra virtual; o segundo, quando o jogador rebate a bolinha; o terceiro, ao pontuar (este
último, claramente uma versão do segundo som, porém com duração maior).
Figura 35 – Pong
Em 1975, chega aos Estados Unidos o Gunfight, da japonesa Taito, o primeiro game a
usar um microprocessador. Seu amplificador mono reproduz sons de tiros.
Space Invaders é um exemplo de design sonoro simples e eficiente. À medida que as
naves alienígenas se aproximam, o andamento do som acelera, atingindo um vel obsessivo
que lembra o ritmo de algumas músicas do gênero Drum and bass, que chega a 170 bpm
(batidas por minuto). O recente remake para PSP, batizado como Space Invaders Extreme,
lança mão de músicas eletrônicas ao estilo das pistas de dança e os sons das naves destruídas
atuam como elementos rítmicos. A nova versão também tem feedbacks locutados por uma voz
feminina.
163
Figura 36 – Space Invaders
Em 1978 é lançado, na célebre discoteca Studio 54, de Nova York, Simon Says (no
Brasil, Genius). Muito popular na época, este jogo de memória, baseado em sons, apresenta
quatro tons diferentes sincronizados com o acendimento das áreas coloridas. A cada rodada,
um novo tom é acrescentado, de modo que o jogador deve reproduzir a seqüência realizada
previamente pelo jogo.
Figura 37 – Simon
Nos anos 1980, surge um dos games mais populares de todos os tempos: Pac-Man.
Entre seus sons sintetizados, está o de uma sirene que parece sugerir simultaneamente a
urgência da fuga e do consumo dos pontos. O som que acompanha a morte do personagem
(jogador) também é emblemático e serviu como referência para a criação de diversos outros
sons que representam “falha” ou game over em outros jogos eletrônicos.
164
Figura 38 – Pac-Man
Também nos anos 1980 o áudio contagiante de Tetris colabora para o sucesso do
quebra-cabeças criado pelo programador russo Alex Pajitnov. Na mesma época, é lançada
pela Nintendo a primeira versão de Super Mario Bros., um marco na indústria. Neste game, a
música, cuja tonalidade varia de acordo com a ação na tela, oferece, junto com outros sons,
indicações como, por exemplo, o momento exato em que cessa a imunidade do power-up.
Figura 39 – Super Mario Bros.
165
O áudio começa a ganhar mais pistas com a chegada, em 1986, do console de 8 bits
Sega Master System (SMS). São ao todo quatro canais: três para música e um para ruídos.
Figura 40 – Sega Master System
Um ano mais tarde, é lançado para NES o game The Legend of Zelda. Sua trilha sonora
pode ser encontrada na Internet na forma de arquivos MIDI e mp3.
Figura 41 – Tela de The Legend of Zelda
166
No mesmo ano, 1987, chega às lojas Final Fantasy, cuja trilha sonora, assinada pelo
compositor Nobuo Uematsu, estabelece uma aproximação com as músicas de cinema. Suas
criações para este jogo ganham versões orquestradas e são lançadas em CD (algumas recebem
letras e vocais).
Figura 42 – Tela de Final Fantasy
Em 1989, a Sega lança seu sistema de 16 bits, com seis canais estereofônicos: o Sega
Genesis.
Figura 43 – Sega Genesis
167
A primeira grande aproximação do universo dos games com o da música pop acontece
com Michael Jackson's Moonwalker. O jogo conta com versões sintetizadas de sucessos do
cantor como Billie Jean e Beat It.
Figura 44 – Michael Jackson's Moonwalker
1991 é o ano em que a Nintendo lança o Super Famicom, console de 16 bits que utiliza
o chip de 8 bits Sony SPC700, dedicado ao áudio, capaz de reproduzir oito canais separados.
Figura 45 – Super Famicom
168
Também em 1991, surge o primeiro jogo de esporte com comentários locutados
durante a partida, descrevendo a ação da maneira como aconteceu: Joe Montana Sportstalk
Football II. O game homenageia Joe Montana, o quarterback nascido em 1956, que atuou nas
equipes do San Francisco 49ers e do Kansas City Chiefs na NFL, a liga profissional de
futebol americano, nos Estados Unidos. O áudio deste jogo inspirou a produção sonora dos
modernos games de futebol.
Três anos depois, em 1994, a trilha de Final Fantasy VI para NES (III nos EUA em
1999) é um exemplo da sofisticação por que passa a VG Music, inclusive com o
desenvolvimento de leitmotivs específicos para os personagens. Na ocasião, Nobuo Uematsu é
comparado pelos fãs a John Williams, compositor de trilhas sonoras para filmes como a saga
Guerra nas Estrelas (Star Wars), Jurassic Park Parque dos Dinossauros (Jurassic Park), A
Lista de Schindler (The Schindler's List) e, mais recentemente, A.I. Inteligência Artificial
(A.I. – Artificial Inteligence), Minority Report A Nova Lei (Minority Report) e Memórias de
uma Gueixa (Memoirs of a Geisha), entre outros.
Figura 46 – Final Fantasy VI
Um ano mais tarde, em 1995, a Sony lança o PlayStation, console de 32 bits, capaz de
reproduzir 24 canais de áudio com qualidade de CD, gerenciar loops e processar efeitos em
tempo real como reverb.
169
Figura 47 – PlayStation
Em 1996 chega ao mercado norte-americano o Nintendo 64, console baseado em
cartuchos, de 64 bits, capaz de gerenciar músicas e efeitos sonoros com grande desempenho.
Figura 48 – Nintendo 64
No mesmo ano, a sonoridade dos filmes de terror é incorporada ao universo dos games
com o lançamento de Resident Evil. Este jogo veio a inspirar a produção de uma trilogia para
o cinema, a partir de 2002: Resident Evil O Hóspede Maldito (Resident Evil), Resident Evil
2 Apocalypse (Resident Evil: Apocalypse / Resident Evil 2) e Resident Evil 3 A Extinção
(Resident Evil: Extinction / Resident Evil 3).
170
Figura 49 – Resident Evil
Ainda em 1996, WipeOut XL para PlayStation embala os jogadores ao som de bandas
como The Chemical Brothers, Prodigy, Underworld e Future Sound of London. Neste game
de corrida, é possível escolher a música dentro de um conjunto de opções pré-definidas. Sem
dúvida, o uso de hits das pistas de dança, associado à alta velocidade dos veículos, estimula a
imersão. É nos cenários deste game que o energético Red Bull faz sua primeira aparição na
mídia.
Figura 50 – WipeOut XL
171
Um dos precursores dos audio games
51
, PaRappa the Rapper faz enorme sucesso no
Japão, e desembarca nos Estados Unidos em 1997. Neste game com animações 2D, o jogador
deve fazer com que o cãozinho PaRappa se torne um mestre do rap, em suas várias vertentes.
A trilha sonora do jogo é bem recebida e fica entre as dez mais do GameSpot's Top 10 Video
Game Soundtracks
52
.
Figura 51– PaRappa the Rapper
Castlevania: Symphony of the Night, também lançado em 1997, mistura em sua trilha
sonora gêneros como rock gótico, techno, jazz e diversas variações de metal, com riffs de
guitarra marcantes. Ao final do jogo, durante os créditos, ouve-se a música I Am the Wind
com interpretação de Cynthia Harrell. Outro aspecto que merece destaque é o trabalho de
direção dos atores que fazem as vozes dos personagens.
Figura 52 – Castlevania: Symphony of the Night
51
Audio games são jogos eletrônicos, cuja jogabilidade é essencialmente baseada no som. O capítulo 4 desta tese
é inteiramente dedicado ao tema.
52
http://www.gamespot.com/
172
Glenn McDonald (2008) comenta que The Legend of Zelda: Ocarina of Time, de 1998
para Nintendo 64, é o “primeiro título não dançante a ter jogabilidade baseada no processo de
composição musical. No game, você utiliza a ocarina, uma espécie de flauta, para tele-
transportar, abrir portais e invocar aliados”.
Figura 53 – The Legend of Zelda: Ocarina of Time
Precursor de games como Guitar Hero, Dance Dance Revolution, desenvolvido pela
Konami, em 1998, inaugura um tipo de interface que exige movimentos coordenados do
corpo, a exemplo do que acontece com o Wii, da Nintendo. Na medida em que a música toca,
o jogador deve acompanhar, dançando, o ritmo mapeado entre as setas coloridas na tela e o
pad sobre o piso. Outros títulos da empresa que também se baseiam em músicas são
DrumMania, Guitar Freaks e Hip Hop Mania.
Figura 54 – Dance Dance Revolution
173
Em 1999, a Rockstar Games, adquire experiência no licenciamento de fonogramas de
artistas como Public Enemy (Rebel Without a Pause), Run DMC (King of Rock), Grandmaster
Flash (White Lines), Sugarhill Gang (Rapper's Delight), Eric B. and Rakim (I Know You Got
Soul) e Afrika Bambaataa (Planet Rock) para o game Thrasher: Skate and Destroy
(PlayStation). Na ocasião, o produto concorrente, Tony Hawk's Pro Skater, emprega em sua
trilha sonora nomes do rock como Goldfinger, Unsane, Primus, Suicidal Tendencies e Dead
Kennedys.
Figura 55 – Thrasher: Skate and Destroy
Toda a jogabilidade de Vib-Ribbon, também de 1999, para PlayStation, depende da
música que estiver tocando. Se o ritmo for calmo, o jogo fica lento e estável; se for rápido,
intenso e difícil. O objetivo do game é conduzir a coelha Vibri por uma série de obstáculos.
Se o jogador fracassar, Vibri se transforma em um sapo, depois em um verme e, finalmente,
morre. Ao contrário, se bem-sucedido, o jogador promove Vibri a uma princesa na forma de
fada. O game tem uma série de músicas em formato CD áudio (padrão Red Book), mas o
jogador pode inserir seus próprios CDs, o que modifica completamente a jogabilidade.
174
Figura 56 – Vib-Ribbon
Em outubro de 2000 chega às prateleiras norte-americanas o PlayStation 2, da Sony.
Com uma CPU de 128 bits, o novo console é capaz de reproduzir 48 canais de áudio ADPCM
com taxa de amostragem de 44.1 kHz ou 48 kHz. O equipamento também conta com 2
megabytes de memória dedicada ao som.
Figura 57 – PlayStation 2
No mesmo ano é lançado nos Estados Unidos, pela Sega Dreamcast, SeaMan, um
game de pet virtual em que o jogador conversa com os personagens, utilizando um microfone.
O jogo emprega tecnologia de reconhecimento de voz e é narrado na versão norte-americana
pelo ator Leonard Nimoy, o Senhor Spock de Jornada nas Estrelas (Star Trek).
175
Figura 58 – SeaMan
Também em 2000 chega ao mercado norte-americano Hey You, Pikachu! para
Nintendo 64. O game, que tem como periférico um microfone, é baseado em reconhecimento
de voz e o jogador conversa com o pequeno Pokémon para guiá-lo em suas tarefas. Sua
limitação é o pequeno vocabulário de apenas 200 palavras.
Figura 59 – Hey You, Pikachu!
Um ano depois, em 2001, a Microsoft entra na disputa pelo mercado de videogames
com o Xbox, console de sexta geração que compete com o PlayStation 2, da Sony, e o
Nintendo GameCube. Batizado originalmente como DirectX-box, em clara referência à
tecnologia Direct X, o produto tem seu nome simplificado por razões comerciais. Uma das
inovações do Xbox relacionada diretamente à experiência sonora durante o jogo é a
176
possibilidade de extrair músicas de CDs áudio e salvá-las em um disco rígido interno para que
sejam reproduzidas em games que possuem o recurso de personalização do áudio. O Xbox é
também o primeiro produto a oferecer a tecnologia Dolby Interactive Content-Encoding, que
permite a reprodução de áudio surround 5.1 em tempo real durante o ato de jogar e não
apenas em cut-scenes. O console tem capacidade de reprodução de 64 canais de som 3D ou
até 256 canais estereofônicos.
Em novembro de 2005, chega ao mercado norte-americano o primeiro console de
sétima geração (segunda da Microsoft): o Xbox 360. No Brasil, o lançamento ocorre com um
ano de atraso em dezembro de 2006. Assim como seu predecessor, a nova versão é
compatível com os formatos DirectMusic e DirectSound.
Figura 60 – Xbox 360
Figura 61 – Xbox 360 – Edição especial de
lançamento do filme dos Simpsons
Com um ano de atraso em relação ao Xbox, o PlayStation3 chega ao mercado norte-
americano em novembro de 2006 (no Brasil, apenas em 2008!!!). Assim como seu rival da
Microsoft, permite jogar online, extrair faixas de CDs, armazenar arquivos em disco gido,
reproduzir vídeos e áudio surround 5.1 em tempo real. Dentre suas inovações, está o leitor de
Blu-ray, capaz de reproduzir também CDs, DVDs e Super Audio CDs.
177
Figura 62 – PlayStation3 (Sony)
O terceiro console de sétima geração, o Wii, da Nintendo, também é lançado nos
Estados Unidos em novembro de 2006. Mais simples que seus concorrentes da Sony
(PlayStation3) e da Microsoft (Xbox 360), aposta na forma inédita de jogabilidade e no
público de jogadores eventuais. Possui saída estereofônica compatível com o formato Dolby
Pro Logic II e um pequeno alto-falante mono no Wii Remote que reproduz sons de objetos
como raquetes de tênis. Falaremos mais sobre o Wii no Capítulo 4, dedicado aos audio games.
Figura 63 – Wii (Nintendo)
178
O som e o silêncio como expressão e forma sonora
Em geral, o som é considerado um elemento indissociável da imagem, tanto no cinema
como nos games. Poucos são os filmes e os games exclusivamente sonoros. Um raro exemplo
é a obra Weekend, um "filme sem imagens" da década de 1930 produzido por Walter
Ruttmann (apud Chion, 1994: 143). Trata-se de uma montagem sonora, semelhante a uma
peça radiofônica ou, talvez, a uma música concreta, registrada em ótico. No caso dos games,
uma corrente conhecida como audio games, onde a imagem não é necessariamente
suprimida, mas o som desempenha um papel fundamental, já que a jogabilidade em si
depende do som. Falaremos sobre o tema no próximo capítulo.
Outro caso interessante, foi um projeto criado por pesquisadores da extinta Unidade de
Pesquisas de Deficiências Sensoriais do Departamento de Psicologia da Universidade de
Hertfordshire, no Reino Unido, que trabalharam em 1998 no desenvolvimento de interfaces
sonoras para ambientes interativos, voltados para deficientes visuais (Morley, S., Petrie, H.,
O'Neil, A. M. and McNall, 1998). Neste estudo, variações de vozes e de afinações em uma
mesma voz foram utilizadas como hiperlinks sonoros. Este exemplo aponta a importância e
autonomia que os sons podem adquirir, como sugere Pontuschka (2008) por meio do conceito
de hiperáudio, apresentado no Capítulo 2.
Cooley (1998: 7-10) comenta o game You don't know Jack, desenvolvido pela
Jellyvision (2003). O jogo é estruturado através do que seus autores chamam de Interactive
Conversation Interface (ou iCi). Trata-se de uma metodologia de roteirização que utiliza
técnicas de construção de diálogos para filmes, de modo que para cada escolha ou ação do
usuário, haja uma resposta pré-gravada por um ator ou atriz. Os desenvolvedores da empresa
afirmam que se os redatores e atores trabalharem de forma adequada, o jogador irá vivenciar
aquilo que experimentamos quando vamos ao cinema, ou seja, estará imerso na "realidade" do
jogo com a diferença de que poderá também interagir com os personagens. Na verdade, assim
como ocorre no cinema, o jogador sabe que os personagens são pré-gravados, mas na medida
em que joga, e passa a interagir, esquece-se disso ou este fato torna-se irrelevante. Neste
game, o áudio desempenha um papel mais importante do que as imagens para proporcionar
imersão. Na abertura, com cerca de 50 segundos, por exemplo, os diálogos, realçados com
inflexões, texturas, timbres e enfatizações criam a "atmosfera" de um game show prestes a
entrar no ar. Efeitos sonoros e músicas com naipes de metais, picas neste tipo de programa,
ajudam a completar o "cenário" auditivo. Paralelamente, o que se pode ver na tela do
179
computador é um campo para digitação do nome do participante, uma placa com instruções
(como aquelas usadas em programas de auditório para que a platéia bata palmas, por
exemplo), uma animação com letterings (texto) e alguns botões; tudo sobre um fundo negro.
Em entrevista a Cooley (1998: 7-10), Martin Striker, produtor da versão cinematográfica de
You don't know Jack, afirma que o uso literal de imagens pode, eventualmente, distrair o
jogador e diminuir o sentido de imersão ao invés de aumentá-lo. Ele sustenta a idéia de que
tentar fazer com que as imagens em um monitor pareçam reais, quando são obviamente
artificiais, denuncia a limitação do meio, enfraquecendo o sentido de imersão. Striker crê que
um áudio convincente, bem produzido, associado a imagens abstratas pode ser altamente
imersivo. You don't know Jack oferece ainda a possibilidade de se fazer download de novos
arquivos de áudio. As idéias de Striker, embora adequadas ao contexto tecnológico dos anos
1990, podem ser contestadas, se analisarmos a tendência predominante pela busca de um
realismo “cinematográfico” nos gráficos dos games de sétima geração (a partir do final de
2005). Isso não invalida, no entanto, o argumento de que o som acoplado a imagens abstratas
apresenta grande potencial imersivo.
Outra questão interessante é a maneira como percebemos (ou não) o registro de sons e
imagens no cinema e nos games. Chion (1994: 93) chama atenção para o fato de que as
pessoas não são "conscientes" da presença de microfones, ao contrário do que acontece com
câmeras. Embora a mera esteja excluída do campo visual, ela funciona como um
personagem ativo; um personagem o qual o expectador ou jogador está consciente e, muitas
vezes, se identifica. O microfone, ao contrário, não apenas está excluído dos campos visual e
auditivo (ruídos próprios do microfone, por exemplo), mas, também, da "representação
mental" das pessoas. Aplicativos como o VirtualCinema (2003) colocam o usuário no centro
da ação como protagonista, através de uma câmera que opera "em primeira pessoa". O mesmo
não ocorre com o áudio, exceto em experimentos como áudio-ficções que são peças
radiofônicas parecidas com rádio-novelas, com a diferença de que a matriz verbal, o texto
falado, não funciona como fio condutor da narrativa, isto é, tem menor importância e opera
como apenas mais um elemento sonoro entre outros. Os motivos principais pelos quais não
somos "conscientes" da presença do microfone são dois: um de ordem fisiológica e outro de
ordem técnica. Do ponto de vista fisiológico, é fácil perceber que os ouvidos não têm a
mesma direcionalidade que os olhos. Enquanto a audição é onidirecional, isto é, trabalha em
360º, a visão é mais focada. É por isso que nos identificamos tão facilmente com uma câmera
em "primeira pessoa", ao contrário do que ocorre com microfones, que exigem um esforço
maior da imaginação e do intelecto para a maioria das pessoas. Se estivermos diante de um
180
músico tocando um instrumento acústico, poderemos facilmente direcionar nosso olhar para
ele, ao contrário do que acontece com o som que se propaga em todas as direções e interage
com a acústica do local. Os ouvidos detectam profundidade no som a partir de índices como
redução do espectro harmônico, suavização de ataques e transições, maior ou menor
incidência de transientes, somatórias diferentes entre o som direto e o som refletido em cada
posição que o ouvinte ocupe dentro do ambiente, a presença ou não de reverberação e suas
características como duração, quantidade de reflexões prévias (early reflections), tempo de
retardo inicial (pre delay) e dinâmica de coloração (variações de resposta de freqüências ao
longo do decaimento). Isso não quer dizer que não possamos "focar" nossa audição. O melhor
exemplo é o efeito Cocktail Party. Trata-se da habilidade de discriminarmos, em meio a um
grande número de sons, aquele (ou aqueles) que estamos interessados em ouvir, como a fala
de um interlocutor em meio a um ambiente barulhento. Mas esse fenômeno não acontece em
gravações, como vimos nos exemplos, apresentados no início deste capítulo, do galope de um
cavalo na praia e da captação de um diálogo entre algumas pessoas dentro de um carro em
movimento. De forma similar, se gravarmos um local ruidoso como um restaurante lotado,
perderemos a inteligibilidade de alguns sons que, pessoalmente, conseguiríamos discriminar.
Do ponto de vista do produtor de áudio, essa informação é valiosa, que permite enfatizar
um ou mais elementos sonoros, em momentos diferentes, através da mixagem, para se criar
impressões e sensações distintas, ou seja, é possível "direcionar" a escuta. Esse
direcionamento também pode ser realizado por meio da acusmatização do som, ocultando-se
sua fonte sonora. Assim, é possível estabelecer um jogo dialético de ocultamento e revelação
entre os sons e suas fontes sonoras como nos exemplos a seguir:
Caso 1: primeiro, se mostra a fonte sonora e o som sincronizado a ela; depois, toda
vez que o som for reproduzido acusmaticamente, evocará sua fonte, funcionando
como signo da mesma.
Caso 2: o som é apresentado acusmaticamente, isto é, sem revelar sua fonte
sonora, criando suspense e/ou expectativa.
O som não existe sem o silêncio, e se perguntarmos à maioria das pessoas qual é a
definição da palavra “silêncio”, provavelmente, teremos como resposta comum “a ausência
completa de sons”. Mas será que isso realmente existe? Será possível cessar todos os sons à
nossa volta? Convidamos o leitor a realizar um experimento de escuta que consiste na
observação atenta dos ruídos em lugares considerados silenciosos, como bibliotecas, igrejas,
181
quartos isolados da rua e assim por diante. Um ouvinte atento irá perceber que além dos sons
intermitentes como, por exemplo, um arrastar de cadeira, um objeto que cai, a voz, ou os
passos de alguém andando, um veículo que passa, o folhear de páginas de um livro, etc.,
um outro tipo de som contínuo que caracteriza o que podemos chamar de assinatura acústica
do ambiente. Trata-se do conjunto das interações entre o meio elástico de propagação do som
(no caso, o ar), os movimentos (com maior ou menor intensidade) de todas as coisas e seres
dentro do local, e o comportamento acústico (absorção, reflexão e difusão) das superfícies
como piso, paredes, teto, móveis, tapetes, cortinas, objetos e formas arquitetônicas,
decorrentes de suas geometrias e materiais. Essa assinatura acústica, presente inclusive nos
estúdios de som profissionais mais sofisticados, costuma ser percebida como um ruído
constante de baixa intensidade que os profissionais de áudio chamam de noise floor.
Rodríguez (2006: 180) lembra que “até mesmo no interior de uma câmara anecóica vazia
vibrações detectáveis por um microfone e, logicamente, em qualquer ambiente natural
“silencioso” sempre numerosas vibrações audíveis”. Uma câmara anecóica é uma sala
blindada contra interferências eletromagnéticas coberta de material absorvente que simula o
comportamento do som em espaço aberto sem os ruídos presentes neste espaço.
Originalmente, foi elaborada com propósito militar, com o objetivo de construir aeronaves
que absorvessem ou dispersassem sinais de radar durante a Segunda Guerra Mundial. Hoje,
tem outras aplicações industriais como, por exemplo, testes de alto-falantes e medição de
ruídos com baixíssima amplitude de equipamentos como relógios de quartzo. Após perscrutar
diferentes espaços, o leitor perceberá que não existe silêncio e, sim, silêncios; cada qual com
suas próprias nuances e sonoridades. Rodríguez (2006: 183) comenta:
... o efeito auditivo do silêncio caracteriza-se por uma diminuição súbita de
intensidade na evolução temporal do som, sendo necessário estabelecer um
nível mínimo de diferença de intensidade entre o sinal forte e o fundo sonoro
que se mantém quando o primeiro desaparece. O “fundo silencioso” dessa
forma sonora é um conjunto contínuo de eventos sonoros pouco definidos,
com intensidades próximas às do limiar de audibilidade.
Nas pesquisas que realizou com alunos da Universidade Autônoma de Barcelona
53
(Espanha), Rodríguez (2006: 184) constatou que a sensação de silêncio acontece quando são
atendidas as seguintes condições:
53
http://www.uab.es/
182
É preciso haver uma redução mínima de intensidade sonora em torno de 30 dB.
É necessário que essa redução dure, pelo menos, 3 segundos.
Figura 64 – Interior de uma câmara anecóica
O silêncio está mais relacionado com uma forte sensação de quietude, proveniente da
redução dos ruídos, do que com uma suposta ausência de sons. Se o leitor ligar um aspirador
de em casa, após algum tempo de uso, ao desligá-lo, sentirá a sensação de silêncio, ainda
que haja outros sons claramente perceptíveis ao redor.
Figura 65 – No deserto de Mojave, Califórnia (EUA), está a maior câmara anecóica do planeta.
183
Assim como na música, em que as pausas (silêncios) definem o ritmo, em grande parte
dos games, os silêncios são tão importantes quanto os sons. Rodríguez (2006: 187-189)
descreve três usos expressivos do silêncio:
Uso sintático: o silêncio é empregado como elemento separador entre dois eventos
ou etapas, indicando que “em seguida, começará algo completamente diferente”.
Nos games, ao se afastar, por exemplo, da ameaça iminente da presença do
inimigo, a topologia sonora pode refletir este fato com uma redução sensível na
quantidade e amplitude dos sons, criando uma sensação de “silêncio”.
Topologicamente, os silêncios, em um game, podem denotar as áreas em que o
jogador está em segurança.
Uso naturalista: corresponde ao emprego do silêncio como índice referencial do
que está ocorrendo. Nos jogos eletrônicos 3D são largamente utilizados. Por
exemplo: o jogador pára de andar e os sons dos seus passos cessam; o jogador sai
do carro e o rádio ra de tocar. São o que podemos chamar de silêncios
diegéticos, já que têm relação direta com os acontecimentos no espaço narrativo do
game.
Uso dramático: ao contrário do uso naturalista, não tem compromisso com as leis
da física e é usado para criar efeitos de suspense, solidão, perigo, angústia, tensão,
medo, introspecção, etc. ou para representar simbolicamente algum conteúdo
emocional. Rodríguez (ibid) cita um exemplo interessante a partir de uma cena
ambientada em uma torre de controle aéreo:
... escuta-se pelo rádio o ruído do interior de um avião e a voz angustiada do
piloto, que pede ajuda pelo rádio enquanto explica que um motor do avião
está pegando fogo... O ruído do avião que chega pelo dio aumenta de
intensidade progressivamente... Ouvem-se várias explosões simultâneas
muito intensas e reverberantes durante aproximadamente 2 segundos. Em
seguida, um fundo sonoro silencioso se prolonga por mais de 8 segundos.
O silêncio, sem dúvida, representa a morte do piloto. Mas, é curioso notar que em dois
momentos as leis da física são suprimidas em nome de um “realismo” dramático. Primeiro, se
o avião explodiu, o rádio seria destruído imediatamente, de modo que não se ouviria qualquer
som; segundo, se o ponto de audição está na torre de comando, deveríamos escutar os sons
deste local ao invés de um silêncio prolongado.
184
Bela Balaz (apud Weis and Belton, 1985: 119) realça o uso dramático do silêncio:
Se um filme apresenta objetos cercados por sons naturalistas do cotidiano e,
de repente, os elimina e, em silêncio absoluto, focaliza apenas um objeto,
então a aparência deste objeto evoca um determinado sentido e tensão que
convidarão o próximo evento...
A supressão de um som esperado cria um efeito de "vazio" ou de mistério, sem que
estejamos necessariamente conscientes de sua origem.
O som também pode denotar silêncio. Ruídos distantes de animais como grilos e
lobos, de um relógio de parede em uma sala silenciosa, do vento sobre as árvores em espaço
aberto ou passando por uma janela entreaberta, de uma pequena reverberação dos passos de
alguém caminhando, de água corrente em um túnel, de uma goteira caindo em um balde
metálico, da chuva na rua ou em uma paisagem mostrada em plano geral, de um murmúrio e
qualquer barulho sutil do espaço imediato podem sugerir locais silenciosos e
efeitos
dramáticos intensos. Foram implementações tecnológicas como o Dolby que permitiram a
exploração da sonoridade do silêncio. Burch (1992: 127) lembra que, com o tempo, os
cineastas perceberam o papel dialético que o silêncio:
...pode desempenhar junto a todos os tipos de sons. Chegam mesmo a fazer a
distinção (sutil, mas essencial) entre as diferentes “cores” do silêncio
(silêncio na pista de som, silêncio produzido em estúdio, silêncio campestre,
etc.) e entrever o partido que podem tirar dele (como é particularmente o
caso em Duas ou Três Coisas que Eu Sei Dela, de Jean-Luc-Godard).
No cinema, quando o som é suprimido, a tendência de olharmos as imagens com
mais
atenção. Nos games, no entanto, isso pode reduzir o grau de imersão do jogador que
estará mais receptivo aos sons do ambiente em que se encontra.
A suspensão do som pode, ainda, funcionar como índice de passagem do tempo
quando, por exemplo, os diálogos são suprimidos provisoriamente em favor de uma música
não-diegética ou como "ponte" ou transição entre planos da narrativa; do real para o
imaginário ou vice-versa.
Na música, um exemplo emblemático do emprego do silêncio como forma sonora é a
obra 4
33 (quatro minutos e trinta e três segundos) de John Cage. Composta para qualquer
instrumento ou conjunto de instrumentos, sua partitura instrui o (s) performer (s) a não tocar
185
durante toda a duração da peça. Como resultado, o que se ouve é o conjunto dos sons do
entorno de onde ocorre a apresentação.
A seguir, no Capítulo 4, vamos falar dos games onde o ato de jogar está fundamentado
no som.
186
Capítulo 4 – Audio games
O termo audio games, para alguns, designa uma categoria de jogos eletrônicos, na qual
a jogabilidade é exclusivamente baseada no som. Sem dúvida, jogos eletrônicos assim podem
ser considerados audio games. No entanto, esta classificação é problemática por quê:
1. O primeiro audio game, Touch Me, produzido pela Atari, em 1974, também
possuía feedback visual na forma de luzes, que se acendiam sincronizadas com os
sons. Este jogo, em 1978, ganhou uma versão portátil e inspirou o lançamento, no
mesmo ano, de um grande sucesso de mercado: Simon Says (no Brasil, Genius).
2. Muitos games comerciais, produzidos para o grande público, apresentam feedback
visual e jogabilidade baseada no áudio (os games musicais, principalmente).
3. A expressão audio games nos parece mais apropriada para indicar uma grande
categoria que inclua os games (exclusivamente sonoros ou não) com acessibilidade
para deficientes visuais, os jogos sonoros não necessariamente (ou apenas)
musicais (LocoRoco, por exemplo) e os games musicais (Amplitude, Guitar Hero,
Wii Music, etc.).
Os games para deficientes visuais, em particular, representam um tema amplo, o
bastante, para o desenvolvimento de uma tese inteiramente dedicada a eles. Portanto, aqui nos
limitaremos a fazer uma pequena introdução ao assunto que, possivelmente, será aprofundado
em trabalhos futuros deste pesquisador. Este tipo de game integra também um outro conjunto
maior conhecido como games com acessibilidade (accessible games). Neste grupo estão, além
dos jogos eletrônicos para deficientes visuais, os games para deficientes auditivos, deficientes
físicos e pessoas com dificuldade de aprendizado. Aqui vamos nos restringir aos games para
deficientes visuais, mas o leitor pode encontrar mais detalhes sobre a produção de jogos
eletrônicos para outros perfis de deficiência no site http://www.game-accessibility.com/.
187
Figura 66 – Touch Me
Figura 67 – Bop-It Extreme 2, de 2002 (jogo rítmico de memória baseado em comandos locutados)
188
Accessible games
Os primeiros accessible games para PCs se apoiavam em textos e funcionavam
integrados com software text-to-speech (TTS). Com essa tecnologia, é possível, aos
deficientes visuais, participarem de jogos clássicos de tabuleiro, como batalha naval, games
online baseados em HTML, MUDs (Multi-User Dungeons) e jogos de ficção interativa como
Colossal Cave Adventure (1976), Zork I: The Great Underground Empire (1980) e The
Hitchhiker's Guide to the Galaxy (1984), entre outros. Embora haja, atualmente, centenas de
games baseados em textos, a experiência do jogador é muito limitada, face à simplicidade
desses jogos em comparação com os chamados mainstream games.
Figura 68 – Tela de Colossal Cave Adventure (1976)
Na medida em que as interfaces textuais foram substituídas pelas gráficas, pessoas
com deficiência visual passaram a enfrentar dificuldades para jogar, especialmente em games
com ambientes 3D como Final Fantasy, Myst e Doom. Em resposta a este cenário,
começaram as primeiras tentativas de adaptação de jogos eletrônicos, por meio de feedbacks
sonoros, para deficientes visuais e, ao mesmo tempo, o desenvolvimento dos primeiros games
exclusivamente sonoros. Um caso curioso de adaptação é a vitória, numa partida de Mortal
Kombat, do jogador deficiente visual Brice Mellen (Lincoln, Nebraska) sobre Ed Boon, o
desenvolvedor do game.
Nos jogos 100% sonoros (sem interface gráfica), todas as referências espaciais são
oferecidas ao jogador por intermédio dos sons. Por isso, na maioria das vezes, os ambientes
sonoros costumam ser menos complexos do que em diversos jogos eletrônicos convencionais,
com o objetivo de simplificar a jogabilidade. Nos jogos sonoros mais elaborados são
189
utilizados recursos como gravações binaurais
54
que reconstituem a tridimensionalidade da
propagação sonora. Um exemplo interessante é o jogo BBBeat, criado por Makato Ohuchi na
Tohoku Fukushi University
55
, no Japão. Com fones de ouvido e sensores fixados nos pulsos, o
jogador deve acertar uma abelha, orientado apenas pelo som. A espacialidade sonora é
representada em termos de amplitude (volume), movimentos panorâmicos (deslocamentos das
fontes sonoras), variações de resposta de freqüências, timbre (s) e reverberação, entre outros
fatores. Nos accessible games, é comum o uso de locuções pré-gravadas para os menus e
loops de ruídos para facilitar a localização da (s) fonte (s) sonora (s) pelo jogador.
Figura 69 – Neumann KU 100 (As cápsulas estão nos ouvidos do microfone em forma de cabeça para
gravações binaurais)
A maioria dos accessible games é desenvolvida por estudantes, pesquisadores,
entusiastas e pequenas empresas com até quatro pessoas em suas equipes. Por essa razão, as
verbas, estruturas organizacionais e condições de trabalho não se equiparam às das grandes
produtoras de jogos. Tanto é assim que vários pequenos desenvolvedores e portais de
accessible games têm, em seus sites, links para receber doações de internautas. Por outro lado,
o interesse de diversas universidades tem apontado direções novas para o emprego do áudio
não apenas nos accessible games, mas também em jogos convencionais. Pesquisadores do
54
Sugerimos ao leitor interessado no assunto a escuta da peça sonora Virtual Barbershop (Barbearia Virtual)
que pode ser acessada em: http://www.youtube.com/watch?v=IUDTlvagjJA. O uso de fones de ouvido é
imprescindível para otimizar o efeito de tridimensionalidade do som.
55
http://www.tfu.ac.jp/
190
SITREC
56
(Stockholm International Toy Research Centre), por exemplo, criaram três jogos
baseados em áudio dentro do projeto TiM
57
(Tactile Interactive Multimedia), cujo objetivo é
oferecer a crianças, com deficiência visual, jogos eletrônicos que possam ser utilizados por
elas sem a ajuda de outras pessoas. Segundo Gärdenfors e Friberg (2004: 2), suas principais
metas foram: “(1) mostrar que games para deficientes visuais podem ser tão avançados,
complexos e estéticos quanto jogos eletrônicos populares e (2) indicar novas áreas de
desenvolvimento para os games convencionais, por meio de uma atenção maior na
jogabilidade a partir do áudio”. Ao contrário da maioria dos jogos eletrônicos, em que o áudio
é o “primo pobre”, ficando para as últimas etapas de produção, nos accessible games o som é
o foco principal. Vamos comentar algumas características da produção sonora dos games
Mudsplat, Xtune e Tim’s Journey, produzidos por Gärdenfors e Friberg.
Mudsplat reúne algumas funcionalidades típicas dos games de arcade. O jogador
controla um avatar que enfrenta monstros que lançam lama sobre ele. Com a ajuda de um
cavalo, o personagem precisa localizar rapidamente os monstros e disparar jatos d’água contra
eles, antes que seja atingido. O game possui cinco “universos”, com cinco níveis cada,
totalizando 25 níveis. Gärdenfors e Friberg (ibid) relatam que “cada universo é caracterizado
por sua música de fundo, que continuamente aumenta em intensidade, tornando mais difícil a
localização dos monstros. Ao final do quinto nível de cada universo, o jogador tem que
enfrentar um “chefe”, que é um monstro mais poderoso”. Para encontrar os monstros, o
jogador deve se localizar no espaço do game por meio de mudanças de intensidade e
deslocamentos das fontes sonoras, criando uma imagem mental do ambiente, de modo que
possa inferir a distância e a direção dos inimigos. Além dos sons facilmente identificáveis
(relação indicial entre som e fonte sonora), há outros que precisam ser aprendidos pelo
jogador (relação simbólica entre som e causa ou conseqüência). Por exemplo: sons associados
aos menus e sons que expressam aspectos dos monstros como níveis de periculosidade,
tamanho e pontuação ao vencê-los.
X-Tune é um game musical rítmico que funciona como um brinquedo de
seqüenciamento, composição, gravação, processamento e mixagem sonora, e não
competição, nem metas a serem alcançadas. O jogador pode optar por diferentes ambientes
sonoros que são chamados de “estilos” ou criar seus próprios estilos, importando arquivos de
som (em formato WAV). Os estilos podem ser compartilhados com os amigos e modificados
56
http://www.sitrec.kth.se/
57
http://inova.snv.jussieu.fr/tim/
191
no editor de estilos. O jogo apresenta duas interfaces independentes: uma 100% sonora com
dicas e menus locutados e outra gráfica.
Figura 70 – Interface gráfica do X-Tune
Tim’s Journey, o terceiro jogo criado pela dupla de pesquisadores do SITREC, é o
mais complexo e ambicioso. Exclusivamente sonoro, trata-se de um game de aventura com
final aberto, em que o jogador deve revelar uma série de mistérios enquanto explora de forma
não-linear uma ilha. A topologia sonora do jogo reúne áreas com identidades sonoras
particulares como portos, um moinho e uma floresta. Os temas musicais também foram
organizados topologicamente, de modo que o jogador consegue identificar o lugar onde se
encontra dentro do ambiente sonoro, em surround. Gärdenfors e Friberg (2004: 3) descrevem:
Em Tim’s Journey, tivemos o objetivo de dar ao jogador a impressão de se
movimentar livremente ao longo de uma peça musical que se transforma
continuamente. Ao tratar todos os sons presentes em uma cena como
componentes musicais, a trilha de áudio é composta por ambientações
sonoras. Os objetos sonoros e os modos como estão posicionados refletem
estruturas musicais como temas, coros e transições, e todos os sons se
encaixam em padrões percussivos e melódicos. A música é, assim, gerada
por meio da combinação de todos os objetos sonoros presentes no espaço do
jogo.
192
Além das relações indiciais e simbólicas entre os sons e suas fontes há, em Tim’s
Journey, um aspecto subjetivo, estético, sensorial que se estabelece durante o percurso do
jogador dentro do espaço sonoro que se modifica em tempo real, criando uma paisagem
sonora singular e não repetível, repleta de elementos que variam em sonoridade, amplitude e
redundância. Um dos desafios dos desenvolvedores foi estabelecer um equilíbrio entre a
facilidade de navegação e de interação no interior do ambiente sonoro e o senso de mistério,
decorrente de se estar perdido em uma ilha. Para isso, NPCs (non-player characters) e
dispositivos de ajuda que orientam o jogador. Por exemplo (Gärdenfors e Friberg, ibid):
O redutor de ambientação: recurso que permite ao jogador reduzir
temporariamente o volume de todos os sons com os quais não é
possível interagir.
Sons de passos: ajudam durante a navegação, oferecendo
informações a respeito do tipo de superfície sobre a qual o avatar
caminha.
Ajudantes: diferentes NPCs (non-player characters) que o avatar
encontra. Oferecem informações ou pistas do enredo.
Buzinas de faróis marítimos: em cada um dos quatro pontos
cardeais (norte, sul, leste e oeste), há uma buzina que pode ser
ouvida à distância.
Os autores criaram um sistema específico de classificação sonora para Tim’s Journey
que serve como modelo e/ou inspiração para outros games. Gärdenfors e Friberg (2004: 4)
descrevem:
Avatares: sons relacionados às atividades dos avatares como passos,
disparos ou choques com objetos.
Objetos: sons que indicam a presença de objetos. Podem ser curtos,
periódicos, longos ou contínuos, dependendo da estratégia de
apresentação do objeto.
Personagens: sons gerados por NPCs (non-player characters).
Ornamentos: sons que não necessariamente transmitem informações
relacionadas ao ato de jogar, como música ambiente, mas que
enriquecem a atmosfera e adicionam complexidade ao game.
Instruções: normalmente, vozes gravadas que fornecem
informações acerca da resolução de tarefas, como os conselhos dos
ajudantes (non-player characters).
193
Uma tarefa importante no desenvolvimento de jogos 100% sonoros é permitir que o
jogador identifique se um determinado som é proveniente de suas ações ou das ações da
máquina. Gärdenfors e Friberg (2004: ibid) resolveram a questão da seguinte maneira:
Primeiramente, todos os sons gerados pelo avatar estão posicionados no
centro do estéreo ou do espaço surround. Em segundo lugar, todos os sons
gerados pela atividade do avatar estão conectados instantaneamente a um
input do jogador, seja pressionando teclas no teclado ou no game pad. Esta
conexão instantânea entre todas as ações do jogador e os feedbacks sonoros
são muito importantes para informar o jogador que o sistema registrou suas
ações. Por esta razão, ao pressionar qualquer tecla ativa, sempre se ouve
algum feedback na interface sonora.
No mercado dos desenvolvedores comerciais, a japonesa WARP (originalmente EIM)
lançou, em 1997, Real Sound, um jogo exclusivamente sonoro, para o console Sega Saturn.
Dois anos depois, o game foi rebatizado como Real Sound: Kaze no Regret e migrou para o
Dreamcast, também da Sega. Um dos criadores do jogo, Kenji Eno (2008), descreve um
exercício para estimular o diálogo com deficientes visuais: “Se você desligar o monitor
(vídeo), você e a pessoa com deficiência visual apenas ouvirão o game, de modo que poderão
conversar em igualdade de condições”. Isso quer dizer que os audio games podem ser
praticados não apenas por pessoas com deficiência visual. Também em 1997, a empresa
lançou Enemy Zero, jogo em que os inimigos são invisíveis e apenas identificáveis pelo som.
Nove anos mais tarde, em 2006, dentro da sua filosofia de inovação em jogabilidade, a
Nintendo trouxe ao mercado Soundvoyager, série de sete audio games para o portátil Game
Boy Advance: Sound Slalom, Sound Picker, Sound Drive, Sound Cock, Sound Chase, Sound
Catcher e Sound Cannon.
Figura 71 – Embalagem do Soundvoyager
194
Jogos 100% sonoros, assim como acontece com o BBBeat, libertam os produtores da
“tirania” da interface gráfica e dos limites físicos dos locais onde se possa jogar. Ao invés de
ficar sentado diante de um monitor, com um controlador na mão, ou mesmo em pé, se
movimentando em uma sala, olhando para uma tela, o jogador pode ir para a rua e jogar em
espaços abertos. Um exemplo que vale a pena destacar é Demor
58
, um audio shooter 3D,
desenvolvido por uma equipe multidisciplinar de estudantes da EMMA, da Utrecht School of
the Arts, para o Bartimeus Institute for the Blind. Utilizando fones de ouvido, um módulo
GPS, um head tracker (dispositivo capaz de mapear os movimentos da cabeça), um joystick
modificado e uma mochila com um notebook, é possível jogar em lugares amplos como
praças, quadras e campos de futebol.
O game se passa em 2066, quando uma raça de criaturas assustadoras emerge como
resultado de experimentos mal-sucedidos de clonagem humana. O jogador deve eliminar os
clones e restaurar a paz na colônia, que é dividida em quatro regiões: uma área industrial, um
brejo, um local de transporte para outras colônias, através de espaçonaves, e um espaço aberto
devastado. Cada região tem sua própria topologia sonora, que inclui sons de orientação, e
inimigos. Ao eliminar os monstros de uma região, o ambiente sonoro se modifica, tornando-se
mais suave e agradável. Isto é um sinal para o jogador se dirigir a outra região.
Assim que é iniciado, o ambiente sonoro 3D é reproduzido nos fones de ouvido. O
sistema identifica a localização e a direção da cabeça do jogador e o áudio é atualizado em
tempo real com sons diversos de inimigos, disparos, passos, gritos, elementos do entorno,
músicas não diegéticas, a voz de um agente que motiva e dicas ao jogador e locuções
“robotizadas” que anunciam a pontuação. É possível identificar parâmetros como distância e
posicionamento, de modo que o jogador deve atingir o máximo de criaturas monstruosas,
disparando contra elas. Embora o foco principal do game seja o entretenimento, Demor
também contribui para a emancipação de deficientes visuais que se sentem mais seguros ao
caminhar em locais públicos. Para ouvir alguns exemplos do áudio do jogo, acesse o site do
projeto (http://www.demor.nl/) e clique na aba gameplay.
58
http://www.demor.nl/
195
Figura 72 – Demor (jogabilidade em campo aberto)
Figura 73 – Equipamentos utilizados para jogar
196
Certamente, o desenvolvimento de games acessíveis para deficientes visuais e as
estratégias de criação de interfaces puramente sonoras podem contribuir para o pensar sonoro
nos games de maneira geral. Isso acontece porque a atenção concentrada no som requer uma
escuta atenta e, ao mesmo tempo, sensível. Para analisarmos os diversos tipos de som, suas
relações com outros sons e seus graus de independência (ou dependência) em relação às suas
fontes sonoras, precisamos, primeiro, educar, aguçar e conceitualizar nossa escuta. Chion
(1994: 25-34) propõe um modelo de análise que apresenta uma correspondência muito
evidente com as categorias peirceanas de primeiridade, secundidade e terceiridade. Trata-se
dos três modos de escuta: a escuta causal (secundidade), a escuta semântica (terceiridade) e a
escuta reduzida (primeiridade).
A escuta causal é aquela em que o foco de nosso interesse é a identificação da causa
ou origem de um determinado som. É a que ocorre com maior freqüência no dia a dia e a que
mais está vinculada aos índices de materialidade sonora. Ela é muito útil quando, por
qualquer razão, não é possível enxergar a fonte sonora e oferece pistas (índices) das condições
e características desta mesma fonte. Por exemplo, o som de um recipiente sendo sacudido
pode indicar se ele está cheio ou não. Além disso, quando não se pode ver a fonte sonora, o
som passa a ser a sua principal referência de informação.
Com exceção da voz humana que pode ser identificada com facilidade entre diversos
indivíduos, raramente reconhecemos os sons com precisão, se ocorrerem fora de seus
contextos habituais. Por exemplo, se o leitor estiver em uma garagem e ligar o motor de seu
carro, associará imediatamente o ruído ao seu próprio veículo. No entanto, se estiver em uma
oficina mecânica, onde haja vários outros carros da mesma marca e modelo, não identificará o
ruído do motor do seu carro tão facilmente. Isso significa que, na maioria das vezes,
conseguimos reconhecer categorias de sons ao invés de sons específicos: sons de miados, de
vozes humanas, de motores, etc. Além disso, com muito mais freqüência do que supomos,
percebemos apenas a "natureza geral" da fonte causadora. Podemos dizer: "parece ser um
animal feroz"; ou "deve ser algo mecânico" (identificando características como ritmo e
periodicidade tipicamente "mecânica"); ou ainda "aparentemente é de madeira" (em
decorrência dos índices de materialidade sonora típicos da madeira).
Também podemos acompanhar um determinado som ao longo do tempo e traçar sua
evolução (ataque, sustentação, andamento, pausas, decaimento, cessação, etc.), bem como
mudanças de níveis de amplitude, aspereza, suavidade, resposta de freqüências, etc., sem ter a
menor idéia do que é a fonte sonora ou, ainda, do que ela é feita.
197
Habitualmente, um som não é composto por uma única fonte sonora, mas por várias
delas sobrepostas. Por exemplo, o som de uma caneta sobre uma superfície qualquer. As
fontes sonoras deste som são a ponta da caneta, a superfície, o gesto (movimento da mão) e a
própria pessoa que escreve.
Em Demor, é essencial para o jogador, reconhecer os passos e as emanações vocálicas
dos seres monstruosos que deve enfrentar. Para o produtor de áudio, é importante criar sons,
cujas causas sejam identificáveis pelo (s) jogador (es).
A escuta semântica está vinculada ao aspecto simbólico, ao significado de sons
codificados como os da linguagem falada, do código Morse ou de qualquer outro código.
Chion (1994: 28) afirma que:
Este modo de escuta, que funciona de maneira extremamente complexa, tem
sido objeto de pesquisas lingüísticas e é o mais amplamente estudado. Um
aspecto fundamental é o fato de que opera de forma puramente diferencial.
Um fonema não é ouvido estritamente baseado em suas propriedades
acústicas, mas, também, no contexto de um sistema maior de diferenças e
oposições.
Ao conceber a topologia sonora de um jogo eletrônico também podemos criar
determinados códigos que proporcionem uma escuta semântica. Por exemplo, através de sons
que caracterizem ações específicas (acesso ao help, menus, páginas, botões, etc.), eventos
(pontuação extra, descoberta de algo escondido, superação de um oponente, etc.), mudanças
de estado (mais energia, “vidas”, invisibilidade, imortalidade, etc.), entrada em um
determinado modo (de dificuldade, treinamento, velocidade, etc.) ou qualquer outra coisa que
o jogador possa "aprender". Em Demor, a voz metálica que anuncia a pontuação representa,
numericamente, a performance do jogador.
Outro exemplo de aplicação da escuta semântica para a criação de uma peça sonora é
o logo sonoro da Intel. Hoffert (2007: 50) relata que ao ser contratado para criar a identidade
sonora da marca de microprocessadores, o compositor Walter Werzowa recebeu as seguintes
orientações: a peça de três segundos “deve transmitir a idéia de inovação, a habilidade de
resolução de problemas, o fato de ser o “coração” do computador e, ao mesmo tempo, soar
“corporativa” e estimular engajamento”. O processo de criação começou com a associação de
quatro notas musicais às quatro sílabas de “In-tel-In-side”. Werzowa empregou intervalos de
198
quartas e quintas justas; “intervalos perfeitos para um computador perfeito”. Hoffert (2007:
ibid) destaca ainda que:
Foram 10 dias para gravar o logo sonoro, usando mais de 40 pistas de synths
para criar um som único, incluindo um DX7, um Oberheim OBX, um
Prophet VS, um emulador IIIx, um Roland S760 e seu querido Jupiter 8. Ele
utilizou muitos sons de marimba e xilofone porque, em sua opinião, soam
“corporativos”.
Podemos citar, ainda, outros exemplos de sons associáveis à escuta semântica: toques
de recolher, sirenes (seus diversos tipos), o “plim-plim” da Rede Globo, sinos de igrejas,
cornetas de quartéis, cantos litúrgicos, palavras e qualquer outro som, cujo significado possa
ser decodificado pelo jogador como informação relacionada ao ato de jogar.
As escutas semântica e causal se sobrepõem. Nós ouvimos simultaneamente o que
alguém nos diz e o modo como é dito.
Pierre Schaeffer (apud Chion, 1994: 29) deu o nome de escuta reduzida para o modo
de escuta onde o foco de interesse é o som em si mesmo, independentemente de sua (s) causa
(s) e significado (s). Santaella (2001a: 85) esclarece que “o termo reduzida foi emprestado da
noção fenomenológica de redução em Husserl”. Na escuta reduzida, o som (verbal, musical,
um ruído, etc.) é o objeto de estudo, ao invés de ser um veículo para qualquer outra coisa.
Embora, alguém possa afirmar que o som é algo subjetivo, percebido de maneira distinta por
cada indivíduo, a percepção em si não é um fenômeno puramente individual. Ela possui uma
carga de objetividade que se configura a partir das intersecções das múltiplas e diferentes
subjetividades. É sob este pano de fundo que, segundo Chion, a noção de escuta reduzida,
como foi postulada por Schaeffer, deve ser entendida.
A escuta reduzida pressupõe obrigatoriamente o registro (gravação) de um som
qualquer, que o inventário descritivo deste som não pode ser feito através de uma única
audição. Santaella (ibid) complementa:
É necessário reescutar e para isso o som precisa ser gravado em um suporte.
Um instrumentista ou um cantor não podem repetir exatamente o mesmo
som em duas ocasiões diferentes. podem reproduzir a altura e seu perfil
geral, não as qualidades concretas que particularizam um evento sonoro e o
199
tornam único. A escuta reduzida implica a fixação dos sons que ascendem,
assim, ao estatuto de verdadeiros objetos, os objetos sonoros.
Na escuta reduzida, os sons são tratados como objetos reais; o que se busca é a
microscopia, a "dissecação" dos sons em decorrência de suas características intrínsecas
(forma de onda, timbre, etc.). No Traité des objets musicaux, Schaeffer provou que um
sistema descritivo de sons pode ser elaborado de forma independente de suas causas. Chion
(1994: 31) afirma que:
Certamente, é impossível desenvolver um sistema como este, a não ser que
sejam criados novos conceitos e critérios de análise. A linguagem do dia a
dia, bem como a terminologia musical, são totalmente inadequadas para
descrever as características ou qualidades sonoras que são reveladas, ao se
praticar a escuta reduzida, a partir de sons gravados.
E continua (Chion: ibid):
A escuta reduzida oferece a enorme vantagem de abrir nossos ouvidos e
aguçar o poder de nossa audição. Produtores de cinema e de vídeo,
pesquisadores e técnicos podem conhecer melhor os sons e obter melhores
resultados em suas experiências e trabalhos. O valor emocional, físico e
estético de um som está vinculado não apenas à (s) causa (s) que nós
atribuímos a ele, mas, também, às suas próprias qualidades de timbre e
textura, à sua própria vibração. Assim como diretores e cineastas mesmo
aqueles que jamais farão trabalhos abstratos têm tudo a ganhar quando
refinam seus conhecimentos sobre materiais e texturas visuais, de maneira
similar, nós somos beneficiados pela atenção disciplinada às qualidades
intrínsecas dos sons.
A escuta reduzida requer uma audição acusmática, isto é, desvinculada de sua (s) fonte
(s) sonora (s). O termo acusmático, conforme descreve Santaella (2001a: 138)...
... foi originalmente empregado no contexto dos iniciados no culto pitagórico
que passavam cinco anos ouvindo, sentados em completo silêncio, as
palestras do mestre que eram realizadas atrás de uma cortina, de modo que o
palestrante não pudesse ser visto pelos ouvintes. Termo recuperado por
Jerónimo Peignot e teorizado por Schaeffer, a escuta acusmática define-se
200
como a apreensão ou apreciação do objeto sonoro independentemente e
destacado de sua fonte.
A idéia é romper a associação "natural" entre o som e sua (s) fonte (s) sonora (s),
transformando este som em um objeto autônomo. Isso é possível a partir de inúmeras
repetições de um som gravado, até que deixemos de prestar atenção em sua (s) possível (eis)
causa (s) e consigamos apreender suas qualidades intrínsecas.
Assim como ocorre com as categorias da Gramática Especulativa ou Teoria Geral dos
Signos de Peirce, os modos de escuta se sobrepõem e se combinam em diferentes contextos e
níveis de complexidade. Como produtores de áudio para games, podemos estabelecer graus
diversos em que os sons estejam mais ou menos vinculados a cada um dos três modos de
escuta (causal, semântica e reduzida). Chion aponta ainda o fato de que a escuta não pode ser
interrompida com a mesma facilidade com que é possível, por exemplo, fechar os olhos para
não enxergar. Não conseguimos "fechar" os ouvidos. O som é onidirecional. Enquanto a luz,
pelo menos aparentemente, se propaga em linha reta, o som parece se espalhar como um gás.
Chion (1994: 144) afirma que “o equivalente do raio de luz é a onda sonora. A imagem é
delimitada no espaço, mas o som não o é. O som é mental, não pode ser tocado. A imagem
pode e é isso o que acontece nas cerimônias religiosas. Você pode tocar a tela”.
O autor faz uma analogia com o cinema e diz que se a imagem é projetada, o som é o
"projetor", no sentido de que ele projeta significados e valores às imagens. O som funciona
como um elemento de manipulação emocional e semântica. Por um lado, nos afeta
diretamente (ruídos de respiração em um filme podem alterar nossa própria respiração, por
exemplo). Por outro, o som tem influência em nossa percepção: por intermédio da synchresis,
como discutimos no Capítulo 3, o som revela o significado de uma imagem e faz com que
vejamos o que de outra maneira não veríamos, ou veríamos de forma diferente. Além disso, o
som não costuma ser analisado, ou pode ser localizado como fazemos com as imagens.
A escuta reduzida é um instrumento muito sofisticado não apenas para a análise e
dissecação de um determinado som, mas, também, para a criação de sonoridades
desvinculadas de suas fontes causadoras que, associadas a imagens, ou não, como nos
accessible games, criam “atmosferas”, sensibilizando o jogador. Em Demor, a música não-
diegética desempenha este papel, tanto nos momentos de tranqüilidade, como nos de tensão,
diante das ameaças iminentes. Em Hipermídia, Psicanálise e História da Cultura (Bairon e
Petry, 2000), obra hipermidiática acadêmica, o som, em si mesmo, é um elemento chave na
201
experiência do usuário. Embora não seja um game, há, certamente, um jogo conceitual e
estético entre três grandes áreas do conhecimento.
O produtor de áudio pode lançar mão dos três modos de escuta na elaboração da
topologia sonora de um game. Por exemplo: empregando sons com índices de materialidade
sonora mais evidentes para denotar causas ou possíveis fontes sonoras (escuta causal);
criando “códigos” ou “vocabulários” de sons que representem algum evento, estado ou modo
do jogo (escuta semântica); e, finalmente, proporcionando sensações e “climas” por meio de
sons “abstratos”, “subjetivos”, “etéreos” (escuta reduzida).
Os sons derivados dos três modos de escuta podem apresentar “paletas” sonoras
específicas e contrastantes, facilitando a identificação pelo jogador, especialmente nos
accessible games.
A seguir, retomando a tendência, apresentada neste capítulo, de integração de
interfaces diferenciadas que estimulam os movimentos dos jogadores, falaremos dos games
musicais.
Games musicais
Dentre os inúmeros títulos, destacamos: Amplitude, Audiosurf, Bust a Groove, Elite
Beat Agents, Gitaroo Man, Guitar Hero, Lips, LocoRoco, Patapon, Rez HD, Rock Band, Rock
Revolution, SingStar, Ultimate Band e Wii Music.
Desenvolvido pela Harmonix em 2003 para PlayStation 2, Amplitude
59
é uma
seqüência de FreQuency. Em Amplitude, o jogador controla, alternadamente, até seis pistas de
áudio. Cada uma delas apresenta um percurso com formas e extensões distintas, onde é
possível controlar um dos elementos a seguir: percussão, sintetizador, baixo ou vocais. À
medida que o jogador acerta e pontua, consegue ativar um trecho maior da pista que toca
automaticamente, de modo que fica liberado para trocar de pista e controlar outro
instrumento.
O jogo possui quatro níveis de dificuldade (mellow, normal, brutal e insane) e quatro
modos (single player, remix, multiplayer e online). No modo remix, como o próprio nome
sugere, é possível alterar determinadas características da música como o andamento, além de
59
http://en.wikipedia.org/wiki/Amplitude_(video_game) e http://www.gamespot.com/ps2/puzzle/amplitude/
202
aplicar efeitos como delay e chorus. O modo multiplayer permite a participação de até quatro
jogadores e conta com uma modalidade chamada head-to-head que lembra os desafios de
viola, guitarra ou repente, onde dois participantes se alternam.
Dentre os artistas representados no jogo com músicas originais estão Garbage, Run-
D.M.C., David Bowie, Blink-182, Herbie Hancock e Slipknot. Algumas das 26 músicas do
game foram produzidas in-house exclusivamente para o jogo.
Figura 74 – Embalagem do game Amplitude
Como dissemos no tópico a respeito da synchresis, em Audiosurf
60
, o jogador pode
incluir a música que quiser (arquivo mp3), tornando sua experiência única. Trata-se de um
quebra-cabeça na forma de corrida, onde as formas visuais, a velocidade e o clima” são
determinados pela música escolhida. O jogador ganha pontos juntando blocos da mesma cor
na pista e pode competir online com outras pessoas.
Figura 75 – Tela de Audiosurf
60
http://www.audio-surf.com/
203
Um híbrido de game musical com luta, Bust a Groove
61
combina jogabilidade baseada
no ritmo e elementos de combate que permitem atacar o oponente. Foi desenvolvido para
PlayStation, em 1998, e sua seqüência para PlayStation2, Dance Summit 2001, foi lançada
apenas no Japão. Cada um dos personagens está associado a um estilo musical: Frida (hip-hop
da Costa Oeste norte-americana); Gas-O (House); Hamm (Detroit Modern); Heat (hip-hop
Breakdance da Costa Leste norte-americana); Hiro (Disco dos anos 1970); Kelly (Jazz
moderno); Kitty-N (Vogue); Pinky Diamond (clássicos Black da Motown dos anos 1970);
Shorty (Funk); Strike (Gangsta Walking); Burger Dog (Detroit Modern); Capoeira
(Capoeira); Columbo (Funk); Robo-Z (Vogue).
Figura 76 – Bust a Groove
Considerado uma evolução de Osu! Tatakae! Ouendan
62
, Elite Beat Agents
63
foi
desenvolvido para o portátil Nintendo DS. O game tem como ponto alto o bom humor e a
aproximação com a linguagem dos quadrinhos. O jogador controla a tela inferior (touch
screen) do mini-console, batendo e arrastando elementos no tempo da música para pontuar. O
ritmo frenético do jogo é marcado também por efeitos sonoros, falas de personagens e
comandos locutados. Para cada evento visual, um som correspondente em estilo cartoon.
Ao contrário de outros audio games, que priorizam exclusivamente a habilidade, Elite Beat
Agents conta com estruturas narrativas em suas 19 missões (16 principais mais 3 que são
disponibilizadas, dependendo da performance do jogador). No início de cada missão são
apresentados seus personagens e objetivos. A mecânica do jogo está vinculada às ações do
61
http://www.youtube.com/watch?v=Gqzp7TNcElg
62
http://br.youtube.com/watch?v=-_Z85RIYYRA
63
http://en.wikipedia.org/wiki/Elite_Beat_Agents
204
jogador e, conseqüentemente, dos agentes dançarinos (na tela inferior) que estimulam, por
meio de seus movimentos, os personagens que, na tela superior, enfrentam os desafios. As
músicas do game são versões cover de artistas como Steriogram, Avril Lavigne, Stray Cats,
Deep Purple, Village People, Madonna, Rolling Stones, Cher, David Bowie, Destiny's Child,
Jamiroquai e Earth, Wind and Fire. Cada música corresponde a uma missão. O game tem
suporte multiplayer para até quatro participantes.
Figura 77 – Embalagem do game Elite Beats Agents
Em Gitaroo Man
64
, o jogador desempenha o papel do menino Yūichi, mais conhecido
como U-1 (you-one). Ridicularizado por seus colegas e ignorado pela garota dos seus sonhos,
Little Pico, o protagonista aprende com Puma, um cachorro que fala, a tocar guitarra. As
orientações de Puma servem também ao jogador que passa a conhecer os comandos do jogo.
O processo de composição musical está associado não apenas às ações do jogador e seu
adversário, como também às diferentes fases do game. Na maior parte do jogo, a música
segue uma estrutura de sucessão de frases musicais e respostas que se alternam,
acompanhando fases de ataque e defesa, e ações do personagem principal e seu oponente.
Os duelos são divididos em cinco seções: carregamento (charge), ataque (attack),
defesa (guard), harmonia (harmony) e fim (end). Cada um começa na fase de carregamento,
na qual o jogador toca guitarra para aumentar sua vitalidade. Em seguida, as fases de ataque e
defesa se alternam, de modo que o personagem ora ataca, ora se defende. Se o jogador
sobreviver até o final da música, precisará completar a fase de harmonia.
64
http://en.wikipedia.org/wiki/Gitaroo_Man e http://www.gamespot.com/ps2/puzzle/gitarooman/index.html
205
Em 2006, o game foi lançado para PSP (PlayStation Portable) com o nome Gitaroo
Man Lives!. A nova versão introduziu o modo cooperativo e permite jogar em duplas.
Figura 78 – Embalagem do game Gitaroo Man
Na série de games musicais Guitar Hero
65
, o jogador utiliza o controlador
convencional ou o periférico em forma de guitarra para simular a performance de um
guitarrista, “libertando o astro do rock” dentro de si, como sugere o website oficial do game.
Cada um dos cinco botões coloridos do instrumento de plástico corresponde a uma nota da
mesma cor na tela. Guitar Hero conta com músicas de bandas independentes ou vinculadas a
grandes gravadoras, tanto na forma de covers, quanto de masters originais. O licenciamento
de cada uma das peças custou cerca de U$ 10,000 para a cessão de direitos para cover e U$
25,000 para utilização de master original. Estes valores têm sido considerados baixos pela
indústria fonográfica, levando-se em conta o fato de que até agosto de 2008, segundo
Alexander (2008), foram vendidas mais de 21 milhões de unidades do jogo, representando um
faturamento que superou 1 bilhão de dólares, desde o seu lançamento em 2005. As versões
para PlayStation 3 e Xbox 360 têm suporte para download de músicas a um preço médio
unitário de U$ 2.00.
Guitar Hero possui diferentes modos de jogo: Career, Quick Play e Multiplayer
(Cooperative, Competitive e Competitive Battle of the Bands). No modo Career o jogador
desenvolve uma carreira artística à medida que executa com sucesso conjuntos de quatro a
seis músicas. Ao completar cada música, o jogador é premiado com dinheiro fictício que pode
65
http://www.guitarhero.com/
206
ser usado para adquirir novas guitarras, músicas extras e liberar conteúdos como vídeos com
making of e personagens. O modo Quick Play permite escolher as músicas livremente, sem a
necessidade de seguir o percurso linear do modo Career. Após concluir uma música, é
apresentada ao jogador sua pontuação e o percentual de acerto. No modo multiplayer
cooperative, dois jogadores tocam juntos: um deles a guitarra solo e o outro o contrabaixo ou
a guitarra base, ambos pontuando juntos. Finalmente, no modo multiplayer competitive, os
jogadores disputam entre si. A versão Guitar Hero III introduziu a possibilidade de atrapalhar
o oponente para fazê-lo perder. a maior inovação da série, até o momento da redação desta
tese, ocorreu em Guitar Hero World Tour. No modo Music Studio, o jogador pode
literalmente compor suas próprias músicas, utilizando uma espécie de sequencer simplificado
que não permite gravar vocais, dentre as opções de instrumentos disponíveis. Também é
possível fazer upload e download das músicas criadas por outros jogadores, por meio do
serviço GHTunes. Em Guitar Hero World Tour, até quatro jogadores tocam de modo
cooperativo os seguintes instrumentos: guitarra solo, guitarra base, bateria e vocais. Além
disso, no modo Competitive Battle of the Bands, duas bandas com até quatro jogadores cada,
totalizando oito jogadores competem entre si. As versões para PlayStation 3, Xbox 360 e Wii
têm suporte multiplayer para jogar em rede.
Figura 79 – Modelos de guitarras do Guitar Hero
207
Lançado em novembro de 2008, Lips
66
é um game de karaokê, desenvolvido para
Xbox 360. Dentre os recursos que a japonesa iNiS destaca estão:
Microfones sem fio com sensores de movimento e luzes que respondem às ações
dos jogadores. Eles podem também ser usados como instrumentos de percussão.
Grande variedade de músicas.
Suporte multiplayer (até quatro jogadores).
Possibilidade de cantar em duplas (duetos).
Compatibilidade com o Zune (player de mp3) da Microsoft.
Venda de novas músicas através do Xbox LIVE Marketplace.
Figura 80 – Embalagem do game Lips
LocoRoco
67
é um game desenvolvido para PSP (PlayStation Portable), no qual o
jogador manobra uma rie de personagens coloridos com aspecto gelatinoso, controlando a
gravidade por meio da inclinação do planeta. O visual do game é bastante orgânico, com
formas arredondadas, e os personagens ora se subdividem como células menores, ora se
juntam formando corpos maiores. Na verdade, o papel que o jogador interpreta é o do próprio
66
http://www.xbox.com/en-US/games/l/lips/
67
http://www.locoroco.com/
208
planeta com o objetivo de defender seus habitantes, os LocoRoco e seus amigos Mui Mui da
invasão dos alienígenas Moja Troop. O áudio deste game apresenta muitas nuances. Cada um
dos cinco tipos de LocoRoco tem voz e temas musicais específicos. Os amarelos soam como
crianças e são interpretados por Alex Yamato Flaherty (falas) e Melody Chubak (músicas); os
cor-de-rosa são os únicos do sexo feminino e sua voz apresenta um sotaque francês bem
característico; os azuis incorporam a voz de barítono de Greg Irwin, tanto nas falas quanto nas
músicas; os vermelhos, interpretados por Hiroaki Takeuchi, apresentam grandes variações
entre graves e agudos e um r muito pronunciado nas sicas; os pretos emprestam de Jeff
Gedert a voz grave nas falas e músicas, e de Tomonobu Kikuchi os falsetos nos coros; enfim,
os verdes têm o forte sotaque italiano de Jack Merluzzi (falas) e Cameron Earl Strother
(músicas).
As músicas são um recurso peculiar. Enquanto os LocoRoco cantam nos estágios pares
e na tela título, três Mui Mui cantam nos estágios ímpares. Ao se subdividirem, o som das
vozes soa como um coro e, contrariamente, ao se unirem para formar um indivíduo, como um
solo. Outra particularidade é a música LocoRoco Language, cantada em um idioma fictício,
cujo coro é interpretado por crianças japonesas.
Figura 81 – Embalagem do game LocoRoco
209
Produzido pela Japan Studios, a mesma empresa que desenvolveu LocoRoco,
Patapon
68
é um game extremamente musical. O jogador comanda um exército de pequenas
criaturas, tocando tambores falantes. Diferentes combinações possíveis de quatro sons,
associados aos botões do PSP (PlayStation Portable), determinam as ações dos personagens
como marchar, atacar, se defender, retroceder, usar magia e ampliar poderes.
Figura 82 – Botões do PSP
Figura 83 – Botões do PSP com
os respectivos sons
Figura 84 – Marcha
Figura 85 – Ataque
Figura 86 – Defesa
68
http://www.us.playstation.com/patapon/
210
O jogador precisa manter o ritmo para obter êxito. Após algum tempo sem errar, é
possível entrar no modo fever que amplia as habilidades de combate. Patapon é também um
jogo de estratégia, uma vez que permite a customização do exército, equipando cada soldado
com armas e proteções específicas, além de exigir a otimização do posicionamento nas
batalhas. O jogo conta, ainda, com uma grande variedade de missões e mini-games que
oferecem bônus e upgrades. Para conquistá-los, o jogador necessita tocar com precisão ritmos
cada vez mais complexos.
Figura 87 – Cena de Patapon
Figura 88 – Tambor Falante, fonte de inspiração sonora de Patapon
Um tambor falante funciona da seguinte maneira: com o instrumento debaixo de um
dos braços, com a outra mão o músico bate na pele com uma vara (ou a própria mão), ao
mesmo tempo em que, por meio de movimentos do braço sob o qual se encontra o
211
instrumento, afrouxa ou estica as cordas posicionadas nas laterais do instrumento,
aumentando e diminuindo o pitch. Os diversos sons produzidos apresentam significados
codificados em determinadas línguas africanas, de maneira que é possível transmitir
mensagens complexas.
Rez HD
69
, evolução de Rez
70
, foi desenvolvido para a rede online do Xbox 360 e
proporciona uma experiência audiovisual única. Todos os elementos visuais (cenário,
inimigos, efeitos, etc.) ficam em sincronia com a música durante o jogo. Rez HD conta com
áudio surround 5.1 e a cada sub-nível uma nova pista de som é acrescentada. O controlador
vibra com a pulsação da música e é possível acrescentar até três controladores adicionais
(num total de quatro) que, conectados ao corpo do jogador, podem gerar um envolvimento
ainda maior dos sentidos.
Embora suas imagens estejam em alta definição, permanece a estética baseada em wire
frames que lembram os primeiros esboços de projetos realizados em programas de 3D. As
fases principais são inspiradas em civilizações antigas como a egípcia, a mesopotâmica e a
chinesa, e os monumentos são representados de forma abstrata e geométrica.
A jogabilidade é simples. O jogador assume o papel de um hacker que invade uma
complexa rede de computadores, e tem como missão destruir vírus (inimigos) e firewalls
(chefes), disparando contra eles. Para quem deseja apenas se entregar à viagem sensorial e
curtir as imagens e sons sem ter que lutar, o game oferece um modo chamado Easy Rez. Já no
Score Attack, o jogador enfrenta oponentes online. O jogo oferece ainda modos destraváveis
que possibilitam diversas variações.
Figura 89 – Tela de Rez HD
69
http://www.thatgamecalledrez.com/ e http://www.gamespot.com/xbox360/action/rez/index.html
70
http://www.gamespot.com/dreamcast/action/rez/index.html?tag=result;img;1
212
A versão japonesa de Rez, lançada em 2002, para PlayStation 2 vinha acompanhada de
um dispositivo USB chamado Trance Vibrator. O periférico projetado para vibrar no ritmo da
música com mais intensidade que o controlador DualShock foi desenvolvido para ser
segurado, colocado no bolso ou encostado em alguma parte do corpo. Curiosamente,
relatos de uso do dispositivo como brinquedo erótico.
Figura 90 – Trance Vibrator
Rock Band
71
é considerado por muitos jogadores uma evolução de Guitar Hero. Para
Van Zandt (2008), o impacto de sua chegada é comparável a inovações passadas como o rádio
FM, os CDs e a MTV. Segundo Halperin (2008), até agosto de 2008, foram vendidas mais de
3,5 milhões de unidades e 21 milhões de músicas por download. Rock Band permite que até
quatro jogadores formem uma banda com os seguintes instrumentos: guitarra solo, guitarra
base, contrabaixo e bateria, além de um microfone. As versões para Xbox 360 e PlayStation 3
permitem interação online e offline entre até quatro jogadores.
O sucesso do game é tamanho que, em setembro de 2008, foi lançado para Xbox 360 a
versão Rock Band 2. Versions para Wii, PlayStation 3 e PlayStation 2 estão previstas também
para 2008.
71
http://www.rockband.com/
213
Figura 91 – Tela de Rock Band 2
Na imagem acima, cada instrumento é representado por um percurso diferente de
notas: à esquerda, a guitarra solo; no centro, a bateria; à direita, o contrabaixo; no topo, os
vocais (linha verde horizontal).
Figura 92 – Jogadores na Penny Arcade Expo em Seattle (Washington)
Assim como acontece em Guitar Hero, cada jogador escolhe seu nível de dificuldade,
entre as opções Easy (fácil), Medium (médio), Hard (difícil) e Expert (muito difícil). Caso um
jogador toque mal e seja eliminado, seu instrumento será emudecido. No entanto, outro
jogador poderá resgatar o parceiro excluído ativando seu Overdrive, o equivalente ao Star
Power em Guitar Hero. É permitido trazer um jogador de volta duas vezes. A partir da
214
terceira “expulsão”, não será mais permitido “salvar” o jogador que, fora do jogo, continuará
provocando a queda do desempenho geral da banda, podendo levá-la ao fracasso.
Enquanto em Rock Band, o modo Solo Tour é restrito a um jogador e o modo Band
World Tour é multiplayer, em Rock Band 2, um modo chamado Tour Mode que não faz
distinção entre o número de jogadores. Após escolherem um nome e uma cidade de origem, as
bandas optam entre iniciar uma tournée (Start Tour), participar de desafios (Tour Challenges)
ou competir com outras bandas (Battle of the Bands).
Figura 93 – Guitarra de Rock Band
Figura 94 – Set de bateria de Rock Band
215
Em Rock Band, 51 das 58 músicas são masters originais. Dentre os artistas que
figuram no setlist estão Red Hot Chili Peppers, Blue Öyster Cult, Metallica, Deep Purple,
Foo Fighters, David Bowie, Bon Jovi e The Who. Em Rock Band 2, alguns destaques são
Motörhead, Journey, AC/DC, Talking Heads, Soundgarden e Billy Idol.
Possivelmente, o mercado de games poderá aliviar as dificuldades enfrentadas pela
indústria fonográfica que encontra em jogos como Rock Band e Rock Band 2, alternativas de
faturamento através da cessão de direitos de uso de músicas originais.
Rock Revolution
72
é uma evolução dos jogos GuitarFreaks
73
e DrumMania
74
que
inspiraram o desenvolvimento de games como Guitar Hero World Tour e Rock Band. Trata-
se de um game musical, desenvolvido para Nintendo DS, PlayStation 3, Wii e Xbox 360. A
principal diferença em relação a Guitar Hero World Tour e Rock Band é a ausência de
karaokê nas versões para consoles. No entanto, a versão para DS conta com suporte para
vocais, utilizando-se o microfone interno do equipamento.
As versões para PlayStation 3 e Xbox 360 não possuem controladores próprios, de
modo que o jogador pode utilizar os periféricos de Guitar Hero World Tour e Rock Band. Na
versão para Wii, os jogadores devem usar como controladores o Wii Remote e o Nunchuk.
Figura 95 – Nunchuk e Wii Remote
72
http://www.gametrailers.com/player/34044.html
73
http://www.gamespot.com/ps/action/guitarfreaks/index.html
74
http://www.gamespot.com/ps2/action/drummania/index.html
216
Em Rock Revolution há 41 músicas, todas covers de artistas como Foo Fighters, Blink-
182, Metallica, Joan Jett, Ramones, Quiet Riot, Kiss, Mötley Crüe, Linkin Park, Judas Priest,
Deep Purple, Megadeth, Scorpions, Dream Theater, Avril Lavigne, Rush, Soundgarden,
Whitesnake, Queen, Twisted Sister, Pantera, The Who e Skid Row, entre outros.
SingStar
75
, game de Karaokê, vem acompanhado por dois microfones USB e é
compatível com o Eye Toy (câmera USB), de modo que os jogadores podem se ver cantando.
A altura (afinação) em que os jogadores devem cantar é representada por barras horizontais
cinzas, que remetem ao pentagrama musical. A letra da música aparece na parte inferior da
tela. Quanto mais afinada for a performance, maior será a pontuação. SingStar possui diversos
modos e pode ser jogado de forma competitiva ou em duetos.
Figura 96 – Tela de SingStar
O game possui versões com repertórios diferentes que variam em gênero (pop, rock,
amped, 80’s, 90’s, country, etc.) e localização (países diferentes). Também é possível gravar a
própria performance. Além das músicas que acompanham cada uma das versões, muitas
outras podem ser compradas por download. A lista de artistas é ampla e obras nos
seguintes idiomas: inglês, dinamarquês, alemão, espanhol, finlandês, italiano, francês, sueco e
português, de Portugal.
75
http://www.us.playstation.com/singstar/
217
Figura 97 – Microfones USB
A tecnologia empregada em SingStar permite que, por meio de processamento digital
de sinal, os microfones identifiquem a afinação e, conseqüentemente, as freqüências da voz
do jogador, que são comparadas com padrões preestabelecidos. Quanto mais próximos, maior
será a pontuação. A engine também utiliza tecnologia de reconhecimento de fala e de ritmo
nos trechos com rap. Nas partes cantadas, não reconhecimento de fala, o que significa que
não é preciso cantar a letra correta, desde que esteja afinado.
As primeiras versões (para PlayStation 2) permitem uma experiência plena, que os
vocais podem ser totalmente removidos, uma vez que as músicas foram extraídas de masters
originais. Nas versões posteriores, isso deixou de acontecer em decorrência de restrições das
gravadoras quanto ao repertório autorizado. A alternativa encontrada foi a implementação da
ADRess (Azimuth Discrimination and Resynthesis), presente no PlayStation 3, que é capaz de
retirar até 80% dos vocais de uma música. O desenvolvimento desta tecnologia foi realizado
pelo Audio Research Group do Dublin Institute of Technology
76
. A versão para PlayStation 3
conta ainda com plugins originalmente desenvolvidos para o software de edição de áudio
Sound Forge, fabricado pela Sonic Foundry até 2003, quando a Sony adquiriu a divisão de
software da empresa por U$ 19 milhões em dinheiro. Dentre eles, estão um filtro passa alta
(high-pass filter), o compressor Wave Hammer, um reverb com tempo de decaimento de 1,2
segundo e um pitch-shift, capaz de alterar a afinação da voz.
76
http://www.dit.ie/
218
Ultimate Band
77
, desenvolvido para Wii e Nintendo DS, permite que o jogador assuma
o papel de guitarrista, contrabaixista, baterista ou líder da banda, embora não haja suporte
para vocais. Ao contrário de outros games musicais como Guitar Hero e Rock Band, não
periféricos que simulem instrumentos musicais. Na versão para Wii, os jogadores mimetizam
os movimentos dos músicos e executam combinações de botões no Nunchuk, enquanto
dedilham para cima e para baixo o Wii Remote. A versão para DS é baseada no código do
game Hannah Montana: Music Jam's
78
, permitindo que o jogador crie e grave suas próprias
músicas. A propósito, 30 músicas, todas covers de artistas como Devo, The Who, Blondie,
Cheap Trick, Pink, Panic at the Disco, Blink-182 e Avril Lavigne, entre outros.
Figura 98 – Tela de Ultimate Band
Provavelmente, o mais amigável dos games musicais, o Wii Music
79
não requer
habilidade do jogador no manejo de botões. O site oficial do produto informa:
É fácil tocar jams improvisadas. Os músicos em sua banda simplesmente
tocam seus instrumentos acompanhando o ritmo da música ou improvisando
à vontade. Toque mais rápido. Toque mais devagar. Perca uma batida ou
bata 10 a mais. Não importa o que você faça, Wii Music automaticamente
transforma suas improvisações em música de qualidade. Não há erros –
apenas toque pelo prazer de tocar.
77
http://www.1up.com/do/previewPage?cId=3170175&p=44
78
http://disney.go.com/disneyinteractivestudios/hannahmontana/site/index.html
79
http://e3.nintendo.com/wii/wiimusic/index.html
219
Figura 99 – Embalagem do game Wii Music
O foco do produto é a diversão pura. A única coisa que o jogador precisa fazer é
mimetizar a execução dos instrumentos musicais com o auxílio dos controladores Nunchuk e
Wii Remote. Dentre as opções de instrumentos estão: guitarra, banjo, cítara, bateria, piano,
marimba e vibrafone. Além disso, é possível tocar as músicas com arranjos e instrumentação
diferentes das originais, por exemplo, ao executar o tema clássico de Super Mario Bros. com
sabor latino.
Também é possível gravar as execuções, compartilhá-las com os amigos e editar as
versões feitas por outras pessoas. Outra peculiaridade do game é o recurso de tocar bateria
com o Wii Balance Board, desenvolvido para o Wii Fit.
Figura 100 – Vista superior do Wii Balance Board
Figura 101 – Vista inferior do Wii Balance Board
220
Conclusão
Para concluirmos esta tese, vamos propor alguns critérios metodológicos para a
criação de topologias sonoras em jogos eletrônicos. Não pretendemos com isso estabelecer
regras e, sim, contribuir para a reflexão sobre a produção de áudio para contextos interativos
e/ou não-lineares.
Em primeiro lugar, destacamos a importância de se pensar o som desde o início de um
projeto, ao invés de deixar o áudio para a última etapa da produção de um jogo eletrônico,
como acontece com freqüência, restando ao som, muitas vezes, um papel coadjuvante e
“decorativo”. No cinema, Burch (1992: 123) defende “a concepção e execução de toda a trilha
sonora não apenas ao vel da montagem, mas também ao nível da filmagem, na medida em
que estruturas sonoras preconcebidas podem determinar certos componentes visuais”. De
maneira similar, nos audio games, por exemplo, a jogabilidade em termos sonoros influencia
e, ao mesmo tempo, é influenciada pelos elementos gráficos. Metaforicamente, o
planejamento do áudio realizado no começo de um projeto de jogo eletrônico pode ser
comparado a uma peça de roupa confeccionada sob medida, de modo que a adaptabilidade do
som aconteça de forma natural e integrada. Ao contrário, quando o áudio é o “último da fila”
no desenvolvimento de um game, fica parecido com uma peça unissex de tamanho único que
deve servir em pessoas com diferentes compleições físicas. Às vezes, por sorte ou
coincidência, pode “cair bem”, mas, em grande parte das vezes, fica inadequado, com
transições forçadas e/ou sonoridades estranhas à mecânica do jogo, à interface gráfica, à
narrativa (quando ocorre), ao contexto e aos personagens (quando há). Por esse motivo,
sugerimos que o áudio seja discutido em todas as reuniões técnicas iniciais, assim como
acontece com outros fatores. O áudio precisa estar vinculado à mecânica do jogo e não apenas
aos elementos gráficos, o que exige um cuidado especial durante a implementação.
A partir das proposições de Whitmore (2003) e da experiência profissional deste
pesquisador no mercado de produção de áudio, seguem algumas questões a serem pensadas
no início do processo de criação de um jogo eletrônico: Qual é a plataforma de
desenvolvimento (linguagem de programação, middleware, engine, etc.)? E qual é a
plataforma de entrega (consoles domésticos, microcomputadores, Internet, portáteis, celulares,
máquinas personalizadas, arcades, etc.)? Como a plataforma de desenvolvimento facilita, ou
não, a adaptabilidade do áudio? Quais outros aspectos técnicos (surround, 3D sound, Real-
221
Time DSP, etc.) são importantes? Quais são os equipamentos (microfones, mesas,
processadores, etc.) e softwares de áudio disponíveis? Em quais partes do game deve haver
áudio? E que tipo de áudio? Locuções, efeitos, músicas? Em caso de necessidade de locuções,
quais os perfis dos profissionais de voz (locutores, atores, dubladores, etc.) necessários?
Haverá captação de som direto? Haverá produção de sons por meio de foley? Em que
momentos o áudio deve ser “ambiente” ou intenso? Que estilo (s) de músicas é (são) mais
apropriado (s)? temas específicos (leitmotivs) para personagens, áreas, universos, status,
etc. do jogo? Como devem ser as transições entre os elementos sonoros? Como devem ser as
sobreposições dos elementos sonoros? Que variáveis das músicas serão alteradas em função
das ações do (s) jogador (es)? Amplitude? Grupos de instrumentos? Harmonia? Ritmo?
Processamentos de efeitos em tempo real? Mute/Unmute de instrumentos e outros sons?
Como será o processo de composição musical? Modular? Linear? Generativo? Como e quais
serão os “gatilhos” de adaptabilidade do som? De localização? De estados? De personagens?
De eventos? Baseados em inteligência artificial? Em que medida os modelos estruturais de
navegação dialogam com a construção da topologia sonora de um game? Como os espaços
narrativos de um jogo (quando narratividade) se expressam em termos sonoros? De que
maneiras, as formas de ação diegética ou não-diegética da máquina e do jogador devem
interagir com o ambiente sonoro? Que contribuições o modelo analítico de Chion e os estudos
sobre a produção sonora no cinema (Film Sound) oferecem para o pensar acerca do universo
sonoro dos games? Como a percepção do tempo em um game é influenciada pela topologia
sonora? aspectos da jogabilidade que possam ser valorizados pelo áudio? aspectos da
jogabilidade baseados exclusivamente no áudio? Quais serão as relações entre os sons e a
mecânica do jogo?
No momento da redação desta tese, este pesquisador identificou uma dificuldade dos
profissionais de áudio que é a ausência de ferramentas-padrão para a produção de som para
games em contextos em que ocorra adaptabilidade. No cinema e no vídeo, ao contrário,
plataformas maduras e universalmente difundidas de produção sonora. Por essa razão, muitas
vezes, é um programador, ao invés de um produtor de áudio, quem cuida do som de um game.
Deutsch (2001: 4-5) critica este fato. Ele argumenta que um produtor de áudio ou sound
designer, como o autor classifica, tem muito a oferecer em termos qualitativos ao trabalhar
em cooperação com um programador.
Acreditamos que a participação de programadores na criação e implementação do
áudio de um game é muito importante, mas nem sempre suficiente. Na maioria das vezes, o
222
(s) programador (es) não é (são) também produtor (es) de áudio experiente (s), o que torna a
parceria entre programadores e produtores de som bastante recomendável. A alta
complexidade das duas disciplinas (áudio e programação) faz com que seja raro haver
profissionais com grande competência em ambas. Em resposta a isso foram criadas as
primeiras plataformas de desenvolvimento de áudio para games que, por enquanto, ainda
estão longe da popularização e, na maior parte das vezes, da facilidade de uso das ferramentas
(hardware e software) de áudio para cinema e vídeo. Dentre elas, destacamos: CRI Sound
Factory (CRI)
80
, FMOD Designer (Firelight)
81
, ISACT / Open AL (Creative Labs)
82
, Wwise
(AudioKinetic)
83
e XACT (Microsoft)
84
.
Para além das questões técnicas, esta tese procurou contribuir para o pensar teórico a
respeito da produção de áudio para games por meio do conceito de topologia sonora. Com
isso, buscamos oferecer uma contribuição ao trabalho de pesquisadores, estudantes e
profissionais de áudio. Alguns desdobramentos da pesquisa ocorrerão por meio de
experimentos em laboratório, junto aos alunos deste pesquisador nos cursos de Tecnologia e
Mídias Digitais e de Tecnologia em Jogos Digitais da PUC-SP. Também são previstos
estudos específicos sobre accessible games para deficientes visuais e interlocuções com os
Game Studies.
Uma mudança radical na maneira como os sons são produzidos em um game é o que
promete a israelense Audio Factory
85
, em release para a imprensa divulgado em 25 de março
de 2008. A empresa acena com a possibilidade de abrir mão completamente de ruídos pré-
gravados e foley. A premissa é que os sons sejam produzidos de forma “real” pela física da
engine, a partir de cálculos das interações entre as diversas fontes sonoras dentro do ambiente.
A tecnologia promete estar sintonizada com o desenvolvimento de jogos com gráficos
foto-realistas nos próximos anos. Trata-se de uma plataforma integrada de hardware e
software que acena com a perspectiva de otimização do desenvolvimento de áudio para
games, e a possibilidade de criar sons realistas de forma nunca antes vista. Se a nova
plataforma irá representar ou não um grande avanço, ainda não sabemos. O que podemos
80
http://www.cri-mw.co.jp/
81
http://www.fmod.org/
82
http://connect.creativelabs.com/developer/default.aspx
83
http://www.audiokinetic.com/
84
http://www.microsoft.com/downloads/details.aspx?FamilyID=7d29004e-7a8d-4f0a-b199-
6a740d8f27bb&DisplayLang=en
85
http://www.audiofactorysound.com/
223
afirmar é que o nosso papel como produtores de áudio para games é, dialeticamente,
acompanhar e assimilar as inovações da indústria e, ao mesmo tempo, renovar a (s) maneira
(s) como o conjunto dos sons em um game constituem sua topologia sonora.
224
Apêndice – Análise de seqüência de Toy Story
Vejamos a análise de Rodríguez (2006: 314-315) sobre os deslocamentos e mudanças
de ponto de audição.
Um dos momentos críticos de Toy Story é quando Buzz, o
astronauta de brinquedo, e Woody, o caubói de brinquedo, fugindo de um
cachorro que os persegue por uma escada e um corredor, se escondem em
quartos diferentes. Casualmente, Buzz entra em um quarto em que uma
televisão ligada, justamente no momento em que transmitem uma
propaganda sobre ele.
Para construir o som dessa situação são necessários três entes
acústicos: o cachorro (latidos, grunhidos e respiração ofegante); a televisão
(vozes, músicas, efeitos, etc., tratados com uma definição sonora reduzida); e
Buzz (voz do astronauta de brinquedo). No momento em que o astronauta de
brinquedo entra no quarto da televisão, o receptor entra com ele e, portanto,
deve escutar o espaço sonoro do mesmo modo que Buzz escutaria, isto é,
com o ponto de audição situado dentro do quarto. O tratamento dos entes
acústicos é, então, o seguinte: a voz do brinquedo soa em primeiro plano
(estamos com ele), e os sons da televisão e do cachorro são ouvidos em
segundo. O cachorro continua latindo no corredor, na frente da porta fechada
do quarto em que Woody se refugiou, e Buzz está escondido no quarto da
televisão (que tem a porta entreaberta), no meio do caminho entre o cachorro
e a televisão. Essa situação pode ser tratada de modo estereofônico situando-
se o cachorro no alto-falante da esquerda e o som do televisor no da direita.
Pode-se também matizar o som do cachorro, fazendo-o soar com alguma
reverberação e tratando seu timbre de modo mais brilhante, para sugerir o
volume espacial do corredor em que está. E o áudio da televisão fica
perfeitamente diferenciado quando reduzimos sua definição, de modo que
soa com um efeito característico de alto-falante de qualidade inferior.
Agora definimos um espaço sonoro e estamos em condições de
movimentar o receptor através dele.
Buzz descobre que estão falando dele na televisão e se aproxima do
aparelho. Se a imagem adota um ponto de vista subjetivo e se aproxima da
tela como se víssemos pelos olhos do boneco, o tratamento do som deve
responder a esse movimento e, portanto, o ponto de audição deve se deslocar
pelo espaço sonoro aproximando-se do televisor. Nada mais fácil. Para
sugerir acusticamente esse movimento, bastará variar de modo progressivo, e
em sentido contrário, a intensidade dos dois entes acústicos que fornecem a
225
referência espacial. Enquanto aumentamos lenta e progressivamente a
intensidade do som do televisor, vamos diminuindo a intensidade dos
grunhidos do cachorro, na mesma proporção. Assim, o receptor percebe
auditivamente o efeito de que está se deslocando pelo espaço sonoro.
Quando a voz de Buzz aparece, deve continuar soando em primeiro plano,
uma vez que o ponto de audição se deslocou com ele.
Imaginemos que o boneco astronauta volta em direção à porta para
observar o cachorro e estudar a situação, mas que agora o ponto de vista
permanece junto ao televisor e observamos como Buzz se distancia
deslocando-se até o fundo do espaço. A construção sonora dessa situação
deverá ser feita mantendo as intensidades exatamente até o nível em que
havíamos levado a televisão e o cachorro. A maneira de contar
acusticamente o movimento do boneco será reduzir apenas a intensidade de
sua voz, enquanto o ponto de audição se distancia. Vemos, portanto, que o
modo de explicar que o ponto de audição está parado, apesar de algum ente
acústico estar se deslocando pelo espaço sonoro, é manter estáveis (sem
variação de intensidade) os entes acústicos que atuam como referência
espacial.
Uma última situação. Produz-se uma nova mudança visual, e a
imagem passa a mostrar diretamente o ponto de vista subjetivo de Buzz. Os
espectadores agora vêem o cachorro de muito perto. Toda a paisagem sonora
deve mudar outra vez, mas bruscamente, que o ponto de audição também
mudou repentinamente de lugar. A maneira de tratar acusticamente o espaço
sonoro para conseguir esse efeito será inverter de repente a relação de
intensidade entre o cachorro e a televisão. O som do cachorro deve passar ao
primeiro plano, e o da televisão para o terceiro. E, que o ponto de audição
volta a estar junto de Buzz, sua voz deve passar, também bruscamente, a soar
em primeiro plano.
226
Bibliografia
AARSETH, Espen J. (2004). Genre Trouble: Narrativism and the Art of Simulation. Em First
Person: New Media as Story, Performance, and Game. Editores: Wardrip-Fruin &
Harrigan. Cambridge: The MIT Press.
ALEXANDER, Leigh (2008). Analyst: Three Expansion Packs Possible For Next Guitar
Hero. URL: http://www.gamasutra.com/php-bin/news_index.php?story=19682.
Acessado em 03/10/2008.
ALTMAN, Rick (1985). The Evolution of Sound Technology. In Film Sound. Theory and
Practice. Editors: Elisabeth Weis and John Belton. New York: Columbia University
Press, pp. 44-53.
____________ (1992). Sound Theory / Sound Practice. New York: Routledge, Chapman
and Hall.
BAIRON, Sérgio (1995). Multimídia. São Paulo: Global Editora.
_____________ e PETRY, Luis Carlos (2000). Hipermídia, Psicanálise e História da Cultura.
Caxias do Sul: EDUCS; São Paulo: Editora Mackenzie. Edição em CD ROM.
_____________ (2003). Tendências da linguagem científica contemporânea em
expressividade digital: uma problematização. Artigo redigido na Alemanha no
primeiro semestre de 2003 graças à bolsa de pesquisa do Programa CAPES/DAAD -
Probal.
_____________ (2005). Texturas Sonoras. Áudio na Hipermídia. São Paulo: Hacker Editores.
BALAZ, Bela (1985). Theory of the Film. In Film Sound. Theory and Practice. Editors:
Elisabeth Weis and John Belton. New York: Columbia University Press, pp. 116-125.
BARRAUD, Henry (1997). Para Compreender as Músicas de Hoje. 3ª edição. São Paulo:
Editora Perspectiva. [Traduzido por J. J. de Moraes e Maria Lúcia Machado. Título
original: Pour Compreendre les Musiques d' Aujourd' Hui. Éditions du Seuil, 1968]
BASBAUM, Sérgio Roclaw (2002). Sinestesia, Arte e Tecnologia: fundamentos da
cromossonia. São Paulo: Annablume.
BEGGS, Josh and THEDE, Dylan (2001). Designing Web Audio. Sebastopol: O’ Reilly &
Associates.
BERCHMANS, Tony (2006). A Música do Filme. Tudo o que você gostaria de saber sobre a
música de cinema. São Paulo: Escrituras.
227
BINKLEY, Timothy (1995). Transparent Technology. The Swan Song of Electronics.
Leonardo, 28 (5): pp: 427-432.
BORDWELL, David and THOMPSON, Kristin (1985). Fundamental Aesthetics of Sound in
Cinema – The Powers of Sound. In Film Sound. Theory and Practice. Editors:
Elisabeth Weis and John Belton. New York: Columbia University Press, pp. 181-199.
BRESSON, Robert (1985). Notes on Sound. Sight and Hearing. In Film Sound. Theory and
Practice. Editors: Elisabeth Weis and John Belton. New York: Columbia University
Press, pp. 149.
BREWSTER, S A., WRIGHT P C, Dix, A J, EDWARDS A D N (1994). The Sonic
Enhancement of Graphical Buttons, In Proc. of Interact’95, Amsterdam. New York:
ACM Press, pp 43-48.
BRIDGETT, Rob (2002). Interactive Music. URL:
http://web.archive.org/web/20021203015700/http://www.sound-design.org.uk/interactive.htm
(acessado em 05/10/2008).
BURCH, Noel (1992). Práxis do Cinema. São Paulo: Perspectiva. [Tradução de Marcelle
Pithon e Regina Machado. Título original: Praxis du Cinéma. Gallimard, 1969]
BUSH, Vannevar (1945). As we may think in:
www.theatlantic.com/unbound/flashbks/computer/bushf.htm
CAILLOIS, Roger (1990). Os jogos e os homens. Lisboa: Cotovia.
CANCELLARO, Joseph (2005). Sound Design for Interactive Media. A Comprehensive
Approach to Understanding Sound and Its Application in Interactive Enviroments.
New York: Thomson Delmar Learning.
CAVALCANTI, Alberto (1985). Sound in Films. In Film Sound. Theory and Practice.
Editors: Elisabeth Weis and John Belton. New York: Columbia University Press, pp.
98-111.
CHION, Michel (1994). Audio-Vision. Sound on Screen. New York: Columbia University
Press [Translated by Claudia Gorbman. Original title: L' Audio-Vision. Paris: Editions
Nathan, 1990]
____________ (1999). The Voice in the Cinema. New York: Columbia University Press.
[Translated by Claudia Gorbman. Original title: La Voix au cinéma. Editions de l'
Etoile / Cahiers du cinéma, 1982.
228
CLAIR, René (1985). The Art of Sound. In Film Sound. Theory and Practice. Editors:
Elisabeth Weis and John Belton. New York: Columbia University Press, pp. 92-95.
COOK, Nicholas (1998). Analysing Musical Multimedia. Oxford: Clarendon Press.
COOLEY, Millicent (1998). Sound + Image in Computer-Based Design: Learning from
Sound in the Arts. Paper apresentado em Congresso Anual do ICAD (International
Community for Auditory Display).
CYCLING 74 (2008). Website da empresa: http://www.cycling74.com.
DEEMER, Charles. (1997) The new Hyperdrama - How hypertext scripts are changing the
parameters of dramatic storytelling. In: www.ibiblio.org/cdeemer/newhype.htm
DEUTSCH, Stephen (2001). Música para Filmes Interativos. Palestra proferida na Royal
Scottish Academy of Music and Drama, Glasgow. [Tradução de Sérgio Roclaw
Basbaum].
EISENSTEIN, Sergei (1975). The Film Sense. Orlando: Harcourt Brace & Company.
[Translated by Jay Leyda]. No original title available.
_________________ (1990). A forma do filme. Rio de janeiro, Jorge Zahar Editor.
[Traduzido por Teresa Ottoni. Título da versão norte-americana: Film Form.
Harcourt Brace Jovanovich, 1977]
_________________, PUDOVKIN, V. I., ALEXANDROV, G. V. (1985). A Statement. In
Film Sound. Theory and Practice. Editors: Elisabeth Weis and John Belton. New
York: Columbia University Press, pp. 83-85.
ENO, Kenji (2008). Relato disponível em: http://en.wikipedia.org/wiki/Audiogame
EYE 4U (2003). Website da empresa: http://www.eye4U.com.
FERRAZ, Sílvio (1997). Semiótica Peirceana e a Música: mais uma aproximação. Opus:
Revista da Associação Nacional de Pesquisa e Pós-Graduação em Música, IV (4),
62-79.
GADAMER, Hans-Georg. (1997). Verdade e Método: traços fundamentais de uma
hermenêutica filosófica. Petrópolis: Vozes.
GALLOWAY, Alexander R. (2006). Gaming. Essays on Algorithmic Culture. Minneapolis:
University of Minnesota Press.
GAME ACCESSIBILITY (2008). Website: http://www.game-accessibility.com/.
229
GÄRDENFORS, Dan e FRIBERG, Johnny (2004). Audio Games: New perspectives on game
audio. Paper apresentado pelos autores em congresso do Stockholm International Toy
Research Centre.
GARRAND, Timothy (2001). Writing For Multimedia and the Web. Boston: Focal Press.
Second Edition.
GIBSON, David (1997). The Art of Mixing. Visual Guide to Recording, Engineering and
Production. Vallejo: MixBooks.
GLINERT, Eitan M. (2008). The Human Controller: Usability and Accessibility. Dissertação
de mestrado em Ciências da Computação e Engenharia Elétrica no MIT
(Massachusetts Institute of Technology).
GOSCIOLA, Vicente (2003). Roteiro para as Novas Mídias. Do Game à TV Interativa. São
Paulo: Editora SENAC.
HALPERIN, Shirley (2008). Exclusive: 'Rock Band 2' offering new slate of full albums.
Artigo publicado na revista Hollywood Insider em 28/08/2008. URL acessado em
05/10/2008: http://hollywoodinsider.ew.com/2008/08/rock-band-2-ful.html
HANSEN, Mark B. N. (2004). New Philosophy for New Media. Cambridge: The MIT Press.
HARRIGAN, Pat, WARDRIP-FRUIN, Noah (2006). Second Person: Role-Playing and Story
in Games and Playable Media. Cambridge / London: The MIT Press.
HEIM, Michael (1998). Virtual Realism. New York: Oxford University Press.
HOFFERT, Paul (2007). Music for New Media. Boston: Berklee Press.
HOLMAN, Tomlinson (1997). Sound For Film and Television. Boston: Focal Press.
_________________ (2000). 5.1 Surround Sound Up and Running. Boston: Focal Press.
HOLTZMAN, Steven (1997). Digital Mosaics. The Aesthetics of Ciberspace. New York:
Simon & Schuster.
HUIZINGA, Johan. (2004). Homo Ludens: o jogo como elemento da cultura. São Paulo:
Perspectiva.
IRCAM. Institut de Recherche et Cordination Acoustique/Musique (2008). Website:
http://www.ircam.fr/.
JELLYVISION (2003). Website da empresa: http://www.jellyvision.com.
JENKINS, Henry (2004). Introduction to Game Time. In First Person: New Media as Story,
Performance, and Game. Editors: Wardrip-Fruin & Harrigan. Cambridge: The MIT
Press, pp. 118-130.
230
______________ (2008). Game Design As Narrative Architecture.
URL: http://web.mit.edu/cms/People/henry3/games&narrative.html (acessado em
20/07/2008)
JUUL, Jesper (2004). Introduction to Game Time. In First Person: New Media as Story,
Performance, and Game. Editors: Wardrip-Fruin & Harrigan. Cambridge: The MIT
Press, pp. 131-142.
KANITZ, Stephen. Ponto de vista: a favor dos videogames. In: Revista Veja, São Paulo,
Editora Abril, pp.22. 12 de outubro de 2005.
KRAUSE, Bernie (2002). Wild Soundscapes. Discovering the Voice of the Natural World.
Berkeley: Wilderness Press.
LANDOW, George (1992). Hypertext: The Convergence of Contemporary Critical Theory
and Technology. Batimore: Johns Hopkins U. Press.
LEÃO, Lúcia (2001). O Labirinto da Hipermídia. Arquitetura e Navegação no Ciberespaço.
São Paulo: Iluminuras.
LEOPOLDSEDER, Hannes (1999). Ten indications of an emerging computer culture. Em Ars
Electronica. Facing the Future, Timothy Druckerey (ed.) Cambridge, Mass.: The Mit
Press, pp. 67-70.
LoBRUTTO, Vincent (1994). Sound-On-Film. Interviews with Creators of Film Sound.
Westport: Praeger Publishers.
MANOVICH, Lev (2001). The Language of New Media. Cambridge: The MIT Press.
______________ (2005). Soft Cinema. Navigating the database. Cambridge: The MIT
Press.
MARKS, Aaron (2001). The Complete Guide to Game Audio. For Composers, Musicians,
Sound Designers, and Game Developers. Lawrence: CMP Books.
MARTIN, Marcel (2007). A Linguagem Cinematográfica. Tradução Paulo Neves – 2ª.
reimpressão. São Paulo: Editora Brasiliense Título original: Le Langage
Cinématographique, 1985.
MATTOS, A. C. Gomes de (2006). Do Cinematoscópio ao Cinema Digital. Breve História do
Cinema Americano. Rio de Janeiro: Editora Rocco.
MCDONALD, Glenn (2008). A Brief Timeline of Video Game Music.
URL: http://www.gamespot.com/gamespot/features/video/vg_music/index.html
(acessado em 10/10/2008).
231
MCLUHAN, Marshall (1995). Os Meios de Comunicação Como Extensões do Homem.
São Paulo: Editora Cultrix. [Tradução de Décio Pignatari. Título original:
Understanding Media: The Extensions of Man. McGraw-Hill Book Company. New
York: 1964].
MENES LEARNING INSIGHT (2008). Website da empresa: http://www.menes.com.br
MORE, G., HARVEY, L., MOLONEY, J. e BURRY, Mark (2003). Implementing Nonlinear
Sound Strategies within Spatial Design: Learning sound and spatial design within a
collaborative virtual environment. Paper presented at Melbourne DAC, the 5th
International Digital Arts and Culture Conference.
MORLEY, S., PETRIE, H., O'NEIL, A. M. and McNALL, P (1998). The Use of Non-Speech
Sounds in a Hypermedia Interface for Blind Users. In Edwards, A.D.N, Arato, A.
and Zagler, W.L. (Eds). 'Computers and Assistive Technology'. Proceedings of
ICCHP'98. Part of the XV. IFIP World Computer Congress. pp. 205-214.
MURRAY, Janet H. (2004). From Game-Story to Cyberdrama. Em First Person: New Media
as Story, Performance, and Game. Editores: Wardrip-Fruin & Harrigan. Cambridge:
The MIT Press.
______________ (2003). Hamlet no Holodeck: o futuro da narrativa no ciberespaço. São
Paulo: Editora Unesp.
NESTERIUK, Sérgio. (2007). Jogo como Elemento da Cultura: Aspectos Contemporâneos e
as Modificações na Experiência do Jogar. Tese de Doutorado defendida no PEPG em
Comunicação e Semiótica. São Paulo: PUC-SP. Orientador: Prof. Dr. Sérgio Bairon.
_________________. (2002). A Narrativa do Jogo na Hipermídia: a Interatividade como
Possibilidade Comunicacional. Dissertação de Mestrado defendida no PEPG em
Comunicação e Semiótica. São Paulo: PUC-SP.
NEUMANN (2008). Website da empresa: http://www.neumann.com/.
PEARCE, Celia (2004). Towards a Game Theory of Game. In First Person: New Media as
Story, Performance, and Game. Editors: Wardrip-Fruin & Harrigan. Cambridge: The
MIT Press, pp. 143-153.
PEIRCE, Charles Senders (2000). Semiótica. São Paulo: Perspectiva. 3ª edição. [Tradução de
José Teixeira Coelho Neto. Título original: The Collected Papers of Charles Senders
Peirce]
PHILLIPS, Nathaniel (2005). From Films to Games, From Analog to Digital, Two
revolutions in multi-media! Keio University. Artigo publicado no website: URL:
http://filmsound.org/game-audio/film_game_paralles.htm (acessado em 08/01/2008).
232
PONTUSCHKA, Maurício N. (2008). Hiperáudio: a navegação em áudio em hipermídia. Em
Cibertextualidades 2. Publicação Ceclico – Grupo de Estudos Culturais, Midiáticos,
da Linguagem e Hipermédia. Universidade Fernando Pessoa.
PUDOVKIN, V. I. (1985). Asynchronism as a Principle of Sound Film. In Film Sound.
Theory and Practice. Editors: Elisabeth Weis and John Belton. New York: Columbia
University Press, pp. 86-91.
QUINTANA, Guilherme H., PEREIRA, Jean H., DHEIN, Wagner Luiz Jr (2008). Metal Gear
Solid – Narrativa, Jogabilidade e Interface. Trabalho de conclusão do curso de
Tecnologia e Mídias Digitais da PUC-SP. Orientadores: Professor Dr. Fábio
Fernandes da Silva e Professora Dra. Lucia Isaltina Clemente Leão.
RAMOS, Guiomar (1996). Espaço Fílmico Sonoro em Arthur Omar. Tese de mestrado
apresentada na Escola de Comunicação e Artes da USP (São Paulo). Orientador:
Ismail Xavier.
RIBEIRO, João Henrique Ranhel. (2005). TV digital interativa e hipermídia jogos e
narrativas interativas na TVi. Dissertação de mestrado defendida no PEPG em
Comunicação e Semiótica. São Paulo: PUC-SP.
ROADS, Curtis. (1996). The Computer Music Tutorial. Cambridge, MA: The MIT Press.
RODRÍGUEZ, Ángel (2006). A Dimensão Sonora da Linguagem Audiovisual. São Paulo:
Editora Senac. [Tradução de Rosângela Dantas; revisão técnica de Simone Alcantara
Freitas. Título original: La dimensión sonora del lenguage audiovisual. ISBN: 85-
7359-500-0]
ROSE, Jay (2002). Audio Postproduction for Digital Video. San Francisco: CMP Books.
_________ (1999). Producing Great Sound for Digital Video. San Francisco: Miller Freeman
Books.
SANTAELLA, Lúcia (2000a). Apresentação. Em Bairon, S. e Petry, L. C. Hipermídia,
Psicanálise e História da Cultura. Edição em CD-ROM. São Paulo: Editora
Mackenzie.
________________ (2000b). A Teoria Geral dos Signos. Como as Linguagens Significam as
Coisas. São Paulo: Editora Pioneira.
________________ (2001a). Matrizes da Linguagem e Pensamento - Sonora, Visual, Verbal.
São Paulo: Iluminuras.
________________ (2001b). Comunicação e Pesquisa. São Paulo: Hacker Editores.
SAMSEL, Jon and WIMBERLEY, Darryl (1998). Writing for Interactive Media. The
Complete Guide. New York: Allworth Press.
233
SCHAFER, Murray (1977). A Afinação do Mundo. São Paulo: Fundação Editora da UNESP
(FEU) [Tradução de Marisa Trenc de O. Fonterrada. Título original: The Tuning of
the World. ISBN: 85-7139-353-2].
_______________ (1991). O Ouvido Pensante. São Paulo: Fundação Editora da UNESP
(FEU) [Tradução de Marisa Trenc de O. Fonterrada, Magda R. Gomes da Silva e
Maria Lúcia Pascoal. Título original: The Thinking Ear. ISBN: 85-7139-016-9]
SHUM, Lawrence R. (2003). Pesquisa e Produção de Áudio para Sistemas Hipermidiáticos. A
Criação e a Sistematização de Elementos Sonoros em Estruturas de Navegação Não-
Lineares. Dissertação de mestrado em Comunicação e Semiótica defendida na PUC-
SP. Orientador: Prof. Dr. Sérgio Bairon.
SONNENSCHEIN, David (2001). The Expressive Power of Music, Voice, and Sound Effects
in Cinema. Michigan: Michael Wiese Books.
SONY Creative Software (2008). Website da empresa:
http://www.sonycreativesoftware.com/.
STANSBERRY, Domenic. Labyrinths (1997). The Art of Interactive Writing and Design:
Content Development for New Media. Belmont: Wadsworth Publishing Company.
STRAUBHAAR, J. e LaRose, R. (2000). Media Now. Communications Media in the
Information Age. Belmont: Wadsworth Publishing Company.
VAN ZANDT, Steven (2008). Alex Rigopulos & Eran Egozy. Artigo publicado na revista
Time em 01/05/2008. URL:
http://www.time.com/time/specials/2007/article/0,28804,1733748_1733752_1735901,
00.html (acessado em 05/10/2008).
VIRTUALCINEMA (2003). Website da empresa: http://www.virtualcinema.com.
WARDRIP-FRUIN, Noah, HARRIGAN, P. (2004). First Person: New Media as Story,
Performance, and Game. Cambridge / London: The MIT Press.
WEBSTER, Frank (1997). Theories of the Information Society. London: Routledge.
WEIS, Elisabeth and BELTON, John (ed.) (1985). Sound in Films. In Film Sound. Theory
and Practice, Alberto Cavalcanti et al. New York: Columbia University Press, pp.
98-111.
_________________________________ (1985). A Statement. In Film Sound. Theory and
Practice, Eisenstein, S. M., Pudovkin, V. I., Alexandrov, G. V. et al. New York:
Columbia University Press, pp. 83-85.
234
_________________________________ (1985). Asynchronism as a Principle of Sound
Film. In Film Sound. Theory and Practice, Pudovkin, V. I. et al. New York:
Columbia University Press, pp. 86-91.
_________________________________ (1985). Theory of the Film. In Film Sound.
Theory and Practice, Bela Balaz et al. New York: Columbia University Press, pp.
116-125.
_________________________________ (1985). Aural Objects. In Film Sound. Theory
and Practice, Christian Metz et al. New York: Columbia University Press, pp. 154-
160.
_________________________________ (1985). The Evolution of Sound Technology. In
Film Sound. Theory and Practice, Rick Altman et al. New York: Columbia
University Press, pp. 44-53.
_________________________________ (1985). The Art of Sound. In Film Sound.
Theory and Practice, René Clair et al. New York: Columbia University Press, pp.
92-95.
_________________________________ (1985). Notes on Sound. Sight and Hearing. In
Film Sound. Theory and Practice, Robert Bresson et al. New York: Columbia
University Press, p. 149.
_________________________________ (1985). Fundamental Aesthetics of Sound in
Cinema - The Powers of Sound. In Film Sound. Theory and Practice, David
Bordwell and Kristin Thompson et al. New York: Columbia University Press, p.
181-199.
_________________________________ (1985). Ideology and the Practice of Sound
Editing and Mixing. In Film Sound. Theory and Practice, Mary Ann Doane et al.
New York: Columbia University Press, p. 54-62.
WHITMORE, Guy (2003). Design With Music In Mind: A Guide to Adaptive Audio for
Game Designers. URL:
http://www.gamasutra.com/resource_guide/20030528/whitmore_01.shtml.
ZAZA, Tony (1991). Audio Design. Sound Recording Techniques for Film and Video. New
Jersey: Prentice Hall.
ZETTL, Herbert (1999). Sight, Sound, Motion. Applied Media Aesthetics (Third Edition).
Belmont: Wadsworth Publishing Company.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo