Download PDF
ads:
Leonardo Alfredo Forero Mendoza
Redes Neurais e aquinas de Vetores de Suporte no
reconhecimento de locutor usando coeficientes MFC e
caracter´ısticas do sinal glotal
Disserta¸ao submetida ao Programa de Mestrado em
Engenharia de Telecomunica¸oes da
Universidade Federal Fluminense como parte
dos requisitos para obten¸ao do grau de Mestre.
Professores Orientadores:
Edson Luiz Cataldo Ferreira, D. Sc. (UFF)
Marley Vellasco, D. Sc. (PUC-Rio)
Niter´oi
2009
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Declara¸ao de Originalidade
Esta disserta¸ao foi produzida por mim e relaciona trabalho original de
minha pr´opria execu¸ao. A menos que de outra forma mencionado, os gr´aficos
e tabelas exibidos foram produzidos a partir de dados obtidos durante a pes-
quisa. Sempre que materiais, id´eias, ou algoritmos computacionais de outros
pesquisadores tiveram sido usados ou adaptados, a fonte de informa¸ao foi
claramente especificada. Esta disserta¸ao ao foi submetida para gradua¸ao
ou qualifica¸ao profissional em nenhum outro lugar.
Leonardo Alfredo Forero Mendoza
ads:
Agradecimentos
A Deus, por sempre fazer as coisas acontecerem para mim.
`
A minha fam´ılia, que sempre me apoiou em todos os desafios que resolvi
enfrentar, inclusive o in´ıcio do mestrado.
Ao professor Edson Cataldo, pela orienta¸ao, por sempre mostrar boa
vontade e por demonstrar confian¸ca em meu trabalho.
`
A professora Marley, que me abriu as portas da PUC, pela orienta¸ao e
pela constante disponibilidade para me atender.
Ao professor Andres Pablo, pelo incondicional apoio, pela amizade e por
colocar `a disposi¸ao o que eu precisasse para finalizar meu trabalho.
Ao curso de Mestrado em Engenharia de Telecomunica¸oes da Univer-
sidade Federal Fluminense, que me concedeu esta grande oportunidade de
aumentar meus conhecimentos.
`
A CAPES, por oferecer a bolsa de estudos, tornando poss´ıvel a conclus˜ao
do mestrado.
Aos funcion´arios da UFF e a todos os companheiros do LACOP, por
sempre me ajudarem a me sentir em casa.
3
Resumo
Este trabalho apresenta uma proposta de reconhecimento autom´atico de
locutor usando aquina de vetores de suporte e redes neurais. O vetor
de entrada usado ´e h´ıbrido composto de coeficientes MFC (Mel Frequency
Cepstral Coeffiecients) e caracter´ısticas extra´ıdas do sinal glotal, obtida por
filtragem inversa do sinal de voz. Os resultados ao comparados com outros
obtidos quando apenas os coeficientes MFC ao usados na entrada
Palavras chave: Reconhecimento de locutor. Filtragem inversa. Maquina
de vetores de suporte. Parameters of the glottal signal.
4
Abstract
This work presents a proposal for automatic speaker recognition using
support vector machine and neural networks. The input vector is hybrid
composed by MFC coefficients (Mel Frequency Cepstrum Coefficients) and
features extracted from the glottal signal, obtained by inverse filtering of the
voice signal. The results are compared with other obteined when only the
MFC coefficients are used as input.
Keywords: Recognition speech. Inverse filtering. Support vector ma-
chine.
5
Dedicat´oria
Dedico este trabalho a:
Maria Tereza, Alexandra, Sofia e Nohemy,
Guillermo, Luis Alejandro,
Pablo, Luis Alfredo,
Vagales.
6
Sum´ario
Lista de Figuras 11
Lista de Tabelas 14
1 16
1.1 Introdu¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Objetivos de Disserta¸ao . . . . . . . . . . . . . . . . . . . . . 18
1.3 Estado da arte . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 Contribui¸oes desta Disserta¸ao . . . . . . . . . . . . . . . . . 19
2 Fundamentos da produ¸ao da voz 21
2.1 A Voz Humana . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 O processo de produ¸ao da voz humana . . . . . . . . . . . . . 22
2.2.1 Modelo de produ¸ao sonoro/surdo da voz . . . . . . . . 26
2.2.2 A Teoria fonte-filtro . . . . . . . . . . . . . . . . . . . 26
2.3 Pr´e-processamento da voz . . . . . . . . . . . . . . . . . . . . 28
3 Coeficientes Cepstrais de Frequˆencia Mel (MFCC) 32
3.1 Extra¸ao de caracter´ısticas em sinais de voz . . . . . . . . . . 32
7
3.1.1 Escala mel . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1.2 Banda cr´ıtica . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.3 Banco de filtros triangulares . . . . . . . . . . . . . . . 34
3.1.4 alculo dos MFCCs . . . . . . . . . . . . . . . . . . . 35
3.1.5 Coeficientes Delta e Delta- Delta . . . . . . . . . . . . 37
4 Extra¸ao de caracter´ısticas do sinal glotal 39
4.1 Sinal glotal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Filtragem inversa . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 Algoritmo de filtragem inversa . . . . . . . . . . . . . . 41
4.2.2 An´alise LPC . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.3 IAIF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.4 PSIAIF . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.5 Modelo Discreto o Polo( DAP) . . . . . . . . . . . . . 51
4.3 Parˆametros do sinal glotal . . . . . . . . . . . . . . . . . . . . 52
4.3.1 Instantes de axima abertura e aximo fechamento
glotal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.2 Dura¸ao fase de fechamento (Ko) . . . . . . . . . . . . 53
4.3.3 Dura¸ao fase de abertura (Ka) . . . . . . . . . . . . . 53
4.3.4 Periodo Fundamental (T ) . . . . . . . . . . . . . . . . 53
4.3.5 Amplitude de vozeamento (Av) . . . . . . . . . . . . . 53
4.3.6 Distˆancia entre os instantes de m´axima abertura glotal
(pp) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.7 Fase de abertura (F a) . . . . . . . . . . . . . . . . . . 54
4.3.8 Quociente de abertura (OQ) . . . . . . . . . . . . . . . 54
4.3.9 Quociente de fechamento (CIQ) . . . . . . . . . . . . . 54
4.3.10 Quociente de velocidade (SQ) . . . . . . . . . . . . . . 54
8
5 Classificadores de padr˜oes 56
5.1 Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.1.1 Unidades de processamento . . . . . . . . . . . . . . . 57
5.1.2 Fun¸oes de ativao . . . . . . . . . . . . . . . . . . . . 59
5.1.3 Arquitetura de redes neurais . . . . . . . . . . . . . . . 59
5.1.4 Aprendizado nas redes neurais . . . . . . . . . . . . . . 60
5.1.5 Redes Multilayer Perceptron . . . . . . . . . . . . . . . 63
5.1.6 Implementa¸ao de uma rede MLP . . . . . . . . . . . . 65
5.1.7 Algoritmo de Backpropagation . . . . . . . . . . . . . . 67
5.1.8 Parˆametros utilizados no treinamento . . . . . . . . . 68
5.2 aquina de vetores de suporte(SVM) . . . . . . . . . . . . . . 73
5.2.1 A Teoria de Aprendizado Estat´ıstico(TAE) . . . . . . 74
5.2.2 SVMs Lineares . . . . . . . . . . . . . . . . . . . . . . 76
5.2.3 SVMs ao Lineares . . . . . . . . . . . . . . . . . . . . 83
6 Resultados Experimentais 86
6.1 Base de d´ıgitos . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.1.1 Constru¸ao da base de sons vozeados, a partir de vogais
concatenadas . . . . . . . . . . . . . . . . . . . . . . . 87
6.2 Obten¸ao de caracter´ısticas MFC . . . . . . . . . . . . . . . . 88
6.3 Obten¸ao da estimativa do sinal glotal . . . . . . . . . . . . . 89
6.3.1 Extra¸ao de caracter´ısticas do sinal glotal . . . . . . . 90
6.3.2 Vetor H´ıbrido de caracter´ısticas: Coeficientes MFC e
caracter´ısticas do sinal glotal . . . . . . . . . . . . . . . 94
6.4 Rede Neural Artificial(RNA) . . . . . . . . . . . . . . . . . . . 96
6.4.1 Parˆametros de uma rede Multilayer Perceptrons(MLP) 96
6.4.2 Normaliza¸ao dos Pesos . . . . . . . . . . . . . . . . . 97
9
6.4.3 Crit´erio de parada do treinamento do RNA . . . . . . . 98
6.4.4 Momento e taxa de aprendizagem . . . . . . . . . . . . 98
6.5 Experiˆencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.5.1 Primeira experiˆencia . . . . . . . . . . . . . . . . . . . 100
6.5.2 Segunda experiˆencia . . . . . . . . . . . . . . . . . . . 101
6.5.3 Terceira experiˆencia . . . . . . . . . . . . . . . . . . . . 103
6.5.4 Quarta experiˆencia . . . . . . . . . . . . . . . . . . . . 105
6.5.5 Experiˆencias com aquina de vetores de suporte . . . . 108
6.5.6 Quinta experiˆencia . . . . . . . . . . . . . . . . . . . . 109
6.5.7 Sexta experiˆencia . . . . . . . . . . . . . . . . . . . . . 115
7 Conclus˜oes e trabalhos futuros 122
7.1 Conclus˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.2 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . 124
Bibliografia 125
10
Lista de Figuras
2.1 Aparelho fonador. . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Cordas Vocais. . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Sinal de voz correspondente a um trecho da vogal sustentada
/a/ obtida com uma frequˆencia de amostragem fs=11.025Hz. . 25
2.4 Modelo discreto da produ¸ao da voz. . . . . . . . . . . . . . . 27
2.5 Representa¸ao da Teoria Fonte Filtro . . . . . . . . . . . . . . 27
2.6 Diagrama de blocos do digitalizador. . . . . . . . . . . . . . . 28
2.7 Divis˜ao em quadros do sinal de voz. . . . . . . . . . . . . . . . 30
3.1 Escala Mel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Banco de filtros usado na t´ecnica MFCC. . . . . . . . . . . . . 35
3.3 Diagrama de fluxo para o alculo dos MFCCs. . . . . . . . . . 37
4.1 Forma¸ao do sinal glotal. . . . . . . . . . . . . . . . . . . . . 40
4.2 Sinal glotal da vogal sustentada representada na Fig.2.3, ob-
tido por filtragem inversa. . . . . . . . . . . . . . . . . . . . . 40
4.3 Forma¸ao do sinal glotal. . . . . . . . . . . . . . . . . . . . . . 44
4.4 Algoritmo IAIF. . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5 M´etodo PSIAF. . . . . . . . . . . . . . . . . . . . . . . . . . . 50
11
4.6 Estma¸oes LP e DAP para uma sinal com periodo fundamen-
tal=50 e Fs=44100 . . . . . . . . . . . . . . . . . . . . . . . . 51
4.7 (a) Parˆametros do sinal glotal (b) Sinal glotal proposta [11]. . 55
5.1 Modelo ao linear de um neurˆonio. . . . . . . . . . . . . . . . 58
5.2 Aprendizado supervisionado . . . . . . . . . . . . . . . . . . . 62
5.3 Aprendizado ao supervisionado . . . . . . . . . . . . . . . . . 63
5.4 arquitetura Multilayer Perceptron. . . . . . . . . . . . . . . . . 64
5.5 Fluxo do processamento do algoritmo Back-propagation. . . . . 67
5.6 Diferentes hip´oteses de configura¸ao de treinamento. . . . . . . 75
5.7 Hiperplano
´
Otimo de Separa¸ao. . . . . . . . . . . . . . . . . . 77
5.8 Vetores de suporte. . . . . . . . . . . . . . . . . . . . . . . . . 77
5.9 Hiperplanos canˆonicos . . . . . . . . . . . . . . . . . . . . . . 78
5.10 Hiperplanos canˆonicos . . . . . . . . . . . . . . . . . . . . . . 80
5.11 Dados ao linearmente separ´aveis . . . . . . . . . . . . . . . . 82
5.12 (a) Conjunto de dados ao linear; (b) Fronteira ao linear no
espa¸co de entradas; (c)Fronteira linear no espa¸co de carac-
ter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.1 Gr´afico dos coeficientes MFC da palavra nove. . . . . . . . . . 89
6.2 Gr´afico de vogal /a/ concatenada com 45 coeficientes LPC. . . 91
6.3 Sinal glotal e seus parˆametros. . . . . . . . . . . . . . . . . . . 92
6.4 Gr´afico mostrando os instantes de maxima abertura achados
pela rotina findpeaks. . . . . . . . . . . . . . . . . . . . . . . 93
6.5 Extra¸ao de caracter´ısticas do sinal glotal . . . . . . . . . . . 94
6.6 distribu¸ao do parˆametro pp do sinal glotal . . . . . . . . . . . 95
6.7 Exemplo de rede neural com arquitetura multilayer percep-
trons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
12
6.8 Configura¸ao rede neural . . . . . . . . . . . . . . . . . . . . . 101
6.9 Configura¸ao rede neural . . . . . . . . . . . . . . . . . . . . . 102
6.10 Configura¸ao rede neural . . . . . . . . . . . . . . . . . . . . . 104
6.11 Configura¸ao rede neural . . . . . . . . . . . . . . . . . . . . . 106
6.12 estimativa do sinal glotal do locutor feminino . . . . . . . . . 108
6.13 Fun¸ao Kernel RBF . . . . . . . . . . . . . . . . . . . . . . . 114
13
Lista de Tabelas
5.1 Fun¸oes Kernel mais comuns. . . . . . . . . . . . . . . . . . . 85
6.1 Primeira experiˆencia com a primeira configura¸ao da rede neural.101
6.2 Primeira experiˆencia com a segunda configura¸ao de rede neural.102
6.3 Segunda experiˆencia com a primeira configura¸ao da rede neural.103
6.4 Segunda experiˆencia com a segunda configura¸ao da rede neural.103
6.5 Terceira experiˆencia com a primeira configura¸ao da rede neural.105
6.6 Terceira experiˆencia com a segunda configura¸ao de rede neural.105
6.7 Quarta experiˆencia com a primeira configura¸ao da rede neural 106
6.8 Quarta experiˆencia com a segunda configura¸ao da rede neural 107
6.9 Quinta experiˆencia com a base de dados de 30 locutores mas-
culinos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.10 Quinta experiˆencia com a base de dados de 20 locutores mas-
culinos e 10 locutores femininos. . . . . . . . . . . . . . . . . . 112
6.11 Sexta experiˆencia com a base de dados de 30 locutores mas-
culinos com σ
2
= 0.01 e variando C. . . . . . . . . . . . . . . 115
6.12 Sexta experiˆencia com a base de dados de 30 locutores mas-
culinos com σ
2
= 0.1 e variando C. . . . . . . . . . . . . . . . 116
14
6.13 Sexta experiˆencia com a base de dados de 30 locutores mas-
culinos com σ
2
= 1 e variando C. . . . . . . . . . . . . . . . . 117
6.14 Sexta experiˆencia com a base de dados de 20 locutores mas-
culinos e 10 locutores femininos com σ
2
= 0.01 e variando
C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.15 Sexta experiˆencia com a base de dados de 20 locutores mas-
culinos e 10 locutores femininos com σ
2
= 0.1 e variando C. . 119
6.16 Sexta experiˆencia com a base de dados de 20 locutores mas-
culinos e 10 locutores femininos com σ
2
= 1 e variando C. . . 120
15
Cap´ıtulo 1
1.1 Introdu¸ao
A partir da voz, torna-se poss´ıvel identificar caracter´ısticas pr´oprias de cada
pessoa como idade, sexo, l´ıngua e at´e mesmo sua identidade. Dessa forma,
pode-se construir um sistema de reconhecimento, cujo objetivo ´e reconhecer
um locutor a partir de sua voz, podendo ser utilizado, por exemplo, em
aplica¸oes de seguran¸ca e per´ıcia criminal [1].
Os primeiros trabalhos descrevendo aquinas que podiam reconhecer,
com certo sucesso, a pron´uncia de determinadas palavras (reconhecimento
de voz) datam dos anos 50 e tiveram seu auge nos anos 60 [2] gra¸cas `as
descobertas de propriedades da voz atrav´es do uso de espectr´ografos [3].
O reconhecimento autom´atico do locutor (RAL) tem alcan¸cado resultados
bem satisfat´orios, com o crescente aumento da capacidade computacional,
tanto em velocidade de processamento digital, quanto em mem´oria. De modo
geral, ele ´e realizado em duas partes: Primeiro, a extra¸ao das caracter´ısticas
da voz do locutor, que busca obter impress˜oes do locutor que sejam inerentes
a ele, e em seguida o reconhecimento de padr˜oes, que busca a separa¸ao entre
os padr˜oes verdadeiros e falsos.
O estudo do sinal glotal e de seus parˆametros, nos ´ultimos anos, vem sendo
utilizado em diferentes pesquisas e aplica¸oes sobre a produ¸ao, codifica¸ao,
16
s´ıntese, uso cl´ınico da voz [4] e, tamem, em uma tentativa de quantificar a
sua contribui¸ao na transmiss˜ao de sentimentos [5]. Por´em, sua utiliza¸ao em
reconhecimento autom´atico de locutor ´e ainda restrita, devido `a dificuldade
de se obter o sinal glotal pois, em geral, as ecnicas utilizadas para sua
obten¸ao s˜ao invasivas como, por exemplo, a estroboscopia [6] [7], ou, quando
ao invasivas, tˆem a necessidade da utiliza¸ao de aparelhos caros e dif´ıceis
de serem encontrados, como o eletroglotr´ografo [8] [9] [10].
O m´etodo de filtragem inversa semi-autom´atico, desenvolvido em [11],
conhecido como IAIF, apresenta uma ecnica na qual uma estimativa do si-
nal glotal pode ser obtida a partir do sinal de voz do locutor, eliminando
a influˆencia do trato vocal. Dessa forma, tornou-se poss´ıvel realizar o le-
vantamento de caracter´ısticas do sinal glotal a partir da gravao da voz do
locutor.
Em reconhecimento autom´atico de locutor, a t´ecnica de extra¸ao de ca-
racter´ısticas denominada MFCC (Mel frequency Cepstral Coeficients), ´e bem
conhecida e bem difundida e ´e uma t´ecnica que vem proporcionado bons re-
sultados [12], tanto na utiliza¸ao com Redes neurais como em Modelos ocultos
de Markov [13].
Neste trabalho, procurou-se unir os coeficientes MFC com as medidas ob-
tidas diretamente do sinal glotal, de forma a verificar se ocorre uma melhora
no desempenho do reconhecimento autom´atico de locutor.
O reconhecimento de padr˜oes, que ´e o caso de RAL, ´e realizado de modo
que o computador reconhe¸ca padr˜oes apresentados em sua entrada e gere em
sua sa´ıda, resultados satisfat´orios.
Nos ´ultimos anos, a se tentado fazer algoritmos que simulem a capa-
cidade de reconhecimento do erebro humano em sistemas computacionais.
Uma dessas ´areas ´e conhecida como redes neurais artificiais [14], as quais ao
17
utilizadas neste trabalho. Utilizamos, tamb´em, a t´ecnica conhecida como
“M´aquina de Vetores de Suporte”(SVM) e comparamos os resultados obti-
dos.
1.2 Objetivos de Disserta¸ao
-Obter uma estima¸ao do sinal glotal por meio do etodo da filtragem inversa
e extrair suas caracter´ısticas para reconhecimento de locutor.
-Construir um vetor h´ıbrido de caracter´ısticas combinando os coeficientes
MFC e algumas caracter´ısticas do sinal glotal, para criar uma ferramenta
para reconhecimento de locutor. Usar esse vetor h´ıbrido como entrada em
uma rede neural e, tamem, em uma aquina de vetores de suporte.
-A partir de uma “base de d´ıgitos”segmentar cada palavra gravada extraindo
o primeiro som vozeado pronunciado e construir uma base nova de vogais.
-Comparar o desempenho da rede neural e da ecnica de aquina de vetores
de suporte.
1.3 Estado da arte
Os reconhecimentos da voz e locutor, sem distor¸oes, est˜ao praticamente do-
minados utilizando as caracter´ısticas MFC e utilizando HMM (Modelos Ocul-
tos de Markov) para sua classifica¸ao [13], mas com ru´ıdo aditivo a situa¸ao
muda por completo. Devido a isso, vem ocorrendo uma intensifica¸ao dos
18
estudos, visando aumentar a robustez dos reconhecimentos de voz e locutor
em suas etapas de extra¸ao de caracter´ısticas e em sua classifica¸ao. Novas
t´ecnicas incluindo a obten¸ao de outras caracter´ısticas mais robustas tˆem
sido objeto de estudos para serem combinados com os modelos estoasticos
existentes [5].
O sinal glotal, que ´e a fonte geradora da voz, vem sendo estudada em
pesquisas cl´ınicas e para quantificar a contribui¸ao do pulso glotal na trans-
miss˜ao de sentimentos [5], mas seu estudo para reconhecimento de locutor
ainda ao ´e muito explorado devido a dificuldade de sua obten¸ao, mas a
foi comprovada que suas caracter´ısticas funcionam para discrimina¸ao entre
locutores [15]. Na classifica¸ao de padr˜oes a inten¸ao est´a concentrada no
melhor aproveitamento das informa¸oes obtidas na fase de processamento
da voz, utilizando sistemas inteligentes que analisam o significado do re-
sultado obtido, em outras palavras, a coerˆencia e o sentido. Atualmente
vem-se utilizando ecnicas hibridas combinando redes neurais e HMM com
bons resultados [16], no entanto, pesquisadores vem trabalhando em diferen-
tes ecnicas de classifica¸ao que possam ser combinadas com as atuais para
obter melhores resultados.
1.4 Contribui¸oes desta Disserta¸ao
Como contribui¸oes desta disserta¸ao, pode-se destacar
-Obter uma estima¸ao do sinal glotal por meio do etodo da filtragem inversa
e extrair suas caracter´ısticas para reconhecimento de locutor.
- Um novo etodo para reconhecimento de locutor, usando redes neurais
19
e aquina de vetores de suporte, com um vetor de entrada h´ıbrido, com
coeficientes MFC e caracter´ısticas extra´ıdas do sinal glotal.
-A partir de uma “base de d´ıgitos”segmentar cada palavra gravada extraindo
o primeiro som vozeado pronunciado e construir uma base nova de vogais.
20
Cap´ıtulo 2
Fundamentos da produ¸ao da
voz
2.1 A Voz Humana
A voz ´e uma caracter´ıstica humana, relacionada com a necessidade do homem
de se comunicar e se agrupar, a que a voz ao transmite o informa¸ao exica,
mas tamb´em emo¸oes, como dor e alegria, atraes de sua entona¸ao. A voz
tem sons padr˜oes que ao associados com a fala e a comunica¸ao verbal, e
de acordo com as regras desta comunica¸ao, mudam caracter´ısticas da voz,
como intensidade, altura, inflex˜ao, ressonˆancia, articula¸ao e muitas outras
caracter´ısticas que ao determinadas em sua produ¸ao [17]. Esta produ¸ao ´e
um trabalho conjunto do sistema nervoso, respirat´orio e digestivo, al´em de
m´usculos, ligamentos e ossos, que se unem apropriadamente.
Originalmente, o aparato fonador humano ao foi feito para a produ¸ao
da voz. M´usculos, como as cordas vocais, foram desenvolvidos, em primeiro
lugar, para as fun¸oes de respira¸ao e alimenta¸ao. A evolu¸ao para a gera¸ao
da voz foi detectada no homo sapiens e foi fundamental na forma¸ao das
21
sociedades.
2.2 O processo de produ¸ao da voz humana
A voz humana ´e produzida por meio do aparelho fonador, formado pelos
pulm˜oes, pela laringe, pela faringe, pelas cavidades orais (ou bucais) e na-
sais e por arios elementos articulat´orios: os abios, os dentes, o alv´eolo, o
palato, o v´eu palatino e a l´ıngua. A Fig 2.1 mostra um esquema do aparelho
fonador. As cordas vocais, principais elementos para a gera¸ao da voz, ao
duas membranas situadas na laringe .
Figura 2.1: Aparelho fonador.
A abertura entre as cordas vocais se denomina glote. A produ¸ao da voz
se inicia com uma expans˜ao - contra¸ao dos pulm˜oes, que gera uma diferen¸ca
entre a press˜ao do ar nos pulm˜oes e a press˜ao do ar pr´oximo a boca, causando
um escoamento de ar. O ar proveniente dos pulm˜oes ´e for¸cado atrav´es do
pequeno espa¸co existente entre as cordas vocais, causando o movimento das
22
cordas em uma frequˆencia determinada pela tens˜ao dos m´usculos associados.
Este movimento modifica o fluxo de ar resultando em pulsos de ar (conhecidos
como sinal glotal) que ser˜ao amplificados e modificados pelas cavidades oral
e nasal, at´e serem irradiados pela boca. Os pulsos de ar ao modulados pela
l´ıngua, pelos dentes e abios; de forma a produzir o que conhecemos por voz.
Fisiologicamente, ao trˆes subsistemas que atuam de modo sucessivo na
produ¸ao da fala:
1- Respirat´orio: ´e o respons´avel pela produ¸ao do ar necess´aria para
produzir a voz e ´e respons´avel pela passagem da corrente de ar nos pulm˜oes
pela traqu´eia e pela laringe. Em resumo, ´e a fonte de energia da voz e dele
depende a intensidade e dura¸ao da voz.
O subsistema respirat´orio ´e composto pelos m´usculos intercostais (abdo-
minais), diafragma, pulm˜oes, brˆonquios e traqu´eia.
2- Lar´ıngeo: ´e o mais importante do aparato fonador, pois nele se encon-
tram as cordas vocais. Quando a corrente de ar passa pelas cordas vocais
produz-se a onda sonora que ´e a energia ac´ustica aud´ıvel. As cordas vocais
ao as respons´aveis pelo tom e dependem da abertura da glote e tamem de
algumas das propriedades da voz, a que acelera ou desacelera a corrente de
ar, como mostra a Fig 2.2.
O subsistema lar´ıngeo ´e formado pela laringe, pelas cordas vocais, pela
glote e a epiglote.
3-Supralar´ıngeo: ´e o respons´avel pela ressonˆancia e pela articula¸ao da
voz. Na articula¸ao, a onda sonora que se produz nas cordas vocais ´e filtrada.
Este filtro atua modificando o espectro do som, aportando a caracter´ıstica
23
Figura 2.2: Cordas Vocais.
pr´opria da voz para cada indiv´ıduo. Isso ocorre nas quatro principais cavi-
dades supralar´ıngeas.
A faringe, a cavidade nasal, a cavidade oral e a cavidade labial fazem a ta-
refa de ressonadores ac´usticos que ao ˆenfases a certas bandas de frequˆencias
do espectro gerado pelas cordas vocais. A forma do trato vocal determina
suas frequˆencias naturais e, consequentemente, as vogais a serem pronuncia-
das.
Os fonemas
A informa¸ao transmitida atraes da voz ´e intrinsecamente discreta, isto ´e, ela
pode ser representada pela concatena¸ao de elementos de um conjunto finito
de s´ımbolos, chamados fonemas. Um fonema ´e a menor unidade sonora de
uma l´ıngua que estabelece contraste de significado para diferenciar palavras.
A maioria dos idiomas pode ser descrito em termos do conjunto de fone-
mas que possui. Este conjunto de s´ımbolos asicos possui normalmente de
24
30 a 50 elementos que podem ser divididos basicamente em 4 classes: vogais,
ditongos, semivogais e consoantes.
A fon´etica e a fonologia tˆem sido consideradas como distintas, estando a
primeira voltada `as propriedades f´ısicas dos sons da fala e a segunda ao con-
junto de representa¸oes dos sons distintivos na l´ıngua no sistema cognitivo.
Neste trabalho, ser´a detalhada a classe das vogais.
As vogais ao produzidas pela excita¸ao do trato vocal por pulsos de ar
quase peri´odicos, causados pela vibra¸ao das cordas vocais. A Fig 2.3 mostra
o sinal de voz correspondente `a produ¸ao de uma vogal /a/.
Figura 2.3: Sinal de voz correspondente a um trecho da vogal sustentada /a/
obtida com uma frequˆencia de amostragem fs=11.025Hz.
Os segmentos voc´alicos possuem fonte de sonoridade cont´ınua e trato vo-
cal supragl´otico, sem obstru¸ao `a passagem do ar. A qualidade sonora de
cada segmento voc´alico passa a ser dependente da conforma¸ao das cavida-
des supragl´oticas, as quais geram frequˆencias de ressonˆancia denominadas
formantes [19].
Em Portuguˆes, as vogais s˜ao classificadas de acordo com a Nomenclatura
25
Gramatical Brasileira (NGB), considerando: a zona de articula¸ao (conforme
o posicionamento da l´ıngua), o timbre, o papel das cavidades bucal e nasal e
a intensidade atonas ou onicas).
2.2.1 Modelo de produ¸ao sonoro/surdo da voz
Para modelar detalhadamente o processo de produ¸ao da voz, os seguintes
efeitos devem ser considerados: a varia¸ao da configura¸ao do trato vocal
com o tempo, perdas por condu¸ao de calor e fric¸ao nas paredes do trato
vocal, radia¸ao de som pelos abios, a maciez das paredes do trato vocal,
jun¸ao nasal e a excita¸ao do som no trato vocal [16]. Um modelo detalhado
para gera¸ao de sinais de voz, que leva em conta os efeitos da propaga¸ao e
da radia¸ao conjuntamente pode, em princ´ıpio, ser obtido atraes de valores
adequados para excita¸ao e parˆametros do trato vocal. A teoria ac´ustica su-
gere uma ecnica simplificada para modelar sinais de voz, a qual ´e bastante
utilizada. Essa t´ecnica apresenta a excita¸ao separada do trato vocal e da
radia¸ao. Os efeitos da radia¸ao e do trato vocal ao representados por um
sistema linear variante com o tempo. O gerador de excita¸ao gera um sinal
similar a um trem de pulsos, ou sinal aleat´orio (ru´ıdo). Os parˆametros da
fonte e sistema ao escolhidos de forma a se obter na sa´ıda o sinal de voz de-
sejado [16]. Na Fig 2.4, u(n) ´e o sinal de excita¸ao, A
s
(n) e A
f
(n) controlam
a intensidade da excita¸ao do sinal sonoro e do ru´ıdo, respectivamente, onde
ocorre um chaveamento entre sonoro e surdo, alterando o modo de excita¸ao.
2.2.2 A Teoria fonte-filtro
A teoria fonte-filtro considera a produ¸ao da fala dividida em duas partes
independentes: a primeira ´e a fonte de sons, onde se produz o sinal de voz
26
Figura 2.4: Modelo discreto da produ¸ao da voz.
(laringe) e a segunda ´e um sistema de filtros em erie que modificam o sinal
(trato vocal) [18] como mostra a Fig 2.5. Na pr´atica, existe uma intera¸ao
entre a fonte e o trato vocal. Por´em, a validade da teoria pode ser considerada
Figura 2.5: Representa¸ao da Teoria Fonte Filtro
suficiente para a maioria dos casos de interesse, sendo muito utilizada em
processamento digital de sinais.
27
2.3 Pr´e-processamento da voz
A voz humana ´e um sinal de press˜ao ac´ustica que varia com o tempo. Esse
sinal, anal´ogico, pode ser convertido em um sinal digital de modo a possi-
bilitar seu processamento atrav´es de programas de computador. O processo
de digitaliza¸ao, como ´e mostrado na Fig 2.6, come¸ca com a captura do sinal
de ´audio, por um microfone para converter o sinal de voz em sinal el´etrico.
Logo, passa por um filtro anal´ogico chamado de anti-aliasing para eliminar
as frequˆencias altas e possibilitar o uso do Teorema da Amostragem.
Figura 2.6: Diagrama de blocos do digitalizador.
Depois, o sinal obtido ´e amostrado com uma frequˆencia de amostragem
maior que o dobro da frequˆencia axima do sinal, segundo o Teorema da
28
Amostragem [22]. Em seguida, o sinal amostrado ´e quantizado com uma
determinada resolu¸ao. Neste trabalho, o objetivo do pr´e-processamento ´e
obter uma representa¸ao param´etrica dos sinais, que reduza redundˆancias,
mantendo informa¸oes estat´ısticas suficientes para o reconhecimento.
Pr´e-ˆenfase
A filtragem de pr´e-ˆenfase serve para atenuar as componentes de baixa fre-
quˆencia e incrementar as componentes de alta frequˆencia do sinal de voz,
prevenindo contra instabilidade num´erica, tamb´em, minimizando o efeito dos
abios.
A pr´e-ˆenfase das frequˆencias altas ´e necess´aria para que se obtenham
amplitudes mais homogˆeneas das frequˆencias formantes, porque informa¸oes
importantes sobre a locu¸ao tamb´em est˜ao presentes nas altas frequˆencias[22].
A fun¸ao de transferˆencia mais usada para um filtro de pr´e-ˆenfase ´e dada
por:
H(z) = 1 az
1
, 0 a 1. (2.1)
Neste caso, a sa´ıda do sistema de pr´e-ˆenfase ˜s(n) est´a relacionada `a en-
trada s(n) pela equa¸ao de diferen¸cas:
˜s(n) = s(n) as(n 1) (2.2)
onde o valor de a usualmente usado ´e 0,95.
29
Janelamento
Ap´os a pr´e-ˆenfase, passa-se `a etapa de “janelamento”na qual o sinal de voz ´e
dividido em segmentos. Nesta etapa, ao extra´ıdos quadros de N amostras a
partir do sinal ˜s(n), tendo uma superposi¸ao de M amostras (ver Fig. 2.7).
Figura 2.7: Divis˜ao em quadros do sinal de voz.
O janelamento de pequenos segmentos, que variam de 10ms a 45 ms
segundo aplica¸ao, se precissa mais exatitude a janela ´e mais pequena.O ja-
nelamento possibilita minimizar as descontinuidades do sinal no come¸co e no
final de cada janela (frame) e admitir que ele seja aproximadamente esta-
cion´ario nesses intervalos, permitindo, assim, o uso de etodos tradicionais
de an´alise espectral. Geralmente, para separar cada segmento do sinal de
30
voz, usa-se uma janela de Hamming [16], definida por:
h(n) =
0.54 0.46 cos
2πn
N1
, 0 n N 1
0, c.c.
(2.3)
onde n ´e o ´ındice da amostra e N ´e o n´umero total de amostras da janela.
31
Cap´ıtulo 3
Coeficientes Cepstrais de
Frequˆencia Mel (MFCC)
3.1 Extra¸ao de caracter´ısticas em sinais de
voz
Um grande n´umero de caracter´ısticas da voz podem ser extra´ıdas, para o
uso no Reconhecimento Autom´atico de Locutor (RAL), com t´ecnicas tais
como taxa de cruzamento de zeros, energia, frequˆencia fundamental da voz
e Coeficientes Cepstrais de Frequˆencia Mel (MFCC). Neste cap´ıtulo, ser´a
apresentada a t´ecnica de extra¸ao de caracter´ısticas atrav´es dos Coeficientes
Cepstrais de Frequˆencia Mel (MFCC).
A ecnica MFCC surgiu devido aos estudos na ´area de psicoac´ustica (a
ciˆencia que estuda a percep¸ao auditiva humana). Esta ciˆencia mostra que
a percep¸ao das frequˆencias de tons puros ou de sinais de voz ao seguem
uma escala linear, impulsando assim a cria¸ao de uma escala que se aproxima
desta percep¸ao, sendo chamada escala mel.
32
3.1.1 Escala mel
No estudo da dinˆamica do sistema auditivo humano definiu-se uma escala
psicoac´ustica de sensibilidade do ouvido para diversas frequˆencias do espec-
tro aud´ıvel, conhecida como escala mel. A escala Mel”foi desenvolvida por
Stevens e Volkman, em 1940 [21]. A escala mel baseia-se no sistema de
audi¸ao humano, cuja sensibilidade aos sinais de voz se processa em uma
escala ao-linear de frequˆencias. O mel ´e a unidade de medida de um tom,
isto ´e, de uma frequˆencia ´unica percebida pelo ouvinte. Como referˆencia,
definiu-se a frequˆencia de 1 KHz, 40 dB acima do limiar de audi¸ao do ou-
vido, como 1000 mels. Os outros valores subjetivos foram obtidos atrav´es de
experimentos onde pedia-se a ouvintes que ajustassem a frequˆencia f´ısica de
um tom at´e que a frequˆencia percebida fosse igual a duas vezes a frequˆencia
de referˆencia, depois, 10 vezes a frequˆencia de referˆencia e assim por diante.
Essas frequˆencias teriam os valores de 2000 mels, 10000 mels e assim por
Figura 3.1: Escala Mel
33
diante como ´e mostrado na Fig 3.1.
A equa¸ao que descreve a escala mel ´e:
Mel(f ) = 1127 ln
1 +
f
700
. (3.1)
3.1.2 Banda cr´ıtica
Alguns experimentos demostraram que a percep¸ao humana de algumas
frequˆencias de sons complexos ao podem ser individualmente identificadas,
dentro de certas bandas [21]. Quando uma componente cai fora da banda,
chamada de banda cr´ıtica, ela pode ser identificada. Uma explica¸ao apre-
sentada para esse fato ´e que a percep¸ao de uma frequˆencia particular pelo
sistema auditivo, por exemplo f, ´e influenciada pela energia de certa banda
de frequˆencias em torno de f, o valor dessa banda varia nominalmente de
10% a 20% da frequˆencia central do som, come¸cando em torno de 100 Hz para
frequˆencias abaixo de 1 KHz e aumentando em escala logar´ıtmica acima.
Cabe destaque `a representa¸ao cepstral associada `a escala mel apresen-
tando maior efic´acia computacional, sendo chamada de Mel-Cepstral.
3.1.3 Banco de filtros triangulares
A melhora do desempenho de sistemas de reconhecimento de voz e locu-
tor, com o uso da escala mel aliada ao uso de bancos triangulares, tem se
comprovado [16], originando a t´ecnica MFCC [13]
Na Fig 3.2, apresenta-se a configura¸ao de banco de filtros triangulares
usado para o alculo dos coeficientes MFC [20].
Para a faixa de frequˆencias de interesse (300 Hz - 3.4 KHz), utilizam-se
20 filtros centrados nas frequˆencias da escala mel. O espa¸camento ´e de apro-
34
Figura 3.2: Banco de filtros usado na ecnica MFCC.
ximadamente 150 mels e a largura de banda de cada filtro triangular ´e de 300
mels. Este banco de filtros simula a resposta em frequˆencia da membrana ba-
silar. Esses fenˆomenos (escala mel e banda cr´ıtica) sugeriram que seria mais
interessante fazer algumas modifica¸oes na representa¸ao espectral do sinal.
Tais modifica¸oes consistiram, primeiramente, em fazer uma pondera¸ao da
escala de frequˆencia para a escala mel e, depois, incorporar a no¸ao de banda
cr´ıtica na defini¸ao de distor¸ao espectral. Ou seja, ao ines de usar sim-
plesmente o logaritmo da magnitude das frequˆencias, passou-se a utilizar o
logaritmo da energia total das bandas cr´ıticas em torno das frequˆencias mel.
A aproxima¸ao mais utilizada para esse alculo ´e a utiliza¸ao de um banco
de filtros triangulares, espa¸cados uniformemente em uma escala ao linear
(escala mel). A t´ecnica de pondera¸ao mel pode ser aplicada a arios tipos
de representa¸ao espectral.
3.1.4 C´alculo dos MFCCs
Para o alculo dos coeficientes MFC, primeiro, o sinal de voz s(n) passa pela
etapa de pr´e-ˆenfase, em seguida, o sinal resultante ´e dividido em pequenas
janelas de Hamming. Para cada janela, m, estima-se o espectro S(w, m),
35
utilizando a FFT. O espectro modificado P (i), i = 1, 2, . . . , N
f
, consistir´a
na energia de sa´ıda de cada filtro, expresso por:
P (i) =
N/2
k=0
|S(k, m)|
2
H
i
k
2π
N
(3.2)
onde N ´e o n´umero de pontos da FFT, N
f
´e o n´umero de filtros triangulares,
|S(k, m)| ´e o odulo da amplitude na frequˆencia do k-´esimo ponto da m-
´esima janela e H
i
(w) ´e a fun¸ao de transferˆencia do i-´esimo filtro triangular.
Em seguida, define-se o conjunto de pontos E(k) por:
E(k) =
log[P (i)], k = k
i
0, qq outro k [0, N 1]
(3.3)
onde k
i
´e o ponto aximo do i-´esimo filtro. Os coeficientes mel-cepstrais
c
mel
(n) ao ent˜ao obtidos com o uso da Transformada Discreta de Coseno
(DCT), dado por
c
mel
(n) =
N
f
i=0
E(k
i
) cos
2π
N
k
i
n
, n = 0, 1, 2, . . . , N
c
1 (3.4)
onde N
c
´e o n´umero de coeficientes mel-cepstrais desejado, N
f
´e o n´umero
de filtros e k
i
´e o ponto aximo do i-´esimo filtro. Por exemplo se N
c
= 15
enao se ter´a um vetor como ´e mostrado a seguir:
c
mel
= c
0
, c
1
, c
2
, . . . , c
13
, c
14
.
Nesse vetor, considera-se o primeiro coeficiente, denotado por c
0
que pode
carregar muita informa¸ao do meio de transmiss˜ao[34]. Este coeficiente por
vezes ´e considerado e por vezes ao; isto vai depender do tipo de reconheci-
mento que se deseja pode ser de voz ou locutor. A Fig.3.3 mostra o processo
para obter os coeficientes MFC.
36
Figura 3.3: Diagrama de fluxo para o alculo dos MFCCs.
3.1.5 Coeficientes Delta e Delta- Delta
Para melhorar o desempenho dos sistemas de reconhecimento adiciona-se
mais informa¸ao do sinal, como por exemplo, a primeira e a segunda deriva-
das. Os coeficientes cepstrais, resultado do alculo da DCT, ao conhecidos
tamem como coeficientes “est´aticos”e os coeficientes obtidos a partir da pri-
meira e segunda derivadas s˜ao chamados de coeficientes “dinˆamicos”, porque
ao utilizados para representar as mudan¸cas dinˆamicas no espectro da voz
e, desse modo, detectar varia¸oes bruscas dentro do espectro. Uma equa¸ao
37
muito usada ´e a seguinte [24]:
d
t
=
Θ
θ=1
θ(c
t+θ
c
tθ
)
2
Θ
θ=1
θ
2
, (3.5)
onde d
t
´e o coeficiente delta (∆) no tempo t calculado em termos dos cor-
respondentes coeficientes est´aticos c
tΘ
at´e c
t
. O valor de Θ ´e o n´umero
de amostras necess´arias para o c´alculo dos coeficientes dinˆamicos e este valor
´e normalmente achado de forma emp´ırica; segundo a literatura , os valores
mais t´ıpicos ao de 2, 4 ou 8. Os parˆametros de segunda ordem ao obtidos
reaplicando a derivada sobre os resultados obtidos na primeira derivao.
Assim, por exemplo, se queremos calcular 12 coeficientes MFCC com seus
respectivos coeficientes dinˆamicos, ter´ıamos no final 12 coeficientes est´aticos,
12 coeficientes obtidos da primeira derivada (∆) e mais 12 coeficientes obtidos
da segunda derivada (∆∆); isto ´e, um vetor de 36 coeficientes[13]. Normal-
mente, o alculo anterior ´e realizado sem considerar o primeiro coeficiente
(c
0
); por ter informa¸oes do meio do transmiss˜ao, portanto, se considerarmos
o c
0
, enao ter´ıamos um vetor de 39 coeficientes.
38
Cap´ıtulo 4
Extra¸ao de caracter´ısticas do
sinal glotal
4.1 Sinal glotal
Quando ocorre a expans˜ao-contra¸ao dos pulm˜oes, a-se inicio `a gera¸ao do
sinal glotal, pois gera-se a diferen¸ca de press˜ao entre o ar nos pulm˜oes e no
ar pr´oximo `a boca. O fluxo do ar produzido por essa diferen¸ca de press˜ao
passa atrav´es das cordas vocais que vibram em uma frequˆencia relacionada `a
tens˜ao dos m´usculos associados `a produ¸ao da fala [25]. Esta vibra¸ao altera
o fluxo de ar, transformando-o em um trem de pulsos ou sinal glotal. O
processo da forma¸ao do sinal glotal ´e mostrado na Fig 4.1.
O sinal glotal possui propriedades importantes de dif´ıcil reprodu¸ao que
est˜ao intimamente ligadas `as caracter´ısticas anatˆomicas e fisiol´ogicas da la-
ringe. Atualmente, a teoria mais aceita para a descri¸ao do sinal glotal (isto
´e, o aparecimento do trem de pulsos) ´e a teoria chamada de aerodinˆamica
mioel´astica [26] [27]. Esta teoria postulou que os movimentos de abrir e fe-
char as cordas vocais ao regidos pelas propriedades mecˆanicas dos tecidos
39
Figura 4.1: Forma¸ao do sinal glotal.
musculares que constituem, principalmente, as cordas vocais e pelas for¸cas
aerodinˆamicas que se distribuem ao longo da laringe durante a fala.
A a¸ao neural consiste apenas em aproximar as cordas vocais de tal forma
que a superf´ıcie destas vibrem. O sinal glotal tem grande importˆancia na
determina¸ao de sentimentos na voz e ´e utilizado em ´areas de pesquisa cl´ınica.
A Fig. 4.2 ´e um exemplo de sinal glotal obtido atraes do sinal de voz, por
filtragem inversa e ser´a detalhado mais adiante .
Figura 4.2: Sinal glotal da vogal sustentada representada na Fig.2.3, obtido
por filtragem inversa.
40
4.2 Filtragem inversa
´
E uma ecnica bastante empregada na estima¸ao do sinal glotal. O fluxo
de ar, proveniente dos pulm˜oes, ´e alterado pela vibra¸ao das cordas vocais
gerando o sinal glotal, que serve de excita¸ao do trato vocal e gerando, final-
mente, a voz. Portanto, o estudo do sinal glotal ´e de suma importˆancia na
compreens˜ao da produ¸ao da voz.
Sua utiliza¸ao em reconhecimento autom´atico de locutor ´e ainda restrita,
devido `a dificuldade de se obter o sinal glotal pois, em geral, as ecnicas uti-
lizadas para sua obten¸ao ao invasivas como, por exemplo, a estroboscopia
[6], ou, quando ao invasivas, em a necessidade da utiliza¸ao de aparelhos
caros e dif´ıceis de serem encontrados, como o eletroglotr´ografo [8]. A filtra-
gem inversa tem a vantagem de dar uma estimativa do sinal glotal partindo
do sinal de voz. As diversas vers˜oes desta t´ecnica baseiam-se na mesma id´eia;
o pulso glotal ´e obtido cancelando os efeitos dos formantes na voz.
O trato vocal deve ser modelado e, enao, os efeitos dos formantes ao
cancelados filtrando o sinal de voz atraes do inverso do trato vocal [11].
O PSIAIF (Pitch Synchronous Iterative Adaptive Inverse Filtering) ´e um
m´etodo de filtragem inversa, semi-autom´atico, desenvolvido por [11], que
utiliza o sinal de voz como entrada e apresenta na sa´ıda uma estima¸ao do
fluxo glotal correspondente.
4.2.1 Algoritmo de filtragem inversa
A teoria fonte-filtro da produ¸ao da voz ´e a base te´orica necess´aria para a
cria¸ao da t´ecnica de filtragem inversa. Se a fun¸ao de transferˆencia do filtro
do trato vocal ´e conhecida, uma filtragem inversa poder´a ser realizada. Em
princ´ıpio, o sinal da excita¸ao glotal pode ser reconstru´ıdo passando o sinal de
41
voz pelo inverso do filtro do trato vocal. Na pr´atica, a fun¸ao de transferˆencia
do filtro do trato vocal pode ser aproximada baseando-se no sinal de voz e
no mecanismo de produ¸ao da voz. Aplicando a ecnica de filtragem inversa
ao sinal de voz, obteremos uma estima¸ao da excita¸ao glotal e a forma de
onda do fluxo glotal, que tamb´em ´e conhecida como FGG (flow glottogram)
[28] [29]. Atualmente, a maioria das t´ecnicas de filtragem inversa s˜ao digitais
devido `a flexibilidade e facilidade de implementa¸ao quando comparadas aos
filtros anal´ogicos.
Os m´etodos de filtragem inversa digital podem ser divididos em ecnicas
manuais, semi-autom´aticas e autom´aticas. Os etodos manuais requerem
o ajuste dos filtros para determinar os formantes do sinal de voz, diferente-
mente das t´ecnicas autom´aticas que constroem um modelo do filtro do trato
vocal e encontram os parˆametros dos filtros, normalmente por an´alise LPC
(linear prediction coefficients [29]. Os m´etodos semi-autom´aticos encontram-
se entre os dois extremos. O etodo proposto por [11] ´e um bom exemplo
de etodo semi-autom´atico, pois, basicamente, o filtro do trato vocal ´e en-
contrado automaticamente, mas o usu´ario pode controlar certos parˆametros
que afetar˜ao o resultado final do fluxo glotal. No trabalho, [30] comparou
um etodo de filtragem inversa autom´atico com um manual e concluiu que
a extrema semelhan¸ca entre os resultados obtidos em cada m´etodo.
A filtragem inversa envolve, basicamente, a extra¸ao de dois sinais, o
sinal glotal e o efeito do filtro do trato vocal, de uma ´unica fonte de sinal.
Entretanto, a ecnica adota diversas aproxima¸oes a respeito do fluxo glotal
e da fun¸ao de transferˆencia do trato vocal. Conseq¨uentemente, o resultado
da filtragem inversa deve ser considerada como uma estima¸ao do sinal glotal
[31]. O fluxo glotal em si ainda ao ´e conhecido exatamente. Em [15], a
uma compara¸ao entre a estimativa do sinal glotal e o sinal obtido pelo
42
electroglot´ografo encontrando muitas semelhan¸cas e dando mais confian¸ca
na estimativa alcan¸cada na filtragem inversa semi-autom´atica.
A precis˜ao da filtragem inversa se deteriora caso a frequˆencia fundamental
da voz seja alta, pois a estrutura espa¸cada dos harmˆonicos do espectro da
excita¸ao interfere nos formantes, que ao ressonˆancias locais no espectro[31].
4.2.2 An´alise LPC
A predi¸ao linear (LPC) ´e uma ecnica muito utilizada em processamento de
sinais de ´audio e processamento de voz e consiste em usar amostras anteriores
do sinal para estimar a amostra atual.
´
E usado em m´etodos de codifica¸ao de
voz de alta qualidade. Estudos demonstraram [16] que um sinal de voz s(t),
pode ser visto como a sa´ıda de um filtro digital IIR (Resposta ao impulso
infinita) cuja fun¸ao de transferˆencia ´e 1/A(z) (tamem chamado o-polo),
excitado por uma sequˆencia de impulsos que corresponde ao erro LPC do
sinal e(n), com transformada E(z). Ou seja, a transformada z do sinal s(t)
´e dada por:
S(z) =
E(z)
A(z)
. (4.1)
O filtro A(z) com coeficientes ate ordem M ´e dado por:
A(z) = 1
M
k=1
a
k
z
k
, (4.2)
e ´e chamado de filtro digital inverso [16]. De acordo com esse modelo, a
n-´esima amostra do sinal de voz pode ser aproximada por uma combina¸ao
das M amostras anteriores. A diferen¸ca do valor real e do valor aproximado
corresponde ao erro de predi¸ao linear do sinal. A energia do erro de predi¸ao
do sinal ´e minimizada para determinar os pesos chamados coeficientes LP
43
(LPCs). Dessa forma, para o sinal de voz s(nT ), o valor predito pela n-
´esima amostra ´e dado por:
s
(nT ) =
M
k=1
a
k
s(nT kT ), (4.3)
onde a
k
ao os LPC´s. Estes coeficientes a
k
do filtro ao calculados de ma-
neira a minimizar a soma dos quadrados dos erros:
e(n) = s(nT ) s
(nT ). (4.4)
A an´alise LP assume este modelo para representar o efeito combinado da
resposta ao impulso do sistema do trato vocal e do formato do pulso glotal.
4.2.3 IAIF
O m´etodo de filtragem inversa semi-autom´atico ´e conhecido como IAIF e foi
desenvolvido por [11]. Utiliza o sinal de voz como entrada a fim de obter, na
sa´ıda, uma estima¸ao do fluxo glotal correspondente. O modelo de produ¸ao
da voz, o qual o IAIF ´e baseado, est´a representado na Fig. 4.3 .
Figura 4.3: Forma¸ao do sinal glotal.
O IAIF ´e composto de trˆes blocos fundamentais. ao eles: an´alise LPC,
filtragem inversa e integra¸ao. A an´alise LPC ´e respons´avel pela filtragem de
44
pr´e-ˆenfase, pela estima¸ao do trato vocal e da contribui¸ao glotal, definidas
atraes da ordem de seus coeficientes e discutida, ainda, neste cap´ıtulo. A
filtragem inversa ´e respons´avel pela elimina¸ao do trato vocal e da contri-
bui¸ao glotal no sinal da voz. A integra¸ao ´e respons´avel pela elimina¸ao da
radia¸ao dos abios.
Como visto na Fig. 4.4, o sinal de entrada ´e passado por um filtro passa
alta com intuito de eliminar as frequˆencias baixas, que provocam flutua¸oes
na sa´ıda. O sinal filtrado ´e usado como entrada para os blocos subseq¨uentes
(blocos 1, 2, 4, 7 e 9). A frequˆencia de corte deve ser ajustada de modo que
ao seja maior que a frequˆencia fundamental do sinal de voz, caso contr´ario
perder´a informa¸oes relevantes. O m´etodo IAIF ´e baseado no pr´evio conhe-
cimento da fun¸ao de transferˆencia do trato vocal. Logo, se todo o efeito da
fonte glotal ´e eliminado do espectro da voz, o trato vocal pode ser estimado,
mais precisamente, por an´alise LPC ou outro etodo de predi¸ao linear. A
estima¸ao da contribui¸ao glotal e a fun¸ao de transferˆencia do trato vocal ´e
computada pelo algoritmo IAIF em uma estrutura que se repete duas vezes.
Inicialmente, a primeira estimativa da contribui¸ao glotal ´e obtida do sinal
de voz por an´alise LPC de ordem um e, posteriormente, eliminada por filtra-
gem inversa. A ordem da an´alise LPC, neste caso, se for maior que um pode
modular os formantes, efeito indesej´avel por enquanto [11].
Um modelo preliminar do trato vocal ´e obtido aplicando an´alise LPC, de
ordem elevada (no nosso caso, a ordem que apresento melhores resultados
foi foi quarenta e cinco), ao sinal do qual o efeito da contribui¸ao glotal
inicial foi eliminado. A primeira estimativa da excita¸ao glotal ´e obtida
cancelando o efeito do trato vocal e da radia¸ao dos abios, por filtragem
inversa e integra¸ao, respectivamente.
O resultado desta primeira estrutura ´e o sinal glotal (excita¸ao glotal ou
45
contribui¸ao glotal) que ´e usado como entrada da segunda estrutura a fim de
estim´a-lo de forma mais precisa. O espectro da excita¸ao glotal ´e estimado
no in´ıcio da segunda estrutura usando an´alise LPC de ordem igual a dois
ou quatro. Ap´os cancelar a contribui¸ao glotal, o modelo do trato vocal ´e
encontrado, novamente usando an´alise LPC de ordem elevada. O resultado
final ´e obtido pela fitragem inversa do efeito do trato vocal e da radia¸ao dos
abios do sinal original da voz [11].
A primeira estrutura do algoritmo conem os blocos de 1 a 5 e a segunda
os blocos de 6 a 10.
O processamento pelo IAIF ´e feito em janelas de 30ms com 75 por cento
de superposi¸ao para aumentar a correla¸ao entre janelas sucessivas, evitando
varia¸oes bruscas entre caracter´ısticas extra´ıdas de janelas adjacentes. A Fig.
4.4 ilustra o diagrama do processamento do IAIF.
As fases de pr´e-ˆenfase e janelamento foram explicadas no cap´ıtulo de pr´e-
processamento do sinal de voz e ao aplicadas antes da entrada do sinal de
voz no algoritmo IAIF.
46
Figura 4.4: Algoritmo IAIF.
47
Bloco 1. An´alise LPC de primeira ordem - O efeito da contribui¸ao
glotal no espectro da voz ´e preliminarmente estimado pela an´alise LPC de
ordem 1. A sa´ıda deste bloco ´e representada pela Eq. 4.5.
H(z) = 1 az
1
, 0, 9 a 1, 0. (4.5)
onde o valor de a ´e 0,98.
Bloco 2. Filtragem Inversa - A contribui¸ao glotal ´e eliminada passando
s
a
(n) por H
g1
(z).
Bloco 3. An´alise LPC de ordem t
1
- a primeira estimativa do trato vocal
´e obtida, aplicando an´alise LPC `a sa´ıda do bloco anterior. A sa´ıda deste
bloco ´e dada pela Eq. (4.6) (no caso, t
1
= 45).
H
vt1
(z) = 1 +
t1
k=0
b(k)z
k
. (4.6)
Bloco 4. Filtragem Inversa - o efeito do trato vocal ´e eliminado passando
s
a
(n) por H
vt1
(z).
Bloco 5. Integra¸ao - a primeira estimativa para a excita¸ao glotal,
g
1
(n), ´e obtida pelo cancelamento do efeito da radia¸ao dos l´abios atraes da
integra¸ao. Este bloco marca o final da primeira estrutura usada no IAIF.
Sua sa´ıda servir´a de entrada para o bloco seguinte, diferentemente dos blocos
1, 2, 4, 7 e 9, que possuem o sinal de voz como entrada.
Bloco 6. An´alise LPC de ordem g
2
- a segunda estrutura se inicia pela
nova estima¸ao do efeito da fonte no espectro da voz, por´em a an´alise LPC
tem sua ordem alterada para dois ou quatro. O sinal no qual a contribui¸ao
glotal ´e estimada ´e g
1
(n). A sa´ıda deste bloco ´e representada pela Eq. (4.7)
(no caso, g
2
= 4).
48
H
g2
(z) = 1 +
g2
k=0
c(k)z
k
. (4.7)
Bloco 7. Filtragem Inversa- o efeito da contribui¸ao glotal ´e eliminado,
passando s
a
(n) atrav´es de H
g2
(z). Eliminando a contribui¸ao glotal, no es-
pectro do sinal de voz, ´e poss´ıvel estimar o trato vocal de forma mais precisa
no pr´oximo bloco.
Bloco 8. An´alise LPC de ordem t
2
- o modelo final do trato vocal ´e
obtido, aplicando an´alise LPC de ordem t
2
`a sa´ıda do bloco 7. O bloco 8 tem
sa´ıda representada pela Eq. (4.8). (t
2
= 45)
H
vt2
(z) = 1 +
t2
k=0
d(k)z
k
. (4.8)
Bloco 9. Filtragem Inversa - o efeito do trato vocal ´e eliminado da voz,
passando s
a
(n) atraes de H
vt2
(z).
Bloco 10. Integra¸ao - o resultado final do algoritmo ou sinal glotal,
g
a
(n), ´e obtido pelo cancelamento do efeito da radia¸ao dos abios, integrando
a sa´ıda do bloco 9.
4.2.4 PSIAIF
No etodo IAIF, a contribui¸ao glotal no espectro da voz ´e inicialmente
estimada por uma estrutura iterativa. A fun¸ao de transferˆencia do trato
vocal ´e modelada ap´os eliminar a contribui¸ao glotal m´edia. A excita¸ao
glotal ´e obtida cancelando os efeitos do trato vocal e da radia¸ao dos abios,
por filtragem inversa e integra¸ao, respectivamente. No m´etodo PSIAIF
(Pitch Synchronous Iterative Adaptive Inverse Filtering), a forma do pulso
glotal ´e obtida aplicando-se o algoritmo IAIF duas vezes, ao mesmo sinal,
sendo o resultado da primeira aplica¸ao servindo apenas para identificar o
49
per´ıodo fundamental que ser´a a base para o alculo do novo janelamento,
antes da segunda aplica¸ao do IAIF. Isto ´e ilustrado na Fig. 4.5
Figura 4.5: etodo PSIAF.
A primeira an´alise realizada pelo IAIF fornece o resultado da excita¸ao
glotal que ocorre entre arios per´ıodos da pitch (g
pa
(n)), que tem como en-
trada o sinal de voz previamente filtrado (s
hp
(n) - bloco 1 da Fig. 4.5). Este
pulso ´e usado para determinar posi¸oes e larguras de janelas para uma an´alise
s´ıncrona da pitch (frequˆencia fundamental da voz). O resultado final ser´a ob-
tido analisando o sinal de voz original com o algoritmo IAIF em um per´ıodo
por vez, ou seja, a estimativa final da forma do pulso glotal ser´a obtida apli-
cando o m´etodo IAIF ao sinal de voz, usando o intervalo de tempo entre dois
aximos de abertura glotal consecutivos (n
0
, n
1
, ...) [11]. Outros tamanhos
de janela podem ser utilizados, mas sempre tendo como referˆencia o per´ıodo
fundamental. Neste trabalho foram usados trˆes per´ıodos fundamentais con-
secutivos. A principal vantagem na utiliza¸ao do m´etodo PSIAIF est´a na
obten¸ao do sinal glotal de forma mais precisa.
50
4.2.5 Modelo Discreto o Polo( DAP)
DAP ´e uma alternativa `a an´alise LPC. A id´eia asica do modelo DAP ´e
adaptar o modelo tudo-polo utilizado pela an´alise LPC usando unicamente o
conjunto finito das localiza¸oes no espectro, relacionadas com a posi¸ao dos
harmˆonicos da freq¨encia fundamental.
O modelo DAP ´e otimizado, tentando diminuir a distˆancia entre o espec-
tro original e a aproxima¸ao deste espectro, por meio de uma vers˜ao discreta
da distˆancia Itakura-Saito [43]. A distˆancia ´e medida por:
D
dap
=
m
S(w
m
)
ˆ
S(w
m
)
log(
S(w
m
)
ˆ
S(w
m
)
) 1. (4.9)
Figura 4.6: Estma¸oes LP e DAP para uma sinal com periodo fundamen-
tal=50 e Fs=44100
Onde w
m
ao os harmˆonicos da frequˆencia fundamental, Sw
m
´e o espectro
51
do sinal e
ˆ
S(wm) ´e a estimativa do espectro.
Esta distˆancia ´e uma minimiza¸ao adaptativa da estima¸ao do modelo
DAP. Atualmente o IAIF ´e implementado usando o modelo DAP por ser
capaz de estimar o trato vocal com mais precis˜ao que a an´alise LPC [31]. Na
Fig 4.6 mostra-se uma compara¸ca˜o entre LPC e DAP.
4.3 Parˆametros do sinal glotal
Para discriminar o sinal glotal, extraem-se parˆametros desse sinal, aprovei-
tando sua periodicidade, em vogais. Os parˆametros que descrevem o fluxo
glotal podem ser usados em m´ultiplas aplica¸oes, tais como: pesquisas sobre
a produ¸ao da voz, codifica¸ao, s´ıntese, reconhecimento autom´atico de voz,
uso cl´ınico, verifica¸ao e identifica¸ao autom´atica de locutor e para quantifi-
car a contribui¸ao do pulso glotal na transmiss˜ao de sentimentos.
4.3.1 Instantes de axima abertura e aximo fecha-
mento glotal
O instante de aximo fechamento ´e definido como o instante em que o fluxo
glotal atinge seu valor m´ınimo. Fisiologicamente, corresponde ao instante que
as cordas vocais come¸cam a se separar. O instante de axima abertura est´a
associado ao aximo da excita¸ao glotal, em outras palavras, corresponde
ao instante que o fluxo glotal atinge seu valor aximo.
52
4.3.2 Dura¸ao fase de fechamento (Ko)
´
E a fase em que as cordas vocais ao separadas e a ´area de abertura entre
elas est´a diminuindo. A dura¸ao da fase de fechamento ´e indicada por Ko
[11] [15].
4.3.3 Dura¸ao fase de abertura (Ka)
´
E a fase em que as cordas vocais est˜ao, pelo menos parcialmente separadas e a
´area de abertura entre elas est´a aumentando. A dura¸ao da fase de abertura
´e denotada por Ka.
4.3.4 Periodo Fundamental (T )
´
E o tempo entre os ciclos de abertura e fechamento da glotis . Isto ´e indicado
por T, e ´e o rec´ıproco do frequˆencia fundamental fo.
4.3.5 Amplitude de vozeamento (Av)
A amplitude de vozeamento (Av) ´e definida como a amplitude entre os va-
lores m´ınimos e aximos do sinal glotal como ´e ilustrado na Fig.4.7. Este
parˆametro na pr´atica ao teve ˆexito para discriminar o sinal glotal a que
depende de arios fatores que entrariam como ru´ıdo na classifica¸ao, tais
como a intensidade de voz em cada gravao e a distˆancia entre o locutor e
o microfone na hora da gravao.
53
4.3.6 Distˆancia entre os instantes de axima abertura
glotal (pp)
Ap´os a obten¸ao dos instantes de axima abertura do sinal glotal, toma-se
o valor da distˆancia entre os aximos (pico-pico) do sinal glotal como se
ilustra na Fig.4.7. Este parˆametro ser´a definido como (pp) e ´e um aporte
deste trabalho, somando-se aos parˆametros a descritos por [11][15].
4.3.7 Fase de abertura (F a)
´
E a parte do ciclo gl´otico durante o qual as cordas vocais ao separadas e
passa o fluxo de ar atraes da glote. Onde F a = Ka + Ko [31].
4.3.8 Quociente de abertura (OQ)
´
E definido como a rela¸ao entre a fase de abertura e o comprimento total do
ciclo gl´otico [31]. Onde OQ = F a/T
4.3.9 Quociente de fechamento (CIQ)
´
E definido como a rela¸ao entre a fase de fechamento e um ciclo glotal com-
pleto. Onde CIQ = Ko/T [31].
4.3.10 Quociente de velocidade (SQ)
´
E definido como a rela¸ao entre a fase de abertura e a fase de fechamento.
Onde SQ = Ka/Ko [31].
54
Figura 4.7: (a) Parˆametros do sinal glotal (b) Sinal glotal proposta [11].
55
Cap´ıtulo 5
Classificadores de padr˜oes
5.1 Redes Neurais
O neurˆonio, a elula nervosa do sistema neural humano, ´e composto de trˆes
partes: o corpo, o axˆonio e os dendritos. Os dendritos tˆem por fun¸ao receber
as informa¸oes oriundas de outros os, e conduz´ı-las at´e o corpo celular. Na
parte do corpo, a informa¸ao ´e processada e novos impulsos ao gerados.
Estes impulsos ao transmitidos a outros os, passando atrav´es do axˆonio
at´e os dendritos dos os seguintes. O ponto de contato entre a termina¸ao
axˆonica de um neurˆonio e o dendrito de outro ´e chamado sinapse.
´
E pela
sinapse que os os se unem funcionalmente, formando as redes neurais.
As redes neurais artificiais foram criadas para imitar, em um computador,
a estrutura e a funcionalidade do erebro. Dessa forma, os neurˆonios passam
a ser representados como simples elementos de processamento, os dendritos
como interconex˜oes, as sinapses como pesos e o axˆonio pelos terminais de
sa´ıda [14].
O processo de combina¸ao dos sinais e gera¸ao de uma sa´ıda para o
neurˆonio ´e modelado por uma fun¸ao de transferˆencia, as sinapses de cada
56
conex˜ao ao representadas por pesos que variam durante o treinamento.
As redes neurais em certas propriedades `as quais fazem com que seja uma
das ferramentas mais estudadas na atualidade para classifica¸ao de padr˜oes
[32]. Algumas propriedades devem ser destacadas:
- ao-Linearidade : As redes neurais podem operar fun¸oes ao lineares,
habilitando-se assim em desenvolver fun¸oes complexas de transforma¸ao de
dados.
- Adaptabilidade : A rede neural tem a capacidade de adaptar seus pesos
de acordo com as varia¸oes do ambiente em que se encontra. Em particular,
uma rede neural treinada para operar em um espec´ıfico ambiente pode ser
facilmente retreinada, com poucas modifica¸oes, para operar em condi¸oes
ambientais diferentes.
- Robustez : As redes ao tolerantes a falhas e dados ruidosos.
- Generaliza¸ao : As redes ao apenas memorizam os dados treinados,
mas tamb´em podem generalizar para novos padr˜oes. Isso ´e essencial no
reconhecimento da voz, porque os padr˜oes ac´usticos nunca ao exatamente
os mesmos.
- Paralelismo - As redes neurais ao altamente paralelas por natureza,
dessa forma ao ideais para implementa¸ao em computadores de processa-
mento paralelo, permitindo um apido processamento.
5.1.1 Unidades de processamento
Um neurˆonio ´e uma unidade de processamento de informa¸ao que ´e funda-
mental para a opera¸ao de uma rede neural. A Fig. 5.1 mostra o modelo
para um neurˆonio. Podem-se identificar trˆes elementos asicos do modelo:
-Um conjunto de conex˜oes ou sinapses cada uma das quais caracterizada
57
Figura 5.1: Modelo ao linear de um neurˆonio.
por seu peso. Por exemplo, o sinal x
j
, na entrada da sinapse j, conectado ao
neurˆonio k ´e multiplicado por um peso w
k,j
, onde k refere-se ao neurˆoinio em
quest˜ao e o j ´a sinapse pela qual o peso refere-se.
-Uma fun¸ao de ativao ϕ(.) para limitar a amplitude do sinal de sa´ıda
da unidade de processamento y
k
e medir o estado de ativao para o neurˆonio.
-Uma fun¸ao de propaga¸ao que se encarrega de propagar o estado de
ativao do neurˆonio para os outros que est˜ao conectados ao mesmo.
O neurˆonio se descreve nas Eq 5.1 5.2:
v
k
=
p
j=1
w
kj
x
j
(5.1)
y
k
= ϕ(v
k
Θ
k
) (5.2)
onde x
1
, x
2
, ..., x
p
ao os sinais de entrada que representam os dendritos;
w
k1
, w
k2
, ..., w
kp
ao os pesos sin´apticos do neurˆonio k que representam as
sinapses; v
k
´e o estado de ativao do j-´esimo neurˆonio; Θ
k
´e o limiar; ϕ(.) ´e
a fun¸ao de ativao; e y
k
´e a sinal de saida do neurˆonio k.
58
5.1.2 Fun¸oes de ativao
A fun¸ao de ativao define a sa´ıda de um neurˆonio em termos do n´ıvel de
ativao da sua entrada. As fun¸oes de ativao mais utilizadas ao [14]:
-Degrau simetrico
y =
1, x b
1, x b
(5.3)
-Linear
y = x + b (5.4)
-Log´ıstica Sigmoidal
y = 1/(1 + e
(n+b)
) (5.5)
-Tangente Sigmoidal
y = (e
(x+b)
e
(xb)
)/(e
(x+b)
+ e
(xb)
) (5.6)
5.1.3 Arquitetura de redes neurais
Por arquitetura de uma rede neural entende-se a forma como est˜ao conectadas
suas unidades de processamento e como ocorre o fluxo do sinal dentro da
rede. A arquitetura da rede neural est´a fortemente ligada ao algoritmo de
aprendizado usado para trein´a-la. As redes neurais classificam-se por seu
numero de camadas e pelo tipo de conex˜ao entre os os, as mais comuns ao
explicadas a seguir:
59
Redes de camada ´unica
o existem os os fontes da camada de entrada e qualquer sa´ıda da rede.
Deve ser observado que a camada de entrada ao deve ser considerada, pois
nenhuma computa¸ao nela ´e realizada.
Redes de m´ultipla camada
Diferenciam-se das redes de uma camada pela presen¸ca de uma ou mais
camadas escondidas (hidden layers).
Feedforward
Redes de uma ou mais camadas de processadores, cujo fluxo de dados ´e
sempre em uma ´unica dire¸ao, isto ´e, ao existe realimenta¸ao.
Recorrentes
Redes com conex˜oes entre processadores da mesma camada e/ou com pro-
cessadores das camadas anteriores (realimenta¸ao).
5.1.4 Aprendizado nas redes neurais
Aprendizado ´e um processo pelo qual os parˆametros livres de uma rede neural
ao adaptados, atrav´es de est´ımulos do ambiente onde est´a a rede neural. O
tipo de aprendizado ´e determinado pela maneira pela qual as mudan¸cas nos
parˆametros acontecem. Este processo ´e formalizado atrav´es de um algoritmo
de aprendizado que define como a rede ´e estimulada, como os parˆametros se
adaptam e como a rede deve responder a novos est´ımulos. Apresentamos a
seguir as classes de aprendizado:
60
Aprendizado Supervisionado
A rede ´e treinada atraes do fornecimento dos valores de entrada e de seus
respectivos valores desejados de sa´ıda; geralmente efetuado atrav´es do pro-
cesso de minimiza¸ao do erro calculado na sa´ıda.
O conhecimento est´a dispon´ıvel para a rede sob a forma de exemplos
de pares t(t) do tipo vetor de entrada x(t) e seu respectivo vetor de saida
desejada d(t) reunidos em um conjunto de treinamento Γ como vemos na Eq.
5.7:
Γ = {t(t)} = {(x(t), d(t))}, 1 t T, (5.7)
onde T ´e o n´umero de elementos do conjunto de treinamento. Costuma-
se atribuir um significado temporal ao ´ındice do elemento de treinamento,
pois estes elementos ao apresentados seq¨uencialmente `a rede neural para o
seu treinamento. Neste contexto, uma apresenta¸ao do conjunto completo ´e
chamada de ´epoca de treinamento, e T ´e a dura¸ao da ´epoca de treinamento.
Quando um exemplo ´e apresentado ´a rede neural, ´e calculado um sinal de
erro e(t), no qual `a rede se baseia para tentar apresentar uma resposta mais
correta na proxima vez que o exemplo for apresentado: e(t) = d(t) y(t)
Desta forma, pode-se entender que a rede aprende a imitar o seu conjunto
de treinamento (ambiente). Na Fig.5.2 mostra-se um diagrama para entender
melhor o processo de aprendizagem supervisionado.
Aprendizado ao Supervisionado
No aprendizado ao-supervisionado, utilizado em sistemas de classifica¸ao,
ao existe sa´ıda desejada. A rede ´e treinada atrav´es de excita¸oes ou padr˜oes
de entrada e enao, arbitrariamente, organiza os padr˜oes em categorias. Para
61
Figura 5.2: Aprendizado supervisionado
uma entrada aplicada `a rede, ser´a fornecida uma resposta indicando a classe
a qual a entrada pertence. Se o padr˜ao de entrada n˜ao corresponde `as classes
existentes, uma nova classe ´e gerada.
Neste caso, ao h´a vetores de sa´ıdas desejadas d(t) associados aos vetores
de entradas x(t).
Γ = {t(t)} = {(x(t))}, 1 t T (5.8)
O sinal de erro gerado no aprendizado supervisionado ´e substitu´ıdo por uma
medida independente da tarefa que a rede deve aprender, e os parˆametros
livres ao adaptados para minimizar este medidor. Para isto pode ser usada
uma regra de aprendizado competitivo. Uma vez que a rede tenha sido sin-
tonizada `as regularidades estat´ısticas dos dados de entrada, ela desenvolve a
habilidade de formar representa¸oes internas para a codifica¸ao dos atributos
da entrada e criar novas classes automaticamente.
O aprendizado ao supervisionado (auto-organizado) baseia-se em modi-
ficar repetidamente os pesos sin´apticos de uma rede neural em resposta aos
62
padr˜oes de ativao, de acordo com regras predeterminadas, at´e que uma
determinada configura¸ao final seja atendida Na Fig.5.3 se mostra um di-
agrama para entender melhor o processo do aprendizagem supervisionado.
Figura 5.3: Aprendizado ao supervisionado
5.1.5 Redes Multilayer Perceptron
As redes multilayer perceptrons (MLPs) em sido aplicadas com sucesso em
diversas ´areas, desempenhando tarefas tais como classifica¸ao de padr˜oes
(reconhecimento), controle e processamento de sinais.
Uma rede neural artificial (RNA) do tipo MLP ´e constitu´ıda por um
conjunto de os fonte, os quais formam a camada de entrada da rede (input
layer), uma ou mais camadas escondidas (hidden layer) e uma camada de
sa´ıda (output layer ). Com exce¸ao da camada de entrada, todas as outras
camadas ao constitu´ıdas por neurˆonios e, portanto, apresentam capacidade
computacional [14].
Em uma rede multi-camada, o processamento realizado por cada o ´e
definido pela combina¸ao dos processamentos realizados pelos os da camada
anterior. Quando se segue da primeira camada intermedi´aria em dire¸ao
63
`a camada de sa´ıda, as fun¸oes implementadas tornam-se mais complexas.
Estas fun¸oes definem como ser´a realizada a divis˜ao do espa¸co. Um exemplo
´e mostrado na Fig 5.4
Figura 5.4: arquitetura Multilayer Perceptron.
Uma rede MLP apresenta trˆes caracter´ısticas distintas, de cuja com-
bina¸ao com a habilidade de aprender atrav´es da experiˆencia (atrav´es do
treinamento), deriva sua capacidade computacional:
- O modelo de cada neurˆonio do MLP inclui uma fun¸ao de ativao
ao linear e diferenci´avel. Uma fun¸ao comumente utilizada ´e a sigmoidal
definida pela fun¸ao log´ıstica mostrada na Eq. 5.9:
y
j
= 1/(1 + exp(v
j
)) (5.9)
Onde v
j
´e o potencial de ativao (isto ´e, a soma ponderada de todas
as entradas sinapticas mais a polariza¸ao) do neuronio j, e y
j
´e a sa´ıda do
neurˆonio.
- O MLP cont´em uma ou mais camadas de neurˆonios escondidos que
64
ao ao parte da camada de entrada ou da camada de sa´ıda da rede. Es-
tes neurˆonios escondidos possibilitam que a rede aprenda tarefas complexas,
extraindo progressivamente mais caracter´ısticas significativas dos padr˜oes de
entrada (vetores de entrada).
-A rede MLP exibe um alto grau de conectividade, determinado pelas si-
napses da rede. Uma mudan¸ca na conectividade da rede requer uma mudan¸ca
na popula¸ao das conex˜oes sin´apticas, ou pesos sin´apticos.
5.1.6 Implementa¸ao de uma rede MLP
Em uma rede MLP o n´umero de os fonte na camada de entrada da rede ´e de-
terminado pela dimensionalidade de espa¸co de observao, que ´e respons´avel
pela gera¸ao dos sinais de entrada. O n´umero de neurˆonios na camada de
sa´ıda ´e determinado pela dimensionalidade requerida da resposta desejada.
Assim o projeto de uma rede MLP requer a considera¸ao de trˆes aspectos:
-A determina¸ao do n´umero de camadas escondidas.
-A determina¸ao do n´umero de neurˆonios em cada uma das camadas
escondidas.
-A especifica¸ao dos pesos sin´apticos que interconectam os neurˆonios nas
diferentes camadas de rede.
Os dois primeiros aspectos determinam a complexidade do modelo de
RNA escolhido e infelizmente ao a regras determinadas para tal especi-
fica¸ao. A fun¸ao das camadas escondidas em uma RNA ´e a de influir na
rela¸ao entrada-sa´ıda da rede de uma forma ampla.
Uma RNA com uma ou mais camadas escondidas ´e apta para extrair
as caracter´ısticas de ordem superior de algum processo aleat´orio subjacente,
respons´avel pelo comportamento dos dados de entrada, processo sobre o qual
65
a rede est´a tentando adquirir conhecimento.
A utiliza¸ao de duas ou mais camadas escondidas pode facilitar o trei-
namento da rede, entretanto esta ecnica ao ´e recomendada, pois, a cada
vez que o erro medido durante o treinamento ´e propagado para a camada
anterior, ele se torna menos preciso.
O umero de os na camada intermedi´aria depende de arios fatores como
o n´umero de exemplos de treinamento, a quantidade de ru´ıdo presente nos
exemplos, a complexidade da fun¸ao obtida e a distribui¸ao estat´ıstica dos
dados de treinamento.
Deve-se ter cuidado para ao utilizar unidades intermedi´arias demais, o
que pode levar a rede a memorizar os padr˜oes de treinamento, ao ines de
extrair as caracter´ısticas gerais que permitir˜ao a generaliza¸ao ou reconhe-
cimento de padr˜oes ao vistos durante o treinamento, nem um n´umero pe-
queno, que pode for¸car a rede a gastar tempo em excesso tentando encontrar
uma representa¸ao ´otima.
As RNAs MLPs tˆem sido aplicadas na solu¸ao de diversos e dif´ıceis pro-
blemas atraes da utiliza¸ao de tais algoritmos. O algoritmo de treino quase
universalmente utilizado ´e o algoritmo de retro-propaga¸ao de erro, conhecido
na literatura como Backpropagation Algorithm.
A opera¸ao da rede neural constitui de trˆes etapas a primeira ´e de treina-
mento, que consiste no ajuste dos parˆametros do modelo. A de teste que ´e a
valida¸ao dos parˆametros de esse modelo e, por ´ultimo, a de produ¸ao que ´e
a utiliza¸ao do modelo.
66
5.1.7 Algoritmo de Backpropagation
O algoritmo de aprendizado mais conhecido para treinamento das redes
MLP’s ´e o algoritmo Backpropagation. Este algoritmo ´e supervisionado e
seu treinamento ocorre em duas fases, onde cada fase percorre a rede em um
sentido. Essas duas fases ao chamadas de: Forward e Backward. A fase
Forward ´e utilizada para definir a sa´ıda da rede para um dado padr˜ao de en-
trada, nenhuma altera¸ao nos pesos ´e feita. Na fase Backward ao utilizadas
a sa´ıda desejada e a fornecida pela rede para que os pesos sejam atualizados
como mostra a Fig.5.5.
Figura 5.5: Fluxo do processamento do algoritmo Back-propagation.
Este procedimento de aprendizado ´e repetido diversas vezes, at´e que,
para todos os processadores da camada de sa´ıda e para todos os padr˜oes
de treinamento, o erro seja menor do que o especificado. O aprendizado
pode ser dividido em dois: Batch e incremental. O aprendizado por Batch
somente ajusta os pesos ap´os a apresenta¸ao de todos os padr˜oes, cada padr˜ao
´e avaliado com a mesma configura¸ao de pesos. O aprendizado incremental
atualiza os pesos a cada apresenta¸ao de um novo padr˜ao e os pesos ao
67
atualizados usando o gradiente do erro de um ´unico padr˜ao [14].
O desenvolvimento do backpropagation representa um marco fundamental
em redes neurais, pois ´e um m´etodo computacionalmente eficiente para o
treinamento de redes MLPs e por ter resolvido o problema de realizar a
propaga¸ao reversa do erro em RNA com m´ultiplas camadas, problema este
que atrasou por muitos anos o desenvolvimento da ´area das redes neurais.
5.1.8 Parˆametros utilizados no treinamento
Momento
O momento ´e introduzido no treinamento com o objetivo de acelerar o apren-
dizado sem causar oscila¸ao. Possibilita a rede ignorar as varia¸oes de alta
frequˆencia na superf´ıcie de erro, diminuindo a probabilidade do processo de
convergˆencia parar em um m´ınimo local. A introdu¸ao do momento con-
siste em fazer com que as mudan¸cas nos pesos das conex˜oes sejam iguais `a
soma de uma fra¸ao da ´ultima altera¸ao nestes pesos com a nova altera¸ao
determinada pela regra de aprendizagem.
Taxa de aprendizagem
A taxa de aprendizagem influencia a magnitude dos pesos, isto ´e, uma pe-
quena taxa de aprendizagem implica em pequenas varia¸oes, tornando o trei-
namento lento e aumentando a probabilidade de paradas em m´ınimo local.
Entretanto, ao utilizar altas taxas de treinamento a rede neural poder´a satu-
rar ou at´e mesmo oscilar. Uma alternativa ´e utilizar a taxa de treinamento
adaptativa, isto ´e, quando o erro aumentar, o valor da taxa de aprendiza-
gem diminuir´a rapidamente; por outro lado, se o erro diminuir a taxa de
68
aprendizagem aumentar´a lentamente.
Corre¸ao do Erro no Treinamento
Seja d
k
(n) a resposta desejada para o neurˆonio k no tempo n e y
k
(n) a res-
posta atual desse neurˆonio produzida pelo estimulo x(n), aplicado na entrada
da rede na qual o neuronio k est´a localizado. Pode-se definir o sinal de erro
como a diferen¸ca entre a resposta desejada e a atual. Isto ´e mostrado na Eq
5.10:
e
k
(n) = d
k
(n) y
k
(n) (5.10)
O prop´osito principal da corre¸ao do erro no treinamento ´e minimizar a
fun¸ao custo baseada no sinal de erro, e
k
(n), tal que a resposta atual de cada
saida aproxime-se da resposta desejada para aquele neurˆonio. Um criterio co-
mumente utilizado para a fun¸ao custo ´e o crit´erio do erro m´edio quadr´atico,
definido como o valor medio quadratico da soma dos erros quadr´aticos, como
se mostra na Eq 5.11:
E = (1/2)
p
k
i=1
(d
p
i
y
p
i
)
2
(5.11)
onde E ´e a medida do erro total, p ´e o n´umero total de padr˜oes, k ´e
o n´umero de unidades de sa´ıda, d
i
´e i-´esima sa´ıda desejada e y
i
´e a i-´esima
sa´ıda gerada pela rede. O fator 1/2 ´e utilizado para simplificar os c´alculos em
poss´ıveis derivoes que ao resultantes de minimiza¸oes de E com respeito
aos parˆametros livres da rede.
69
Derivao das ormulas do algoritmo Backpropagation
O algoritma Back propagation estabelece o aprendizado de um MLP atrav´es
da regra delta como sendo a corre¸ao efetuada em suas sinapses atraes de
5.12
w
ji
= ηδ
j
x
i
, (5.12)
onde w
ji
´e a corre¸ao aplicada ´a M-´esima sinapses do neuronio j, x ´e o
sinal de entrada do neuronio i e δ(n) ´e o gradiente local do neuronio j.
Embora o erro total E seja definido pela soma dos os de sa´ıda para todos
os padr˜oes, sup˜oe-se, sem perda de generalidade, que a minimiza¸ao do erro
para cada padr˜ao individualmente levar´a a minimiza¸ao do erro total. Assim
o erro passa a ser definido pela Eq 5.13.
E =
1
2
k
j=1
(d
j
y
j
)
2
(5.13)
O simbolo w
ji
denota o peso sinaptico que conecta a saida do neuronio i
´a entrada do neuronio j na itera¸ao n. A corre¸ao aplicada a este peso em
uma itera¸ao´e denotada por w
ji
. A regra delta sugere que a varia¸ao dos
pesos seja definida de acordo com o gradiente descendente, isto ´e, de acordo
com a Eq. 5.13.
w
ji
= α
E
w
ji
(5.14)
Utilizando a regra da cadeia, tem-se que:
E
w
ji
=
E
net
j
net
j
w
ji
(5.15)
Como
net
j
=
n
i=1
x
i
w
ji
. (5.16)
70
Enao a segunda derivada de Eq. 5.17
net
j
w
ji
(5.17)
´
E igual
net
j
w
ji
=
n
i=1
x
i
w
ji
w
jl
= x
i
(5.18)
A primeira derivada localizada `a direita da Eq. 5.15 mede o erro no o j
e o alculo desta derivada tamb´em pode ser definida pela regra da cadeia:
f
=
E
net
j
=
E
y
j
y
j
net
j
(5.19)
A segunda derivada da Eq. 5.19 ´e definida como:
y
j
net
j
=
f(net
j
)
net
j
= f(net
j
) (5.20)
a a primeira derivada vai depender da camada onde o o j se encontra.
Se o o j estiver na ´ultima camada, o seu erro pode ser definido utilizando-se
a Eq. 5.13.
E
y
j
=
[
1
2
k
j=1
(d
j
y
j
)
2
]
y
f
= (d
j
y
j
) (5.21)
substituindo as Eq. 5.21 e 5.20 em 5.19 tem-se que:
j
= (
j
y
j
)f(net
j
) (5.22)
Substituindo as Eq. 5.22 e 5.18 em 5.14 tem-se que
w
ij
= x
i
(
j
y
j
)f(net
j
) (5.23)
Se o o j ao estiver na camada de sa´ıda tem-se que:
71
E
y
j
=
M
i=1
E
net
i
net
i
y
j
=
M
i=1
E
net
i
n
i=1
x
i
w
ji
y
j
M
i=1
E
net
i
w
jl
(5.24)
M
i=1
E
net
j
w
jl
=
M
i=1
δ
i
w
ji
(5.25)
Substituindo as Equa¸oes 5.24 e 5.20 em 5.19:
j
= f
(net
j
)
i
δ
l
w
lj
(5.26)
Pode-se enao generalizar a Eq. 5.13 para
w
ji
= ηδ
j
x
i
(5.27)
ou
w
ji
(t + 1) = αw
ji
(t) + ηδ
j
(t)x
i
(t) (5.28)
α ´e o momento e pode ir de 0 < α < 1 e η a taxa de aprendizagem.
O processo de aprendizado pode ser entendido como uma combina¸ao de
pesos e limiares que ir˜ao corresponder a um ponto na superf´ıcie de erro.
Considerando que a altura de um ponto ´e diretamente proporcional ao erro
associado a este ponto, a solu¸ao est´a nos pontos mais baixos da superf´ıcie.
Crit´erios para parar o treinamento
Uma d´uvida que surge naturalmente diz respeito a quando parar o treina-
mento da rede. Existem arios m´etodos para a determina¸ao do momento
onde o treinamento deve ser encerrado, entre eles pode-se citar:
-Encerrar o treinamento ap´os M ciclos.
72
-Encerrar o treinamento ap´os o erro quadr´atico edio ficar abaixo de uma
constante.
-Encerrar o treinamento quando a porcentagem de classifica¸oes corretas
estiver acima de uma constante.
-Encerrar o treinamento quando o erro m´edio quadr´atico ao diminuir
durante N ciclos.
-Combina¸ao dos etodos acima.
5.2 aquina de vetores de suporte(SVM)
A aquina de Vetores de Suporte (SVMs, do Inglˆes Support Vector Ma-
chines) constitui uma t´ecnica de aprendizado que vem recebendo crescente
aten¸ao nos ´ultimos anos [40]. Os resultados da aplica¸ao dessa ecnica ao
compar´aveis e muitas vezes superiores aos obtidos por outros algoritmos de
aprendizado, como as Redes Neurais Artificiais (RNAs). SVMs ao basea-
das na Teoria de Aprendizado Estat´ıstico, desenvolvida por [40]. Essa teoria
estabelece uma s´erie de princ´ıpios que devem ser seguidos na obten¸ao de
classificadores com boa generaliza¸ao, definida como a sua capacidade de
prever corretamente a classe de novos dados do mesmo dom´ınio em que o
aprendizado ocorreu. Seu aprendizado ´e efetuado atrav´es do princ´ıpio de
Minimiza¸ao de erro estrutural, que demonstrou ser superior ao tradicional
Minimiza¸ao de Erro [39], princ´ıpio empregado pelas redes neurais convenci-
onais.
73
5.2.1 A Teoria de Aprendizado Estat´ıstico(TAE)
A Teoria de Aprendizado Estat´ıstico estabelece condi¸oes matem´aticas que
auxiliam na escolha de um classificador particular
ˆ
f a partir de um conjunto
de dados de treinamento. Essas condi¸oes levam em conta o desempenho
do classificador no conjunto de treinamento e a sua complexidade, com o
objetivo de obter um bom desempenho tamem para novos dados do mesmo
dom´ınio [40].
Seja f um classificador e F o conjunto de todos os classificadores que
um determinado algoritmo de aprendizado de aquina (AM) pode gerar.
Esse algoritmo, durante o processo de aprendizado, utiliza um conjunto de
treinamento T, composto de n pares (x
i
, y
i
), para gerar um classificador
particular
ˆ
fF.
Consideremos o seguinte exemplo baseado em [39]: encontrar um classi-
ficador que separe os dados das classes “c´ırculo”e “tri´angulo”ilustradas na
Fig 5.6. As fun¸oes ou hip´oteses consideradas ao ilustradas por meio das
bordas, tamb´em denominadas fronteiras de decis˜ao tra¸cadas entre as classes.
Na Fig 5.6(a), mostramos uma hip´otese que classifica corretamente todos
os exemplos do conjunto de treinamento, incluindo dois poss´ıveis ru´ıdos. Por
ser muito espec´ıfica para o conjunto de treinamento, essa fun¸ao apresenta
elevada susceptibilidade a cometer erros quando confrontada com novos da-
dos. Esse caso representa a ocorrˆencia de um super ajustamento do modelo
aos dados de treinamento.
Na Fig 5.6(c) temos outro classificador que comete muitos erros mesmo
para casos que podem ser considerados simples. Tem-se assim a ocorrˆencia
de um sub-ajustamento, pois o classificador n˜ao ´e capaz de se ajustar mesmo
aos exemplos de treinamento.
74
Figura 5.6: Diferentes hip´oteses de configura¸ao de treinamento.
A Fig 5.6(b) ´e um meio termo entre as duas fun¸oes descritas e ´e um
classificador com complexidade intermedi´aria e classifica corretamente grande
parte dos dados, sem se fixar demasiadamente em qualquer ponto individual.
Na aplica¸ao da TAE, assume-se inicialmente que os dados do dom´ınio
em que o aprendizado est´a ocorrendo ao gerados de forma independente e
identicamente distribu´ıda de acordo com uma distribui¸ao de probabilidade
f(x, y), que descreve a rela¸ao entre os dados (x) e os seus otulos (y). O
erro (risco) esperado de um classificador f denotado por R(f), para dados
de teste, pode ent˜ao ser quantificado pela Eq. 5.29.
R(f) =
C(y, f(x))f
XY
(x, y)dxdy (5.29)
O erro esperado mede enao a capacidade de generaliza¸ao de f. Na Eq.
5.29, C(y, f(x)) ´e uma fun¸ao de custo, relacionando a previs˜ao f(x) quando
a sa´ıda desejada ´e y.
Como ´e apresentado o erro esperado na Eq. 5.29 ao ´e possivel mini-
miz´alo e f
XY
(x, y) ´e desconhecida. Normalmente, infere-se uma fun¸ao
ˆ
f
75
que minimize o erro sobre esses dados e espera-se que esse procedimento leve
tamem a um menor erro sobre os dados de teste. Para tentar minimizar o
erro ´e inserido o princ´ıpio de minimiza¸ao de erro emp´ırico [41] denotado por
R
emp
(f) para a fun¸ao f que ´e :
R
emp
(f) =
1
n
n
i=1
c(f(x
i
), y
i
). (5.30)
A rela¸ao do erro esperado do classificador e o princ´ıpio do erro emp´ırico ´e:
R(f) R
emp
(f) +
h(ln(2n/h) + 1) ln/4)
n
. (5.31)
Esta rela¸ao ´e chamada de minimiza¸ao de erro estrutural [40] que ´e a fun¸ao
de minimiza¸ao de erro usada por SVM. Isto ´e, minimiza um limite superior
sobre o erro esperado, contr´ario `as redes neurais que minimizam o erro sobre a
forma¸ao dos dados [41] . Um limite importante fornecido pela TAE relaciona
o erro esperado de uma fun¸ao ao seu erro emp´ırico. Esse limite, apresentado
na Eq. 5.31, ´e garantido com probabilidade 1 Θ em que Θ[0, 1]. O termo
n representa a quantidade de exemplos no conjunto de treinamento.
5.2.2 SVMs Lineares
O objetivo da SVM Linear ´e separar duas classes por uma fun¸ao que ´e
induzida a partir dos exemplos dispon´ıveis para aprendizagem. A meta ´e
produzir um classificador que funciona bem em todos os exemplos, ou seja,
que tenha boa generaliza¸ao. Considere o exemplo na Fig 5.7
Aqui existem arios classificadores lineares poss´ıveis que podem separar os
dados, mas a apenas um que maximiza a margem de separa¸ao (maximiza
a distˆancia entre o classificador e os pontos mais pr´oximos dos dados de
cada classe). Este classificador linear ´e denominado de hiperplano ´otimo de
76
Figura 5.7: Hiperplano
´
Otimo de Separa¸ao.
separa¸ao. Os vetores de suporte ao aqueles que servem de referˆencia para
encontrar a maior margem de separa¸ao para obter o hiperplano ´otimo de
separa¸ao.
Na Fig 5.8, mostra-se o hiperplano ´otimo de separa¸ao e os vetores de
suporte que ao a referˆencia para obter maior margem de separa¸ao entre
duas classes.
Figura 5.8: Vetores de suporte.
Para a formula¸ao, vamos considerar o problema de separar o conjunto
77
de vetores de treinamento pertencentes as duas classes diferentes:
D = {(x
1
, y
1
), ....., (x
l
, y
l
)}, xR
n
, y{−1, 1}, (5.32)
com um hiperplano:
w, x + b = 0. (5.33)
O conjunto de vetores ´e considerado ´otimo se ao separados sem erro
e a distˆancia entre os mais pr´oximos ao hiperplano de separa¸ao ´e axima.
Considera-se um hiperplano canˆonico para facilitar a formula¸ao do problema
[40], as vari´aveis w e b ao limitadas por:
min
i
|w, x
i
+ b| = 1. (5.34)
Para isso, [40] afirma que a norma do vetor deve ser igual ao inverso da
distˆancia, do ponto mais pr´oximo no conjunto de dados at´e o hiperplano. A
ideia ´e ilustrada na Fig 5.9 onde a distˆancia do ponto mais pr´oximo a cada
hiperplano ´e mostrada.
Figura 5.9: Hiperplanos canˆonicos
78
Um hiperplano separador em forma canˆonica deve obedecer `as seguintes
limita¸oes:
y
i
[w, x
i
+ b] 1, i = 1, ..., l. (5.35)
A distˆancia d(w, b, x) de um ponto x do hiperplano (w, b) ´e:
d(w, b, x) =
|w, x
i
+ b|
||w||
. (5.36)
O hiperplano ´otimo de separa¸ao ´e dado pela axima margem de se-
para¸ao (ρ) , sujeito `as limita¸oes da Eq 5.35. A margem ´e dada por:
ρ(w, b) =
2
||w||
. (5.37)
Assim, o hiperplano ´otimo de separa¸ao ideal ´e aquele que minimiza:
Φ =
1
2
||w||
2
. (5.38)
Esta fun¸ao ´e independente de b como se mostra na Eq 5.35, ao mudar-se b
ir´a moe-lo no sentido normal para si pr´opria.
Para refletir sobre o modo como minimizar a Eq.5.38 com o princ´ıpio do
erro m´ınimo estrutural, suponha o siguinte:
||w|| < A (5.39)
Enao, das Eqs 5.35 e 5.36:
d(w, b, x)
1
A
(5.40)
Um A qualquer dos pontos de dados ´e representado na Fig 5.10 e mostra
como reduz os poss´ıveis hiperplanos e ´e por isso sua capacidade.
79
Figura 5.10: Hiperplanos canˆonicos
A solu¸ao para o problema de otimiza¸ao da Eq 5.38, sob as condi¸oes da
Eq 5.35, ´e dada por o ponto de sela da fun¸ao Lagrange [40].
Φ(w, b, α) =
1
2
||w||
2
l
i=1
α
i
(y
i
[w, x
i
+ b] 1), (5.41)
onde α ao os multiplicadores de Lagrange. O fun¸ao Lagrangeana tem de
ser minimizada com respeito a w, b ´e maximizada com respeito α 0. A Eq
5.41 passa a ser transformada em um duplo problema, que ´e mais acil de
resolver. O problema dual ´e dado por:
max
α
W (α) = max
α
1
2
l
i=1
l
j=1
α
i
α
j
y
i
y
j
x
i
, x
j
+
l
k=1
α
k
, (5.42)
e, por conseguinte, a solu¸ao do problema ´e dado por,
α
= arg min
α
1
2
l
i=1
l
j=1
α
i
α
j
y
i
y
j
x
i
, x
j
l
k=1
α
k
, (5.43)
com as seguintes restri¸oes,
α 0, i = 1, ..., l. (5.44)
l
j=1
α
j
y
j=0
. (5.45)
80
Resolvendo as Eq 5.44 e Eq 5.45, determina-se os multiplicadores de La-
grange, e o hip´erplano ´otimo de separa¸ao ´e dado por:
w
=
l
i=1
α
i
y
i
x
i
(5.46)
b
= −
1
2
(w
, x
r
+ x
s
). (5.47)
Onde x
r
e x
s
ao qualquer vetor de suporte de cada classe que satisfa¸ca:
α
r
, α
s
> 0, y
r
= 1, y
(
s) = 1. (5.48)
Enao o classificador ´e :
f(x) = sgn(w
x
, x + b). (5.49)
Pelas condi¸coes de Kuhn-Tucker [40] temos:
α
i
(y
i
[w, x
i
+ b] 1) = 0, i = 1, ..., l, (5.50)
e portanto apenas os pontos x
i
que satisfazem:
y
i
[w, x
i
+ b] = 1, (5.51)
ter˜ao multiplicadores de Lagrange ao zero.
Estes pontos ao designados Vetores de Suporte(SV). Se os dados foram
linearmente separ´aveis todos os (SV) ao situar-se na margem e, consequen-
temente, o n´umero de SVs pode ser muito pequeno. Consequentemente, o
hiperplano ´e determinado por um pequeno subconjunto do grupo de treina-
mento.
81
Generaliza¸ao do hiperplano `otimo de separa¸ao
Ae agora, a discuss˜ao tem sido limitada aos casos em que a forma¸ao dos
dados ´e linearmente separ´avel. No entanto, em geral, este ao ser´a o caso,
como ´e mostrado na Fig. 5.11.
Figura 5.11: Dados ao linearmente separ´aveis
No caso em que ´e esperado (ou possivelmente at´e mesmo conhecida) que
um hiperplano pode separar corretamente os dados, o m´etodo mais indicado
´e unir uma fun¸ao de custo a uma fun¸ao erro adequada. Para permitir que
o etodo do hiperplano ´otimo de separa¸ao fora generalizado, Vapnik [40]
introduziu uma variavel ao negativa ξ 0 e uma fun¸ao de custo.
F
σ
(ξ) =
i
ξ
i
σ
σ > 0, (5.52)
onde ξ
i
´e a medida dos erros desclassificados. O problema de optimiza¸ao ´e
agora colocado para minimizar o erro de classifica¸ao. As limita¸oes da Eq.
5.35 ao modificadas para o caso de ao separ´avel linearmente,
y
i
[w, x
i
+ b] 1 ξ
i
, i = 1, ..., l, (5.53)
onde ξ
i
0. A generaliza¸ao do hiperplano ´otimo de separa¸ao ´e determinado
82
pelo vetor w e a fun¸ao a otimizar fica
Φ(w, ξ) =
1
2
||w||
2
+ C
i
ξ
i
, (5.54)
A solu¸ao para minimizar este problema ´e idˆentico ao caso de aquina de
vetores de suporte linearmente separ´avel. O coeficiente C ´e um parˆametro
que introduz capacidade de controle dentro do classificador. C ´e o parˆametro
regulador do classificador [40].
5.2.3 SVMs ao Lineares
a muitos casos em que ao ´e poss´ıvel dividir satisfatoriamente os dados de
treinamento por um hiperplano onde seria mais eficaz uma fronteira curva
como ´e mostrado na Fig 5.12. As SVMs lidam com problemas ao lineares
mapeando o conjunto de treinamento de seu espa¸co original, referenciado
como de entradas, para um novo espa¸co de maior dimens˜ao, denominado
espa¸co de caracter´ısticas.
Seja Φ : X um mapeamento, em que X ´e o espa¸co de entradas e
denota o espa¸co de caracter´ısticas. A escolha apropriada de Φ faz com
que o conjunto de treinamento mapeado em possa ser separado por uma
SVM linear. Em outras palavras dado um conjunto de dados ao linear no
espa¸co de entradas X, esse teorema afirma que X pode ser transformado em
um espa¸co de caracter´ısticas no qual com alta probabilidade, os dados ao
linearmente separ´aveis.
Para isso duas condi¸oes devem ser satisfeitas. A primeira ´e que a trans-
forma¸ao seja ao linear, enquanto a segunda ´e que a dimens˜ao do espa¸co de
caracter´ısticas seja suficientemente alta.
Vamos a considerar o conjunto de dados mostrado na imagem da Fig 5.12.
Transformando os dados de
2
para
3
com o mapeamento representado
83
Figura 5.12: (a) Conjunto de dados ao linear; (b) Fronteira ao linear no
espa¸co de entradas; (c)Fronteira linear no espa¸co de caracter´ısticas
na Eq. 5.55, o conjunto de dados ao linear em
2
torna-se linearmente
separ´avel em
3
como mostra a imagem (c) da Fig5.12
´
E poss´ıvel, ent˜ao,
encontrar um hiperplano capaz de separar esses dados, descrito na Eq. 5.58.
Pode-se verificar que a fun¸ao apresentada, embora linear em
3
corresponde
a una fronteira ao linear em
2
como ´e mostrado na imagem (b) da Fig 5.12.
Φ(x) = Φ(x
1
, x
2
) = (x
2
1
,
2x
1
x
2
, x
2
2
), (5.55)
f(x) = w ·Φ(x) + b = w
1
x
2
1
+ w
2
2x
1
x
2
+ w
3
x
2
2
+ b, (5.56)
aplicando o mapeamento o classificador se torna:
g(x) = sgn(f(x)) = sgn(
x
i
SV
α
i
y
i
Φ(x
i
) · Φ(x) + b
). (5.57)
Como pode ter dimens˜ao muito alta (at´e mesmo infinita), a computa¸ao
de Φ pode ser extremamente custosa ou invi´avel. Por isso o mapeamento ´e
84
obtido por fun¸oes denominadas Kernels (K). Um Kernel K ´e uma fun¸ao
que recebe dois pontos x
i
e x
j
do espa¸co de entradas e computa o produto
escalar desses dados no espa¸co de caracter´ısticas
K(x
i
, x
j
) = Φ(x
i
) · Φ(x
j
) (5.58)
´
E comum empregar a fun¸ao Kernel sem conhecer o mapeamento Φ, que
´e gerado implicitamente. A utilidade dos Kernels est´a, portanto, na simpli-
cidade de seu alculo e em sua capacidade de representar espa¸cos abstratos.
Alguns dos Kernels mais utilizados na pr´atica ao os Polinomiais, os Gaus-
sianos e os Sigmoidais, listados na Tabela 1.
Tabela 5.1: Fun¸oes Kernel mais comuns.
Tipo de Kernel Fun¸ao K(x
i
, x
j
) Parˆametros
Polinomial (δ(x
i
· x
j
) + k)
d
δ, k, d
Gaussiano exp(σx
i
x
j
2
) σ
Radial Basis Function(RBF) (
−xx
2
2σ
2
) σ
2
85
Cap´ıtulo 6
Resultados Experimentais
No trabalho [15] a se mostram algumas particularidades dos parˆametros
obtidos do sinal glotal. Este trabalho teve como base a informa¸ao do si-
nal glotal de cada locutor, para tentar uma melhoria no desempenho da a
conhecida t´ecnica MFCC na tarefa de reconhecimento de locutor.
Neste trabalho utilizaram-se duas ecnicas da ´area de inteligˆencia com-
putacional para comparar seu desempenho: a primeira, uma rede neural e a
segunda, a t´ecnica de aquina de vetores de suporte.
Foi usada uma base de d´ıgitos para RAL obtida com o apoio do Instituto
Militar de Engenharia (IME), produzidas em ambiente de laborat´orio e com
a participa¸ao dos alunos de mestrado e de gradua¸ao do IME.
Dessa base foi criada outra, que cont´em vogais concatenadas de cada um
dos d´ıgitos da base original para poder extrair os parˆametros da estima¸ao
do sinal glotal. Esta base ´e um aporte do trabalho para pr´oximas pesquisas
e ser´a detalhada a seguir.
Para o desenvolvimento das experiˆencias utilizaram-se os software Weka
[36] e Matlab.
86
6.1 Base de d´ıgitos
A base de d´ıgitos est´a estruturada para a realiza¸ao de experimentos de RAL.
Consta de 50 locutores femininos e 50 locutores masculinos, dos quais cada
um deles repete trˆes vezes as palavras: “zero”, “um”, “dois”, “trˆes”, “qua-
tro”, “cinco”, “seis”, “meia”, “sete”, “oito”, “nove”, em portuguˆes falado
no Brasil. Cada gravao tem uma taxa de amostragem de 11025 Hz e 16
bits de resolu¸ao com um o canal e gravados em ambiente de escrit´orio. A
formata¸ao dos nomes dos arquivos ´e como segue:
D0R1LF01.wav
Onde D representa a palavra d´ıgito; 0 ´e o d´ıgito gravado; R representa a
repeti¸ao; 1 ´e o n´umero de repeti¸oes; L representa a palavra locutor; F(M)
representa a palavra feminino (masculino); 01 ´e o n´umero do locutor; logo
um arquivo de nome D2R3LM02.wav conem a terceira repeti¸ao do d´ıgito
2 pronunciada pelo locutor masculino 02.
6.1.1 Constru¸ao da base de sons vozeados, a partir de
vogais concatenadas
Esta base foi constru´ıda pelo autor para a realiza¸ao deste trabalho atrav´es
da base de d´ıgitos anterior, com o objetivo de poder trabalhar com vogais
concatenadas para obter as caracter´ısticas do sinal glotal. O trabalho para
cria¸ao da base foi a sele¸ao, corte e exporta¸ao manual das vogais de inte-
resse.
Nesta etapa foi importante o uso de um software de voz que permitisse
a visualiza¸ao de ambos sinais e que ossuise um ambiente amig´avel que
facilitasse a realiza¸ao desta base. O software escolhido foi o Audacity [35].
87
As vogais extra´ıdas foram: “o” para zero, “u” para um, “o” para dois,
“e” para trˆes, “a” para quatro, “i” para cinco, “e” para seis, “e” para sete,
“o” para oito, “o” para nove e “e” para meia. A formata¸ao utilizada para
determinar o nome do arquivo ´e dada a seguir Vejamos, por exemplo, o
arquivo de nome:
lm1n1r1vu.wav.
Nesse caso, o“l” representa que o locutor ´e do sexo masculino; o “n” repre-
senta o digito, nesse caso 1, o “r” representa o numero da repeti¸ao, nesse
caso a primeira repeti¸ao, e o “v” representa a vogal, nesse caso a letra u.
6.2 Obten¸ao de caracter´ısticas MFC
Para este trabalho foram usados 12 coeficientes MFC sem considerar seu
primeiro coeficiente c
0
(que carrega muita informa¸ao do meio de transmiss˜ao
[34]) e suas respectivas derivadas, conhecidas como coeficientes delta e delta-
delta respectivamente, em um total de 36 coeficientes. Em [13], conclui-se que
os coeficientes MFC mais suas duas derivadas tˆem um melhor desempenho
na tarefa de reconhecimento de locutor, por terem mais informa¸oes e serem
mais discriminantes.
Para a obten¸ao de caracter´ısticas MFC, primeiro o sinal passa por um
filtro de pr´e-ˆenfase com a=0,95, depois o sinal ´e janelado com janelas de
Hamming com 30ms de largura. Para a extra¸ao dos coeficientes MFC foi
utilizado um banco de 20 filtros triangulares. Para a tarefa de obten¸ao de
caracter´ısticas MFC foi utilizada a ferramenta [33] e o resultado ´e mostrado
na Fig 6.1.
Depois de extra´ıdas as caracter´ısticas, Organizaram-se os dados em dois
88
Figura 6.1: Gr´afico dos coeficientes MFC da palavra nove.
grupos: o primeiro um grupo de vetores de 12 coeficientes MFC e um segundo
grupo de Vetores de 36 coeficientes compostos por 12 coeficientes MFC e sua
primeira e segunda derivadas. Estes ser˜ao utilizados depois para a tarefa de
classifica¸ao.
6.3 Obten¸ao da estimativa do sinal glotal
Para a obten¸ao dos parˆametros do sinal glotal, primeiro deve-se obter a
estimativa do sinal glotal pelo etodo PSIAIF (Pitch Synchronous Iterative
Adaptive Inverse Filtering).
Para isso, foi utilizada a base de vogais concatenadas constru´ıda neste
trabalho. Primeiro, estes sinais de voz passaram por um filtro de pr´e-ˆenfase
para prevenir contra instabilidade num´erica e, tamb´em, minimizar o efeito
89
dos abios. Depois, segue a etapa de janelamento em pequenos trechos do
sinal para poder capturar as caracter´ısticas mais importantes de cada sinal.
Neste trabalho, a janela utilizada foi de 30 ms ja , que foi a recomendadsa
em [15].
Para obter a estimativa do sinal glotal pelo etodo PSIAIF, aplicam-
se duas vezes o m´etodo IAIF como a foi comentado. A primeira com o
objetivo de obter uma estimativa do per´ıodo fundamental da voz, para poder
analisar o sinal glotal de forma s´ıncrona. Para isso, utilizaram-se janelas de
30 ms com 75% de superposi¸ao, ocasionando na sa´ıda o sinal glotal. Com
esta primeira estima¸ao do sinal glotal encontramos o per´ıodo fundamental
atraes dos picos aximos do sinal e este resultado ´e usado como base para
um novo dimensionamento mais preciso da janela, para a segunda aplica¸ao
do m´etodo IAIF, para obter uma estima¸ao do sinal glotal mais precisa.
Para encontrar os picos do sinal usamos a rotina findpeaks do MATLAB
[33]. Foram escolhidos, neste trabalho, trˆes per´ıodos fundamentais de cada
sinal.
A estrutura do IAIF tem aplica¸ao da ecnica LPC que ´e a respons´avel
pela filtragem de pr´e-ˆenfase, pela estima¸ao do trato vocal e pela contribui¸ao
glotal. Nesta aplica¸ao toma-se o valor de 45 coeficientes LPC, que ´e o
valor sugerido em [15] e com o qual foram obtidos os melhores resultados
comparados com outros. Na Fig 6.2, mostra-se um exemplo de estimativa
glotal.
6.3.1 Extra¸ao de caracter´ısticas do sinal glotal
O sinal glotal foi obtido por filtragem inversa, pelo etodo PSIAIF, tomando-
se trˆes per´ıodos de cada sinal como em [15]. Neste trabalho, tamb´em como em
90
Figura 6.2: Gr´afico de vogal /a/ concatenada com 45 coeficientes LPC.
[15], foram extra´ıdos dois parˆametros de cada trecho de sinal glotal obtido.
ao eles: Ko, que ´e a diferen¸ca entre o instante de aximo fechamento e
de axima abertura, Av que ´e a amplitude de vozeamento, definida como
a diferen¸ca de amplitudes entre os valores aximo e m´ınimo do sinal glotal.
Esses parˆametros est˜ao representados na Fig.6.3.
Por´em, tomaremos ainda, como inovao, um outro parˆametro que cha-
mamos de pp. Este parˆametro ´e a diferen¸ca entre os pontos de axima
abertura. ao vimos referˆencias sobre esse parˆametro em outros trabalhos.
Os instantes de axima abertura e aximo fechamento foram encontrados
com ajuda da rotina findpeaks com o qual se obtiveram os parˆametros men-
cionados, como se mostra na Fig 6.4.
Na Fig 6.4 pode-se observar que todos os m´aximos e m´ınimos encontrados
pela rotina findpeaks ao ao os verdadeiros. Por exemplo, o primeiro aximo
91
Figura 6.3: Sinal glotal e seus parˆametros.
ao corresponde a uma axima abertura isso deve-se ao fato de se escolher
uma “media” de todas as vari´aveis para todos os locutores e, assim, algumas
estimativas glotais aparecem com ru´ıdo, o que dificulta a escolha da axima
abertura e o aximo fechamento em algumas amostras. Dessa forma, tivemos
que conferir visualmente, para obter os valores exatos. Isso torno a tarefa
um pouco trabalhosa.
Como ao trˆes per´ıodos, obtive-se por cada estima¸ao do sinal glotal 3
valores (Av), 3 valores (Ko) e 2 valores (pp), totalizando 8 parˆametros para
cada estimativa do sinal glotal.
Os passos para extrair as caracter´ısticas do sinal glotal ao mostrados na
Fig 6.5.
Ao discriminar visualmente cada um dos parametros glotais , observamos
que para a tarefa do reconhecimento de locutor o parˆametro (Av) ao era
92
Figura 6.4: Gr´afico mostrando os instantes de maxima abertura achados pela
rotina findpeaks.
um bom discriminante. Chegando-se `a conclus˜ao de que a amplitude do sinal
(Av) varia por causas diversas, como a distˆancia do locutor ao microfone e a
intensidade da voz.
Por outro lado, o parˆametro pp mostrou-se ser um bom discriminante. A
Fig 6.6 mostra a distribui¸ao do parˆametro pp para cinco locutores. Cada
cor ´e um locutor (classe), as divis˜oes da parte de baixo mostram os diferen-
tes valores de pp neste caso os valores est˜ao na faixa entre 65 e 131 para
primeiro parˆametro pp e de 63 at´e 128 para o segundo parˆametro pp. Cada
locutor ´e representado por 33 vetores (amostras). Nos gr´aficos percebe-se,
por exemplo, que para o locutor representado pela cor vermelha, os valores
dos parˆametros pp est˜ao entre a faixa 65 e 87 e para o locutor representado
pela cor azul claro, os valores de pp est˜ao entre 98 e 131, o que evidencia usar
93
Figura 6.5: Extra¸ao de caracter´ısticas do sinal glotal
pp como discriminante entre arios locutores.
As caracter´ısticas obtidas logo ser˜ao agregadas `as caracter´ısticas MFC
para formar o vetor h´ıbrido.
6.3.2 Vetor H´ıbrido de caracter´ısticas: Coeficientes MFC
e caracter´ısticas do sinal glotal
Como um dos principais objetivos deste trabalho, inclui-se um vetor com os
parˆametros da estimativa do sinal glotal e os coeficientes MFC.
No trabalho de [15], foram mostradas algumas caracter´ısticas do sinal glo-
tal com muito poder de discrimina¸ao, por´em foi feita com poucos locutores.
A grande dificuldade de utilizar o sinal glotal para a tarefa de reconheci-
mento de locutor ´e a complexidade de obter o sinal, a que como foi citado,
antes precisava-se de aparelhos para obtˆe-la, mas isso foi solucionado com a
t´ecnica de filtragem inversa. O vetor h´ıbrido aqui constru´ıdo ´e composto de
coeficientes MFC, suas derivadas (∆ e ∆∆) e os parˆametros da estimativa
do sinal glotal Ko e pp de cada sinal. Por exemplo, consideremos o digito do
arquivo:
94
Figura 6.6: distribu¸ao do parˆametro pp do sinal glotal
“D1R1LM01”
que ´e o digito um . Desse sinal, primeiro, foram extra´ıdos os coeficientes
MFC. Al´em disso, foi extra´ıda a vogal “u” e guardada na base de vogais
como:
“lm1n1r1vu”
ao extra´ıdos, enao, os parˆametros da estimativa do sinal glotal da vogal
u e todos unidos em um o vetor. Este ´e o Vetor H´ıbrido de caracter´ısticas:
Coeficientes MFC caracter´ısticas do sinal glotal. As diferentes configura¸oes
deste vetor utilizadas neste trabalho ao as seguintes:
-12 coeficientes MFC + Ko.
-12 coeficientes MFC + Ko + pp.
-12 coeficientes MFC + coeficientes e ∆∆ + Ko.
-12 coeficientes MFC e suas derivadas e ∆∆ + Ko + pp.
95
Todas essas configura¸oes foram testadas em uma rede neural constru´ıda.
6.4 Rede Neural Artificial(RNA)
Para utilizar uma rede neural artificial (RNA) na tarefa de reconhecimento
de locutor deve-se levar em conta os seguintes aspectos:
-Parˆametros de uma Rede Multilayer Perceptron.
-Normaliza¸ao dos pesos.
-Crit´erio de parada do treinamento de RNA
-Taxa de aprendizagem e momento.
-Varia¸oes no treinamento da rede MLP
6.4.1 Parˆametros de uma rede Multilayer Perceptrons(MLP)
A rede neural que se utilizou neste trabalho tem um n´umero de entradas cor-
respondentes ao numero de caracter´ısticas do vetor h´ıbrido, quer disser que
depende do comprimento do vetor de caracter´ısticas glotais e de coeficientes
MFC.
A escolha feita neste trabalho foi dependente de cada aplica¸ao, al´em
disso, foram consideradas diferentes tentativas at´e chegar `a melhor confi-
gura¸ao. Para todas as aplica¸oes, a quantidade de neurˆonios da camada es-
condida foi escolhida pela edia aritm´etica do n´umero de atributos do vetor
de entrada e do n´umero de classes de sa´ıda da rede neural. Outras heur´ısticas
tamem foram testadas com diferentes n´umeros de neuronios na camda es-
condida, mas o melhor desempenho foi obtido com a edia aritm´etica, se-
guindo [23].
Um exemplo de rede neural com as caracter´ısticas de arquitetura multi-
96
layer percptrons ´e mostrado na Fig 6.7, onde se tem um vetor de entrada
de 17 caracter´ısticas (composta por 12 coeficientes MFC +Ko+pp), uma ca-
mada escondida sendo a media aritm´etica de entradas e sa´ıdas e por ´ultimo,
e cinco saidas que representam os 5 locutores (as cinco classes). O software
utilizado nas experiˆencias com redes neurais foi o Weka [36].
Figura 6.7: Exemplo de rede neural com arquitetura multilayer perceptrons
6.4.2 Normaliza¸ao dos Pesos
A fase de normaliza¸ao ´e de suma importˆancia para o sistema, pois ´e nela que
ocorrer´a o tratamento dos valores coletados. A partir dos dados adquiridos,
no odulo de captura, cabe ao odulo de normaliza¸ao o preparo para que
sejam entregues `a an´alise da rede neural. Esta fase ajusta a escala de valores
obtidos. As vantagens da normaliza¸ao ´e a economia no processamento al´em
de encaixar todos os dados em um faixa, ou seja, menor dispers˜ao.
97
A faixa utilizada para as aplica¸oes neste trabalho ´e de [-1, 1].
6.4.3 Crit´erio de parada do treinamento do RNA
O treinamento pode ser interrompido em trˆes circunstˆancias, quando ´e atin-
gido o n´umero aximo de ´epocas do treinamento, ou quando ´e atingido o
erro m´ınimo desejado ou quando uma determinada porcentagem dos dados
de treinamento ´e corretamente classificada. O principal problema nas ´epocas
de treinamento ´e o sobre-treinamento (overfitting) como a se comentou an-
teriormente. Para evitar este problema, neste trabalho, utilizou-se uma es-
trat´egia que une os trˆes crit´erios de parada de treinamento e utiliza-se um
conjunto de valida¸ao. A valida¸ao cruzada consiste em dividir os padr˜oes
de treinamento em trˆes conjuntos
- Um conjunto de treinamento que ´e grupo dos padr˜oes usados para modificar
os pesos.
- Um conjunto de valida¸ao que ao os padr˜oes usados para verificar o pro-
blema de overfitting.
-Um conjunto de teste que ao os padr˜oes para testar o desempenho do mo-
delo final.
Coloca-se a quantidade de ´epocas de treinamento e as ´epocas o devem ser
interrompidas quando o erro dos padr˜oes do conjunto de valida¸ao come¸cam
a subir de forma consistente.
6.4.4 Momento e taxa de aprendizagem
A taxa de aprendizagem pode ser constante ou adaptativa. O momento foi
colocado para as aplica¸oes deste trabalho em 0,9 e a taxa de aprendizado
foi em media 0,3.
98
6.5 Experiˆencias
A primeira aplica¸ao divide-se em duas experiˆencias: Primeiro, foram utili-
zados 30 locutores masculinos falando todos os d´ıgitos com trˆes repeti¸oes
cada. Para cada palavra, foram extra´ıdos os coeficientes MFC e sua primeira
e segunda derivadas utilizando vinte filtros passa-faixa triangulares [13]. De
cada palavra foram extra´ıdas vogais para depois proceder a aplica¸ao do al-
goritmo de filtragem inversa discutido. Extra´ıram-se sons vozeados de cada
palavra. Escolheram-se partes peri´odicas de cada palavra, descritos a seguir:
“o” para zero, “u” para um, “o” para dois, “e” para trˆes, “a” para quatro,
“i” para cinco, “e” para seis, “e” para sete, “o” para oito, “o” para nove e
“e” para meia. Todas foram extra´ıdas de forma semi-autom´atica.
Obten¸ao da estimativa do sinal glotal
Os melhores resultados para o sinal glotal foram obtidos com 45 coeficientes
LPC [8] e, a partir desta estimativa, foram extra´ıdos dois parˆametros Ko e
pp. Como ao trˆes per´ıodos fundamentais, foram obtidos para cada palavra
trˆes valores para Ko e dois valores para pp.
Rede neural constru´ıda para o reconhecimento/classifica¸ao
Foram testadas duas configura¸oes de treinamento da rede neural: Na pri-
meira, dividiu-se a base de dados em trˆes grupos. Um grupo com 75% (742
vetores) dos dados para treinamento; outro grupo, com 20% (198 vetores)
dos dados para valida¸ao e os restantes 5% (50 vetores) para teste. Na se-
gunda configura¸ao foram usadas 95% (940 vetores) das gravoes da base
para treinamento e 5% (50 vetores) para teste, tomando como referˆencia as
´epocas de treinamento, antes do sobretreinamento (overfitting), da primeira
99
configura¸ao. Para escolher estes valores levou-se em conta que a base ´e rui-
dosa por isso a base de treinamento e valida¸ao deixarem-se com os valores
maiores possiveis. Na segunda configura¸ao ao foram usados dados para
valida¸ao.
As duas primeiras experiˆencias foram considerados apenas locutores mas-
culinos, sendo a primeira experiˆencia apenas levando-se em considera¸ao os
12 coeficientes MFC e as caracter´ısticas glotais e a segunda experiˆencia foi re-
alizada levando-se em considera¸ao os 36 coeficientes MFC e as caracter´ısticas
glotais. A terceira e a quarta experiˆencia foram realizadas nos mesmos mol-
des da primeira e da segunda, considerando-se, por´em, locutores femininos.
Para cada uma das quatro experiˆencias consideram-se as duas configura¸oes
de rede neural.
6.5.1 Primeira experiˆencia
A primeira experiˆencia pode ser dividida em quatro partes, de acordo com o
vetor usado na entrada da rede neural: (I) apenas os 12 coeficientes MFC, (II)
os 12 coeficientes MFC mais trˆes valores correspondentes `as caracter´ısticas
glotais Ko, totalizando 15 componentes, (III) os 12 coeficientes MFC mais
dois valores correspondentes `as caracter´ısticas glotais pp, totalizando 14 com-
ponentes, (IV) 12 coeficientes MFC, mais trˆes valores correspondentes `as ca-
racter´ısticas glotais Ko, mais dois valores correspondentes `as caracter´ısticas
glotais pp, totalizando 17 componentes.
Nas Tabs. 6.1 e 6.2 ao mostrados os resultados da primeira experiˆencia
com a primeira configura¸ao e com a segunda configura¸ao, respectivamente.
100
Figura 6.8: Configura¸ao rede neural
Tabela 6.1: Primeira experiˆencia com a primeira configura¸ao da rede neural.
Atributos do vetor classifica¸ao
12 MFCC 52%
12 MFCC+pp 54%
12 MFCC+Ko 54%
12 MFCC+Ko+pp 58%
6.5.2 Segunda experiˆencia
A diferen¸ca dessa experiˆencia em rela¸ao `a primeira refere-se apenas ao
n´umero de coeficientes MFC. Na segunda experiˆencia foram considerados
36 coeficientes, pois inclu´ıram-se a primeira e a segunda derivadas dos coefi-
cientes MFC.
Nas Tabs. 6.3 e 6.4 ao mostrados os resultados da segunda experiˆencia
com a primeira configura¸ao e com a segunda configura¸ao, respectivamente.
101
Tabela 6.2: Primeira experiˆencia com a segunda configura¸ao de rede neural.
Atributos do vetor classifica¸ao
12 MFCC 56%
12 MFCC+pp 56%
12 MFCC+Ko 56%
12 MFCC+Ko+pp 60%
Figura 6.9: Configura¸ao rede neural
Estes resultados foram os melhores depois de provar diferentes confi-
gura¸oes da rede neural. Atrav´es dos resultados mostrados nas Tabs. 6.1,
6.2, 6.3 e 6.4, conclui-se que o vetor incluindo todas as caracter´ısticas glotais
´e o mais efetivo para reconhecimento de locutor, pois apresenta as maiores
porcentagens de acerto. Os valores ao ainda mais significativos quando ao
inclu´ıdos, al´em dos coeficientes MFC, tamem as suas derivadas. A carac-
ter´ıstica Ko foi a que mais influenciou o resultado, quando comparado aos
resultados com a utiliza¸ao do vetor de entrada apenas com os coeficientes
MFC.
102
Tabela 6.3: Segunda experiˆencia com a primeira configura¸ao da rede neural.
Atributos do vetor classifica¸ao
36 MFCC 64%
36 MFCC+pp 70%
36 MFCC+Ko 84%
36 MFCC+Ko+pp 88%
Tabela 6.4: Segunda experiˆencia com a segunda configura¸ao da rede neural.
Atributos do vetor classifica¸ao
36 MFCC 62%
36 MFCC+pp 72%
36 MFCC+Ko 88%
36 MFCC+Ko+pp 92%
Observou-se tamem que a segunda configura¸ao da rede apresentou me-
lhores resultados, o que a era esperado devido ao maior n´umero de padr˜oes
de treinamento.
6.5.3 Terceira experiˆencia
A diferen¸ca desta aplica¸ao com a primeira ´e o a inclus˜ao de locutores femini-
nos na base de dados. Foram utilizados 30 locutores divididos em 20 locutores
103
masculinos e 10 femininos. Como na primeira experiˆencia, dividimos em qua-
tro partes, de acordo com o vetor usado na entrada da rede neural: (i) apenas
os 12 coeficientes MFC, (ii) os 12 coeficientes MFC mais trˆes valores corres-
pondentes `as caracter´ısticas glotais Ko, totalizando 15 componentes, (iii)
os 12 coeficientes MFC mais dois valores correspondentes `as caracter´ısticas
glotais pp, totalizando 14 componentes, (iv) 12 coeficientes MFC, mais trˆes
valores correspondentes `as caracter´ısticas glotais Ko, mais dois valores cor-
respondentes `as caracter´ısticas glotais pp, totalizando 17 componentes. Nas
Tabs. 6.16 e 6.6 ao mostrados os resultados da terceira experiˆencia com a
primeira configura¸ao e com a segunda configura¸ao, respectivamente.
Figura 6.10: Configura¸ao rede neural
104
Tabela 6.5: Terceira experiˆencia com a primeira configura¸ao da rede neural.
Atributos do vetor classifica¸ao
12 MFCC 40%
12 MFCC+pp 50%
12 MFCC+Ko 50%
12 MFCC+Ko+pp 54%
Tabela 6.6: Terceira experiˆencia com a segunda configura¸ao de rede neural.
Atributos do vetor classifica¸ao
12 MFCC 42%
12 MFCC+pp 52%
12 MFCC+Ko 54%
12 MFCC+Ko+pp 56%
6.5.4 Quarta experiˆencia
A diferen¸ca dessa experiˆencia em rela¸ao `a terceira refere-se apenas ao n´umero
de coeficientes MFC. Na terceira experiˆencia foram considerados 12 coefici-
entes, pois inclu´ıram-se a primeira e a segunda derivadas dos coeficientes
MFC.
Nas Tabs. 6.7 e 6.8 ao mostrados os resultados da segunda experiˆencia
com a primeira configura¸ao e com a segunda configura¸ao, respectivamente.
105
Figura 6.11: Configura¸ao rede neural
Tabela 6.7: Quarta experiˆencia com a primeira configura¸ao da rede neural
Atributos do vetor classifica¸ao
36 MFCC 56%
36 MFCC+pp 64%
36 MFCC+Ko 68%
36 MFCC+Ko+pp 80%
Estes resultados foram os melhores depois de provar diferentes confi-
gura¸oes da rede neural. Atrav´es dos resultados mostrados nas Tabs. 6.6, 6.7
e 6.8, tal como nas experiˆencias 1 e 2, conclui-se que o vetor incluindo todas
as caracter´ısticas glotais ´e o mais efetivo para reconhecimento de locutor, pois
apresenta as maiores porcentagens de acerto. Quando os locutores femininos
foram inclu´ıdos, o desempenho do classificador foi inferior comparado com
os resultados das experiˆencias 1 e 2. Isso deve-se ao fato da estimativa glotal
dos locutores femininos ser pior do que com os locutores masculinos, talvez
causado pelas frequˆencias mais altas do sinal glotal em locutores femininos.
106
Tabela 6.8: Quarta experiˆencia com a segunda configura¸ao da rede neural
Atributos do vetor classifica¸ao
36 MFCC 64%
36 MFCC+pp 68%
36 MFCC+Ko 74%
36 MFCC+Ko+pp 82%
Isso quer dizer que a base ´e ruidosa com a precisa de locutores femininos.
Um exemplo de estimativa do sinal glotal de um locutor feminino ´e mos-
trado na Fig 6.12, que ´e uma estimativa bastante ruidosa comparada com as
estimativas de vozes masculinas.
Nas experiˆencias 3 e 4 pode-se ver o bom desempenho dos parˆametros da
estimativa do sinal glotal no reconhecimento de locutor, a que os resultados
somente com os coeficientes MFC foram muito menores que nas experiˆencias
1 e 2, e com os parˆametros da estimativa do sinal glotal subiram considera-
velmente seu desempenho.
Para o desenvolvimento das experiˆencias foram utilizados dois softwares
MATLAB e WEKA [36].
107
Figura 6.12: estimativa do sinal glotal do locutor feminino
6.5.5 Experiˆencias com m´aquina de vetores de suporte
A estrat´egia resumida do SVM consiste em, dado um conjunto de vetores
de treinamento pertencente a duas classes separ´aveis, o SVM encontra o hi-
perplano com a axima distˆancia Euclidiana do conjunto de treinamento.
Para a tarefa de classifica¸ao com SVM ´e crucial a escolha da fun¸ao Ker-
nel(escolhida pelo usu´ario segundo sua natureza).
Neste trabalho foram escolhidas duas fun¸oes Kernel, linear e RBF (Ra-
dial Basis Function).
SVM linear
A teoria mais relevante do SVM linear a foi mostrada neste trabalho. Mostra-
se aqui aspectos importantes para levar em conta a escolha do classificador
SVM linear que tenha um bom desempenho. A SVM linear tamem ´e conhe-
108
cida como Fun¸ao Kernel polinomial de potencia 1. Para projetar o melhor
classificador SVM linear, os dados de entrada em que ser normalizados para
um melhor desempenho do algoritmo. Um valor que influencia o desempe-
nho do algoritmo ´e o termo de regulariza¸ao, denotado por C, que imp˜oe
um peso `a minimiza¸ao dos erros no conjunto de treinamento em rela¸ao `a
minimiza¸ao da complexidade do modelo. Para este trabalho, provaram-se
arios valores da constante C para cada uma das configura¸oes dos vetores
de entrada apresentados.
Apresenta-se a seguir duas experiˆencias realizadas com SVM, o que cha-
maremos de quinta e sexta experiencias.
6.5.6 Quinta experiˆencia
Para esta experiˆencia utilizaram-se duas bases de dados a trabalhadas nas
experiˆencias anteriores, uma de 30 locutores masculinos e outra dividida em
20 locutores masculinos e 10 locutores femininos. Nesta experiˆencia, como ve-
tores de entrada foram utilizados: (i) apenas os 12 coeficientes MFC, (ii) os 12
coeficientes MFC mais trˆes valores correspondentes `as caracter´ısticas glotais
Ko, totalizando 15 componentes, (iii) os 12 coeficientes MFC mais dois valo-
res correspondentes `as caracter´ısticas glotais pp, totalizando 14 componentes,
(iv) 12 coeficientes MFC, mais trˆes valores correspondentes `as caracter´ısticas
glotais Ko, mais dois valores correspondentes `as caracter´ısticas glotais pp,
totalizando 17 componentes, (v) 36 coeficientes MFC, (vi) os 36 coeficientes
MFC mais trˆes valores correspondentes `as caracter´ısticas glotais Ko, totali-
zando 39 componentes, (vii) os 36 coeficientes MFC mais dois valores corres-
pondentes `as caracter´ısticas glotais pp, totalizando 38 componentes, (viii) 36
coeficientes MFC, mais trˆes valores correspondentes `as caracter´ısticas glotais
109
Ko, mais dois valores correspondentes `as caracter´ısticas glotais pp, totali-
zando 41 componentes. Utilizou-se como teste o 5% da base total 50 vetores.
A experiˆencia consiste em classificar os vetores de entrada com a t´ecnica
SVM, usando fun¸ao Kernel linear. Consideramos diversos valores de C para
verificar o desempenho do algoritmo.
110
Tabela 6.9: Quinta experiˆencia com a base de dados de 30 locutores mascu-
linos.
Atributos do vetor C=1 C=10 C=100
12 MFCC 44% 48% 48%
12 MFCC+Ko 52% 58% 60%
12 MFCC+pp 52% 64% 60%
12 MFCC+Ko+pp 54% 68% 64%
36 MFCC 64% 62% 48%
36 MFCC+pp 74% 70% 70%
36 MFCC+Ko 74% 68% 68%
36 MFCC+Ko+pp 78% 74% 74%
111
Tabela 6.10: Quinta experiˆencia com a base de dados de 20 locutores mas-
culinos e 10 locutores femininos.
Atributos do vetor C=1 C=10 C=100
12 MFCC 38% 44% 46%
12 MFCC+Ko 60% 66% 72%
12 MFCC+pp 44% 66% 72%
12 MFCC+Ko+pp 58% 66% 74%
36 MFCC 48% 58% 52%
36 MFCC+pp 70% 70% 68%
36 MFCC+Ko 60% 62% 58%
36 MFCC+Ko+pp 74% 74% 78%
112
Observa-se que dependendo das caracter´ısticas usadas no vetor de entrada
os melhores resultados variaram, de acordo com os valores de C considerados.
Os resultados ao muito menores aos obtidos por RNA.
113
Maquina de Vetores de suporte com Kernel RBF
A fun¸ao Kernel do tipo RBF tem como equa¸ao caracter´ıstica Φ = (
−xx
2
2σ
2
).
Aqui entram dois parˆametros que tem-se que determinar, o parˆametro C que
a foi explicado, e o parˆametro σ
2
. A sa´ıda da fun¸ao Kernel depende da
distˆancia euclidiana de x’ ate x (um destes pontos ser´a o vetor de suporte e
o outro ser´a um ponto de teste). O vetor de suporte ser´a o centro da RBF e
σ
2
vai determinar a ´area de influencia dela sobre os dados. Um maior valor
de σ
2
(maior variˆancia) significa que a ´area de influˆencia do vetor de suporte
ser´a maior. Quando um vetor suporte influˆencia uma ´area maior, todos os
outros vetores de suporte na ´area ao aumentar em valor para compensar
essa influˆencia, at´e que todos os valores cheguem ao equil´ıbrio.
Um maior valor tamb´em reduz o n´umero de vetores. O problema do valor
de σ
2
ser muito alto ´e o problema da generaliza¸ao. Na Fig 6.13 ´e mostrado
o gr´afico de uma fun¸ao RBF com σ
2
= 1.5.
Figura 6.13: Fun¸ao Kernel RBF
114
6.5.7 Sexta experiˆencia
A diferen¸ca desta experiˆencia com rela¸ao `a quinta refere-se `a troca da fun¸ao
Kernel linear por uma fun¸ao Kernel RBF onde tomaram-se trˆes valores
diferentes de σ
2
. Para cada valor de σ
2
tomaram-se v´arios valores de C, para
entender o desempenho do algoritmo.
Tabela 6.11: Sexta experiˆencia com a base de dados de 30 locutores mascu-
linos com σ
2
= 0.01 e variando C.
Atributos do vetor C=100 σ
2
= 0.01 C=150 σ
2
= 0.01 C=200 σ
2
= 0.01
12 MFCC 46% 52% 52%
12 MFCC+Ko 54% 56% 58%
12 MFCC+pp 58% 58% 58%
12 MFCC+Ko+pp 60% 64% 64%
36 MFCC 66% 60% 60%
36 MFCC+pp 78% 70% 70%
36 MFCC+Ko 78% 72% 70%
36 MFCC+Ko+pp 78% 82% 74%
115
Tabela 6.12: Sexta experiˆencia com a base de dados de 30 locutores mascu-
linos com σ
2
= 0.1 e variando C.
Atributos do vetor C=1 σ
2
= 0.1 C=10 σ
2
= 0.1 C=100 σ
2
= 0.1
12 MFCC 42% 48% 46%
12 MFCC+Ko 44% 48% 50%
12 MFCC+pp 54% 54% 54%
12 MFCC+Ko+pp 54% 60% 60%
36 MFCC 56% 60% 60%
36 MFCC+pp 62% 64% 66%
36 MFCC+Ko 62% 64% 66%
36 MFCC+Ko+pp 66% 66% 72%
116
Tabela 6.13: Sexta experiˆencia com a base de dados de 30 locutores mascu-
linos com σ
2
= 1 e variando C.
Atributos do vetor C=1 σ
2
= 1 C=10 σ
2
= 1 C=100 σ
2
= 1
12 MFCC 52% 54% 50%
12 MFCC+Ko 56% 58% 56%
12 MFCC+pp 58% 58% 58%
12 MFCC+Ko+pp 64% 64% 64%
36 MFCC 58% 64% 60%
36 MFCC+pp 70% 70% 70%
36 MFCC+Ko 72% 72% 72%
36 MFCC+Ko+pp 82% 82% 82%
117
Tabela 6.14: Sexta experiˆencia com a base de dados de 20 locutores mascu-
linos e 10 locutores femininos com σ
2
= 0.01 e variando C.
Atributos do vetor C=100 σ
2
= 0.01 C=150 σ
2
= 0.01 C=200 σ
2
= 0.01
12 MFCC 46% 46% 46%
12 MFCC+Ko 72% 66% 64%
12 MFCC+pp 72% 58% 56%
12 MFCC+Ko+pp 74% 68% 64%
36 MFCC 52% 56% 56%
36 MFCC+pp 68% 72% 70%
36 MFCC+Ko 58% 72% 70%
36 MFCC+Ko+pp 78% 78% 78%
118
Tabela 6.15: Sexta experiˆencia com a base de dados de 20 locutores mascu-
linos e 10 locutores femininos com σ
2
= 0.1 e variando C.
Atributos do vetor C=1 σ
2
= 0.1 C=10 σ
2
= 0.1 C=100 σ
2
= 0.1
12 MFCC 44% 46% 46%
12 MFCC+Ko 68% 64% 66%
12 MFCC+pp 66% 62% 66%
12 MFCC+Ko+pp 66% 66% 66%
36 MFCC 52% 56% 58%
36 MFCC+pp 72% 70% 70%
36 MFCC+Ko 64% 66% 64%
36 MFCC+Ko+pp 74% 74% 74%
119
Tabela 6.16: Sexta experiˆencia com a base de dados de 20 locutores mascu-
linos e 10 locutores femininos com σ
2
= 1 e variando C.
Atributos do vetor C=1 σ
2
= 1 C=10 σ
2
= 1 C=100 σ
2
= 1
12 MFCC 46% 46% 46%
12 MFCC+Ko 64% 64% 64%
12 MFCC+pp 56% 56% 56%
12 MFCC+Ko+pp 64% 64% 64%
36 MFCC 56% 56% 56%
36 MFCC+pp 72% 72% 72%
36 MFCC+Ko 72% 72% 72%
36 MFCC+Ko+pp 80% 80% 80%
120
Para valores muito pequenos de σ
2
, a base consegue bons resultados, mas
o modelo varia muito com as mudan¸cas de C. Para σ
2
maior ou igual a 1 o
modelo ´e muito mais est´avel para os diferentes valores C e mostra o melhor
desempenho, para σ
2
maiores, o desempenho piora. Os resultados com a
fun¸ao Kernel RBF ao melhores que com Kernel linear e o modelo ´e muito
mais est´avel.
121
Cap´ıtulo 7
Conclus˜oes e trabalhos futuros
7.1 Conclus˜oes
-Neste trabalho foi proposta uma ecnica para reconhecimento autom´atico de
locutor unindo em um ´unico vetor os coeficientes MFC com os parˆametros
extra´ıdos da estimativa do sinal glotal. A superioridade do desempenho da
t´ecnica com o vetor h´ıbrido, em compara¸ao com um vetor de apenas coe-
ficientes MFC, foi comprovada em arias experiˆencias com bases de vozes e
para diferentes combina¸oes do vetor h´ıbrido. Observamos que os parˆametros
da estimativa do sinal glotal apresentam-se como bons discriminantes para
o locutor, sendo um excelente complemento para a t´ecnica dos coeficientes
MFC.
-O vetor h´ıbrido de caracter´ısticas MFC e parˆametros da estimativa do
sinal glotal, foram provados na tarefa de reconhecimento de voz obtendo
resultados muito abaixo do esperado e apresentando mal desempenho com-
parados com os obtidos na tarefa de reconhecimento do locutor, o que leva
122
a concluir que os parˆametros glotais servem para reconhecimento de locutor
mas ao para reconhecimento de voz. Pode-se intuir que isso deve-se ao fato
de os parˆametros do sinal glotal mostrarem caracter´ısticas intr´ınsecas do lo-
cutor.
-Para a tarefa de classifica¸ao observaram-se melhores resultados quando
foram usadas as redes neurais. Mas a rede neural precisa levar em conta
muitos fatores para seu desenho e de muitas provas para construir uma con-
figura¸ao da rede que apresente um bom desempenho. Por outro lado, o
SVM apresenta uma configura¸ao mais consistente e os parˆametros que ao
determinados pelo usu´ario ao poucos. Observou-se que a fun¸ao Kernel que
apresenta os melhores resultados ao ser usada foi a RBF, comprovando o que
diz a literatura
-A melhor configura¸ao do vetor h´ıbrido para a tarefa de reconhecimento de
locutor, como mostraram todas as experiˆencias, foi, o formado por 12 coe-
ficientes MFC e sua primeira e segunda derivada. Isso deve-se ao fato de o
vetor ter maior n´umero de caracter´ısticas de cada locutor e ter maiores fa-
tores discriminantes. Observa-se um melhor desempenho do parˆametro Ko
em quase todas as experiˆencias, sendo o maior parˆametro discriminante do
sinal glotal.
-A estimativa do sinal glotal feita pelo m´etodo PSIAIF mostrada neste traba-
lho, teve um modelo com um pouco mais de ru´ıdo para os locutores femininos.
Chegou-se a conclus˜ao de que o modelo PSIAIF pode apresentar problemas
para frequˆencias altas. O desempenho da tarefa de reconhecimento de locu-
tor tamem foi menor no caso da base que combinava locutores masculinos
123
e femininos comparada com a base solo para locutores masculinos.
7.2 Trabalhos futuros
Apresentamos, a seguir, algumas sugest˜oes de trabalhos futuros para dar
continuidade a pesquisa.
-Implementar a t´ecnica SVM para reconhecimento de locutor, considerando
um vetor hibrido como entrada, em caso de sinais de voz com ru´ıdo.
-Implementar um classificador h´ıbrido envolvendo SVM ou redes neurais e
modelos de Markov, tomando como entrada o vetor hibrido de caracter´ısticas.
124
Referˆencias Bibliogr´aficas
[1] Majewski W., Basztura C.,“Integrated approach to speaker recognition
in forensic applications”, Forensic Linguistics 3 (1), pp.50-64, 1996.
[2] Davis K. H.“Automatic Recognition of Spoken Digits”, Journal of the
Acoustical Society of America, vol. 24, no. 6, pp. 637-642, 1952.
[3] Koenig W., “The Sound Spectrograph”, Journal of the Acoustical Soci-
ety of America, vol. 17, pp. 19-49, 1946.
[4] Noemi D. B., “ The glottal closure in diagnostic of minor structural alte-
rations ”, Rev. Bras. Otorrinolaringol. vol.70 no.4 ao Paulo July/Aug.
2004.
[5] Gobl C. e Chasaide A. N., The role of voice quality in communicating
emotion, mood and attitude ”, Speech Communication, vol. 40, no. 1-2,
pp. 189-212, 2003.
[6] Fourcim A J., Maddieson I., “Laryngographic assessment of phonatory
function”,ASHA Rep. 11, pp. 116-124, 1981.
[7] Pedersen M. F., Electroglottography compared with synchronized stro-
boscopy in normal persons ”, Folia Phoniatr. 29, pp. 191-199, 1977.
125
[8] Mattos J. S. , Silva D. G., Apolin´ario J. A. e Cataldo Edson. ,“Incur-
sionando pelos dom´ınios da eletroglotografia: proposta de um corpus
EGG”, xxvi simp´osio brasileiro de telecomunica¸oes - SBrT 2008, 02-05
de setembro de 2008, Rio de Janeiro, RJ.
[9] Fabre P., “Sphygmographie par simple contact d ´electrodes cutan´ees, in-
troduisant dans l arter`e de faibles courants de haute fr´equence etecteurs
de ses variations volum´etriques”, Comptes Rendus Soc. Biol., vol. 133,
pp. 639-641, 1940.
[10] Baken R. J., “Electroglottography ”, Journal of Voice, vol. 6, no.2, pp.
98-110, 1992.
[11] Alku P., “Glottal wave analysis with Pitch Synchronous Adaptive In-
verse Filtering”, Speech Communication, vol. 11, pp. 109-118, 1992.
[12] Gajic B., Paliwal K., “Robust Speech Recognition Using Features Based
On Zero Crossing With Peak Amplitudes.”, ICASSP 2003, (2003), 64-
67.
[13] Cuadros C. R., “Comparac˜ao entre as tecnicas de MFCC e ZCPA para
reconhecimento robusto de locutor em ambientes ruidosos ”, Disserta¸ao
de Mestrado em Engenharia de Telecomunica¸oes, UFF 2007.
[14] Haykin S., “Redes Neurais Princ´ıpios e pratica”,2a edi¸cao Porto Alegre
Bookman 2001.
[15] Juliano S. M., “Um estudo comparativo entre o sinal electroglotogr´afico
e o sinal de voz”, Disserta¸ao de mestrado em Engenharia de Telecomu-
nica¸oes, UFF 2008.
126
[16] Rabiner L. R., Juang B., “Fundamentals of Speech Recognition”, Pren-
tice Hall, p. 493, 1993.
[17] Kent R., Read C., “The Acoustic Analysis of Speech”, Singular Pu-
blishing Group, 1992.
[18] Fant, G., Acoustic Theory of Speech Production, Mouton, The Hague,
1960.
[19] Fabiana S., “configura¸ao do trato vogal supraglotico na produ¸ao das
vogais de portugues brasileiro”, Disserta¸ao de mestrado em linguistica
aplicada, PUC-SP 2006.
[20] Juang B. H.; Rabiner L. ;Wilpon J., “On the use of bandpass filtering in
speech recognition”, Acoustic speech and signal processing IEEE tran-
sactions on V. 35, p 947-954 jul 1987 .
[21] Stevens S. S., Volkman J., “The relation of pitch to frequency”, Ameri-
can Journal of Psychology, vol. 53, p. 329, 1940.
[22] Oppenheim A. V., Schafer R. W., “Discrete-Time Signal Processing”.
Englewood. Cliffs, NJ: Prentice Hall, p. 796, 1989.
[23] Sierra A. B. “Aprendizaje automatico: conceptos basicos y avanzados:
aspectos practicos utilizando el software Weka ”,1a edi¸ao Prentice Hall
2006.
[24] Young S., Evermann G., Gales M., “The HTK Book (for HTK Version
3.3)”, Cambridge University Engineering Department, p. 354, 2005.
[25] Cataldo E., Rubens S., Nicolato L., “Uma Discuss˜ao sobre Modelos
Mecˆanicos de Laringe para S´ıntese de Vogais”, ENGEVISTA, v. 6, n. 1,
p. 47-57, abr. 2004
127
[26] Van den Berg, J.,“Myoelasticaerodynamic theory of voice production”,
Journal of Speech and Hearing Research, vol.1, pp. 227- 244, 1958.
[27] Titze, I. R., “Comments on the myoelastic-aerodynamic theory of pho-
nation”, The Journal of the Acoustical Society of America, vol. 23, pp.
495-510, 1980.
[28] Gauffin J., Hertegard S., Lindestad A., “A comparison of subglottal and
intraoral pressure measurements during phonation”, Journal of Voice,
vol. 9, pp. 149-155, 1995.
[29] Hertegard S., Gauffin J. e Karlsson, I., “Physiological correlates of the
inverse filtered flow waveform”, Journal of Voice, vol. 6, no. 3, pp. 224-
234, 1992.
[30] Sodersten, M., Hakansson, A. e Hammarberg, B., “Comparison between
automatic and manual inverse filtering procedures for healty female voi-
ces”, Logopedics Phoniatrics Vocology, vol. 24, pp. 26-38, 1999.
[31] Pulakka H.,“ Analysis of Human Voice Production Using Inverse Filte-
ring, High-Speed Imaging, and Electroglottography”, Helsinki Univer-
sity of Technology, Dept. of Computer Science and Engineering, 2005.
[32] Arbib M. A., “The Handbookof brain theory and neural networks ”,
Cambridge MA: The MIT Press,1985 1118p.
[33] http://www.ee.ic.ac.uk/hp/staff/ dmb/voicebox/voicebox.html
[34] Deller J. R., Hansen J. H., ProakisJ. G., “The relation of pitch to fre-
quency”, IEEE Press, p.936,2000.”
[35] http://audacity.sourceforge.net/
128
[36] www.cs.waikato.ac.nz/ml/weka/
[37] http://aparat.sourceforge.net/index.php/
[38] Zebulum R., Vellasco M.“ a comparison of different spectral analysis
models for speech recognition using neural networks”0-7803-3636-4197
1997 IEEE
[39] Smola A. J., Sch¨olkopf B. Learning with Kernels. The MIT Press, Cam-
bridge, MA, 2002.
[40] Vapnik V. N. The nature of Statistical learning theory. Springer-Verlag,
New York, 1995.
[41] Lorena A. C., Carvalho A. Uma Introdu¸ao `as Support Vector Machines.
Universidade Federal do ABC, ao Pablo, 2007.
[42] http://www.isis.ecs.soton.ac.uk/resources/svminfo/
[43] Al-Jaroudi A., Makhoul J. , Discrete all-pole modeling IEEE transaccion
on signal processing vol. 39 no2 pp 411-423.
129
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo