Download PDF
ads:
CARLOS NASCIMENTO SILLA JUNIOR
COMBINAC¸
˜
AO DE
CLASSIFICADORES PARA O
RECONHECIMENTO AUTOM
´
ATICO
DE G
ˆ
ENEROS MUSICAIS
Disserta¸ao apresentada ao Programa de
os-Gradua¸ao em Inform´atica da Pontif´ıcia
Universidade Cat´olica do Paran´a como requi-
sito parcial para obten¸ao do t´ıtulo de Me-
stre em Inform´atica.
Curitiba
2007
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
CARLOS NASCIMENTO SILLA JUNIOR
COMBINAC¸
˜
AO DE
CLASSIFICADORES PARA O
RECONHECIMENTO
AUTOM
´
ATICO DE G
ˆ
ENEROS
MUSICAIS
Disserta¸ao apresentada ao Programa de
os-Gradua¸ao em Inform´atica da Pontif´ıcia
Universidade Cat´olica do Paran´a como requi-
sito parcial para obten¸ao do t´ıtulo de Me-
stre em Inform´atica.
´
Area de Concentra¸ao: Ciˆencia da Com-
puta¸ao
Orientador: Celso A. A. Kaestner
Co-orientador: Alessandro L. Koerich
Curitiba
2007
ads:
Silla Junior, Carlos Nascimento
COMBINAC¸
˜
AO DE CLASSIFICADORES PARA O RECONHECI-
MENTO AUTOM
´
ATICO DE G
ˆ
ENEROS MUSICAIS. Curitiba, 2007.
Disserta¸ao - Pontif´ıcia Universidade Cat´olica do Paran´a. Programa de
os-Gradua¸ao em Inform´atica.
1. Classifica¸ao Autom´atica de eneros Musicais 2. Combina¸ao de Classi-
ficadores 3. Sele¸ao de Atributos I.Pontif´ıcia Universidade Cat´olica do Pa-
ran´a. Centro de Ciˆencias Exatas e Tecnologia. Programa de os-Gradua¸ao
em Inform´atica II - t
Dedico este trabalho `a mem´oria do meu
amado ao Eymar, `a minha amada av´o Alba
e aos meus amados pais Ana e Carlos.
i
Agradecimentos
A Deus pela vida e pela sa´ude.
`
A minha av´o por quem palavras ao ao suficientes para agradecer todo o amor,
carinho e incentivo.
`
A minha ae por ser, al´em da melhor ae do mundo, o meu maior exemplo de
for¸ca e determina¸ao na vida.
Ao meu pai por compartilhar toda sua sabedoria e experiˆencia de vida.
`
A minha namorada por todos os momentos incr´ıveis que passamos juntos e pela
compreens˜ao nos momentos em que tive que trabalhar na disserta¸ao.
Ao meu amigo e orientador Celso Kaestner por todos os anos em que tive o pri-
vil´egio de ser orientado por ele.
Ao meu amigo e co-orientador Alessandro Koerich pelas cr´ıticas valiosas e constru-
tivas.
Aos meus mais que amigos, Luiz, Aron, Marcia, Kelly, e Osmar, por todos os
momentos em que estiveram ao meu lado, bons ou ruins.
Aos meus amigos e professores do Centro de Dan¸ca Jaime Aroxa - Paran´a.
Aos meus colegas, Sandra, Yuri, Luciane, Fernanda e Leandro, e ao meu orientador
Anonio dos Santos Neto do curso de especializa¸ao em comunica¸ao e semi´otica que
sempre me incentivaram a ao abandonar a os em fun¸ao do mestrado.
Aos meus amigos, colegas e professores do PPGIA que tornaram os ´ultimos anos
ao o instrutivos como tamb´em divertidos.
`
A Pontif´ıcia Universidade Cat´olica do Paran´a pela oportunidade de continuar os
meus estudos em n´ıvel de especializa¸ao e mestrado.
ii
Sum´ario
Agradecimentos ii
Sum´ario iii
Lista de Tabelas vi
Lista de Figuras viii
Lista de S´ımbolos ix
Lista de Abrevia¸oes x
Resumo xii
Abstract xiii
Cap´ıtulo 1
Introdu¸ao 1
1.1 Defini¸ao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Desafio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Hip´otese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Organiza¸ao do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Cap´ıtulo 2
Reconhecimento de Padr˜oes e Classifica¸ao Autom´atica de eneros Musicais 5
2.1 Reconhecimento de Padr˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Combina¸ao de Classificadores . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Um-Contra-Todos (One-Against-All) . . . . . . . . . . . . . . . . . 7
2.2.2 Round Robin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.3 Combina¸ao Baseada na Sa´ıda dos Classificadores (Output Level
Ensemble) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Sele¸ao de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Classifica¸ao Autom´atica de Gˆeneros Musicais . . . . . . . . . . . . . . . . 13
iii
2.4.1 Sem combina¸ao de classificadores . . . . . . . . . . . . . . . . . . . 14
2.4.2 Com combina¸ao de classificadores . . . . . . . . . . . . . . . . . . 16
2.4.3 Com sele¸ao de caracter´ısticas . . . . . . . . . . . . . . . . . . . . . 18
2.4.4 Recursos e Ferramentas . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.5 Cr´ıticas `a Tarefa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5 Avalia¸ao Cr´ıtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Cap´ıtulo 3
Uma Proposta de etodo para Classifica¸ao Autom´atica de Gˆeneros Musicais 23
3.1 Cria¸ao e Manuten¸ao da Base de Dados . . . . . . . . . . . . . . . . . . . 23
3.1.1 O Processo de Atribui¸ao de Gˆeneros Musicais . . . . . . . . . . . . 24
3.1.2 Armazenamento, Acesso e Recupera¸ao das M´usicas . . . . . . . . . 25
3.2 M´etodo Para o Reconhecimento Autom´atico . . . . . . . . . . . . . . . . . 27
3.2.1 Segmenta¸ao do Sinal de
´
Audio (Decomposi¸ao Temporal) . . . . . 28
3.2.1.1 Defini¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.1.2 Aplica¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2 Extra¸ao de Caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . 31
3.2.2.1 Caracter´ısticas Relacionadas ao Espectro Sonoro . . . . . 31
3.2.2.2 Caracter´ısticas Relacionadas ao Padr˜ao R´ıtmico (Beat-
Related) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2.3 Caracter´ısticas Relacionadas `a Altura da Nota (Pitch-Re-
lated) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2.4 Vetor de Caracter´ısticas Resultante . . . . . . . . . . . . . 34
3.3 Sele¸ao de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Classifica¸ao, Combina¸ao e Decis˜ao . . . . . . . . . . . . . . . . . . . . . 36
Cap´ıtulo 4
Avalia¸ao do etodo Proposto 38
4.1 Decomposi¸ao Temporal Vs. M´usica Inteira . . . . . . . . . . . . . . . . . 38
4.2 Decomposi¸ao Temporal–Espacial . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Sele¸ao de Caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4 Decomposi¸ao Temporal-Espacial com Sele¸ao de Caracter´ısticas . . . . . . 46
4.5 Avalia¸ao e Discuss˜ao dos Resultados . . . . . . . . . . . . . . . . . . . . . 49
Cap´ıtulo 5
Considera¸oes Finais 51
Referˆe ncias Bibliogr´aficas 54
iv
Gloss´ario 60
Anexo A
O Formato do otulo ID3 62
v
Lista de Tabelas
Tabela 4.1 Taxa de classifica¸ao correta (%) utilizando segmentos isolados vs.
m´usica inteira sobre o conjunto de testes. . . . . . . . . . . . . . . . . . . . 39
Tabela 4.2 Taxa de classifica¸ao correta (%) utilizando arias regras para a
combina¸ao de classificadores vs. m´usica inteira sobre o conjunto de testes. 40
Tabela 4.3 Taxa de Reconhecimento (%) utilizando OAA e RR nos segmentos
individuais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Tabela 4.4 Taxa de reconhecimento (%) utilizando decomposi¸ao temporal–
espacial vs. m´usica inteira . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Tabela 4.5 Taxa de classifica¸ao correta (%) utilizando sele¸ao de atributos
com AG nos segmentos individuais. . . . . . . . . . . . . . . . . . . . . . . 43
Tabela 4.6 Taxa de classifica¸ao correta (%) utilizando arias regras para a
combina¸ao de classificadores vs. m´usica inteira sobre o conjunto de testes. 44
Tabela 4.7 Caracter´ısticas selecionadas para cada segmento dos classificadores
3-NN, J48 e MLP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Tabela 4.8 Caracter´ısticas selecionadas para cada segmento dos classificadores
NB e SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Tabela 4.9 Taxa de Reconhecimento (%) utilizando as diversas estrat´egias no
Seg
beg
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Tabela 4.10 Taxa de reconhecimento (%) utilizando as diversas estrat´egias no
Seg
mid
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Tabela 4.11 Taxa de reconhecimento (%) utilizando as diversas estrat´egias no
Seg
end
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Tabela 4.12 Taxa de reconhecimento (%) utilizando as diversas estrat´egias na
m´usica inteira (MI). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Tabela 4.13 Taxa de Reconhecimento (%) utilizando as ecnic as de c ombina¸ao. 48
vi
Tabela 4.14 Compara¸ao das melhores taxas de classifica¸ao (%) em cada seg-
mento, na m´usica inteira e na combina¸ao . . . . . . . . . . . . . . . . . . 50
Tabela A.1 Informa¸oes do conte´udo do otulo ID3 . . . . . . . . . . . . . . . . 62
Tabela A.2 Mapeamento dos eneros no Padr˜ao ID3 . . . . . . . . . . . . . . . 63
vii
Lista de Figuras
Figura 2.1 Vis˜ao Geral das Tarefas de Reconhecimento de Padr˜oes (KUNCHEVA,
2004) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Figura 2.2 Ilustra¸ao da estrat´egia One-Against-All para um problema de trˆes
classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Figura 2.3 Ilustra¸ao da estrat´egia Round Robin para um problema de trˆes
classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Figura 2.4 Ilustra¸ao da estrat´egia de combina¸ao baseada na probabilidade a
posteriori dos classificadores . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Figura 2.5 Etapas asicas de um m´etodo de sele¸ao de caracter´ısticas. (DASH;
LIU, 1997) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Figura 2.6 Ilustra¸ao dos m´etodos de sele¸ao de atributos. (YANG; HONAVAR,
1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Figura 3.1 Vis˜ao Geral do M´etodo Proposto . . . . . . . . . . . . . . . . . . . 27
Figura 3.2 M´edia dos valores de 30 caracter´ısticas extra´ıdos de diferentes seg-
mentos utilizando 150 m´usicas do enero musical latino conhecido como
Salsa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Figura 3.3 Vis˜ao geral do processo de extra¸ao de caracter´ısticas . . . . . . . . 30
Figura 3.4 Descri¸ao do vetor de caracter´ısticas . . . . . . . . . . . . . . . . . 35
Figura A.1 Esquema do Formato do otulo ID3 (www.id3.org) . . . . . . . . . 63
viii
Lista de S´ımbolos
k N´umero de vizinhos mais pr´oximos do classificador k-NN
nc N´umero de Classes
C
i
i-´esima classe
x Vetor de caracter´ısticas
p Probabilidade ou escore de confian¸ca
ˆ
C Classe final
p(C
i
|x) Probabilidade a posteriori da classe C
i
dado x
l N´umero de classificadores bin´arios utilizados pelo etodo de Round Robin
e Novo exemplo
M N´umero de vetores de caracter´ısticas
r Um otulo poss´ıvel
R Conjunto de otulos poss´ıveis
nf N´umero de caracter´ısticas escolhidas pelo algoritmo de sele¸ao
D N´umero de caracter´ısticas do conjunto original
S Sinal de ´audio de uma m´usica
g Um enero musical
G Conjunto de todos os eneros musicais
s(i) Sinal amostrado no instante i
A N´umero total de amostras que formam o sinal de ´audio digital
f Freq¨uencia de amostras por segundo
t
w
Dura¸ao em segundos de uma janela de extra¸ao de caracter´ısticas
t
m
Dura¸ao em segundos do intervalo para extra¸ao de caracter´ısticas
ft
w
N´umero de amostras de ´audio em cada segmento
q N´umero de quadros existentes na usica
t
w
i
Ponto inicial de um segmento
M
t
[n] Valor da Transformada de Fourrier no quadro t e faixa de freq ¨uˆencia n
t Quadro
n Faixa de Freq¨uˆencia
ix
Lista de Abrevia¸oes
MIR Multimidia Information Retrieval
RP Reconhecimento de Padr˜oes
k-NN k Vizinhos Mais Pr´oximos
OAA Um-Contra-Todos (One-Against-All)
RR Round Robin
MAJ Voto da Maioria
MAX aximo
SUM Soma
WS Soma Ponderada
PROD Produto
WP Produto Ponderado
AGs Algoritmos Gen´eticos
MFCC Coeficientes Cepstrais de Freuˆencia-Mel
DWCH Histogramas de Coeficientes fornecidos pela Daubechies Wavelet
LDA Aalise discriminante linear
SVM aquinas de suporte vetorial
J48
´
Arvores de Decis˜ao
NB Naive Bayes
RSM etodo de Busca em Subespcos Aleat´orios
PCA Aalise de Componentes Principais
IG Ganho de Informa¸ao
GR Raz˜ao de Ganho
DWPT Transformada Wavelet Discreta
MLP Rede Neural do tipo Multi-Layer Perceptron
LNN Rede neural simples de uma camada
LDC Linear classifier assuming normal densities with equal covariance matrices
QDC Quadratic classifier assuming normal densities
UDC Quadratic classifier assuming normal uncorrelated densities
x
GTZAN Base de dad os desenvolvida no trabalho de Tzanetakis e Cook (2002)
FFS Sele¸ao de caracter´ısticas com busca para frente
BFS Sele¸ao de caracter´ısticas com busca para tr´as
ACE Autonomous Classifier Engine
OMEN On demand Metadata ExtractioN
SAL Song Artist List
MFCC Coeficientes Cepstrais de Freuˆencia-Mel
STFT Short Time Fourrier Transform
BPM Batidas Por Minuto
MI usica Inteira
BL Baseline
xi
Resumo
Dentro do contexto das tarefas de reconhecimento de padr˜oes, uma tarefa rec ente ´e a clas-
sifica¸ao autom´atica de gˆeneros musicais. Nessa perspectiva a m´usica constitui um objeto
interessante de estudo, pois ela pode ser representada como um sinal cont´ınuo que varia
no tempo. Neste trabalho ´e apresentado um novo m´etodo para a classifica¸ao autom´atica
de eneros musicais utilizando combina¸ao de classificadores baseada nos etodos de seg-
menta¸ao do sinal de ´audio (Time Decomposition), na decomposi¸ao do espa¸co do pro-
blema (Space Decomposition) e em regras de combina¸ao que utilizam a probabilidade a
posteriori dos classificadores. Tamb´em ao avaliados m´etodos de sele¸ao de caracter´ısticas
visando reduzir o esfor¸co computacional necess´ario durante a extra¸ao das caracter´ısticas
do sinal de ´audio das melodias das pcas m´usicas no intuito de verificar se todas as ca-
racter´ısticas utilizadas ao realmente importantes, ou se ´e poss´ıvel utilizar apenas um
subconjunto das mesmas, dessa forma reduzindo o n´umero de caracter´ısticas a serem
computadas a partir do sinal de ´audio. Al´em disso, foi desenvolvida uma nova base de
dados para o problema, denominada Latin Music Database, que conem 3.160 m´usicas de
10 gˆeneros latinos. Os resultados experimentais mostram que o m´etodo proposto permite
classificar corretamente o gˆenero de 66.76% das m´usicas. Isso representa uma melhora
de 9.33% em rela¸ao ao etodo tradicional utilizando o melhor classificador individual
que considera o uso de apenas um ´unico trecho do in´ıcio da m´usica. Utilizando um vetor
com um n´umero reduzido de caracter´ısticas foi obtida uma melhora de 7.43% ao utilizar
o m´etodo de combina¸ao.
Palavras-chave: Classifica¸ao Autom´atica de eneros Musicais, Combina¸ao de
Classificadores, Sele¸ao de Atributos, Reconhecimento de Padr˜oes de Sinais de
´
Audio.
xii
Abstract
In the Pattern Recognition (PR) area, a subject that is recently getting attention is the
automatic music genre classification. From the PR perspective, music recordings are an
interesting object for study as they are a continuous signal that vary over time. In this
work a novel approach for the task of automatic music genre recognition is presented. This
approach is based on the ensemble of classifiers based on the time segmentation of the
audio signal (Time Decomposition), the methods for problem Space Decomposition and in
combination rules that uses the a posteriori probability given by the classifiers. Feature
selection methods are also evaluated in an effort to reduce the computational cost of the
feature extraction phase and also in order to verify wether all the features are important
to the task, or if it is p ossible to use only a subset of them. Another important aspect
of this work is that a new database containing 3.160 music pieces from 10 Latin music
genres was developed. This database is called the Latin Music Dataset. The experimental
results show that the proposed approach allows correctly classifying 66.76% of the music
pieces. This represents an improvement of 9.33% over the previous approach using the
best individual classifier that considers only the features extracted from the beginning
of the songs. By applying the feature selection process we achieved an improvement of
7.43%.
Keywords: Automatic Music Genre Classification, Ensemble of Classifiers, Feature
Selection, Pattern Recognition of Audio Signals.
xiii
1
Cap´ıtulo 1
Introdu¸ao
Com a apida expans˜ao da Internet uma imensa massa de dados oriundos de dife-
rentes fontes tem se tornado dispon´ıvel on-line. Um estudo da Universidade de Berkeley
(LYMAN; VARIAN, 2003) mostra que em 2002 haviam cinco milh˜oes de terabytes de no-
vas informa¸oes criadas em documentos impressos, filmes, m´ıdias ´opticas e magn´eticas.
Estima-se que a WWW sozinha contenha cerca de 170 terabytes de informa¸ao.
Por´em, toda esta informa¸ao ao segue um padr˜ao de apresenta¸ao e ao est´a dis-
pon´ıvel de maneira estruturada, o que torna muito dif´ıcil fazer uso adequado da mesma.
Devido a isto, tarefas como busca, recupera¸ao, indexa¸ao, extra¸ao e sumariza¸ao au-
tom´atica dessas informa¸oes se tornaram problemas importantes sobre os quais muitas
pesquisas em sido realizadas. Neste contexto uma ´area de pesquisa que tem crescido nos
´ultimos anos ´e a de recupera¸ao de informa¸oes multim´ıdia que visa criar ferramentas ca-
pazes de organizar e gerenciar essa grande quantidade de informa¸oes (FINGERHUT, 1999)
(PAMPALK; RAUBER; MERKL, 2002). No momento, a maior parte das informa¸oes sobre
dados multim´ıdia ao organizadas e classificadas baseadas em meta-informa¸oes textuais
que ao associadas ao seu conte´udo, como ´e o caso dos otulos ID3 incorporados nos ar-
quivos de ´audio no formato MP3. Apesar destas informa¸oes serem relevantes para as
tarefas de indexa¸ao, busca e recupera¸ao, elas dependem da interven¸ao humana para
ger´a-las e posteriormente associ´a-las aos arquivos multim´ıdia.
A m´usica digital ´e um dos mais importantes tipos de dados distribu´ıdos na Inter-
net. Existem muitos estudos e m´etodos a respeito da an´alise de conte´udo de ´audio usando
diferentes caracter´ısticas e etodos (PAMPALK; RAUBER; MERKL, 2002), (GUO; LI, 2003),
(ZHANG; KUO, 2001), (LI; OGIHARA; LI, 2003), (AUCOUTURIER; PACHET, 2003). Um com-
ponente fundamental para um sistema de recupera¸ao de informa¸oes de ´audio baseado
em conte´udo ´e um odulo de classifica¸ao autom´atica de gˆeneros musicais (LI; OGIHARA,
2005), visto que os gˆeneros musicais em sido utilizados para classificar e caracterizar
2
m´usicas digitais e para organizar grandes cole¸oes dispon´ıveis na Web (LI; OGIHARA; LI,
2003), (AUCOUTURIER; PACHET, 2003), (TZANETAKIS; COOK, 2002), (SHAO; XU; KAN-
KANHALLI, 2003).
1.1 Defini¸c˜ao do Problema
Os gˆeneros musicais ao otulos categ´oricos criados por esp ecialistas humanos, as-
sim como por amadores, para determinar ou designar estilos de m´usica. Esses otulos est˜ao
relacionados com a instrumenta¸ao/orquestra¸ao utilizada, estrutura r´ıtmica e conte´udo
harmˆonico da m´usica.
Inicialmente pode-se pensar que as informa¸oes existentes no campo Genre (Gˆenero)
do cabe¸calho ID3 das m´usicas no formato MP3 sejam suficientes. Por´em a primeira vers˜ao
do formato ID3 conhecido como ID3v1, possui uma lista fixa de 80 gˆe neros. Como este
campo ´e representado por um byte, existe a possibilidade de incluir nesta lista outros
gˆeneros, e ´e justamente isto que acontece na maioria dos programas que permitem editar
o cabcalho ID3 dos arquivos MP3. O problema ´e que ao existe um padr˜ao para lis tar os
gˆeneros. Cada fabricante utiliza uma seq¨uˆencia diferente para listar os gˆeneros acima do
80, fazendo com que em um determinado programa uma m´usica que est´a classificada como,
por exemplo, Tango apare¸ca como sendo Trash Metal quando utilizada/to cada/executada
em outro programa. Desta forma, as informa¸oes cadastradas no campo enero dos otulos
ID3 normalmente ao ao confi´aveis. Mais informa¸oes sobre o formato ID3 podem ser
encontradas no Anexo A.
Por´em, a quest˜ao do ID3 ao ´e o ´unico problema encontrado na defini¸ao de
gˆeneros musicais, visto que um gˆenero musical ´e um conceito relativamente subje tivo.
Mesmo a ind´ustria musical muitas vezes ´e contradit´oria ao atribuir gˆeneros musicais para
as usicas. Adicionalmente, a atribui¸ao de eneros musicais tem sido feita para ´albuns,
e esta atribui¸ao ao ´e obrigatoriamente aplic´avel `as faixas do ´album (AUCOUTURIER; PA-
CHET, 2003). Desta forma, a classifica¸ao autom´atica de eneros musicais pode auxiliar
ou substituir o usu´ario humano neste proc esso, assim como prover um componente im-
portante para um sistema de recupera¸ao de informa¸oes para m´usicas, podendo tamb´em
tornar menos subjetivo este processo de atribui¸ao.
Estudos sobre o comportamento de usu´arios de Sistemas de Recupera¸ao de In-
forma¸ao Multim´ıdia, tamem conhecidos como sistemas MIR (Multimidia Information
Retrieval) (DOWNIE; CUNNINGHAM, 2002), indicam que o enero musical ´e o segundo
item mais fornecido nas strings (queries) de busca. O primeiro item ´e relacionado `as
informa¸oes biogr´aficas da m´usica. Nos trabalhos de (VIGNOLI, 2004) e (LEE; DOWNIE,
3
2004) foi verificado que o gˆenero musical ´e freq¨uentemente visto p elos usu´arios como um
importante m´etodo de organiza¸ao de cole¸oes musicais e de recupera¸ao de m´usicas de
grandes cole¸oes.
1.2 Objetivo
O principal obj etivo deste trabalho ´e o desenvolvimento de um sistema para a
classifica¸ao autom´atica de eneros mus icais baseado no conte´udo do sinal de ´audio das
m´usicas. Para realizar esta tarefa ao utilizados algoritmos c l´assicos de aprendizagem
supervisionada.
Visando reduzir o esfor¸co computacional necess´ario para a extra¸ao das carac-
ter´ısticas do sinal de ´audio das pcas musicais, ao avaliados m´etodos de s ele¸ao de atri-
butos. Observa-se a relevˆancia das caracter´ısticas inicialmente escolhidas na tarefa de
classifica¸ao de eneros musicais, ou se ´e poss´ıvel utilizar apenas um subconjunto das
mesmas, desta forma reduzindo o umero de caracter´ısticas a serem computadas a partir
do sinal de ´audio. Neste sentido, pretende-se verificar o desempenho de um m´etodo de
sele¸ao de atributos baseado em algoritmos gen´eticos.
Levando-se em conta que a precis˜ao ´e um aspecto imp ortante do sistema, ao ava-
liados m´etodos de combina¸ao de classificadores visando aumentar o desempenho. Mais
especificamente, ao utilizados os etodos baseados na decomposi¸ao do sinal de ´audio
(Time Decomposition), na decomposi¸ao do espa¸co do problema (Space Decomposition)
e nos escores de confian¸ca fornecidos na sa´ıda de cada classificador.
1.3 Desafio
Os principais desafios a serem superados para o desenvolvimento deste trabalho
ao:
O desenvolvimento de uma nova base de dados para a tarefa contendo pelo menos
3.000 usicas de 10 gˆeneros distintos, sendo pelo menos 300 m´usicas de cada enero;
A implementa¸ao de um framework confi´avel para o processo de cria¸ao e manu-
ten¸ao desta base de dados, tendo em vista o esfor¸co humano necess´ario para o
processo de rotula¸ao da base;
A defini¸ao de uma forma adequada para realizar a extra¸ao de caracter´ısticas das
pcas musicais de forma que ao seja necess´ario realizar esta etapa para cada um
4
dos experimentos a serem realizados;
O treinamento e execu¸ao dos diversos classificadores, o uso de t´ecnicas de com-
bina¸ao de classificadores, e a avalia¸ao comparativa de todos e stes res ultados.
1.4 Hip´otese
A primeira hip´otese deste trabalho ´e que o uso de caracter´ısticas extra´ıdas de
diferentes partes da m´usica, a utiliza¸ao de classificadores e posteriormente a combina¸ao
da sa´ıda dos mesmos leva a uma classifica¸ao mais eficiente dos eneros musicais das
m´usicas em rela¸ao a outras abordagens que utilizam somente caracter´ısticas extra´ıdas
de um trecho da m ´usica (normalmente o in´ıcio) ou caracter´ısticas extra´ıdas das m´usicas
completas. A segunda hip´otese deste trabalho ´e que o vetor de caracter´ısticas inicial pode
ser otimizado atrav´es do uso de algoritmos de sele¸ao de caracter´ısticas melhorando a taxa
de classifica¸ao dos algoritmos de classifica¸ao. A terceira hip´otese deste trabalho ´e que
o uso conjunto das t´ecnicas de combina¸ao de classificadores e sele¸ao de atributos deve
melhorar a taxa de classifica¸ao dos algoritmos de classifica¸ao em rela¸ao `as abordagens
anteriores.
1.5 Organiza¸c˜ao do Documento
Esse trabalho est´a organizado em cinco cap´ıtulos. O Cap´ıtulo 2 apresenta uma
revis˜ao dos principais conceitos utilizados no e todo proposto para a classifica¸ao au-
tom´atica de eneros musicais. O Cap´ıtulo 3, por sua vez, descreve a abordagem proposta
para solucionar o problema da classifica¸ao autom´atica de gˆeneros musicais utilizando
sele¸ao de atributos e combina¸ao de classific adores. O Cap´ıtulo 4 apresenta os experi-
mentos realizados, b em como os resultados obtidos. Por ´ultimo, as conclus˜oes e dire¸oes
futuras do trabalho ao apresentadas no Cap´ıtulo 5.
5
Cap´ıtulo 2
Reconhecimento de Padr˜oes e Classifica¸ao Au-
tom´atica de Gˆeneros Musicais
Neste cap´ıtulo ao apresentados os principais conceitos relacionados ao desenvolvi-
mento deste trabalho assim como uma an´alise cr´ıtica dos principais trabalhos relacionados.
2.1 Reconhecimento de Padr˜oes
A tarefa de RP (Reconhecimento de Padr˜oes) tem como objetivo atribuir otulos
para objetos. Os objetos, por sua vez, ao descritos por um conjunto de medidas deno-
minadas caracter´ısticas ou atributos. Porque RP se defronta com os desafios encontrados
em problemas da vida real, apesar das d´ecadas de pesquisa produtiva, teorias mo dernas
e elegantes ainda co-existem com id´eias ad-hoc, intui¸ao e palpites (guessing). Isto ´e
refletido pela variedade de m´etodos e t´ecnicas dispon´ıveis aos pesquisadores.
A Figura 2.1 ilustra as tarefas asicas e os est´agios da tarefa de reconhecimento
de padr˜oes. Suponha que um usu´ario hipot´etico nos apresenta um problema e um con-
junto de dados. Nossa tarefa ´e clarificar o problema, traduz´ı-lo para a terminologia de
reconhecimento de padr˜oes, resolvˆe-lo e comunicar a solu¸ao de volta para o usu´ario.
Existem dois tipos de problemas de reconhecimento de padr˜oes: supervisionados e
ao-supervisionados. Na categoria de problemas ao-supervisionados (tamb´em conhecidos
como aprendizado ao-supervisionado), o problema ´e descobrir a estrutura do c onjunto
de dados se houver alguma. Isto usualmente significa que o usu´ario quer conhecer se
existem grupos nos dados, e quais caracter´ısticas fazem os objetos similares em um grupo
e dissimilares dos demais grupos.
Na categoria de problemas supervisionados, cada objeto no conjunto de dados
possui uma classe previamente rotulada. A tarefa ´e treinar um classificador para rotular
novos objetos de acordo com estas classes.
6
Figura 2.1: Vis˜ao Geral das Tarefas de Reconhecimento de Padr˜oes (KUNCHEVA, 2004)
2.2 Combina¸c˜ao de Classificadores
As principais raz˜oes para a combina¸ao de classificadores ao eficiˆencia e precis˜ao
(KITTLER et al., 1998). Nesse trabalho Kittler et al. apresenta dois cen´arios para a com-
bina¸ao de classificadores. No primeiro cen´ario, todos os classificadores usam a mesma
representa¸ao do padr˜ao de entrada. Apesar de cada classificador utilizar o mesmo vetor
de caracter´ısticas, cada classificador vai lidar com ele de formas diferentes. Essa id´eia ´e
ilustrada com dois exemplos: no primeiro poderia ser utilizado um conjunto de classifi-
cadores baseados nos k vizinhos mais pr´oximos k-NN (k Vizinhos Mais Pr´oximos) onde
cada classific ador tem um n´umero diferente para o valor de k. O segundo e xemplo seria
utilizar um conjunto de redes neurais, cada uma treinada com uma fun¸ao de treinamento
diferente ou mesmo com fun¸oes similares, por´em com parˆametros diferentes. No segundo
cen´ario, cada classificador utiliza sua pr´opria representa¸ao do padr˜ao de entrada.
No contexto do segundo cen´ario, uma estrat´egia poss´ıvel para resolver problemas
de classifica¸ao multi-classe ´e o uso de t´ecnicas de decomposi¸ao do espa¸co do problema
(Problem-Space Decomposition). O principal motivo para aplicar qualquer m´etodo de
7
decomposi¸ao do problema ´e que a classifica¸ao multi-classe ´e intrinsicamente mais dif´ıcil
do que a classifica¸ao bin´aria, pois o algoritmo de classifica¸ao tem que construir um
grande n´umero de superf´ıcies de separa¸ao, enquanto que os classificadores bin´arios em
que determinar apenas uma fun¸ao adequada de decis˜ao (DIETTERICH, 2000).
2.2.1 Um-Contra-Todos (One-Against-All)
Dado um problema de reconhecimento de padr˜oes de nc-classes, a estrat´egia OAA
(Um-Contra-Todos (One-Against-All)) consiste em criar um conjunto de nc classificadores
bin´arios, um para cada classe. Cada classificador ´e treinado atrav´es de um processo de
re-rotular o mesmo conjunto de treinamento, de forma a disting¨uir entre uma classe e o
seu complemento no espa¸co do problema. Por exemplo, o classificador para a classe C
i
´e
treinado utilizando os elementos da classe C
i
como exemplos p ositivos e o restante do con-
junto de treinamento como exemplos negativos, produzindo um classificador especializado
para a classe C
i
.
Para um exemplo desconhecido, representando por um vetor de caracter´ısticas x,
dadas as nc classifica¸oes individuais, e considerando que cada classificador individual
atribui a x uma probabilidade p (ou um score de confian¸ca) que est´a diretamente relacio-
nado a conformidade deste exemplo com sua classe, a classe final
ˆ
C atribu´ıda a x vai ser
dada por:
ˆ
C = arg max
1inc
p(C
i
|x) (2.1)
onde p(C
i
|x) ´e a probabilidade a posteriori da classe C
i
dado um vetor de caracter´ısticas
x e
ˆ
C ´e a classe venc edora, isso ´e, aquela que fornece a maior probabilidade a posteriori.
A Figura 2.2 ilustra esse processo.
2.2.2 Round Robin
No trabalho de urnkranz (2002), a t´ecnica de decomposi¸ao de problemas in-
titulada RR (Round Robin) ´e utilizada para a combina¸ao de classificadores, de forma
a permitir que classificadores bin´arios lidem com problemas multi-classe. O m´etodo de
Round Robin converte um problema de nc-classes e m uma s´erie de problemas bin´arios,
criando um conjunto de l =
nc(nc1)
2
classificadores, um para cada par de classes.
Novos exemplos ao classificados ap´os serem apresentados ao conjunto de l classi-
ficadores bin´arios. Nesse caso, quando um novo exemplo e ´e apresentado para cada um
dos l classificadores bin´arios, uma classe ´e atribu´ıda a e. As l classes atribu´ıdas ao ser
8
Figura 2.2: Ilustra¸ao da estrat´egia One-Against-All para um problema de trˆes classes
Figura 2.3: Ilustra¸ao da estrat´egia Round Robin para um problema de trˆes classes
combinadas e o resultado final ´e obtido atrav´es do voto da maioria, ou seja, a classe final
vai ser definida como sendo aquela que teve o maior n´umero de ocorrˆencias nas respostas
dos classificadores.
Ao contr´ario da estrat´egia de Um-Contra-Todos (One-Against-All), neste caso
quando um classificador bin´ario ´e constru´ıdo, vamos dizer para as classes C
i
e C
j
, apenas
os exemplos destas duas classes ao utilizadas, e o resto do conjunto de treinamento ´e igno-
rado. De acordo com urnkranz (2002), esta abordagem leva a uma superf´ıcie de decis˜ao
mais simples sobre os limites das duas classes. A Figura 2.3 ilustra essa abordagem.
2.2.3 Combina¸ao Baseada na Sa´ıda dos Classificadores (Output Level Ensemble)
Uma outra ecnica de combina¸ao de c lassificadores ´e baseada nos escores de con-
fian¸ca fornecidos por cada classificador para cada classe (KITTLER et al., 1998). O uso
9
desta ecnica requer diferentes vetores de caracter´ısticas para o mesmo objeto, e formal-
mente pode ser definida como:
Considerando uma seq¨uˆencia de M vetores de caracter´ısticas extra´ıdos de um ob-
jeto como sendo
X
t
=< ¯x
D
(1), ¯x
D
(2), . . . , ¯x
D
(M) > (2.2)
no qual cada ¯x
D
(m) ´e um vetor de caracter´ısticas relacionado a uma representa¸ao m, onde
m = 1, 2, . . . , M. De maneira similar ´e poss´ıvel definir uma seq¨encia de M classificadores
como sendo
C =< c(1), c(2), . . . , c(M) > (2.3)
Sem perda de generalidade ´e assumido que este conjunto de classificadores probabil´ısticos
´e homogˆeneo, cuja sa´ıda de cada classificador ´e P (r|X
t
), onde
r∈R
P (r|X
t
) = 1. Sendo r
um otulo poss´ıvel dentro todo o conjunto de otulos poss´ıveis R. A rela¸ao entre X
t
e C
direta, ou seja, ´e uma rela¸ao de um-para-um, e o vetor de caracter´ısticas m da seq¨uˆencia
de vetores X
t
´e classificado pelo classificador c(m) de C.
De forma a encontrar a melhor combina¸ao de classificadores, ou seja, o conjunto
de classificadores mais diverso que produz uma boa generaliza¸ao, ´e utilizada uma ´unica
fun¸ao objetivo baseada na maximiza¸ao da taxa de reconhecimento da combina¸ao dos
classificadores.
As regras de combina¸ao utilizadas neste trabalho ao:
MAJ (Voto da Maioria): Nesta regra de decis˜ao, apenas os otulos das classes ao
levadas em considera¸ao e aquela com o maior n´umero de votos ganha
1
:
ˆ
C = maxcount
arg max
r∈R
m[1,...,M]
P
m
(r|x
D
m
)
(2.4)
MAX (aximo): Nesta regra de decis˜ao, a classe com o maior score de confian¸ca ´e
escolhida. Formalmente essa regra ´e definida por:
ˆ
C = arg max
r∈R
m[1,...,M]
P
m
(r|x
D
m
) (2.5)
1
A fun¸ao maxcount retorna o valor mais freq¨uente de um multiset.
10
SUM (Soma): A regra do somat´orio ´e baseada nos escores de confian¸ca produzidos
na sa´ıda dos classificadores para todas as classes. Os escores de confian¸ca ser˜ao
somados para cada classe e a classe com o maior valor ´e escolhida. Formalmente
essa regra ´e definida por:
ˆ
C = arg max
r∈R
M
m=1
P
m
(r|x
D
m
) (2.6)
WS (Soma Ponderada): Ao inv´es de utilizar apenas a regra do somat´orio sim-
ples, ´e poss´ıvel adicionar pesos `a sa´ıda de cada classificador. Neste caso os esco-
res de confian¸ca fornecidos por cada classificador ao multiplicados p or constantes
(α, β, . . . , µ):
ˆ
C = arg max
r∈R
αP
1
(r|x
D
m
) + . . . + µP
M
(r|x
D
m
) (2.7)
PROD (Produto): A regra da multiplica¸ao ´e baseada nos escores de confian¸ca
produzidos na sa´ıda dos classificadores para todas as classes. Os escores de confian¸ca
para cada classe ao multiplicados e a classe com o maior valor ´e escolhida:
ˆ
C = arg max
r∈R
M
m=1
P
m
(r|x
D
m
) (2.8)
WP (Produto Ponderado): Essa regra utiliza a mesma id´eia dos pes os utilizada pela
regra WS. Por´em, ao inv´es de multiplicar os pesos a sa´ıda de cada classificador, os
escores de confian¸ca ao elevados ao valor dos pesos.
ˆ
C = arg max
r∈R
P
1
(r|x
D
m
)
α
× . . . × P
M
(r|x
D
m
)
µ
(2.9)
A Figura 2.4 apresenta um exemplo com um problema de trˆes classes, utilizando
trˆes classificadores, em que o resultado final depende da regra de combina¸ao utilizada.
2.3 Sele¸c˜ao de Atributos
Com o intuito de melhorar a taxa de reconhecimento dos algoritmos de classifica¸ao
´e poss´ıvel efetuar uma etapa de sele¸ao de atributos. Esta etapa consiste em escolher um
subconjunto de nf caracter´ısticas do conjunto original de D caracter´ısticas (nf D), de
forma que o e spa¸co de busca seja reduzido de acordo com algum crit´erio de otimiza¸ao
11
Figura 2.4: Ilustra¸ao da estrat´egia de combina¸ao baseada na probabilidade a posteriori
dos classificadores
(BLUM; LANGLEY, 1997). O papel da sele¸ao de atributos nas tarefas de reconhecimento
de padr˜oes ´e:
Reduzir a dimensionalidade do espa¸co de busca;
Acelerar o algoritmo de aprendizado;
Melhorar o acerto preditivo de um algoritmo de classifica¸ao;
Melhorar a compreensibilidade dos resultados de aprendizado.
De forma geral, a sele¸ao de atributos ´e um problema de otimiza¸ao de acordo
com algum crit´erio de avalia¸ao. Um etodo t´ıpico de sele¸ao de atributos consiste
de quatro etapas asicas (como apresentado na Figura 2.5: gera¸ao de subconjuntos,
avalia¸ao dos subconjuntos, crit´erio de parada, e valida¸ao dos resultados (DASH; LIU,
1997)). Na primeira etapa (gera¸ao) o algoritmo tem como entrada o conjunto original de
caracter´ısticas a partir do qual ´e gerado um subconjunto de caracter´ısticas. Na segunda
etapa este subconjunto ´e avaliado e recebe um valor referente a sua qualidade. A terceira
etapa ´e um processo de decis˜ao, se algum crit´erio de parada foi atingido o procedimento
termina e este subconjunto ´e submetido `a valida¸ao na quarta etapa, caso contr´ario,
volta-se para a primeira etapa. Na quarta etapa o subconjunto gerado ´e utilizado nos
experimentos para verificar se traz benef´ıcios em rela¸ao ao uso do vetor de caracter´ısti-
cas.
A gera¸ao de subconjuntos ´e um pro cedimento de busca. Basicamente, ela gera
subconjuntos de caracter´ısticas para avalia¸ao. Seja D o n´umero total de caracter´ısticas
12
Figura 2.5: Etapas asicas de um etodo de sele¸ao de caracter´ısticas. (DASH; LIU, 1997)
no conjunto original, ent˜ao o n´umero total de subconjuntos candidatos ´e 2
D
, o que faz
com que o etodo de busca exaustiva no espa¸co de caracter´ısticas seja invi´avel mesmo
com um n´umero moderado de D.
Os m´etodos de sele¸ao de atributos podem ser classificados em trˆes grupos de
acordo com como as caracter´ısticas ao utilizadas e avaliadas (MOLINA; BELANCHE; NE-
BOT, 2002):
Incorp orado (Embbedded): O algoritmo possui um mecanismo pr´oprio para sele¸ao
de atributos.
´
E o caso, por exemplo, dos algoritmos de ´arvores de decis˜ao;
Filtro (Filter): O proce sso de sele¸ao de atributos acontece antes de qualquer algo-
ritmo de reconhecimento de padr˜oes ser utilizado. De uma forma geral, diz-se que
o processo de sele¸ao de atributos ocorre na etapa de pr´e-processamento.
Envelope (Wrapper): Nessa abordagem, o algoritmo de aprendizado de aquina ´e
utilizado como uma sub-rotina. O algoritmo espec´ıfico ´e utilizado para avaliar as
solu¸oes geradas.
(Na figura em negrito) A figura 2.6 ilustra os m´etodos de sele ¸ao de atributos
utilizando as abordagens de filtro e de envelope. Na figura 2.6, blocos em ˆenfase, ´e poss´ıvel
verificar o mecanismo de sele¸ao de atributos, no caso da abordagem filtro, este encontra
um subconjunto de caracter´ısticas ´otimas sem utilizar o algoritmo de aprendizagem. a
no caso da abordagem de envelope ´e poss´ıvel ver como a gera¸ao dos subconjuntos ´e um
processo iterativo, onde dada as caracter´ısticas originais, vai ser gerado um subconjunto
de caracter´ısticas, este subconjunto vai se r apresentado para o algoritmo de aprendizagem
de aquina que vai retornar uma avalia¸ao do subconjunto. Este processo ´e repetido at´e
que seja encontrado um subconjunto ´otimo.
Uma outra op¸ao para gerar subjconjuntos ´e uso de AGs (Algoritmos Gen´eticos),
pois eles oferecem uma busca aleat´oria guiada (random guided search) no espa¸co de todos
os poss´ıveis subconjuntos. A forma mais conveniente de representar um subconjunto de
13
Figura 2.6: Ilustra¸ao dos m´etodos de sele¸ao de atributos. (YANG; HONAVAR, 1998)
caracter´ısticas ´e utilizando um vetor bin´ario de tamanho D. A iesima posi¸ao do vetor ´e
1 se o i-´e simo atributo estiver inclu´ıdo no subconjunto e 0 caso contr´ario. Um AG opera
sobre um conjunto de M vetores bin´arios, denominados cromossomos. A popula¸ao de
cromossomos ´e evolu´ıda atrav´es do uso de operadores gen´eticos denominados muta¸ao e
crossover.
Seja X = x
1
, . . . , x
10
o conjunto de caracter´ısticas. Uma popula¸ao com 6 cromos-
somos (indiv´ıduos), S
1
, . . . , S
6
´e apresentada abaixo (KUNCHEVA, 2004):
S
1
0 1 0 1 0 0 0 1 0 0 {x
2
, x
4
, x
8
}
S
2
1 1 1 0 0 0 0 0 0 1 {x
1
, x
2
, x
3
, x
10
}
S
3
0 0 1 1 1 1 0 0 0 1 {x
3
, x
4
, x
5
, x
6
}
S
4
0 0 0 0 0 0 0 1 0 1 {x
8
, x
10
}
S
5
0 1 1 0 0 0 0 0 0 0 {x
2
, x
3
}
S
6
1 1 0 1 1 1 0 0 1 1 {x
1
, x
2
, x
4
, x
5
, x
6
, x
9
, x
10
}
Para avaliar a adequabilidade (Fitness) dos indiv´ıduos, um classificador vai ser
treinado utilizando as caracter´ısticas selecionadas pelo indiv´ıduo e seu desempenho repre-
senta o valor de adequabilidade (ab ordagem do envelope (wrapper)).
2.4 Classifica¸c˜ao Autom´atica de eneros Musicais
Nesta se¸ao ao apresentados al´em do estado da arte, os principais trabalhos da
´area de classifica¸ao autom´atica de gˆeneros musicais.
14
2.4.1 Sem combina¸ao de classificadores
A id´eia de classifica¸ao autom´atica de eneros musicais como uma tarefa de recon-
hecimento de padr˜oes de sinais de m´usicas foi apresentada no trabalho de Tzanetakis e
Cook (2002). Neste trabalho, foi proposto um conjunto abrangente de caracter´ısticas para
representar um sinal de ´audio. As caracter´ısticas foram utilizadas para construir trˆes tipos
de classificadores: classificador Gaussiano, modelos de mistura Gaussiana e k-NN. O con-
junto de caracter´ısticas proposto ´e composto de caracter´ısticas relacionadas ao espectro
sonoro, ao padr˜ao r´ıtmico (beat-related) e `a altura da nota (pitch-related). Os experimen-
tos foram avaliados numa base de dados contendo 1.000 m´usicas de 10 eneros distintos,
sendo 100 m´usicas de cada gˆenero. Os eneros utilizados foram: Blues, Classical, Country,
Disco, Hiphop, Jazz, Metal, Pop, Regg ae e Rock. O acerto obtido inicialmente nesta base
foi de cerca de 60% utilizando o mecanismo de valida¸ao-cruzada fator 10 cem vezes.
´
E
importante observar que os experimentos foram avaliados utilizando apenas os primeiros
30 segundos de cada m´usica. Outro aspecto interessante deste trabalho ´e que o conjunto
de caracter´ısticas utilizado est´a dispon´ıvel atraes do Framework Marsyas
2
(TZANETAKIS;
COOK, 1999), um software livre para o desenvolvimento e avalia¸ao de aplica¸oes voltadas
`a computa¸ao musical.
Tzanetakis e Cook (2002) motivaram a pesquisa e desenvolvimento de novas abor-
dagens para a tarefa de classifica¸ao autom´atica de eneros musicais utilizando t´ecnicas
de aprendizado de aquina e processamento digital de sinais.
No trabalho de Kosina (2002) foi desenvolvido o MUGRAT
3
um sistema prot´otipo
para a classifica¸ao autom´atica de gˆeneros musicais que utiliza um subconjunto de carac-
ter´ısticas das propostas por Tzanetakis & Cook. A principal diferen¸ca do MUGRAT para
o Marsyas, ´e que ele ao utiliza as caracter´ısticas relacionadas ao pitch nem as relaciona-
das aos cinco primeiros MFCC (Coeficientes Cepstrais de Freuˆencia-Mel). A avalia¸ao
do MUGRAT foi efetuada numa base de dados contendo 189 m´usicas de trˆes eneros:
Metal (63), Dance (65) e Classical (61). Os vetores de caracter´ısticas foram extra´ıdos de
amostras aleat´orias com trˆes segundos de dura¸ao. A melhor classifica¸ao (88.35%) foi
obtida utilizando o classificador k-NN com o valor de k = 3 com o etodo de avalia¸ao de
valida¸ao-cuzada estratificada fator 10. Um aspecto interessante constatado no trabalho ´e
que ao construir a base de dados a autora percebeu que a mesma m´usica no formato MP3
obtida de fontes diferentes possu´ıa uma informa¸ao diferente no campo enero (Genre)
do otulo ID3. Este fato foi utilizado para ilustrar que a classifica¸ao humana de gˆeneros
2
Dispon´ıvel em: http://marsyas.sourceforge.net/
3
Dispon´ıvel em: http://kyrah.net/mugrat/
15
musicais realmente ´e nebulosa, mas como mostrado na se¸ao introdu¸ao, este ao ´e o
´unico problema associado aos otulos ID3.
Li, Ogihara e Li (2003) realizaram um estudo comparativo para a classifica¸ao
autom´atica de eneros musicais baseada em conte´udo entre o conjunto de caracter´ıs-
ticas propostas por Tzanetakis & Cook e um novo conjunto de caracter´ısticas extra´ıdos
utilizando DWCH (Histogramas de Coeficientes fornecidos pela Daubechies Wavelet). Eles
tamb´em dese jam verificar se outros etodos estat´ısticos como LDA (Aalise discriminante
linear) e SVM (aquinas de suporte vetorial) teriam um melhor desempenho do que os
demais classificadores utilizados anteriormente. Os experimentos foram realizados em
duas bases de dados: a primeira (Base A) ´e a mesma utilizada nos experimentos de
Tzanetakis & Cook e a segunda (Base B) cont´em 756 m´usicas de cinco gˆeneros (Ambient
(109), Classical (164), Fusion (136), Jazz (251) e Rock (96)). Um aspecto importan-
te desta segunda base de dados ´e que as caracter´ısticas foram extra´ıdas do segmento
composto pelo segundo 31 ao segundo 61, ao inv´es dos primeiros trinta segundos (como
acontece na base do Tzanetakis & Cook). As conclus˜oes dos exp erimentos realizados neste
trabalho mostram que o melhor resultado foi obtido com o classificador SVM que me lhorou
o acerto obtido na base A para cerca de 72% com o mesmo conjunto de caracter´ısticas, e
para cerca de 78% no melhor caso com as caracter´ısticas da DWCH (em ambos os casos
utilizando o classificador SVM). Na base B a taxa de acerto obtida foi de 74% (utilizando
DWCH) e 71% (utilizando as caracter´ısticas do Tzanetakis & Cook). Outro aspecto
importante deste trabalho ´e que eles avaliaram diferentes estrat´egias de decomposi¸ao
que ao necess´arias por classificadores que ao lidam naturalmente com problemas multi-
classe. Eles avaliaram o classificador SVM utilizando as estrat´egias de Um-Contra-Todos
(OAA), Round Robin(RR)(que eles chamam de Pairwise Comparison) e fun¸oes objetivas
multi-classe. Os melhores resultados foram alcan¸cados com a estrat´egia OAA com as ca-
racter´ısticas da DWCH. A diferen¸ca entre a taxa de classifica¸ao obtida pelo conjunto de
caracter´ısticas baseado em DWCH em rela¸ao `as caracter´ısticas do Tzanetakis & Cook
foi de 2% (utilizando o k-NN) a 7% utilizando SVM com OAA para a base A e de 2%
(utilizando o k-NN) a 4% utilizando SVM com OAA para a base B.
No trabalho de Li e Ogihara (2005) foi investigado o uso de uma taxonomia
hier´arquica para a classifica¸ao de gˆeneros musicais. Esta taxonomia identifica as rela¸oes
de dependˆencia de diferentes gˆeneros e fornece valiosas fontes de informa¸ao para a clas-
sifica¸ao de gˆeneros. Os experimentos foram realizados com as mesmas bases utilizadas
anteriormente pelo grupo (LI; OGIHARA; LI, 2003) e a taxa de classifica¸ao aumentou em
0.7% para a base A e 3% para a base B.
Em (SILLA JR.; KAESTNER; KOERICH, 2005) foram avaliados etodos de Bagging e
16
Boosting aliados aos classificadores J48 (
´
Arvores de Decis˜ao), NB (Naive Bayes) e 3-NN.
Os experimentos foram realizados utilizando a base do trabalho de Tzanetakis e Cook
(2002). O uso das t´ecnicas de meta-aprendizagem aumentaram a taxa de classifica¸ao
correta do J48 em todos os casos. Para o NB os etodos de meta-aprendizagem se
mostraram ineficientes, enquanto que para o 3-NN apenas o etodo de Bagging forneceu
melhores resultados.
Um trabalho relacionado com a tarefa de classifica¸ao autom´atica de eneros musi-
cais, por´em com outro foco, ´e o realizado por Hu et al. (2005) onde ao utilizados reviews
de m´usicas e ecnicas de minera¸ao de textos para realizar a classifica¸ao autom´atica dos
gˆeneros.
2.4.2 Com combina¸ao de classificadores
A id´eia de decomposi¸ao e combina¸ao de classificadores foi utilizada para a classi-
fica¸ao autom´atica de gˆeneros musicais no trabalho de Grimaldi, Cunningham e Kokaram
(2003b, 2003a). Nestes trabalhos foram realizados experimentos utilizando diferentes
estrat´egias de combina¸ao de classificadores e sele¸ao de atributos. Eles avaliaram o des-
empenho de OAA, RR e RSM (etodo de Busca em Subespcos Aleat´orios) (HO, 1998)
com alguns algoritmos para ranqueamento de caracter´ısticas para sele¸ao de atributos,
conhecidas como PCA (An´alise de Componentes Principais), IG (Ganho de Informa¸ao)
e GR (Raz˜ao de Ganho). Os experimentos foram realizados numa base contendo 200
m´usicas de cinco eneros (Jazz, Classical, Rock, Heavy Metal e Techno). Para efetuar
a valida¸ao foi utilizado o m´etodo de valida¸ao cruzada fator 5. Todos os experimentos
foram avaliados utilizando apenas o classificador k-NN. Para extrair as caracter´ısticas foi
utilizada a DWPT (Transformada Wavelet Discreta) aplicada ao sinal da usica inteira.
No trabalho de Costa, Valle Jr. e Koerich (2004) foi proposto um novo m´etodo
para a classifica¸ao autom´atica de gˆeneros musicais, baseado na extra¸ao de caracter´ıs-
ticas de trˆes segmentos do sinal de ´audio. As caracter´ısticas foram extra´ıdas do in´ıcio,
meio e fim da m´us ica. Para cada segmento foi treinado um classificador componente
e a decis˜ao final era obtida atraes do voto da maioria de cada uma das partes. Os
classificadores utilizados foram MLP (Rede Neural do tipo Multi-Layer Perceptron) e k-
NN. As caracter´ısticas foram extra´ıdas utilizando o s oftware MUGRAT. Os experimentos
foram realizados em uma base contendo 414 m´usicas de dois gˆeneros (Rock e Classical).
A base foi particionada em trˆes conjuntos: treinamento com 208 m´us icas, valida¸ao com
82 m´usicas e teste com 122 m´usicas. A conclus˜ao obtida no trabalho foi que o etodo de
combina¸ao proposto ao melhorava o desempenho al´em da classifica¸ao individual dos
17
segmentos isolados.
Uma continua¸ao do trabalho de Costa, Valle Jr. e Koerich (2004) foi apresentada
por Koerich e Poitevin (2005) onde para realizar a combina¸ao dos classificadores foram
utilizadas outras regras de combina¸ao al´em do voto da maioria. As regras eram baseadas
nas probabilidades individuais de cada classe fornecida na sa´ıda dos classificadores. As
regras utilizadas foram MAX, SUM, WS, PROD e WP. A base utilizada foi a mesma do
experimento anterior. Uma altera¸ao ´e que ne ste trabalho os autores utilizaram apenas
redes neurais MLP para fazer a classifica¸ao. Os resultados obtidos mostraram uma
melhora na taxa de acerto em rela¸ao aos segmentos individuais utilizando dois segmentos
e as regras de soma e produto ponderados.
No trabalho de Meng, Ahrendt e Larsen (2005) ao utilizadas caracter´ısticas basea-
das em trˆes escalas de tempo: as caracter´ısticas de tempo curto ao computadas utilizando
janelas de an´alise de tamanho 30 ms, o significado perceptual deste tipo de caracter´ıstica
est´a relacionado ao timbre (freq¨e ncia instananea); as caracter´ısticas de tempo m´edio ao
computadas utilizando janelas de an´alise de tamanho 740 ms, e est˜ao relacionadas `a mo-
dula¸ao (instrumenta¸ao); as caracter´ısticas de tempo longo ao computadas utilizando
janelas de an´alise de tamanho 9.62s e est˜ao relacionadas `a batida, ao padr˜ao r´ıtmico e
inflex˜ao vocal, etc. Para realizar os experimentos foram considerados dois classificadores:
LNN (Rede neural simples de uma camada) e um classificador Gaussiano com uma ma-
triz completa de covariˆancia. Os experimentos foram realizados em duas bases de dados,
mas o prop´osito destes era verificar o desempenho relativo das caracter´ısticas ao inv´es de
verificar o erro no conjunto de dados. A primeira base de dados utilizada cont´em 100
m´usicas, distribu´ıdas igualmente em cinco eneros (Classical, Rock, Jazz, Pop e Techno).
A segunda base consiste de 354 m´usicas de 30 segundos extra´ıdas do “Amazon.com Free-
Downloads” e possuem 6 gˆeneros (Classical, Country, Jazz, Rap, Rock e Techno). Foram
realizados diversos experimentos e os melhores resultados computacionais obtidos no con-
junto de teste foram de 5% em rela¸ao a 1
a
base de dados utilizando a combina¸ao de
caracter´ısticas de tempo m´edio e longo.
No trabalho de Yaslan e Cataltepe (2006) foram utilizados os seguintes classifica-
dores: Fisher (Classificador de Fisher); LDC (Linear classifier assuming normal densities
with equal covariance matrices); QDC (Quadratic classifier assuming normal densities);
UDC (Quadratic classifier assuming normal uncorrelated densities); NB (Classificador
Na¨ıve Bayes); PDC (Parzen Density Based Classifier ); k-NN (Vizinhos mais pr´oximos
com o valor ´otimo de k computado utilizando o metodo de valida¸ao cruzada com leave-
one-out); 1-NN (1 vizinho mais pr´oximo), 3-NN (3 vizinhos mais pr´oximos); 5-NN (5
vizinhos mais pr´oximos). A base utilizada foi a GTZAN (Base de dados desenvolvida no
18
trabalho de Tzanetakis e Cook (2002)) e o processo de extra¸ao de caracter´ısticas foi efe-
tuado com o MARSYAS. A principal diferen¸ca desse trabalho em rela¸ao aos anteriores, ´e
que foram avaliadas as caracter´ısticas de acordo com os grupos a que elas pertecem para
cada um dos classificadores listados. Al´em disso foram utilizados m´etodos de FFS (Sele¸ao
de caracter´ısticas com busca para frente) e BFS (Sele¸ao de caracter´ısticas com busca para
tr´as) para tentar encontrar um melhor subconjunto de caracter´ısticas que aumentasse o
desempenho dos classificadores. Os resultados obtidos foram positivos e os autores ainda
propuseram o uso de um ensemble (que deveria ter sido classificado como Stacking) c om-
binando a sa´ıda dos classificadores que apresentarem os melhores resultados. Essa ecnica
de combina¸ao tamb´em apresentou resultados positivos.
2.4.3 Com sele¸ao de caracter´ısticas
O uso de etodos de sele¸ao de caracter´ısticas para a classifica¸ao autom´atica
de eneros musicais foi recentemente avaliado nos trabalhos de (FIEBRINK; FUJINAGA,
2006) e (YASLAN; CATALTEPE, 2006). No trabalho de Fiebrink e Fujinaga (2006) foram
realizados exp erimentos utilizando etodos de FFS e PCA em conjunto com o classificador
k-NN para classificar a base Magnatune
4
(4.476 amostras de 24 gˆeneros), com 74 carac-
ter´ısticas que foram extra´ıdas utilizando o JAudio (MCENNIS et al., 2005). As conclus˜oes
obtidas neste trabalho foram que considerando o desempenho dos sistemas utilizando
PCA os resultados obtidos foram similares ao uso do etodo de FFS por´em com um
tempo computacional bem reduzido.
2.4.4 Recursos e Ferramentas
Alguns trabalhos recentes apresentam uma preocupa¸ao com o desenvolvimento de
ferramentas que possam trabalhar diretamente com a classifica¸ao autom´atica de eneros
musicais e que isto possa ser feito de forma escal´avel (devido `a grande quantidade de
recursos computacionais necess´arios). A vers˜ao mais nova do Marsyas desenvolvida por
Bray e Tzanetakis (2005) foi proj etada para trabalhar com diferentes computadores de
forma a distribuir a carga computacional. Visando o desenvolvimento de um framework
comum para o desenvolvimento de extra¸ao de caracter´ısticas a partir de sinais de ´audio
McEnnis et al. (2005) desenvolveram o JAudio
5
. Outra ferramenta disponibilizada recen-
temente ´e o ACE (Autonomous Classifier Engine)
6
(MCKAY et al., 2005) que tem como
4
Base de dados com m´usicas obtidas de http://magnatune.com
5
Dispon´ıvel em: http://coltrane.music.mcgill.ca/ACE/features.html
6
Dispon´ıvel em: http://coltrane.music.mcgill.ca/ACE/
19
objetivo ser uma plataforma espec´ıfica para realizar experimentos que permitem explo-
rar o uso de diferentes m´etodos e ecnicas de combina¸ao de classificadores para tarefas
relacionadas a MIR.
Com o intuito de criar uma base de dados p´ublica para a tarefa, Homburg et al.
(2005) disponibilizaram uma base de 1.886 m´usic as obtidas a partir do site Garageband.
A ´unica limita¸ao desta base ´e que cada m´usica ´e representada por uma amostra de 10
segundos extra´ıdo aleatoriamente da m´usica. A base est´a dividida em 9 gˆeneros sendo:
Blues (120); Electronic (113); Jazz (319); Pop (116); Rap/HipHop (300); Rock (504);
Folk/Country (222); Alternative (145); Funk/Soul (47).
Desta forma, considerando a limita¸ao das poucas bases publicamente dispon´ıveis,
no trabalho de (MCKAY; MCENNIS; FUJINAGA, 2006) ´e apresentada a CODAICH database
que possui 20.894 m´usicas no formato MP3 de 1.941 artistas. Os detalhes da base pode m
ser acessados nos formatos: iTunes XML, ACE XML, Weka ARFF ou jMusicMetadata
HTML files. As m´usicas s ˜ao classificadas de acordo com 53 eneros poss´ıveis.
Por´em, um dos principais problemas existentes ap´os o desenvolvimento de bases de
dados musicais ´e como distribu´ı-las para os demais pesquisadores por causa das quest˜oes
de direitos autorais. No intuito de centralizar o acesso a diversas bases de dados, sem
ferir as quest˜oes de direitos autorais, no trabalho de (MCENNIS; MCKAY; FUJINAGA, 2006)
foi de senvolvido o OMEN (On demand Metadata ExtractioN ) que ´e uma plataforma
para centralizar o acesso `as bases de dados que sejam criadas e para permitir o acesso
a CODAICH database. Algumas quest˜oes levantadas neste trabalho ´e que permitir que
todas as possibilidades de extra¸ao de caracter´ısticas fossem previamente calculadas e
disponibilizadas iriam gerar uma explos˜ao combinatorial em termos de processamento e
tamb´em em termos de recursos de armazenamento. Desta forma, ´e apresentada uma
interface para o pesquisador que seleciona quais as caracter´ısticas que deseja trabalhar
e a forma como elas devem ser extra´ıdas e isso ´e feito sob demanda para contornar as
limita¸oes anteriores. Em alguns casos ´e poss´ıvel fazer o armazenamento tempor´ario das
caracter´ısticas calculadas, quando a espa¸co para tal. Como para a extra¸ao de caracte-
r´ısticas ´e utilizado o JAudio, ´e poss´ıvel atrav´es da interface submeter os odigos fontes
em java para que outras caracter´ısticas possam ser dispon´ıveis na plataforma.
2.4.5 Cr´ıticas `a Tarefa
Com a aten¸ao recebida pela tarefa de classifica¸ao autom´atica de eneros musi-
cais, Aucouturier e Pachet (2003) fizeram um survey sobre essa tarefa. Neste trabalho eles
descrevem experimentos no sentido de definir taxonomias para a tarefa. Por´em, chegam `a
20
conclus˜ao que gˆeneros musicais ao normalmente mal definidos (ill-defined), logo, sistemas
que classificam baseados em gˆeneros ao mal definidos, pois apresentam esta limita¸ao.
Eles classificam as abordagens para a classifica¸ao autom´atica de gˆeneros em duas (por
sinal, as mesmas que em qualquer sistema de RP): as trein´aveis e as baseadas em agrupa-
mento. Nesse trabalho eles fazem um cr´ıtica aos sistemas baseados em janelas de an´alise
por ao utilizarem as informa¸oes temporais da m´usica. Outro aspe cto criticado ´e o baixo
n´umero de eneros utilizados assim como a falta de m´etodos de sele¸ao de caracter´ısticas
para gˆeneros espec´ıficos, pois para um determinado gˆenero musical as informa¸oes obtidas
do timbre global da m´usica podem ao ser interessantes. Outro aspecto abordado ´e que
ao a padroniza¸ao dos resultados nos trabalhos anteriores. Os autores ainda sugerem o
uso de duas ecnicas oriundas da ´area de minera¸ao de dados conhecidas como Filtragem
Colaborativa e An´alise de Co-ocorrˆencia para determinar a similaridade de m´usicas. Para
a constru¸ao de novas bases de dados para o problema eles sugerem criar bases de dados
utilizando compila¸oes de m´usicas de um determinado ritmo (i.e. Best of Italian Love
Songs).
No trabalho de (MCKAY; FUJINAGA, 2006) ´e feita uma an´alise cr´ıtica se a tarefa
de classifica¸ao autom´atica de gˆeneros musicais mereceria ou ao continuar a ser pesqui-
sada/tratada. Antes de apresentar os argumentos, eles utilizam a defini¸ao de (FABBRI,
1999) para definir os gˆeneros musicais como sendo: “um tipo de m´usica, como ela ´e aceita
por uma comunidade por qualquer raz˜ao, prop´osito ou crit´erio”. As principais conclus˜oes
apresentadas neste trabalho ao:
1. Para aumentar o desempenho dos sistemas de classifica¸ao autom´atica de gˆeneros
musicais ´e necess´ario utilizar outros mecanismos al´em do timbre, como informa¸oes
culturais dispon´ıveis na web;
2. Possibilitar a atribui¸ao de mais de um gˆenero para cada m´usica, seja na sa´ıda do
classificador, seja na rotula¸ao da base de dados;
3. A aquisi¸ao de dados para Ground truth e sua respectiva classifica¸ao tem que ser
considerados objetivos priorit´arios por si o;
4. Permitir uma estrutura, mesmo que simples, de ontologia mapeando as rela¸oes
entre os gˆeneros;
5. Outra quest˜ao levantada considera que diferentes partes de uma m´usica podem
pertencer a diferentes eneros, assim como podem ser representa¸oes diferentes do
mesmo enero e argumentam que utilizar as m´edias das caracter´ısticas ao longo
21
de longas janelas de an´alise ou mesmo da m´usica inteira pode ser uma abordagem
limitadora;
6. De uma perspectiva musicol´ogica, eles desencorajam o uso de ecnicas como PCA
para a redu¸ao de caracter´ısticas, por mais que isto possa promover uma melhora na
taxa de acerto. Isto limita a qualidade dos resultados de uma perspectiva te´orica,
pois ao perdidas informa¸oes importantes como quais caracter´ısticas ao mais ´uteis
em diferentes contextos, e sugerem o uso de mecanismos de sele¸ao de atributos
baseados em FFS, BFS e algoritmos gen´eticos;
7. Por fim, eles apontam para a necessidade de realizarem mais pesquisas no aspecto
psicol´ogico da classifica¸ao de eneros musicais realizadas pelas pessoas considerando
especialistas, ao especialistas, pessoas de diferentes idades, culturas e experiˆencias.
Pois isto seria ben´efico ao apenas para melhorar o ground truth da ´area como
tamb´em desenvolver diferentes sistemas para diferentes audiˆencias e suas respectivas
necessidades.
2.5 Avalia¸c˜ao Cr´ıtica
Um aspecto comum a maioria dos trabalhos da literatura ´e que ele s est˜ao nor-
malmente propondo novos m´etodos de extra¸ao de caracter´ısticas em conjunto com clas-
sificadores bem definidos. Como pode ser visto na proposta do ACE, mecanismos de
combina¸ao de classificadores foram pouco estudados e utilizados para a tarefa de reco-
nhecimento autom´atico de eneros musicais. Outro aspecto que o recentemente tem sido
investigado neste dom´ınio ´e o uso de mecanismos de se le¸ao de atributos.
Um outro aspecto importante ´e que as ´unicas bases dispon´ıveis publicamente ao
a do trabalho de Tzanetakis e Cook (2002) (GTZAN), a base desenvolvida no trabalho
de Homburg et al. (2005) e a CODAICH database (MCKAY; MCENNIS; FUJINAGA, 2006).
Por´em, as duas primeiras bases possuem erias limita¸oes: na primeira est˜ao dispon´ıveis
apenas os primeiros 30 segundos de cada m´usica no formato de ´audio PCM. Na se-
gunda est˜ao dispon´ıveis apenas 10 segundos extra´ıdos de segmentos aleat´orios de cada
m´usica. Com exce¸ao dessas duas bases, as demais utilizadas na literatura possuem pou-
cas m´usicas, e os eneros utilizados ao normalmente os mesmos (Rock, Classical) e os
gˆeneros ao disjuntos, ou seja, ao e xistem trabalhos com subgˆeneros realmente pr´oximos
como House e Trance. No caso da terceira base, ela foi publicada somente em novembro
de 2006, impossibilitando seu uso neste trabalho.
Dessa forma, tendo em mente o trabalho de Aucouturier e Pachet (2003), onde
22
´e mostrado que definir uma taxonomia para eneros ´e uma tarefa mal formulada, uma
poss´ıvel solu¸ao para este problema seria utilizar uma classifica¸ao um pouco mais abran-
gente baseada na percep¸ao humana de como os eneros ao dan¸cados. Apesar de ao ser
abrangente o suficiente para incluir todos os gˆeneros m´usicais poss´ıveis, esta abordagem
permitiria a constru¸ao de uma base de dados usando caracter´ısticas culturais de diversos
tipos de m´usica.
23
Cap´ıtulo 3
Uma Proposta de M´etodo para Classifica¸ao Au-
tom´atica de Gˆeneros Musicais
Como mostrado no cap´ıtulo anterior, a grande maioria dos trabalhos da ´area con-
sidera apenas o uso de um ´unico segmento da m´usica para realizar a classifica¸ao dos
gˆeneros musicais. Al´em disto, as bases de dados existentes para realizar a tarefa possuem
uma erie de problemas e/ou limita¸oes. Desta forma, para poder verificar as hip´oteses
deste trabalho, existe a necessidade do desenvolvimento de uma nova base de dados para
a tarefa. O procedimento utilizado para a constru¸ao desta base ´e apresentado na se¸ao
3.1. Na se¸ao 3.2 ´e apresentada a abordagem para classifica¸ao autom´atica de gˆeneros
musicais, que consiste na extra¸ao de caracter´ısticas de diferentes partes da m´usica, o
treinamento de um classificador para cada segmento e a combina¸ao destes segmentos
utilizando as estrat´egias de OAA, RR e baseadas nos escores de confian¸ca produzidos por
cada classificador. No intuito de melhorar os resultados de classifica¸ao individuais dos
segmentos, e desta forma possivelmente melhorar a taxa de acerto dos mesmos, foram
utilizados mecanismos de sele¸ao de atributos utilizando AG’s, que ao apresentados na
se¸ao 3.3.
3.1 Cria¸c˜ao e Manuten¸ao da Base de Dados
Tendo em vista as limita¸oes das bases desenvolvidas nos trabalhos anteriores para
a verifica¸ao das hip´oteses deste trabalho, surgiu a necessidade do desenvolvimento de uma
nova base de dados para a tarefa. Por´em considerando o esfor¸co humano necess´ario para
fazer a atribui¸ao manual de eneros as m´usicas, e tamb´em que uma base desenvolvida
com cuidado p oderia ser utilizada em outras tarefas al´em da classifica¸ao autom´atica de
gˆeneros musicais, foi necess´ario planejar como seria realizada a atribui¸ao dos eneros e
o armazenamento, acesso e recupera¸ao dessas informa¸oes.
24
Antes de iniciar o processo de aquisi¸ao, classifica¸ao e armazenamento das m´usicas,
foi definido que seriam adquiridas pelo menos 3.000 m´usicas de 10 eneros distintos de
forma a poder fazer uma contribui¸ao real para a ´area, visto que at´e ent˜ao a base de
dados mais abrangente (GTZAN) era composta por 1.000 m´usicas (limitadas a apenas os
primeiros trinta segundos) de 10 gˆeneros.
3.1.1 O Processo de Atribui¸ao de eneros Musicais
Neste trabalho o processo utilizado para atribuir um enero a cada m´usica ´e ba-
seado na percep¸ao humana de como cada m´usica ´e utilizada para a dan¸ca. Para realizar
este processo foram consultados dois profissionais com mais de dez anos de experiˆencia no
ensino de dan¸cas de sal˜ao. Estes profissionais fizeram uma primeira sele¸ao das m´usicas
que eles julgavam pertinentes a um determinado enero de acordo com a forma que este era
dan¸cado e o autor deste trabalho verificou cada uma das m´usicas inicialmente seleciona-
das para evitar que equ´ıvocos fossem cometidos devido ao desgaste produzido pelo esfor¸co
humano necess´ario para realizar a tarefa. Em m´edia foram classificadas 300 m´usicas por
mˆes, sendo que o processo total para a cria¸ao da base de dados demorou um ano.
Como resultado desse esfor¸co, foi desenvolvida a Latin Music Database que conta
com 3.160 m´usicas de 10 eneros musicais. Os eneros musicais dispon´ıveis na base e
respectivos n´umeros de m´usicas ao: Tango (404); Salsa (303); Forr´o (315); Ax´e (304);
Bachata (308); Bolero (302); Merengue (307); Ga´ucha (306); Sertaneja (310); Pagode
(301). No total a base possui 543 artistas diferentes.
´
E importante ressaltar que na base desenvolvida foi utilizado este protocolo de
inspao humana de acordo com como as m´usicas ao utilizadas para a dan¸ca. Ao contr´ario
do que foi sugerido no trabalho de Aucouturier e Pachet (2003) para utilizar CDs de
cole¸oes completas, no caso dos r´ıtmos latinos esta abordagem se mostrou ineficiente. Por
exemplo, no caso da coletˆanea de quatro CDs (Los 100 Mayores Exitos De La Musica
Salsa) apenas metade (50 das 100) das m´usicas podem ser classificadas como Salsa, as
demais usicas desta coletˆanea ao de outros gˆeneros musicais como Merengue, Lambada,
Zouk e at´e mesmo Samba. Outra op¸ao teria sido basear a classifica¸ao de todas as trilhas
de um determinado ´album de acordo com o perfil do artista. Desta forma todas as m´usicas
de Carlos Gardel seriam classificados como Tango. Por´em, ´e importante ressaltar, que
de todas as suas mais de 500 composi¸oes apenas cerca de 400 ao Tangos. Desta forma
introduziria ru´ıdo desneces s´ario na base. Por este motivo todas as usicas utilizadas
nesta base foram avaliadas manualmente uma a uma e somente aquelas que realmente
pertencem aos gˆeneros em quest˜ao foram rotulados como sendo desses gˆeneros. E mesmo
25
no caso de outros artistas de um determinado gˆe nero, como Salsa, muito dificilmente
todas as trilhas de seus ´albuns ao apenas Salsas.
Ao longo do processo de cria¸ao da base foi observado que normalmente cerca de
uma a trˆes m´usicas ao ao do enero principal do perfil do artista.
3.1.2 Armazenamento, Acesso e Recupera¸ao das usicas
Al´em da aquisi¸ao das m´usicas e suas repectivas atribui¸oes de enero, para o
desenvolvimento da base e sua ampla utiliza¸ao em outras tarefas, arias reflex˜oes foram
realizadas no sentido de: criar uma base que possa ser facilmente utilizada para outras
tarefas; permitir total repro dutibilidade dos experimentos realizados; evitar duplicidade
das m´usicas cadastradas; facilitar o registro de novas m´usicas e/ou novos eneros. Desta
forma, tendo em mente estas arias quest˜oes, nesta se¸ao ao apresentadas as solu¸oes
adotadas para atingir esses objetivos.
O processo de armazenamento de uma nova m´usica na base ocorre da seguinte
forma:
1. Atribui¸ao de um enero `a m´usica em quest˜ao seguindo o pro cedimento descrito na
SubSe¸ao 3.1.1;
2. Inspao manual do otulo ID3 da m´usica para verificar se os campos est˜ao preen-
chidos corretamente e tamb´em de corrig´ı-los/adapt´a-los a um padr˜ao simples que
consiste na padroniza¸ao dos nomes e no uso do caracter especial & para indicar
o nome de mais de um artista na mesma m´usica. Os campos obrigat´orios para
cadastrar uma nova m´usica ao o Artista e o T´ıtulo da m´usica. A raz˜ao para essa
abordagem ´e simples, mesmo que apenas uma pessoa esteja trabalhando no cada-
stro de usicas na base de dados, eventualmente ´albuns do mesmo artista conter˜ao
trilhas com m´usicas presentes em outros ´albuns, como por exemplo, no caso de
um ´album com os maiores sucessos de um artista. Desta forma, este procedimento
permite evitar duplicidade de m´usicas interpretadas pelo mesmo artista na base.
Este controle de duplicidade ´e realizado no sistema quando uma nova m´usica ´e
cadastrada.
3. Cadastramento da m´usica no sistema. Nesta etapa o sistema obt´em os dados da
m´usica, verifica se ao a duplicidade, atribui um odigo identificador para a m´usica,
associa esta m´usica ao enero pr´e-determinado e cria uma c ´opia da m´usica. A in-
forma¸ao do enero da m´usica ´e armazenada no banco de dados, pois como visto
anteriormente, o campo Genre dos otulos ID3 ao ´e confi´avel. Al´em disto, no caso
26
de trabalhos futuros onde seja necess´ario o uso de alguma hierarquia, esta modi-
fica¸ao pode ser incorporada facilmente ao sistema. No momento do cadastramento
o sistema gera uma opia da m´usica cadastrada em um diret´orio pr´e- determinado
seguindo a seguinte conven¸ao:
DIRETORIO_GENERO\ARTISTA - TITULO - ALBUM - TRACK.MP3
onde DIRETORIO GENERO ´e um diret´orio com o nome do gˆenero associado `a
m´usica, e ARTISTA, TITULO, ALBUM e TRACK ao informa¸oes obtidas do
otulo ID3 da m´usica no momento em que ela ´e cadastrada.
O acesso `a base de dados pode ser feito de forma convencional atraes do sistema de
arquivos do sistema operacional, pois como mostrado, o sistema utiliza uma estrutura de
arquivos e algumas regras de conven¸ao simples para cadastrar as m´usicas. Por´em, visando
facilitar o acesso dos descritores das m´usicas pelos algoritmos de aprendizagem de aquina
e tamb´em a reprodutibilidade dos experimentos, foram desenvolvidos dois odulos no
sistema. Um para a extra¸ao de caracter´ısticas e seu respectivo armazenamento no sistema
e outro para a obten¸ao destas caracter´ısticas a no formato utilizado por ferramentas de
aprendizagem de aquina como ´e o caso do formato arff utilizado pelo WEKA (WITTEN;
FRANK, 2005).
No que diz respeito `a reprodutibilidade dos experimentos, com esta abordagem,
todas as m´usicas dispon´ıveis na base de dados tˆem as informa¸oes de Artista e T´ıtulo.
Com estas informa¸oes ´e poss´ıvel criar junto com os arquivos arffs, gerados para os expe-
rimentos, uma lista das m´usicas utilizadas na mesma ordem em que elas ser˜ao utilizadas
pelo odulo de classifica¸ao. O arquivo utilizado para armazenar esta lista ´e chamado de
SAL (Song Artist List). O SAL ´e uma forma melhor de representar esta informa¸ao por
trˆes motivos:
1. Algumas vˆezes artistas diferentes interpretam as mesmas m´usicas (por´em, `as vˆezes,
at´e mesmo em ritmos diferentes). Logo, utilizar apenas o T´ıtulo da m´usica ao ´e
suficiente;
2. Utilizar o ID da m´usica fornecido pelo sistema ao ´e confi´avel, pois se por algum mo-
tivo for necess´ario recadastrar todas as m´usicas, elas dificilmente ser˜ao cadastradas
na mesma ordem em que foram cadastradas originalmente;
3. Pode ser que ao observar a lista das m´usicas utilizadas seja mais acil de interpretar
os resultados obtidos.
27
Figura 3.1: Vis˜ao Geral do M´etodo Proposto
Um odulo para extra¸ao das caracter´ısticas e seu armazenamento em banco de
dados ´e uma op¸ao interessante ao apenas visando a reprodutibilidade dos experimentos,
mas tamb´em em rela¸ao ao tempo que demora para calcular as caracter´ısticas de cada
m´usica. Al´em disto, se em experimentos forem utilizados conjuntos de caracter´ısticas
diferentes das usadas neste trabalho, esta modifica¸ao exigiria apenas a adi¸ao de novas
colunas nas tabelas existentes, permitindo uma compara¸ao direta entre os resultados
deste trabalho com as demais estrat´egias sendo propostas.
3.2 M´etodo Para o Reconhecimento Autom´atico
Uma vis˜ao geral do etodo proposto ´e apresentado na figura 3.1. O m´etodo
proposto consiste na evolu¸ao dos trabalhos de Costa, Valle Jr. e Ko erich (2004) e Koerich
e Poitevin (2005). Al´em do etodo original proposto baseado na segmenta¸ao da m´usica
em trˆes trechos (in´ıcio, meio e fim), o acerto preditivo dos classificadores pretende ser
melhorado com o uso dos etodos de decomposi¸ao do espa¸co do problema e de algoritmos
de sele¸ao de atributos.
28
3.2.1 Segmenta¸ao do Sinal de
´
Audio (Decomposi¸ao Temporal)
3.2.1.1 Defini¸ao
Convencionalmente, o problema da classifica¸ao autom´atica de eneros musicais
pode ser definido como: dado um sinal de ´audio de uma m´usica S representado por um
vetor de caracter´ısticas D-dimensional, deseja-se atribuir uma classe (no caso um enero
musical) g G que melhor representa o vetor de caracter´ısticas extra´ıdo de S. G ´e o
conjunto de todos os gˆeneros musicais poss´ıveis.
Em um problema t´ıpico de reconhecimento de padr˜oes, dado um padr˜ao de entrada,
um vetor de caracter´ısticas D-dimensional X
D
1
´e extra´ıdo de todo o padr˜ao. Contudo,o
sinal da m´usica pode ser visto como um padr˜ao variante no tempo. Desta forma, uma
das solu¸oes poss´ıveis para levar em conta esta variabilidade intr´ınseca ´e extrair caracte-
r´ısticas do sinal da m´usica inteira. Desta forma as caracter´ısticas ao ser computadas ao
longo do sinal. Contudo, extrair caracter´ısticas da usica inteira ´e um proc esso compu-
tacionalmente caro que deve ser evitado. Tamb´em ao existe nenhuma garantia de que as
caracter´ısticas extra´ıdas ser˜ao mais confi´aveis do que outras abordagens que consideram
caracter´ısticas extra´ıdas apenas de uma parte do sinal da m´usica.
Por este motivo, a maior parte das abordagens para a classifica¸ao autom´atica
de gˆeneros musicais faz a extra¸ao de caracter´ısticas de um n´umero limitado de janelas
da m´usica. A maior desvantagem deste tipo de abordagem ´e que os valores das ca-
racter´ısticas se tornam dependentes dos quadros da m´usica. Desta forma, estes valores
variam de acordo com a posi¸ao das janelas utilizadas. Isto acontece porque a maioria
das caracter´ısticas proposta para a tarefa ao variantes no tempo. A Figura 3.2 ilustra a
variabilidade dos valores das caracter´ısticas em rela¸ao `a posi¸ao dos frames de onde elas
foram extra´ıdas. Na Figura 3.2 in´ıcio, meio e fim representam os vetores de caracter´ısticas
extra´ıdos destes trechos das usicas.
Neste trabalho ´e utilizada a estrat´egia de segmenta¸ao proposta no trabalho de
Costa, Valle Jr. e Koerich (2004) ao inv´es de utilizar o in´ıcio da m´usica (TZANETA-
KIS; COOK, 2002) ou a m´usica inteira (GRIMALDI; CUNNINGHAM; KOKARAM, 2003b). A
estrat´egia de segmenta¸ao consiste em extrair segmentos do sinal de ´audio e tomar a de-
cis˜ao baseada na combina¸ao dos classificadores treinados e especializados para classificar
cada um dos segmentos individualmente.
Formalmente esta abordagem pode ser definida como: sendo um sinal de ´audio
digital definido como uma seq¨uˆencia S =< s(1), s(2), . . . , s(A) >= s
N
1
onde s(i) representa
o sinal amostrado no instante i, e A ´e o n´umero total de amostras que forma o sinal de
´audio digital.
29
Figura 3.2: edia dos valores de 30 caracter´ısticas extra´ıdos de diferentes segmentos
utilizando 150 m´usicas do enero musical latino conhecido como Salsa.
Considerando que o sinal de ´audio S ´e amostrado de acordo com uma freq¨uˆencia f
de amostras por segundo, e que o procedimento de extra¸ao de caracter´ısticas ´e efetuado
de acordo com uma janela de dura¸ao de t
w
segundos, e que esta opera¸ao ´e realizada
num intervalo de t
m
segundos. I sto implica que existem ft
w
amostras de ´audio em cada
segmento.
Desta forma, cada segmento de um sinal digital j ´e composto pelas amostras
f(j) = s(j.t
m
.f +
ˆ
k), onde
ˆ
k = 0, 1, . . . , t
w
.f 1 (3.1)
Ou seja, o primeiro segmento f(0) considera amostras da m´usica < s(0), s(1), . . . , s(t
w
.f
1) >, e o quadro j
th
engloba as amostras da m´usica f (j) em < s(j.t
m
.f), s(j.t
m
.f +
1), . . . , s(j.t
m
.f + t
w
.f 1) >. Destarte, para considerar a varia¸ao temporal ao longo
do sinal de ´audio, os vetores de caracter´ısticas ao obtidos realizando o procedimento de
extra¸ao de caracter´ısticas para cada segmento f(j).
3.2.1.2 Aplica¸ao
Nos experimentos realizados neste trabalho, do sinal de ´audio da m´usica S ao
extra´ıdos trˆes segmentos de trinta (t
w
= 30) segundos. A principal raz˜ao para o uso de
trˆes segmentos ao inv´es de dois, quatro, cinco ou qualquer outro umero ´e que este ainda
´e um problema em aberto pois al´em da segmenta¸ao do sinal da m´usica em q quadros
ainda existem outros problemas relacionados a segmenta¸ao como o tamanho da janela
30
Figura 3.3: Vis˜ao geral do processo de extra¸ao de caracter´ısticas
de an´alise utilizada. Este ´ultimo problema foi investigado recentemente no trabalho de
West e Cox (2005) onde eles avaliaram o desempenho de diferentes janelas de an´alise e
propuseram uma ecnica de segmenta¸ao autom´atica. Outra raz˜ao para o uso de trˆes
segmentos ´e que, ao construir a base de dados, devido `a natureza dos eneros utilizados,
normalmente foi necess´ario ouvir o meio da m´usica e `as vezes o final tamb´em para atribuir
o gˆenero corretamente.
Lembrando que cada segmento da m´usica ´e representado por f (j), por uma quest˜ao
de simplicidade, ao longo deste trabalho esta nota¸ao vai ser substitu´ıda por Seg
parte
.
Outra quest˜ao importante ´e que ao inv´es de utilizar um intervalo constante com um valor
de (t
m
) pr´e-definido para cada segmento, como est˜ao sendo utilizados trˆes segmentos,
foi utilizada uma estrat´egia alternativa para definir o in´ıcio de cada segmento. O ponto
inicial dos segmentos ´e representando por t
w
i
.
Seg
beg
representa o in´ıcio da m´usica. Neste segmento ao utilizados os primeiros
trinta segundos do sinal de ´audio da m´usica.
Seg
mid
representa o meio da m´usica. Neste segmento ao utilizados os trinta se-
gundos do meio da m´usica. Como a dura¸ao das m´usicas ´e vari´avel, a estrat´egia
utilizada para determinar o valor de t
w
i
´e a seguinte: o ponto inicial vai ser definido
por: t
w
i
= (
d
3
) 13 segundos. Lembrando que d ´e a dura¸ao total da m´usica.
Seg
end
representa o final de uma m´usica. Entretanto para evitar pegar o final ruidoso
ou silencioso que existe em algumas m´usicas no formato MP3, a estrat´egia utilizada
para determinar o valor de t
w
i
´e: i = d 38 segundos.
31
3.2.2 Extra¸ao de Caracter´ısticas
Neste trabalho ´e utilizado o framework Marsyas para extrair caracter´ısticas de
diferentes segmentos do sinal de ´audio e gerar vetores de caracter´ısticas. O Marsyas im-
plementa o conjunto de caracter´ısticas propostas originalmente por Tzanetakis e Cook
(2002) e utilizado em outros trabalhos (KOSINA, 2002) (LI; OGIHARA; LI, 2003). ao
considerados trˆes tipos de caracter´ısticas: relacionadas ao espectro sonoro (Timbral tex-
ture), relacionadas ao padr˜ao r´ıtmico (beat-related) e relacionadas `a altura da nota (pitch-
related). Caracter´ısticas do espectro sonoro incluem a edia e a variˆancia do centr´oide
espectral, do rolloff espectral, do fluxo espectral, das taxas de cruzamento zero, MFCC
(Coeficientes Cepstrais de Freq ¨uˆencia-Mel), e da baixa energia. Caracter´ısticas relacio-
nadas ao padr˜ao r´ıtmico incluem as amplitudes relativas e as batidas por minuto. As
caracter´ısticas relacionadas ao pitch incluem os per´ıodos aximos do pico do pitch nos
histogramas. Estas caracter´ısticas formam vetores de trinta dimens˜oes (Espectro sonoro:
9 STFT + 10 MFCC; Padr˜ao R´ıtmico: 6; Pitch: 5 ) que posteriormente ao utilizados
no treinamento de classificadores de maneira supervisionada. A seguir ao descritas as
caracter´ısticas extra´ıdas das m´usicas:
3.2.2.1 Caracter´ısticas Relacionadas ao Espectro Sonoro
Centr´oide Espectral (Spectral Centroid) ´e o ponto balanceado do espectro.
´
E uma
medida da forma espectral e ´e associado freq¨uentemente com a no¸ao do brilho espectral.
O centr´oide espectral pode ser calculado como apresentado na equa¸ao 3.2.
C
t
=
N
n=1
M
t
[n] n
N
n=1
M
t
[n]
(3.2)
onde M
t
[n] ´e o valor da transformada de Fourier no quadro t e faixa de freq¨uˆencia n.
O centr´oide espectral ´e um atributo perceptual importante na caracteriza¸ao do timbre
musical de instrumentos.
Rolloff Espectral (Spectral Rolloff ) ´e outra medida da forma espectral que ´e de-
finida como a freq¨uˆencia R
t
apresentada na equa¸ao 3.3 na qual 85% da magnitude da
distribui¸ao est´a concentrada.
R
t
n=1
M
t
[n] = 0.85
N
n=1
M
t
[n] (3.3)
Fluxo Espectral (Spectral Flux ) ´e uma medida da mudan¸ca espectral local e ´e
definido como apresentado na equa¸ao 3.4.
32
F
t
=
N
n=1
(N
t
[n] N
t1
[n])
2
(3.4)
onde N
t
[n] ´e o valor normalizado da transformada de Fourier na janela t.
Taxas de Cruzamento Zero (Time Domain Zero–Crossings) ´e uma caracter´ıstica
que ocorre quando as amostras sucessivas tˆem sinais diferentes.
´
E calculada como apre-
sentada na equa¸ao 3.5.
Z
t
=
1
2
N
n=1
|sign(x[n]) sign(x[n 1])| (3.5)
onde x[n] ´e o sinal no dom´ınio do tempo e a fun¸ao sign ´e 1 ou 0 para os argumentos
positivos e negativos respectivamente. Ao contr´ario do centr´oide espectral, do rolloff
espectral e do fluxo espectral, que ao caracter´ısticas no dom´ınio da freq¨uˆencia, a taxa do
cruzamento zero ´e uma caracter´ıstica no dom´ınio do tempo.
Coeficientes Cepstrais da freq¨uˆencia Mel (Mel-frequency cepstral coefficients) ao
caracter´ısticas perceptualmente motivadas que tamb´em ao baseadas na STFT (Short
Time Fourrier Transform). Ap´os obter a amplitude logar´ıtmica da magnitude do espec-
tro, as faixas pr´e-determinadas ao agrupadas e suavizadas (smoothed) de acordo com a
motivao perceptual da escala da freq¨uˆencia Mel. Finalmente, para descorrelacionar os
vetores de caracter´ısticas resultantes, uma transformada discreta de coseno ´e utilizada.
Apesar de normalmente treze coeficientes serem utilizados para representar a fala, experi-
mentos mostram que os cinco primeiros coeficientes levam a um melhor desempenho para
a classifica¸ao de gˆeneros musicais (TZANETAKIS; COOK, 2002).
An´alise e Janela de Textura. Em an´alise de ´audio o sinal ´e quebrado em pequenos
segmentos de tempo sobrepostos e cada segmento ´e processado separadamente. Estes
segmentos ao chamados de janela de an´alise e devem ser pequenos o suficiente para que
as caracter´ısticas de freq¨encia do espectro de magnitude sejam relativamente est´aveis.
Entretanto a sensa¸ao de textura do som surge como resultado de m´ultiplos espectros de
tempo curto com diferentes caracter´ısticas seguindo algum padr˜ao no tempo. Por exemplo,
a fala cont´em vogais e consoantes as quais tem diferentes caracter´ısticas espectrais.
Logo, de forma a capturar a longa natureza da textura do som, as caracter´ısticas
computadas ao edias e variˆancias das caracter´ısticas descritas anteriormente nesta
se¸ao, em um n´umero de janelas de an´alise. O termo janela de textura ´e utilizado para
descrever esta janela maior e idealmente deve corresponder ao m´ınimo de tempo de som
que ´e necess´ario para identificar a textura de um som ou de uma m´usica. Essencialmente,
ao inv´es de usar os valores das caracter´ısticas diretamente, ao calculados os parˆametros
33
de uma distribui¸ao gaussiana multidimensional. Mais especificamente, os parˆametros
(m´edias, variˆancias) ao calculados com base na janela de textura que consiste no vetor
de caracter´ısticas atual em adi¸ao a um n´umero espec´ıfico de vetores de caracter´ısticas
do passado.
Baixa Energia (Low Energy) ´e calculada sobre um umero de janelas com a m´edia e
varia¸ao, e ao separadas para cada janela como as outras caracter´ısticas. A caracter´ıstica
energia baixa ´e definida como a porcentagem das janelas que em menos energia do que
a energia m´edia de todas as 40 janelas. Por exemplo, sinais musicais ter˜ao energia mais
baixa que sinais de fala que normalmente contˆem muitas janelas silenciosas.
Com as caracter´ısticas apresentadas nesta se¸ao, o espectro sonoro de uma m´usica
consiste nas seguintes caracter´ısticas: m´edias e variˆancias do centr´oide espectral, do rolloff
espectral, do fluxo espectral, das taxas de cruzamento zero sobre a janela da textura (8),
baixa energia (1) e as edias e variˆancias dos cinco primeiros coeficientes MFCC sobre a
janela de textura resultado assim em um vetor de caracter´ısticas com dezenove dimens˜oes.
3.2.2.2 Caracter´ısticas Relacionadas ao Padr˜ao R´ıtmico (Beat-Related)
A batida e a estrutura r´ıtmica de uma m´usica ´e freq¨uentemente uma boa indica¸ao
do gˆenero. Por exemplo, dance music tende a ter uma batida principal muito forte e
distintiva. A m´usica cl´assica, geralmente ao tem uma batida dominante e regular desob-
stru´ıda, devido `a complexidade do arranjo. A extra¸ao de caracter´ısticas da batida tenta
encontrar a batida principal da usica e de seu per´ıodo em BPM (Batidas Por Minuto).
Al´em desta, ´e calculada tamb´em `a batida mais forte, e um n´umero de caracter´ısticas
relacionando a primeira e segunda batida.
Inicialmente o sinal ´e decomposto em um n´umero de bandas de freq¨uˆencias usando
uma transformada Wavelet discreta (KOSINA, 2002 apud SWELDENS; PIESSENS, 1993).
Ap´os esta decomposi¸ao, uma erie de passos para a extra¸ao do envelope da amplitude
no dom´ınio do tempo ´e aplicada a cada banda: retifica¸ao de onda completa, filtragem
passa-baixa, sub-amostragem e remo¸ao das m´edias (KOSINA, 2002; TZANETAKIS; COOK,
2002).
Ap´os o passo da extra¸ao, os envelopes de cada banda ao somados e a autocor-
rela¸ao resultante ´e calculada. Este resultado ´e uma fun¸ao de autocorrela¸ao onde os
picos (peaks) dominantes correspondem ao tempo de lag (time lags) onde o sinal tem a
auto-similaridade mais forte. Os primeiros trˆes picos da fun¸ao de autocorrela¸ao ao adi-
cionados ao histograma de batida. C ada banda do histograma corresponde a um per´ıodo
da batida em B PM. Para cada um dos trˆes picos selecionados, a amplitude do pic o ´e
34
adicionada ao histograma. Este procedimento ´e repetido para cada janela de an´alise. Os
picos mais fortes no final do histograma correspondem `as batidas mais fortes do sinal.
Seis caracter´ısticas ao calculadas usando o histograma de batidas:
A amplitude relativa (i.e. a amplitude dividida pela soma de amplitudes) do pri-
meiro e do segundo picos no histograma de batidas. Esta ´e uma medida de qu˜ao
distintivas ao as batidas comparadas com o resto do sinal.
A raz˜ao da amplitude do segundo pico dividida pela amplitude do primeiro pico.
Essa caracter´ıstica expressa a rela¸ao entre a batida principal e a primeira batida
auxiliar.
O per´ıodo do primeiro e segundos picos em BPM, indicando qu˜ao apida ´e a m´usica.
A soma do histograma, a qual pode ser um indicador da for¸ca da batida. A soma das
bandas do histograma ´e uma medida de for¸ca da auto-similaridade entre as batidas,
a qual ´e um fator de qu˜ao r´ıtmica uma m´usica parece ser.
3.2.2.3 Caracter´ısticas Relacionadas `a Altura da Nota (Pitch-Related)
O conjunto de caracter´ısticas de conte´udo pitch ´e baseado em m´ultiplas t´ecnicas
de detec¸ao de pitch. Neste algoritmo, o sinal ´e decomposto em duas bandas de freq¨uˆencia
(abaixo e acima de 1.000 Hz) e envelopes de amplitude ao extra´ıdos para cada banda da
freq¨encia. A extra¸ao do envelope ´e realizada aplicando retifica¸ao de meia onda e filtro
passa-baixa. Os envelopes ao somados e uma fun¸ao “aumentada” de autocorrela¸ao ´e
computada para que o efeito de m´ultiplos inteiros no pico das freq¨uˆencias para m´ultiplos
pitch’s detectados sejam reduzidos.
Os picos proeminentes desta fun¸ao de autocorrela¸ao “aumentada” correspondem
aos principais pitches para aquele curto segmento de som. Esse etodo ´e similar a de-
tec¸ao da estrutura de batidas para curtos per´ıodos correspondendo a percep¸ao de pitch.
Os trˆes picos dominantes ao acumulados em histogramas de pitch sobre todo o sinal de
´audio. Para computar o histograma de pitch, ´e utilizada uma janela de an´alise de 512
amostras com taxa de amostragem de 22 050 Hz (aproximadamente 23 ms).
3.2.2.4 Vetor de Caracter´ısticas Resultante
O vetor de caracter´ısticas resultante ´e apresentando na Figura 3.4, onde ´e descrita
a associa¸ao entre a posi¸ao no vetor e a caracter´ıstica relacionada. Um procedimento
35
N´umero da caracter´ıstica Descri¸ao
1–6 Caracter´ısticas relacionadas `a batida
7 M´edia do Centr´oide Espectral
8 M´edia do Rolloff Espectral
9 M´edia do Fluxo Espectral
10 M´edia das Taxas de Cruzamento Zero
11 Desvio Padr˜ao do Centr´oide Espectral
12 Desvio Padr˜ao do Rolloff Espectral
13 Desvio Padr˜ao do Fluxo Espectral
14 Desvio Padr˜ao das Taxas de Cruzamento Z ero
15 Baixa Energia
16 M´edia do 1
o
MFCC
17 M´edia do 2
o
MFCC
18 M´edia do 3
o
MFCC
19 M´edia do 4
o
MFCC
20 M´edia do 5
o
MFCC
21 Desvio Padr˜ao do 1
o
MFCC
22 Desvio Padr˜ao do 2
o
MFCC
23 Desvio Padr˜ao do 3
o
MFCC
24 Desvio Padr˜ao do 4
o
MFCC
25 Desvio Padr˜ao do 5
o
MFCC
26–30 Caracter´ısticas relacionadas ao Pitch
Figura 3.4: Descri¸ao do vetor de caracter´ısticas
final que deve ser aplicado ao vetor de caracter´ısticas resultante ´e um procedimento para
normaliza¸ao dos atributos para que esses possam ser utilizados pelos algoritmos de apren-
dizagem de aquina.
Desta forma a seguinte regra de normaliza¸ao ´e utilizada: considerando MAX VALUE
como sendo o valor aximo do atributo e MIN VALUE o valor m´ınimo, o novo valor do
atributo (para cada instˆancia) ´e dado por: NovoValor = (ValorAntigo - MIN VALUE) /
(MAX VALUE - MIN VALUE).
3.3 Sele¸c˜ao de Atributos
Como mostrado na figura 3.1 o mecanismo de sele¸ao de atributos ´e aplicado
a cada segmento, dessa forma o mecanismo de sele¸ao de atributos pode ser avaliado
independentemente em cada um dos vetores de caracter´ısticas, denotados por X
1
=
(x
1
x
2
. . . x
30
), X
2
= (x
1
x
2
. . . x
30
), . . . , X
n
= (x
1
x
2
. . . x
30
). A raz˜ao desse procedimento
ser utilizado em todos os segmentos e ao apenas em um ´unico segmento e replicado
(nesse caso utilizando as mesmas caracter´ısticas) para os demais ´e porque em virtude
do sinal da m´usica ser variante no tempo, ´e poss´ıvel que as caracter´ısticas que melhor
36
representam o segmento do in´ıcio da m´usica (Seg
beg
) ao sejam as mesmas que melhor
representam o fim da m´usica (Seg
end
).
O mecanismo de sele¸ao de atributos utilizado neste trabalho consiste no uso da
abordagem envelope em conjunto com o uso de AGs. Desta forma o conjunto original
de caracter´ısticas ´e utilizado para criar um conjunto de 20 indiv´ıduos que utilizam a
nota¸ao apresentada na se¸ao 2.3. Esses indiv´ıduos ao gerados aleat´oriamente, utilizando
a nota¸ao mostrada anteriormente. Ou seja, ao criados vetores bin´arios de 30 posi¸oes
onde 0 indica a ausˆencia e 1 indica a presen¸ca da caracter´ıstica naquele indiv´ıduo.
Desta forma, para cada indiv´ıduo o seguinte procedimento vai ser aplicado:
1.
´
E treinado um classificador espec´ıfico para o indiv´ıduo, que utiliza apenas as carac-
ter´ısticas indicadas como presentes;
2. O classificador ´e utilizado num conjunto de valida¸ao para calcular a fun¸ao de
adequabilidade do indiv´ıduo, que ´e determinada pela taxa de classifica¸ao correta
do classificador;
3. O valor de adequabilidade ´e retornado.
Ap´os este procedimento ter sido aplicado a toda a popula¸ao de indiv´ıduos (neste
trabalho ´e utilizada uma popula¸ao de 50 indiv´ıduos), vai ser verificado se a solu¸ao
convergiu ou se o n´umero aximo de gera¸oes foi atingido. Se isto acontecer, ´e retor-
nado como solu¸ao o indiv´ıduo de maior adequabilidade, caso contr´ario ao aplicadas as
opera¸oes gen´eticas de muta¸ao e crossover para gerar uma nova popula¸ao de indiv´ıduos
e repetir o processo.
3.4 Classifica¸c˜ao, Combina¸ao e Decis˜ao
As estrat´egias de combina¸ao de classificadores utilizadas neste trabalho est˜ao lo-
calizadas em dois n´ıveis na figura 3.1. No primeiro n´ıvel a “combina¸ao de classificadores”
representa o uso das estrat´egias de decomposi¸ao do espa¸co do problema, criando uma
abordagem h´ıbrida baseada na decomposi¸ao de tempo (segmenta¸ao) e espa¸co (t´ecnicas
de decomposi¸ao do espa¸co do problema). Neste trabalho ao utilizadas as t´ecnicas de
Um-Contra-Todos (One-Against-All) e Round Robin. No segundo n´ıvel, a combina¸ao dos
resultados dos classificadores individuais ou aliados `as t´ecnicas de decomposi¸ao do espa¸co
do problema treinado em cada segmento ao ser combinadas atraes do voto da maioria
ou de uma das regras baseada na probabilidade a posteriori fornecida pelos classificadores.
37
Desta forma, para cada segmento um classificador vai ser treinado. Este procedi-
mento vai resultar em trˆes classificadores: C
beg
, C
mid
, C
end
.
´
E importante ressaltar que o
classificador de base utilizado ´e sempre homogˆeneo (ou seja, o mesmo classificador).
Outro aspecto importante ´e que a regra padr˜ao utilizada no caso de empates que
podem ocorrer ao utilizar as regras de vota¸ao da maioria e Max. De forma a resolver
os empates e fornecer uma ´unica sa´ıda, entre as classes que empataram, o gˆenero vai ser
atribu´ıdo com base no escore de confian¸ca mais alto. No caso de haver outro empate, desta
vez com os escores de confian¸ca, a decis˜ao vai ser baseada nos segmentos que empataram.
Se um dos votos empatados foi fornecido pelo classificador C
mid
, o gˆenero vai ser decidido
por ele. Se ao, a decis˜ao vai ser atribu´ıda ao classificador C
beg
.
38
Cap´ıtulo 4
Avalia¸ao do M´etodo Proposto
Neste cap´ıtulo ao apresentados os experimentos realizados ao longo do desenvol-
vimento do trabalho. Em todos os experimentos apresentados neste cap´ıtulo foi utilizada
uma vers˜ao completa da base Latin Music Database apresentada na se¸ao 3.1. De forma
a realizar os experimentos com um n´umero balanceado de exemplos por classe, f oram
selecionadas 300 m´usicas de cada gˆenero. Para a extra¸ao de caracter´ısticas foi utilizado
o Marsyas (TZANETAKIS; COOK, 1999). Os valores apresentados nas tabelas de resultados
ao referentes `a m´edia dos valores obtidos utilizando valida¸ao cruzada fator 10.
´
E importante ressaltar que para evitar qualquer tipo de tendˆencia (bias) nos expe-
rimentos, todas as m´usicas dispon´ıveis foram selecionadas aleatoriamente sem repeti¸ao
para compor os conjuntos utilizados nos experimentos. A quest˜ao da an´alise estat´ıstica
dos resultados obtidos foi amplamente discutida durante o desenvolvimento do trabalho.
Por´em, como ao utilizados trˆes segmentos da m´usica com o mesmo conjunto de carac-
ter´ısticas em todos os casos, ao fazia sentido em comparar os diferentes se gmentos da
m´usica, pois o objeto que estava sendo comparado ao era o mesmo, apesar das ca-
racter´ısticas serem as mesmas. Se fosse poss´ıvel realizar a an´alise estat´ıstica, teria sido
utilizado um dos m´etodos abordados em (DEMSAR, 2006).
Outra observao importante ´e que o odulo de classifica¸ao do sistema ´e inte-
grado ao framework WEKA (WITTEN; FRANK, 2005) que pe rmite obter a probabilidade
de cada classe mesmo para classificadores como o k-NN, que normalmente ao fornece
probabilidades na sa´ıda, sendo que neste caso as distˆancias ao convertidas em probabili-
dades.
4.1 Decomposi¸ao Temporal Vs. usica Inteira
Os objetivos deste primeiro experimento foram:
39
Tabela 4.1: Taxa de classifica¸ao correta (%) utilizando segmentos isolados vs. m´usica
inteira sobre o conjunto de testes.
Taxa de Classifica¸ao Correta (%)
Classificador Seg
beg
Seg
mid
Seg
end
MI
J48 39.60 44.44 38.80 44.20
3-NN 45.83 56.26 48.43 57.96
MLP 53.96 56.40 48.26 56.46
NB 44.43 47.76 39.13 48.00
SVM 57.43 63.50 54.60 63.40
Verificar o desempenho dos classificadores nos segmentos do in´ıcio (Seg
beg
), meio
(Seg
mid
) e fim (Seg
end
) da m´usica;
Combinar classificadores utilizando o etodo de Decomposi¸ao Temporal com as
diferentes regras de combina¸ao baseadas nas probabilidades a posteriori de cada
classificador;
Verificar o desempenho deste etodo em rela¸ao aos classificadores treinados utili-
zando caracter´ısticas extra´ıdas da m´usica inteira e aos classificadores que utilizam
somente um segmento da m´usica.;
A Tabela 4.1 apresenta os resultados obtidos por cada classificador treinado uti-
lizando cada um dos trˆes segmentos e tamb´em utilizando um classificador treinado uti-
lizando as caracter´ısticas extra´ıdas da MI (usica Inteira). Uma an´alise dos resultados
apresentados na tabela 4.1 mostra que considerando apenas os trˆes segmentos, em todos
os casos os melhores resultados ao obtidos pelo Seg
mid
e ao pelo Seg
beg
que ´e comumente
utilizado na literatura. Outro aspecto interessante ´e que as caracter´ısticas extra´ıdas dos
diferentes segmentos da m´usica levam a resultados significativamente diferentes conside-
rando a taxa de classifica¸ao correta. Alguns motivos para isto ´e que devido aos eneros
utilizados, como Salsa em que algumas vezes come¸ca como uma m´usica lenta e depois de
algum tempo elas “explodem”e diversos instrumentos come¸cam a tocar. Outra poss´ıvel
raz˜ao para este comportamento ´e que o Seg
mid
´e normalmente mais est´avel que o resto
da m´usica.
Ao comparar o desempenho obtido utilizando os segmentos individuais em rela¸ao
`a m´usica inteira, observou-se que utilizar a m´usica inteira fornece resultados similares
ou superiores ao Seg
mid
. Entretanto, utilizar caracter´ısticas da m ´usica inteira ´e compu-
tacionalmente mais caro do que utilizar ap enas um ´unico segmento. Por exemplo, para
uma m´usica de 4 minutos e 57 segundos, para extrair caracter´ısticas da m´usica inteira ao
gastos em edia 56 segundos e 40 segundos para extrair caracter´ısticas dos trˆes segmentos.
40
A tabela 4.2 apresenta os resultados para cada classificador utilizando diferentes
regras de combina¸ao a-posteriori onde, MAJ indica Voto da Maioria (Majority Voting),
WS indica Soma Ponderada (Weighted Sum). Para WS I (Weighted Sum I) foram con-
siderados os valores de α = 0.3, β = 0.6 e γ = 0.1. Para WS II foram considerados
os valores de α = 0.25, β = 0.5 e γ = 0.25. WP indica Produto Ponderado (Weighted
Product e os pesos utilizados foram os mesmos que para WS I e II respectivamente. Os
pesos foram definidos desta forma para atribuir ao classificador do Seg
mid
um peso um
pouco maior que os demais. Contudo, estes pesos poderiam ser melhorados utilizando
algoritmos gen´eticos para buscar uma me lhor combina¸ao dos pesos. Este procedimento
possivelmente levaria a um desempenho um pouco melhor. No intuito de facilitar a com-
para¸ao dos m´etodos de combina¸ao em rela¸ao aos respec tivos classificadores utilizando
a MI, os resultados da tabela 4.1 ao repetidos.
Tabela 4.2: Taxa de classifica¸ao correta (%) utilizando arias regras para a combina¸ao
de classificadores vs. m´usica inteira sobre o conjunto de testes.
Taxa de Classifica¸ao Correta (%)
Classificador MAJ MAX SUM WS I WS I I PROD WP I WP II MI
J48 47.33 43.76 47.30 45.93 47.63 20.50 20.50 20.50 44.20
3-NN 60.46 60.67 62.66 61.60 63.16 62.06 61.40 62.26 57.96
MLP 59.43 57.40 61.83 58.16 59.63 62.50 62.16 62.56 56.46
NB 46.03 45.96 46.66 48.40 47.80 46.13 48.06 46.80 48.00
SVM 65.06 64.13 65.73 66.76 66.46 65.50 66.50 66.30 63.40
A an´alise dos resultados da tabela 4.2 mostram que a eficiˆencia das regras de
combina¸ao dependem dos classificadores utilizados. Para os classificadores 3-NN, MLP
e SVM, em todos os casos as regras de combina¸ao fornecem melhores resultados do que
utilizar a m´usica inteira. Para o Classificador NB as ´unicas regras de combina¸ao que
provˆem resultados similares ao utilizar a m´usica inteira ao a soma e produto ponderados
I (WS I e WP I respectivamente). Para o J48 as regras de voto da maioria, soma e
somas ponderadas apresentam resultados melhores do que a m´usica inteira. O baixo
desempenho obtido pelo classificador J48 em rela¸ao `a regra de combina¸ao do produto e
produto ponderado ´e em fun¸ao de um grande n´umero de empates que ocorreram no caso
deste classificador. Este foi o ´unico classificador em que ocorreram empates utilizando
as regras de combina¸ao. Os melhores resultados em todos os experimentos desta se¸ao
foram obtidos utilizando o classificador SVM. A melhor taxa de classifica¸ao obtida foi
de 66.76% utilizando a regra de combina¸ao WS I.
Com os experimentos realizados nesta se¸ao ficou provado que o uso da estrat´egia
de decomposi¸ao temporal fornece melhores resultados do que utilizar a m´usica inteira ou
41
os segmentos individualmente.
4.2 Decomposi¸ao Temporal–Espacial
Os objetivos deste segundo experimento foram:
Verificar o desempenho dos classificadores nos segmentos do in´ıcio (Seg
beg
), meio
(Seg
mid
), fim (Seg
end
) e na m´usica inteira utilizando os m´etodos de Decomposi¸ao
Espacial, mais especificamente OAA e RR;
Utilizar a estrat´egia de Decomposi¸ao Temporal–Espacial e comparar seu desem-
penho com o m´etodo de Decomposi¸ao Temporal;
A Tabela 4.3 apresenta os resultados obtidos p or cada classificador treinado utili-
zando cada um dos trˆes segmentos com as estrat´egias de OAA e RR. De forma a facilitar a
compara¸ao destes etodos aos resultados obtidos nos experimentos da Se¸ao 4.1, a coluna
BL (Baseline) apresenta os resultados obtidos por cada classificador em cada segmento
sem utilizar os etodos de decomposi¸ao do espa¸co do problema para cada segmento da
m´usica. Tamb´em ´e importante ressaltar que como o classificador SVM foi utilizado por
padr˜ao com a estrat´egia de decomposi¸ao Round Robin, os resultados para a coluna BL
foram omitidos.
Tabela 4.3: Taxa de Reconhecimento (%) utilizando OAA e RR nos segmentos individuais.
Seg
beg
Seg
mid
Seg
end
Classificador BL OAA RR BL OAA RR BL OAA RR
J48 39.60 41.56 45.96 44.44 44.56 49.93 38.80 38.42 45.53
3-NN 45.83 45.83 45.83 56.26 56.26 56.26 48.43 48.43 48.43
MLP 53.96 52.53 55.06 56.40 53.08 54.59 48.26 51.96 51.92
NB 44.43 42.76 44.43 47.76 45.83 47.79 39.13 37.26 39.19
SVM 26.63 57.43 36.82 63.50 28.89 54.60
A an´alise dos resultados apresentados na tabela 4.3 mostra que para o classificador
J48 a estr´ategia RR melhora os resultados do classificador enquanto que a estr´ategia de
OAA produz melhoras mas ao ao significativas. Para o classificador 3-NN os resulta-
dos ao sempre os mesmos, por´em uma observao interessante olhando os arquivos de
resultados ´e que as respostas fornecidas em cada estrat´e gia ao diferentes. Para a MLP as
estrat´egias de decomposi¸ao melhoram o desempenho do in´ıcio da m´usica utilizando RR e
no final da m´usica utilizando tanto OAA como RR. Para o classificador NB as estrat´egias
de decomposi¸ao ao melhoraram a performance do classificador. Para o SVM pode ser
42
observado como a escolha da estrat´egia de decomposi¸ao do espa¸co do problema p ode fa-
zer com que o melhor classificador utilizando RR possa ser o pior ao utilizar a estrat´egia
de OAA. Em geral, o etodo de RR fornece resultados superiores ou equivalentes ao BL,
a ´unica exce¸ao foi para o classificador MLP para o Seg
mid
.
Na tabela 4.4 ao apresentados os resultados utilizando as t´ecnicas de decomp osi¸ao
do espa¸co do problema na m´usica inteira, e tamb´em com o m´etodo de Decomposi¸ao
Temporal–Espacial. Nessa tabela os valores do BL ao definidos pelos valores obtidos
sem estrat´egias de de composi¸ao do espaco do problema para m´usica, e utilizando os
valores do experimento anterior com o voto da maioria.
Tabela 4.4: Taxa de reconhecimento (%) utilizando decomposi¸ao temporal–espacial vs.
m´usica inteira
Ensembles MI
Classificador BL OAA RR BL OAA RR
J48 47.33 49.63 54.06 44.20 43.79 50.63
3-NN 60.46 59.96 61.12 57.96 57.96 59.93
MLP 59.43 61.03 59.79 56.46 58.76 57.86
NB 46.03 43.43 47.19 48.00 45.96 48.16
SVM 30.79 65.06 37.46 63.40
A an´alise dos resultados apresentados na tabela 4.4 mostra que para a m´usica
inteira o uso da estr´ategia de RR sempre aumenta a taxa de acerto de qualquer um
dos classificadores em rela¸ao ao BL, enquanto a estrat´egia de OAA fornece resultados
superiores apenas para a rede neural MLP. Ao comparar os resultados da MI em rela¸ao
aos trˆes segmentos, a m´usica inteira utilizando RR sempre fornece resultados melhores do
que os obtidos por qualquer segmento indiferente da estrat´egia de combina¸ao utilizada.
A ´unica exce¸ao ´e para a rede MLP em que os melhores resultados ao obtidos utilizando
a estrat´egia de OAA.
No caso dos resultados utilizando Decomposi¸ao Temporal–Espacial, as estrat´egias
de OAA e RR podem melhorar o desempenho dos classificadores, mas esta melhora ao ´e
significativa. a a compara¸ao da m´usica inteira em rela¸ao ao m´etodo de Decomposi¸ao
Temporal–Espacial mostra um resultado semelhante ao experimento anterior, visto que
para os classificadores J48, 3-NN e MLP em todos os casos as regras de combina¸ao
fornecem melhores resultados do que utilizar a m´usica inteira e para o NB os resultados
ao inferiores ou similares. Para o SVM os resultados o ao superiores ao utilizar a
estrat´egia de RR.
43
4.3 Sele¸c˜ao de Caracter´ısticas
Os objetivos deste terceiro experimento foram:
Utilizar o etodo de sele¸ao de atributos com algoritmos gen´eticos em cada um dos
segmentos utilizados pelo m´etodo de Decomposi¸ao Temporal e tamb´em na m´usica
inteira;
Verificar se a combina¸ao das caracter´ısticas selecionadas, pelo etodo de sele¸ao de
atributos, em cada segmento em conjunto com as diferentes regras de combina¸ao,
baseadas nas probabilidades a posteriori de cada classificador, aumentam a taxa de
reconhecimento dos classificadores;
Verificar se o m´etodo de sele¸ao de atributos consegue discriminar um sub conjunto
de caracter´ısticas relevantes para aumentar a taxa de reconhecimento dos classifica-
dores treinados com caracter´ısticas extra´ıdas da m´usica inteira.
Comparar o desempenho dos classificadores utilizando sele¸ao de atributos com De-
composi¸ao Temporal e diferentes regras de c ombina¸ao baseadas nas probabilidades
a posteriori em rela¸ao aos classificadores treinados utilizando sele¸ao de atributos
com a m´usica inteira.
A Tabela 4.5 apresenta os resultados obtidos por cada classificador treinado uti-
lizando cada um dos trˆes segmentos utilizando o n´umero de caracter´ısticas selecionadas
pelo AG (que ao indicadas na coluna #) e tamem os resultados obtidos sem utilizar a
sele¸ao de atributos que ao tidos como Baseline (BL).
Tabela 4.5: Taxa de classifica¸ao correta (%) utilizando sele¸ao de atributos com AG nos
segmentos individuais.
Seg
beg
Seg
mid
Seg
end
Classificador BL GA # BL GA # BL GA #
J48 39.60 44.70 15 44.44 45.76 21 38.80 38.73 18
3-NN 45.83 51.19 14 56.26 60.02 18 48.43 51.11 19
MLP 53.96 52.73 22 56.40 54.73 24 48.26 47.86 18
NB 44.43 45.43 21 47.76 50.09 18 39.13 39.66 24
SVM 57.43 57.13 24 63.50 59.70 22 54.60 55.33 24
A an´alise dos resultados apresentados na tabela 4.5 mostra que o m´etodo de sele¸ao
de atributos se mostrou eficiente para os classificadores J48, 3-NN e NB melhorando a taxa
de acerto ou pelo menos mantendo uma taxa de acerto similar, por´em com um n´umero
44
reduzido de atributos. Para a rede MLP o n´umero de atributos foi reduzido por´em a taxa
de reconhecimento foi prejudicada. Isto tamb´em aconteceu com o SVM com exce¸ao do
Seg
end
, onde o m´etodo de sele¸ao de atributos forneceu um n´umero menor de atributos
com uma melhora na taxa de classifica¸ao.
Na tabela 4.6 ao apresentados os resultados utilizando a ecnica de Decomposi¸ao
Temporal com os vetores de caracter´ısticas gerados utilizando o m´etodo de sele¸ao de
atributosdos para cada segmento. Tamb´em ao apresentados os resultados para a m´usica
inteira com o respectivo n´umero de atributos selecionados (#). Os resultados obtidos
utilizando o m´etodo de Decomposi¸ao Temporal s em o uso do etodo de sele¸ao de
atributos, foram repetidos para facilitar a compara¸ao dos resultados.
Tabela 4.6: Taxa de classifica¸ao correta (%) utilizando arias regras para a combina¸ao
de classificadores vs. m´usica inteira sobre o conjunto de testes.
Classificador MAJ MAX SUM WS I WS II PROD WP I WP II MI
J48 47.33 43.76 47.30 45.93 47.63 20.50 20.50 20.50 44.20
J48-GA 50.10 46.00 50.90 47.03 49.30 22.83 22.83 22.83 45.13 (#19)
3-NN 60.46 60.67 62.66 61.60 63.16 62.06 61.40 62.26 57.96
3-NN-GA 63.20 63.00 63.93 64.43 64.86 64.26 64.80 64.73 57.30 (#16)
MLP 59.43 57.40 61.83 58.16 59.63 62.50 62.16 62.56 56.46
MLP-GA 59.30 57.70 60.33 56.90 58.33 60.90 60.73 60.96 53.56 (#24)
NB 46.03 45.96 46.66 48.40 47.80 46.13 48.06 46.80 48.00
NB-GA 47.10 44.80 48.00 51.46 51.03 47.76 51.06 49.36 49.63 (#19)
SVM 65.06 64.13 65.73 66.76 66.46 65.50 66.50 66.30 63.40
SVM-GA 63.03 60.43 64.40 64.40 64.40 64.90 64.60 64.36 61.13 (#22)
A an´alise dos resultados da tabela 4.6 mostra que para a usica inteira, o etodo
de sele¸ao de atributos reduz o n´umero de caracter´ısticas por´em apenas para os classifi-
cadores J48 e 3-NN a taxa de reconhecimento ´e similar ao resultados obtidos sem o uso
do etodo de sele¸ao de atributos. a o etodo de Decomposi¸ao Temporal aliado `a
sele¸ao de atributos fornece melhoras na taxa de reconhecimento dos classificadores J48 e
3-NN em todos os casos. Os classificadores MLP e NB possuem taxas de reconhecimento
melhores em alguns casos e piores em outros e no caso do SVM o m´etodo utilizando
sele¸ao de atributos sempre piora ou ´e igual a taxa de reconhecimento. Em compara¸ao
com a m´usica inteira, considerando apenas os resultados utilizando sele¸ao de atributos,
os resultados ao similares aos do experimento 1, ou seja, para os classificadores 3-NN-GA
e MLP-GA para todos os casos as regras de combina¸ao fornecem melhores resultados do
que utilizar a m´usica inteira. Para o classificador SVM isto acontece em todos os casos,
menos para a regra de combina¸ao MAX. Para o J48, com exce¸ao das regras baseadas
no produto, todas as outras apresentam resultados melhores do que a m´usica inteira,
45
Tabela 4.7: Caracter´ısticas selec ionadas para cada segmento dos classificadores 3-NN, J48
e MLP.
3-NN J48 MLP
# Full Seg
beg
Seg
mid
Seg
end
Full Seg
beg
Seg
mid
Seg
end
Full Seg
beg
Seg
mid
Seg
end
1 X X X X
2 X X
3 X X X X
4 X X X X
5 X X
6 X X X X X X X X X X X
7 X X X X X X X X X
8 X X X X X X
9 X X X X X X X X X X X X
10 X X X X X X X X X
11 X X X X X X X X
12 X X X X X X X
13 X X X X X X X X X X X
14 X X X X X X
15 X X X X X X X X X X X
16 X X X X X X X X X X X X
17 X X X X X X X X X
18 X X X X X X X X X X X X
19 X X X X X X X X X
20 X X X X X X X X
21 X X X X X X X X X X X X
22 X X X X X X X X X X X
23 X X X X X X X X X X X X
24 X X X X X X X X
25 X X X X X X X X X X
26 X X X
27 X X X X
28 X X X X X X X X X
29 X
30 X X
enquanto que para o NB as regras com pesos ponderados (WS I, WS I I , WP I, WP II)
apresentam resultados superiores a utilizar a m´usica inteira.
Desta forma o m´etodo de sele¸ao de c aracter´ısticas considerando os segmentos
individuais o se mostrou eficiente, melhorando a taxa de classifica¸ao e reduzindo o
n´umero de caracter´ısticas, para os classificadores J48, 3-NN e NB. Utilizando a m´usica
inteira o etodo o foi eficente para os classificadores J48 e NB. A combina¸ao do etodo
Tabela 4.8: Caracter´ısticas selecionadas para cada segmento dos classificadores NB e
SVM.
NB SVM
# Full Seg
beg
Seg
mid
Seg
end
Full Seg
beg
Seg
mid
Seg
end
1 X X X X X X X
2 X X X X X
3 X X X
4 X X X X
5 X X X X
6 X X X X X X X
7 X
8 X X X X
9 X X X X X X X X
10 X X X X X X X X
11 X X X X
12 X X X X X X X
13 X X X X X X X X
14 X X
15 X X X X X X X X
16 X X X X X X X X
17 X X X X X X X X
18 X X X X X X X X
19 X X X X X X X
20 X X X X X
21 X X X X X X X
22 X X X X X X X X
23 X X X X X X
24 X X X X
25 X X X X X X X
26 X X X X X X X
27 X X X X X
28 X X X X X X X X
29 X X
30 X X X X
46
de sele¸ao de caracter´ısticas e Decomposi¸ao Temporal forneceu resultados eficientes para
os classificador J48 e 3-NN.
As tabelas 4.7 e 4.8 apresentam quais foram as caracter´ısticas selecionadas para
cada classificador e cada segmento. O s´ımbolo # indica o n´umero da caracter´ıstica.
4.4 Decomposi¸ao Temporal-Espacial com Sele¸ao de Ca-
racter´ısticas
Os objetivos deste quarto experimento foram:
Verificar se a estrat´egia de Decomposi¸ao Temporal–Espacial pode se beneficiar do
uso do m´etodo de sele¸ao de atributos.
Verificar se a estrat´egia de Decomposi¸ao Espacial com o m´etodo de sele¸ao de
atributos aumenta o desempenho dos classificadores treinados utilizando a m´usica
inteira.
Comparar o desempenho dos classificadores utilizando sele¸ao de atributos com
Decomposi¸ao Temporal–Espacial em rela¸ao aos m´etodos anteriores e tamem com
a m´usica inteira.
Nesta se¸ao visando uma avalia¸ao geral dos resultados e uma compara¸ao com os
experimentos anteriores, em todas as tabelas os resultados obtidos combinando o m´etodo
de sele¸ao de atributos com a combina¸ao de estrat´egia de decomposi¸ao do espa¸co do
problema ao apresentados nas colunas FS-OAA para o m´etodo utilizando a estrat´egia
de OAA e FS-RR para o etodo utilizando a estrat´egia de RR. As demais colunas ao
referentes aos experimentos anteriores onde: BL indica o baseline que foi definido no
experimento da se¸ao 4.1, ou seja, sem nenhum etodo de decomposi¸ao do espa¸co do
problema ou sele¸ao de atributos; OAA e RR indicam os resultados obtidos no experi-
mento da se¸ao 4.2, utilizando as estrat´egia de decomp osi¸ao do espa¸co do problema; FS
indicam os resultados obtidos no experimento da se¸ao 4.3 utilizando apenas o etodo
de sele¸ao de atributos. Os resultados obtidos para os segmentos Seg
beg
, Seg
mid
e Seg
end
ao apresentados nas tabelas 4.9, 4.10 e 4.11 respectivamente.
A an´alise dos resultados apresentados na tabela 4.9 indica que para os classifica-
dores J48 e 3-NN o m´etodo de sele¸ao de caracter´ısticas com Decomposi¸ao Temporal–
Espacial fornece melhores resultados considerando o Seg
beg
. Para a rede MLP o m´etodo
produz melhores resultados do que utilizando apenas sele¸ao de caracter´ısticas. Por´em,
47
Tabela 4.9: Taxa de Reconhecimento (%) utilizando as diversas estrat´egias no Seg
beg
.
Seg
beg
Classificador BL OAA RR FS FS-OAA FS-RR
J48 39.60 41.56 45.96 44.70 43.52 48.53
3-NN 45.83 45.83 45.83 51.19 51.73 53.36
MLP 53.96 52.53 55.06 52.73 53.99 54.13
NB 44.43 42.76 44.43 45.43 43.46 45.39
SVM 23.63 57.43 26.16 57.13
ainda ´e inferior aos resultados obtidos utilizando apenas Decomp osi¸ao Temporal–Espacial
sem FS com a estrat´egia de decomposi¸ao RR. Para o classificador NB os resultados
ao melhores do que o BL e as estrat´egias anteriores, mas ainda ainda ao inferiores ao
m´etodo FS. Para o SVM os resultados ao inferiores aos obtidos utilizando Decomposi¸ao
Temporal–Espacial com RR.
Tabela 4.10: Taxa de reconhecimento (%) utilizando as diversas estrat´egias no Seg
mid
.
Seg
mid
Classificador BL OAA RR FS FS-OAA FS-RR
J48 44.44 44.56 49.93 45.76 45.09 50.86
3-NN 56.26 56.26 56.26 60.02 60.95 62.55
MLP 56.40 53.08 54.59 54.73 54.76 49.76
NB 47.76 45.83 47.79 50.09 48.79 50.69
SVM 38.62 63.50 32.86 59.70
A an´alise dos resultados apresentados na tabela 4.10 indica que para o Seg
mid
o
m´etodo de FS com Decomposi¸ao Temporal–Espacial com RR fornecem melhores resulta-
dos para os classificadores J48, 3-NN e NB. Para a rede MLP os resultados obtidos ainda
ao inferiores ao BL. Para o SVM os resultados forem inferiores aos anteriores em ambos
os casos.
Tabela 4.11: Taxa de reconhecimento (%) utilizando as diversas estrat´egias no Seg
end
.
Seg
end
Classificador BL OAA RR FS FS-OAA FS-RR
J48 38.80 38.42 45.53 38.73 38.99 45.86
3-NN 48.43 48.43 48.43 51.11 51.10 53.49
MLP 48.26 51.96 51.92 47.86 50.53 49.64
NB 39.13 37.26 39.19 39.66 37.63 39.59
SVM 28.89 54.60 28.22 55.33
48
A an´alise dos resultados apresentados na tabela 4.11 indica que para o Seg
end
os
resutados o foram superiores para o classificador 3-NN. Nos demais os resultados foram
similares, utilizando RR, para os classificadores SVM, NB, e J48. Para a rede MLP ao
houve melhora, sendo que os m´etodos de OAA e RR sem FS fornecem melhores resultados.
Tabela 4.12: Taxa de reconhecimento (%) utilizando as diversas estrat´egias na m´usica
inteira (MI).
MI
Classificador BL OAA RR FS FS-OAA FS-RR
J48 44.20 43.79 50.63 45.13 45.09 49.39
3-NN 57.96 57.96 59.93 57.30 58.22 59.47
MLP 56.46 58.76 57.86 53.56 53.82 54.46
NB 48.00 45.96 48.16 49.63 47.83 49.63
SVM 37.46 63.40 32.92 61.13
A an´alise dos resultados apresentados na tabela 4.12 indica que para o classificador
J48, os etodos de FS-OAA e FS-RR ao tiveram melhoras significativas, a melhor taxa
de acerto foi obtida com o etodo RR. Para o 3-NN os resultados foram similares, por´em
a melhor taxa de acerto foi obtida com o etodo de FS sem RR. Para o MLP e SVM
os resultados foram inferiores aos obtidos nos experimentos anteriores. Somente para o
classificador NB com o FS-RR ´e que os resultados foram melhores do que os anteriores.
Tabela 4.13: Taxa de Reconhecimento (%) utilizando as t´ecnicas de combina¸ao.
Ensembles
Classificador BL OAA RR FS FS-OAA FS-RR
J48 47.33 49.63 54.06 50.10 50.03 55.46
3-NN 60.46 59.96 61.12 63.20 62.77 64.10
MLP 59.43 61.03 59.79 59.30 60.96 56.86
NB 46.03 43.43 47.19 47.10 44.96 49.79
SVM 30.79 65.06 29.47 63.03
A an´alise dos resultados apresentados na tabela 4.12 indica que para os classifi-
cadores J48, 3-NN e NB o m´etodo FS-RR fornece melhora nos resultados. Para a rede
MLP o m´etodo FS-OAA produz resultados similares ao do OAA sem sele¸ao de atributos.
Para o SVM os melhores resultados ao obtidos sem o uso de FS.
49
4.5 Avalia¸c˜ao e Discuss˜ao dos Resultados
Nesta se¸ao ´e realizada a avalia¸ao e discuss˜ao dos resultados obtidos no de senvol-
vimento deste trabalho.
No 1
o
experimento foi poss´ıvel observar que em todos os casos utilizar o Seg
mid
fornece melhores resultados do que utilizar a ab ordagem comum na literatura que utiliza
o Seg
beg
. E ssa observao a havia sido feita em um experimento anterior (SILLA JR.;
KAESTNER; KOERICH, 2006a) utilizando uma vers˜ao da Latin Music Database com apenas
dois eneros. Al´em disto, foi poss´ıvel verificar que o uso das t´ecnicas de combina¸ao
sempre fornece resultados melhores do que utilizar apenas um ´unico segmento da m´usica
e tamem sempre produz resultados melhores do que utilizar a m´usica inteira no caso dos
classificadores mais robustos (SVM, MLP e 3-NN). Isto mostra que a quest˜ao levantada
no trabalho de (MCKAY; FUJINAGA, 2006) onde era argumentado que utilizar as m´edias
das caracter´ısticas ao longo da m´usica inteira poderia ser uma abordagem limitada, de
fato ´e verificada.
No 2
o
experimento o m´etodo de Decomposi¸ao Temporal–Espacial sempre apre-
senta para todos os classificadores uma melhora na taxa de reconhecimento utilizando
a estrat´egia de Round Robin. Apenas para a rede MLP ´e que uma melhora na taxa
de acerto ´e obtida utilizando a estrat´egia de Um-Contra-Todos (One-Against-All). Uti-
lizando o MLP com OAA de exemplo ´e poss´ıvel observar como apesar de no caso dos
segmentos individuais o desempenho do ensemble melhorou, isto se deve a um aumento
na diversidade introduzida pelo etodo de decomposi¸ao do problema que levou a uma
melhora no uso da estrat´egia de combina¸ao. Outra observao importante ´e que, em
rela¸ao a um experimento anterior (SILLA JR.; KAESTNER; KOERICH, 2006b) utilizando
uma vers˜ao da base com 4 gˆeneros o m´etodo de Decomposi¸ao Temporal–Espacial, os re-
sultados obtidos utilizando o m´etodo na base de 10 gˆeneros ao superiores aos resultados
utilizando os segmentos individualmente. Isto confirma as expectativas apresentadas no
trabalho citado de que o m´etodo de Decomposi¸ao Temporal–Espacial fornece melhores
resultados com um n ´umero maior de classes, visto que as fun¸oes de decis˜ao e separa¸ao
das classes se tornam mais complexas.
No 3
o
experimento o m´etodo de sele¸ao de atributos com algoritmos gen´eticos para
classifica¸ao dos segmentos da m´usica se mostrou eficiente para os classificadores J48, 3-
NN e NB e ineficiente para SVM e MLP. Para a m´usica inteira o m´etodo de sele¸ao de
atributos somente forneceu resultados melhores para J48 e NB. O uso da Decomposi¸ao
Temporal em conjunto com o m´etodo de sele¸ao de atributos forneceu uma melhora si-
gnificativa para o classificador 3-NN. Apesar desta melhora ter sido apenas para este
50
classificador, este resultado corrobora com os experimentos recentemente realizados em
(YASLAN; CATALTEPE, 2006) onde os resultados positivos tamem foram obtidos utili-
zando o classificador k-NN.
No 4
o
experimento foi integrado o m´etodo de Decomposi¸ao Temporal–Espacial
ao odulo de sele¸ao de atributos e os resultados obtidos foram comparados com os re-
sultados realizados nos trˆes experimentos anteriores. Para a classifica¸ao dos segmentos
individuais o etodo apresenta melhora para Seg
beg
e Seg
mid
com os classificadores J48,
3-NN e NB. Para Seg
end
um aumento na taxa de reconhecimento ´e obtida com os classifi-
cadores J48, 3-NN e SVM. Em todos os casos os resultados ao obtidos com a estrat´egia de
RR. Para a m´usica inteira somente o classificador NB apresenta resultados melhores em
rela¸ao aos demais experimentos. Para a estrat´egia de combina¸ao ´e obtida uma melhora
nos resultados dos classificadores J48, 3-NN e NB.
No intuito de verificar qual a melhor estrat´egia para cada classificador utilizado foi
criada a tabela 4.14 que apresenta uma compara¸ao das melhoras taxas de classifica¸ao
considerando todos os experimentos realizados neste trabalho, onde % indica a taxa de
classifica¸ao e M indica o m´etodo utilizado.
Tabela 4.14: Compara¸ao das melhores taxas de classifica¸ao (%) em cada segmento, na
m´usica inteira e na combina¸ao
Seg
beg
Seg
mid
Seg
end
MI Ensemble
% M % M % M % M % M
J48 48.53 FS-RR 50.86 FS-RR 45.86 FS-RR 50.63 RR 55.46 FS-RR
3-NN 53.36 FS-RR 62.55 FS-RR 53.49 FS-RR 59.93 RR 64.86 FS-WS II
MLP 55.06 RR 56.40 BL 51.96 OAA 58.76 OAA 62.50 BL-PROD
NB 45.43 RR 50.69 FS-RR 39.66 FS 49.63 FS 51.46 FS-WS I
SVM 57.43 RR 63.50 RR 55.33 FS-RR 64.40 RR 66.76 RR- WS I
A an´alise dos resultados apresentados na tabela 4.14 mostra que em todos os
casos os melhores resultados ao obtidos utilizando alguma das t´ecnicas de combina¸ao
de classificadores.
51
Cap´ıtulo 5
Considera¸oes Finais
Neste trabalho foi apresentada uma abordagem baseada em combina¸ao de classi-
ficadores e sele¸ao de caracter´ısticas para a tarefa de classifica¸ao autom´atica de eneros
musicais. Para realizar a tarefa de classifica¸ao foram utilizados algoritmos cl´assicos de
aprendizagem supervisionada como
´
Arvores de Decis˜ao (J48), Na¨ıve Bayes (NB), k vizin-
hos mais pr´oximos (k-NN), aquinas de Suporte Vetorial (SVM), e redes neurais MLP.
Para realizar os experimentos foi constru´ıda uma base in´edita para a tarefa denominada
Latin Music Database que conem 3.160 m´usicas de 10 gˆeneros. Ap´os a constru¸ao da
base foram realizados quatro experimentos de classifica¸ao autom´atica de gˆeneros musi-
cais no intuito de verificar: (1) se o m´etodo de Decomposi¸ao Temporal fornece resultados
melhores do que utilizar os se gmentos individuais ou a m´usica inteira; (2) se o etodo
de Decomposi¸ao Temporal–Espacial fornece resultados superiores aos obtidos pela De-
composi¸ao Temporal; (3) se o uso de um mecanismo de sele¸ao de atributos baseado em
algoritmos gen´eticos melhora a taxa de reconhecimento dos eneros; e (4) se o uso desse
mecanismo de sele¸ao poderia melhorar os resultados dos m´etodos anteriores.
Cada um destes experimentos foi realizado e analisado, concluindo-se que as es-
trat´egias baseadas na combina¸ao de classificadores sempre fornecem melhores resultados
relativamente ao uso de segmentos isolados ou caracter´ısticas extra´ıdas da m´usica in-
teira. Durante a realiza¸ao diversas contribui¸oes cient´ıficas originais, algumas limita¸oes
e trabalhos futuros foram identificados.
As principais contribui¸oes deste trabalho para o estado da arte da classifica¸ao
autom´atica de gˆeneros musicais e para a recupera¸ao de informa¸oes musicais, ao:
A constru¸ao de uma nova base de dados intitulada de Latin Music Database, que
utilizou um procedimento in´edito para a atribui¸ao de eneros as m´usicas e pode ser
utilizada para diversas tarefas relacionadas a MIR, ao limitando-se a classifica¸ao
autom´atica de gˆeneros musicais;
52
A verifica¸ao de que o us o de combina¸ao de classificadores utilizando classificadores
treinados em diferentes trechos da m´usica ´e uma forma eficiente de realizar a tarefa,
obtendo resultados superiores ao uso de caracter´ısticas extra´ıdas da m´usica inteira
e tamb´em dos respectivos segmentos individuais. Uma observao importante ´e que
em nenhum trabalho da literatura ´e verificada a quest˜ao de que se utilizar um trecho
da m´usica (usualmente o in´ıcio) ´e melhor ou pior do que utilizar a m´usica inteira,
tornado essa avalia¸ao pioneira neste sentido;
A avalia¸ao do uso de mecanismos de sele¸ao de atributos baseados em algoritmos
gen´eticos, visto que este opico tem s ido somente indicado como trabalho futuro em
publica¸oes recentes da ´area;
Uma contribui¸ao menor por´em pertinente ´e que ficou evidente que se for utilizado
apenas um segmento da m ´usica o ideal ´e utilizar o Seg
mid
ao inv´es do Seg
beg
como
´e feito na literatura;
Este ´e o primeiro trabalho na ´area a considerar efetivamente a varia¸ao temporal
da m´usica, pois a decis˜ao, no caso da combina¸ao de classificadores leva em conta
caracter´ısticas extra´ıdas de diferentes segmentos da m´usica.
A principal limita¸ao desse trabalho est´a no odulo de sele¸ao de caracter´ısticas
que ´e dependente do MARSYAS. Por´em, pela forma como o sistema de classifica¸ao foi
implementado, ele pode ser substitu´ıdo facilmente por outros softwares de extra¸ao de
caracter´ısticas como o JAudio sem nenhuma dificuldade. Outra limita¸ao deste trabalho
´e que ao foram realizados experimentos no intuito de verificar a quantidade de segmentos
e/ou a dura¸ao de cada segmento para obter uma melhor taxa de classifica¸ao. Foi definido
no in´ıcio do projeto que seriam utilizados trˆes segmentos de trinta segundos e esta decis˜ao
foi seguida em todos os experimentos.
Com o desenvolvimento da Latin Music Database, existe um grande n´umero de
possibilidades para a c ontinua¸ao deste trabalho. Primeiramente pretende-se integrar
a base ao s istema OMEN de forma a disponibiliz´a-la para todos os pesquisadores da
comunidade MIR sem ter problemas com as quest˜oes de distribui¸ao em fun¸ao dos direitos
autorais das m´usicas. Al´em disto, seria interessante repetir os experimentos realizados na
base de dados CODAICH que logo estar´a integrada ao OMEN.
Tamb´em p oderiam ser utilizadas as novas ferramentas dispon´ıveis como o JAudio
para extra¸ao de outros vetores de caracter´ısticas. Outra op¸ao seria estudar o uso de
m´etodos de stacking como foi realizado no trabalho de (YASLAN; CATALTEPE, 2006) para
verificar se isso poderia trazer uma melhora para a tarefa de classifica¸ao.
53
Uma outra possibilidade interessante seria utilizar a combina¸ao de classificadores
utilizando t´enicas de webmining em conjunto com as caracter´ısticas extra´ıdas do conte´udo
do sinal de ´audio, al´em de um estudo comparativo utilizando diversas ecnicas de sele¸ao
de atributos, dentre elas o uso de algoritmos gen´eticos multi-objetivos e an´alise de com-
ponentes principais.
54
Referˆencias Bibliogr´aficas
AUCOUTURIER, J. J.; PACHET, F. Representing musical genre: A state of the art.
Journal of New Music Research, v. 32, n. 1, p. 83–93, 2003.
BLUM, A.; LANGLEY, P. Selection of relevant features and examples in machine
learning. Artificial Intelligence, v. 97, n. 1-2, p. 245–271, 1997.
BRAY, S.; TZANETAKIS, G. Distributed audio feature extraction for music. In:
INTERNATIONAL CONFERENCE ON MUSIC INFORMATION RETRIEVAL, 6.,
2005, London, UK. Anais... London, UK: ISMIR, 2005. p. 434–437.
COSTA, C. H. L.; VALLE JR., J. D.; KOERICH, A. L. Automatic classification of
audio data. In: IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND
CYBERNETICS, 2004, Haia, Holanda. Anais... Haia, Holanda: IEEE Press, 2004. p.
562–567.
DASH, M.; LIU, H. Feature selection for classification. Intelligent Data Analysis, v. 1,
n. 1–4, p. 131–156, 1997.
DEMSAR, J. Statistical comparisons of classifiers over multiple data sets. Journal of
Machine Learning Research, v. 7, p. 1–30, 2006.
DIETTERICH, T. G. Ensemble methods in machine learning. In: INTERNATIONAL
WORKSHOP ON MULTIPLE CLASSIFIER SYSTEM, 1., 2000, Cagliari, Italy. Anais...
Cagliari, Italy: Springer, 2000. (Lecture Notes in Computer Science, 1857), p. 1–15.
DOWNIE, J. S.; CUNNINGHAM, S. J. Toward a theory of music information retrieval
queries: System design implications. In: INTERNATIONAL CONFERENCE ON
MUSIC INFORMATION RETRIEVAL, 3., 2002, Paris, France. Anais... Paris, France:
ISMIR, 2002. p. 299–300.
55
FABBRI, F. Browsing Music Spaces: Categories and the Musical Mind. 1999. Disp on´ıvel
em: <http://www.mediamusicstudies.net/tagg/others/ffabbri9907.html>. Acesso em:
20 jan. 2007.
FIEBRINK, R.; FUJINAGA, I. Feature selection pitfalls and music classification. In:
INTERNATIONAL CONFERENCE ON MUSIC INFORMATION RETRIEVAL, 7.,
2006, Victoria, Canada. Anais... Victoria, Canada: ISMIR, 2006. p. 340–341.
FINGERHUT, M. The ircam multimedia library: A digital music library. In:
IEEE FORUM ON RESEARCH AND TECHNOLOGY ADVANCES IN DIGITAL
LIBRARIES, 1., 1999, Baltimore, USA. Anais... Baltimore, USA: IEEE Press, 1999. p.
19–21.
F
¨
URNKRANZ, J. Pairwise classification as an ensemble technique. In: EUROPEAN
CONFERENCE ON MACHINE LEARNING, 13., 2002, Helsinki, Finland. Anais...
Helsinki, Finland: Springer-Verlag, 2002. (Lecture Notes in Computer Science, v. 2430),
p. 97–110.
GRIMALDI, M.; CUNNINGHAM, P.; KOKARAM, A. An Evaluation of Alternative
Feature Selection Strategies and Ensemble Techniques for C lassifying Music. 2003.
Dispon´ıvel em: <http://www.mee.tcd.ie/˜ moumir/articles/Marco ECML2003-
MIW.pdf>. Acesso em: 10 out. 2005.
GRIMALDI, M.; CUNNINGHAM, P.; KOKARAM, A. A wavelet packet representation
of audio signals for music genre classification using different ensemble and feature
selection techniques. In: ACM SIGMM INTERNATIONAL WORKSHOP ON
MULTIMEDIA INFORMATION RETRIEVAL, 5., 2003, Berkeley, California. Anais...
Berkeley, California: ACM Press, 2003. p. 102–108.
GUO, G.; LI, S. Z. Content–based audio classification and retrieval by support vector
machines. IEEE Transactions on Neural Networks, v. 14, n. 1, p. 209–215, 2003.
HO, T. K. Nearest neighbors in random subspaces. In: ADVANCES IN PATTERN
RECOGNITION, JOINT IAPR INTERNATIONAL WORKSHOPS SSPR E SPR, 1998,
Sydney, Australia. Anais... Sydney, Australia: Springer Verlag, 1998. (Lecture Notes in
Computer Science, v. 1451), p. 640–648.
HOMBURG, H. et al. A benchmark dataset for audio classification and clustering. In:
INTERNATIONAL CONFERENCE ON MUSIC INFORMATION RETRIEVAL, 6.,
2005, London, UK. Anais... London, UK: ISMIR, 2005. p. 528–531.
56
HU, X. et al. Mining music reviews: Promising preliminary results. In: INTERNATIO-
NAL CONFERENCE ON MUSIC INFORMATION RETRIEVAL, 6., 2005, London,
UK. Anais... London, UK: ISMIR, 2005. p. 536–539.
KITTLER, J. et al. On combining classifiers. IEEE Transaction on Pattern Analysis and
Machine Intelligence, v. 20, n. 3, p. 226–239, March 1998.
KOERICH, A. L.; POITEVIN, C. Combination of homogeneous classifiers for musical
genre classification. In: IEEE INTERNATIONAL CONFERENCE ON SYSTEMS,
MAN, AND CYBERNETIC S, 2005, Hawaii, USA. Anais... Hawaii, USA: IEEE Press,
2005. p. 554–559.
KOSINA, K. Music Genre Recognition. Disserta¸ao (Mestrado) Fachlochschul
Hagenberg, Fachlochschul Hagenberg, 2002.
KUNCHEVA, L. I. Combining Pattern Classifiers. New Jersey: Wiley-Interscience, 2004.
360 p.
LEE, J. H.; DOWNIE, J. S. Survey of music information needs, uses, and seeking
behaviours: preliminary findings. In: INTERNATIONAL CONFERENCE ON MUSIC
INFORMATION RETRIEVAL, 5., 2004, Barcelona, Spain. Anais... Barcelona, Spain:
ISMIR, 2004. p. 441–446.
LI, T.; OGIHARA, M. Music genre classification with taxonomy. In: IEEE
INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH,AND SIGNAL
PROCESSING, 2005, Philadelphia, USA. Anais... Philadelphia, USA: ISMIR, 2005. p.
197–200.
LI, T.; OGIHARA, M.; LI, Q. A comparative study on content-based music genre
classification. In: INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH
AND DEVELOPMENT IN INFORMAION RETRIEVAL, 26., 2003, Toronto, Canada.
Anais... Toronto, Canada: ACM Press, 2003. p. 282–289.
LYMAN, P.; VARIAN, H. R. How much information. 2003. Dispon´ıvel em:
<http://www.sims.berkeley.edu/how-much-info-2003>. Acesso em: 25 mar. 2005.
MCENNIS, D.; MCKAY, C.; FUJINAGA, I. Overview of on-demand metadata
extraction network (omen). In: INTERNATIONAL CONFERENCE ON MUSIC
INFORMATION RETRIEVAL, 7., 2006, Victoria, Canada. Anais... Victoria, Canada:
ISMIR, 2006. p. 7–12.
57
MCENNIS, D. et al. Jaudio: A f eature extraction library. In: INTERNATIONAL
CONFERENCE ON MUSIC INFORMATION RETRIEVAL, 6., 2005, London, UK.
Anais... London, UK: ISMIR, 2005. p. 600–603.
MCKAY, C. et al. Ace: A framework for optimizing music classification. In:
INTERNATIONAL CONFERENCE ON MUSIC INFORMATION RETRIEVAL, 6.,
2005, London, UK. Anais... London, UK: ISMIR, 2005. p. 42–49.
MCKAY, C.; FUJINAGA, I. Musical genre classification: Is it worth pursuing and
how can it be. In: INTERNATIONAL CONFERENCE ON MUSIC INFORMATION
RETRIEVAL, 7., 2006, Victoria, Canada. Anais... Victoria, Canada: ISMIR, 2006. p.
101–106.
MCKAY, C.; MCENNIS, D.; FUJINAGA, I. A large publicly accessible database
of annotated audio for music research. In: INTERNATIONAL CONFERENCE ON
MUSIC INFORMATION RETRIEVAL, 7., 2006, Victoria, Canada. Anais... Victoria,
Canada: ISMIR, 2006. p. 160–163.
MENG, A.; AHRENDT, P.; LARSEN, J. Improving music genre classification by
short-time feature integration. In: IEEE INTERNATIONAL CONFERENCE ON
ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 30., 2005, Philadelphia, USA.
Anais... Philadelphia, PA, USA: IEEE PRESS, 2005. p. 497–500.
MOLINA, L. C.; BELANCHE, L.; NEBOT,
`
A. Feature selection algorithms: A survey
and experimental evaluation. In: IEEE INTERNATIONAL CONFERENCE ON DATA
MINING, 2002, Maebashi City, Japan. Anais... Maebashi City, Japan: IEEE Press,
2002. p. 306–313.
PAMPALK, E.; RAUBER, A.; MERKL, D. Content–based organization and visualization
of music archives. In: ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA,
10., 2002, Juan-les-Pins, France. Anais... Juan-les-Pins, France: ACM, 2002. p. 570–579.
SHAO, X.; XU, C.; KANKANHALLI, M. S. Applying neural network on the
content–based audio classification. In: INTERNATIONAL CONFERENCE ON
INFORMATION, COMMUNICATIONS ANDSIGNAL PROCESSING, 4., 2003,
Singapore. Anais... Singapore: IEEE Press, 2003. v. 3, p. 1821–1825.
SILLA JR., C. N.; KAESTNER, C. A. A.; KOERICH, A. L. Classifica¸¸ao autom´atica
de eneros musicais utilizando etodos de bagging e boosting. In: BRAZILIAN
58
SYMPOSIUM ON COMPUTER MUSIC, 10., 2005, Belo Horizonte, Brasil. Anais...
Belo Horizonte: SBC, 2005. p. 48–57.
SILLA JR., C. N.; KAESTNER, C. A. A.; KOERICH, A. L. Automatic genre
classification of latin music using ensemble of classifiers. In: SEMIN
´
ARIO INTEGRADO
DE SOFTWARE E HARDWARE, 33., 2006, Campo Grande, MS, Brasil. Anais... ao
Paulo: SONOPRESS, 2006. p. 47–53.
SILLA JR., C. N.; KAESTNER, C. A. A.; KOERICH, A. L. Time-space ensemble
strategies for automatic music genre classification. In: SICHMAN, J. S.; COELHO, H.;
REZENDE, S. O. (Ed.). Advances in Artificial Intelligence - IBERAMIA-SBIA 2006.
Ribeir˜ao Preto, Brasil: Springer, 2006. (Lecture Notes in Artificial Intelligence, v. 4140),
p. 339–348.
SWELDENS, W.; PIESSENS, R. Wavelet sampling techniques. In: STATISTICAL
COMPUTING SECTION, 1993, USA. Anais... USA: American Statistical Association,
1993. p. 20–29.
TZANETAKIS, G.; COOK, P. Marsyas: A framework f or audio analysis. Organized
Sound, v. 4, n. 3, p. 169–175, 1999.
TZANETAKIS, G.; COOK, P. Musical genre classification of audio signals. IEEE
Transactions on Speech and Audio Processing, v. 10, n. 5, p. 293–302, 2002.
VIGNOLI, F. Digital music interaction concepts: a user study. In: INTERNATIONAL
CONFERENCE ON MUSIC INFORMATION RETRIEVAL, 5., 2004, Barcelona, Spain.
Anais... Barcelona, Spain: ISMIR, 2004.
WEST, K.; COX, S. Finding an optimal segmentation for audio genre classification. In:
INTERNATIONAL CONFERENCE ON MUSIC INFORMATION RETRIEVAL, 6.,
2005, London, UK. Anais... London, UK: ISMIR, 2005. p. 680–685.
WITTEN, I. H.; FRANK, E. Data Mining: Practical machine learning tools and
techniques. 2nd. ed. San Francisco: Morgan Kaufmann, 2005.
YANG, J.; HONAVAR, V. Feature subset selection using a genetic algorithm. IEEE
Intelligent Systems, v. 13, n. 2, p. 44–49, 1998.
YASLAN, Y.; CATALTEPE, Z. Audio music genre classification using different classifiers
and feature selection methods. In: INTERNATIONAL CONFERENCE ON PATTERN
RECOGNITION, 18., 2006, Hong Kong. Anais... Hong Kong: ICPR, 2006. p. 573–576.
59
ZHANG, T.; KUO, C. C. J. Audio content analysis for online audiovisual data
segmentation and classification. IEEE Transactions on Speech and Audio Processing,
v. 9, n. 4, p. 441–457, 2001.
60
Gloss´ario
Algoritmo Gen´etico (AG)
´
E uma ecnica de procura utilizada na ciˆencia da computa¸ao para achar solu¸oes
aproximadas em problemas de otimiza¸ao e busca. Algoritmos gen´eticos ao uma
classe particular de algoritmos evolutivos que usam t´ecnicas inspiradas pela biologia
evolutiva como hereditariedade, muta¸ao, sele¸ao natural e recombina¸ao.
Altura da nota (Pitch )
Refere-se `a forma como o ouvido humano percebe a freq¨uˆencia dos sons. As baixas
freq¨encias ao percebidas como sons graves e as mais altas como sons agudos.
Aprendizagem Supervisionada
´
E um dos tipos de algoritmo de aprendizagem de aquina onde: na fase de trein-
amento ao apresentados os objetos e suas respectivas classes. No contexto deste
trabalho os objetos ao as m´usicas e as classes os eneros musicais.
Classificador
´
E um sistema que f az a classifica¸ao de objetos. Em linhas gerais, a tarefa do
classificador consiste em organizar os objetos de um dado universo em grupos ou
categorias, com um prop´osito espec´ıfico.
Espectro Sonoro (Timbral Texture)
´
E a distribui¸ao, no dom´ınio das freq¨encias, do conjunto de todas as ondas que
formam um som. O espectro ´e composto das amplitudes da freq¨encia fundamental
e de cada um dos harmˆonicos ou parciais que soam junto `a fundamental. O espectro
de um som define sua forma de onda e ´e um dos comp onentes do timbre de uma
voz ou instrumento musical.
Gˆenero Musical
´
E utilizada a defini¸ao de (FABBRI, 1999): “Um tipo de m ´usica, como ela ´e aceita
por uma comunidade por qualquer raz˜ao, prop´osito ou crit´erio”.
61
Meta-Informa¸oes Textuais
ao informa¸oes a respeito das m´usicas que est˜ao sendo utilizadas como t´ıtulo e
artista.
Padr˜ao R´ıtmico (Beat )
Refere-se `a forma como o ouvido humano percebe a batida de uma m´usic a.
62
Anexo A
O Formato do otulo ID3
O formato de ´audio MPEG layer I, layer II e layer III (MP3) ao tem uma forma
nativa de armazenar informa¸ao sobre o seu conte´udo, exceto por algums parametros
simples do tipo sim/n˜ao como “privado”, “copyrighted”e “original home”(indicando que
esse arquivo ´e o original e ao uma opia). Uma solu¸ao para esse problema apresentada
no programa “Studio3”, desenvolvido por Eric Kemp em 1996, consiste em adicionar
uma pequena quantidade de informa¸oes extras no final de um arquivo MP3 para p oder
armazenar informa¸oes a respeito do conte´udo daquele arquivo.
A localiza¸ao do otulo ID3, como essa informa¸ao ficou conhecida, foi provavel-
mente escolhida, pois havia pouca chance de apresentar problemas para os decodificadores.
No intuito de fazer o otulo ser facilmente detectado um tamanho fixo de 128 bytes foi es-
colhido. A Figura A.1 apresenta o layout do otulo ID3, enquanto a Tabela A.1 apresenta
o counte´udo das informa¸oes do oulo.
Tabela A.1: Informa¸oes do conte´udo do otulo ID3
Informa¸ao Tamanho
T´ıtulo 30 caracteres
Artista 30 caracteres
Album 30 caracteres
Ano 4 caracteres
Comenario 30 caracteres
Gˆenero 1 byte
Como pode ser visto na Tabela A.1 o campo enero possui apenas um byte, e al´em
disso o padr˜ao original o continha uma lista fixa de 80 gˆeneros (apresentados na tabela
A.2) que foi criada sem crit´erio algum. Como o campo enero ´e representado por um
byte, como visto na Tabela A.1, outros desenvolvedores adicionaram suas pr´oprias listas
de gˆeneros a lista original, impossibilitando uma padroniza¸ao.
63
Figura A.1: Esquema do Formato do otulo ID3 (www.id3.org)
Tabela A.2: Mapeamento dos Gˆeneros no Padr˜ao ID3
# Gˆenero # enero # Gˆenero # Gˆenero
0 Blues 20 Alternative 40 AlternRock 60 Top 40
1 Classic Rock 21 Ska 41 Bass 61 Christian Rap
2 Country 22 Death Metal 42 Soul 62 Pop/Funk
3 Dance 23 Pranks 43 Punk 63 Jungle
4 Disco 24 Soundtrack 44 Space 64 Native American
5 Funk 25 Euro-Techno 45 Meditative 65 Cabaret
6 Grunge 26 Ambient 46 Instrumental Pop 66 New Wave
7 Hip-Hop 27 Trip-Hop 47 Instrumental Rock 67 Psychadelic
8 Jazz 28 Vocal 48 Ethnic 68 Rave
9 Metal 29 Jazz+Funk 49 Gothic 69 Showtunes
10 New Age 30 Fusion 50 Darkwave 70 Trailer
11 Oldies 31 Trance 51 Techno-Industrial 71 Lo-Fi
12 Other 32 Classical 52 Electronic 72 Tribal
13 Pop 33 Instrumental 53 Pop-Folk 73 Acid Punk
14 R&B 34 Acid 54 Eurodance 74 Acid Jazz
15 Rap 35 House 55 Dream 75 Polka
16 Reggae 36 Game 56 Southern Rock 76 Retro
17 Rock 37 Sound Clip 57 Comedy 77 Musical
18 Techno 38 Gospel 58 Cult 78 Rock & Roll
19 Industrial 39 Noise 59 Gangsta 79 Hard Rock
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo