Download PDF
ads:
Sandra Mara Torres M¨uller
Adapta¸ao dos Modelos de Markov para um
Sistema de Segmenta¸ao e Classificao de
Sinais de Eletrocardiograma
Vit´oria - ES
2006
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Sandra Mara Torres M¨uller
Adapta¸ao dos Modelos de Markov para
Sistema um de Segmenta¸ao e
Classificao de Sinais de
Eletrocardiograma
Disserta¸ao apresentada ao Programa de
os-Gradua¸ao em Engenharia El´etrica do
Centro Tecnol´ogico da Universidade Fede-
ral do Esp´ırito Santo, como requisito parcial
para a obten¸ao do Grau de Mestre em Enge-
nharia El´etrica, na ´area de concentra¸ao em
Automa¸ao.
Orientadores: Prof. Dr. Teodiano Freire
Bastos Filho e Prof. Dr. ario Sarcinelli
Filho.
Co-orientador: Dr. Rodrigo Varej˜ao An-
dre˜ao.
Vit´oria - ES
2006
ads:
Dados Internacionais de Catalogação-na-publicação (CIP)
(Biblioteca Central da Universidade Federal do Espírito Santo, ES, Brasil)
Müller, Sandra Mara Torres, 1978-
M958a Adaptação dos modelos de Markov para um sistema de segmentação
e classificação de sinais de eletrocardiograma / Sandra Mara Torres
Müller. – 2006.
98 f. : il.
Orientadores: Teodiano Freire Bastos Filho e Mário Sarcinelli Filho.
Co-Orientador: Rodrigo Varejão Andreão.
Dissertação (mestrado) – Universidade Federal do Espírito Santo,
Centro Tecnológico.
1. Markov, Processos de. 2. Wavelets (Matemática). 3. Otimização
matemática. 4. Reconhecimento de padrões. I. Bastos Filho, Teodiano
Freire. II. Sarcinelli Filho, Mário. III. Andreão, Rodrigo Varejão.
IV.Universidade Federal do Espírito Santo. Centro Tecnológico. V. Título.
CDU: 621.3
Sandra Mara Torres M¨uller
Adapta¸ao dos Modelos de Markov para um Sistema de
Segmenta¸c˜ao e Classifica¸ao de Sinais de Eletrocardiograma
Disserta¸ao submetida ao Programa de os-Gradua¸ao em Engenharia El´etrica do
Centro Tecnol´ogico da Universidade Federal do Esp´ırito Santo, como requisito parcial
para a obten¸ao do Grau de Mestre em Engenharia El´etrica - Automa¸ao.
Aprovada em 03 de abril de 2006.
COMISS
˜
AO EXAMINADORA
Prof. Dr. Teodiano Freire Bastos Filho
Universidade Federal do Esp´ırito Santo
Orientador
Prof. Dr. ario Sarcinelli Filho
Universidade Federal do Esp´ırito Santo
Orientador
Dr. Rodrigo Varej˜ao Andre˜ao
Universidade Federal do Esp´ırito Santo
Co-Orientador
Prof. Dr. Evandro Ottoni Teatini Salles
Departamento de Engenharia El´etrica - UFES
Prof. Dr. Fernando Gil Vianna Resende Junior
Departamento de Eletrˆonica - UFRJ
Dedico este trabalho a minha fam´ılia, a meus amigos
e a todos que me ajudaram e sempre me ajudam.
Agradecimentos
Agradecer, aqui, o `as pessoas que contribu´ıram de forma relevante para a elabora¸ao
do trabalho, segundo sugest˜oes, me parece incompleto, porque ao os momentos em que
ao se est´a trabalhando que nos fortalecem e nos incentivam para seguir os objetivos
trilhados.
Assim, gostaria de agradecer a Deus, a meus pais Manoel e Cacilda, aos meus irm˜aos
Marcos e Andr´e e a minha irm˜a Cl´audia Janaina, pelo apoio de sempre, `as minhas amigas
e aos meus amigos, que ao cito para ao incorrer no erro de esquecer algum nome. Agra-
decer tamb´em, mesmo que eles ao tenham a oportunidade de ler esses agradecimentos,
aos amigos que fiz na Fran¸ca, onde tive a op ortunidade de viver uma experiˆencia muito
especial.
Quero enviar um agradecimento especial aos colegas do LAI e tamb´em ao Anderson.
Gostaria de agradecer aos meus orientadores Teodiano e Sarcinelli pela confian¸ca em
mim depositada, e tamb´em aos professores que sempre me ajudaram durante toda a
gradua¸ao e agora no mestrado. Estendo meus agradecimentos ao professor Evandro pela
indica¸ao ao est´agio na Fran¸ca, ao professor J´erˆome, pela for¸ca e paciˆencia com o francˆes,
e, finalmente ao Rodrigo Varej˜ao, pela ajuda e pela disposi¸ao de tirar as d´uvidas que
surgiram ao longo do trabalho, e que ao foram poucas.
Agrade¸co tamem ao CNPq pela bolsa de mestrado no Brasil e ao projeto TELCARD-
GET (projet incitatif Fondation Leprince-Ringuet) pela bolsa de pesquisa no Institute
National des T´el´ecommunications, Fran¸ca.
Je voudrais remercier, en fran¸cais, `a Bernadette Dorizzi pour l’accueillie, `a mes
coll`egues de bureau et `a mon encadrant erˆome Boudy pour toute son aide, professionnel
et personnel pendant mon s´ejour `a l’INT.
“No fim tudo a certo. Se ao deu certo ´e porque ainda ao chegou ao fim.”
Fernando Sabino
Resumo
Neste trabalho foram estudadas e implementadas trˆes ecnicas incrementais de adapta¸ao
de modelos ocultos de Markov (HMM - Hidden Markov Model) baseadas nos algoritmos
de treinamento, que ao a esperan¸ca da maximiza¸ao (expectation maximization - EM),
a k-means segmental (segmental k-means) e a aximo a posteriori (Maximum a Posteri-
ori -MAP). Essas ecnicas, muito utilizadas em reconhecimento de voz, ao aqui usadas
para sinais biom´edicos, mais precisamente para sinal de eletrocardiograma (ECG). Para
tal objetivo, utilizou-se uma plataforma, a desenvolvida, de segmenta¸ao e classifica¸ao
de ECG, al´em de detec¸oes de anomalias card´ıacas como extra-s´ıstole ventricular (ESV)
e isquemia do mioardio. Nessa plataforma, os modelos de Markov ao empregados na
etapa de segmenta¸ao do sinal de ECG, tendo em vista a identifica¸ao das formas de
onda elementares que comp˜oem um ciclo card´ıaco. O desenvolvimento dessas t´ecnicas
permite, uma vez que a plataforma esteja funcionando como sistema real, um ajuste
autˆonomo dos modelos `as varia¸oes do sinal de ECG ao longo do tempo, assim como
a outras varia¸oes presentes em um sistema real. As t´ecnicas foram avaliadas a partir
de experimentos usando duas bases de sinais de ECG: QT database e European ST-T
database. Os resultados confirmam o ganho de desempenho obtido com a adapta¸ao,
permitindo uma modelagem do sinal ao longo do tempo mais apropriada. As t´ecnicas
desenvolvidas ao indicadas tamb´em para outros tipos de sinais biom´edicos, como o sinal
de eletroencefalograma (EEG), por exemplo.
Abstract
In this work three incremental adaptation methods for the hidden Markov models
(HMM) are studied and implemented, which are based on the Expectation-Maximization
(EM), Segmental k-Means and Maximum a Posteriori (MAP) algorithms. These methods,
already used in the speech recognition field, are applied here in the electrocardiogram
(ECG) segmentation problem. For that, it was used an ECG analysis system able to
segment and classify cardiac diseases, like premature ventricular contraction (PVC) and
ischemia. The use of these methods allow us to adjust the models to the signal fluctuations
commonly met during ambulatory recording. The methods can also be implemented for
other kinds of biomedical signals, like electroencephalogram (EEG).
Lista de Figuras
1 Estrutura do cora¸ao e curso do fluxo sang¨u´ıneo pelas amaras card´ıacas. p. 21
2 Eventos do ciclo card´ıaco na fun¸ao ventricular esquerda, mostrando as
altera¸oes da press˜ao atrial esquerda, da press˜ao ventricular esquerda,
da press˜ao ortica, do volume ventricular, do eletrocardiograma e do
fonocardiograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22
3 Eletrocardiograma normal. . . . . . . . . . . . . . . . . . . . . . . . . . p. 24
4 Registro da onda de despolariza¸ao (A e B) e da onda de repolariza¸ao
(C e D) de uma fibra do m´usculo card´ıaco. . . . . . . . . . . . . . . . . p. 25
5 Acima, potencial de ao monof´asico de fibra muscular ventricular du-
rante o funcionamento normal do cora¸ao, mostrando a despolariza¸ao
apida e em seguida a repolariza¸ao ocorrendo lentamente durante a fase
do platˆo, mas rapidamente pr´oxima do fim. Abaixo, eletrocardiograma
registrado simultaneamente. . . . . . . . . . . . . . . . . . . . . . . . . p. 26
6 Disposi¸ao convencional dos eletrodos para o registro do eletrocardio-
grama pelas derivoes padr˜ao. O triˆangulo de Einthoven est´a disposto
sobre o orax. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 28
7 Eletrocardiogramas normais registrados pelas trˆes derivoes padr˜ao. . p. 29
8 Conex˜oes do corpo com o eletrocardi´ografo para registro das derivoes
tor´acicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30
9 Eletrocardiogramas normais registrados pelas seis derivoes tor´acicas. p. 31
10 Eletrocardiogramas normais registrados pelas trˆes derivoes unipolares
perif´ericas aumentadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 32
11 Ponto ”J”como referencial zero de referˆencia do eletrocardiograma. . . p. 33
12 Corrente de les˜ao em infarto agudo da parede anterior. . . . . . . . . . p. 35
13 Corrente de les˜ao em infarto agudo apical de parede posterior. . . . . . p. 35
14 Interface GUI-Matlab desenvolvida em (OLIVEIRA; ANDREAO, 2003-2004). p. 36
15 Sistema de detec¸ao de isquemia. . . . . . . . . . . . . . . . . . . . . . p. 37
16 Sistema de tele-vigilˆancia TelePat. . . . . . . . . . . . . . . . . . . . . . p. 38
17 Arquitetura asica do sistema de detec¸ao. . . . . . . . . . . . . . . . . p. 38
18 Batimento card´ıaco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 39
19 Modelo do batimento card´ıaco, utilizado por (COAST et al., 1990). . . . p. 40
20 Modelo do batimento card´ıaco composto pela concatena¸ao de HMMs. p. 40
21 Decodifica¸ao da seq¨uencia de observoes com o uso do algoritmo one-pass. p. 41
22 Sistema de segmenta¸ao autom´atica do sinal de ECG. . . . . . . . . . . p. 41
23 Arquitetura asica do algoritmo de (ANDREAO, 2004). . . . . . . . . . p. 42
24 Sistema desenvolvido por (ANDREAO, 2004). . . . . . . . . . . . . . . . p. 43
25 Tela de avalia¸ao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44
26 Compara¸ao com duas fun¸oes wavelets: a) usando a wavelet Chap´eu
Mexicano; b) usando a wavelet Morlet. . . . . . . . . . . . . . . . . . . p. 45
27 Transformada wavelet para um sinal de ECG. . . . . . . . . . . . . . . p. 45
28 Histograma das observoes da onda P. A escala j ´e correspondente `a
transformada wavelet efetuada. . . . . . . . . . . . . . . . . . . . . . . p. 46
29 Aprendizagem do modelo λ
k
pelo etodo de Baum-Welch (RABINER,
1989). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 47
30 Adapta¸ao direta e indireta de HMM (LEE; HUO, 2000). . . . . . . . . . p. 56
31 Sistema para o algoritmo EM incremental implementado. . . . . . . . . p. 64
32 Arquitetura asica do algoritmo segmental K-means incremental. . . . p. 68
33 Sistema para o algoritmo segmental k-Means incremental implementado. p. 69
34 Aproxima¸ao da verdadeira distribui¸ao posterior por uma simplificada,
sob o crit´erio de mesma moda. . . . . . . . . . . . . . . . . . . . . . . . p. 74
35 Arquitetura asica do algoritmo MAP incremental. . . . . . . . . . . . p. 79
36 Sistema desenvolvido para abordagem MAP. . . . . . . . . . . . . . . . p. 80
37 Comportamento de detec¸ao de onda P com a varia¸ao de ρ. . . . . . . p. 86
38 Transformada wavelet. . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 95
39 Transformada wavelet com mudan¸ca de escala. . . . . . . . . . . . . . . p. 95
40 Avalia¸ao do valor da escala na transformada wavelet. . . . . . . . . . . p. 96
41 Fun¸ao Chap´eu Mexicano. . . . . . . . . . . . . . . . . . . . . . . . . . p. 98
Lista de Tabelas
1 Especifica¸oes dos modelos. . . . . . . . . . . . . . . . . . . . . . . . . p. 47
2 Valores das constantes para o algoritmo implementado. . . . . . . . . . p. 64
3 Valores das constantes para o algoritmo implementado. . . . . . . . . . p. 69
4 N´umero de etiquetas feitas para os 105 registros da base QT. . . . . . . p. 82
5 Precis˜ao e detec¸ao de ondas. . . . . . . . . . . . . . . . . . . . . . . . p. 82
6 Detec¸ao de complexos QRS. . . . . . . . . . . . . . . . . . . . . . . . . p. 84
7 Detec¸ao de Extras´ıstoles. . . . . . . . . . . . . . . . . . . . . . . . . . p. 85
8 N´umero de epis´odios etiquetados em 48 registros. . . . . . . . . . . . . p. 86
9 N´umero de epis´odios isquˆemicos em 48 registros. . . . . . . . . . . . . . p. 87
10 Detec¸ao de ondas para determinados valores de ρ. . . . . . . . . . . . p. 88
11 Detec¸ao de complexo QRS para determinados valores de ρ para o Canal
1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 88
Sum´ario
1 Introdu¸ao p. 17
1.1 Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18
1.2 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20
2 O Cora¸ao p. 21
2.1 O Ciclo Card´ıaco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22
2.2 Excita¸ao R´ıtmica do Cora¸ao . . . . . . . . . . . . . . . . . . . . . . . p. 23
2.3 O Eletrocardiograma Normal . . . . . . . . . . . . . . . . . . . . . . . p. 24
2.3.1 Valores Normais do Eletrocardiograma . . . . . . . . . . . . . . p. 27
2.4 Derivoes Eletrocardiogr´aficas . . . . . . . . . . . . . . . . . . . . . . p. 27
2.4.1 Derivoes Bipolares Perif´ericas . . . . . . . . . . . . . . . . . . p. 27
2.4.2 Derivoes Tor´acicas (Derivoes Pr´e-Cordiais) . . . . . . . . . . p. 30
2.4.3 Derivoes Unipolares Perif´ericas Aumentadas . . . . . . . . . . p. 31
2.5 Interpreta¸ao Eletrocardiogr´afica . . . . . . . . . . . . . . . . . . . . . p. 31
3 Sistema Atual e Metodologia p. 36
3.1 Introdu¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36
3.2 Sistema Atual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 39
3.3 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43
3.3.1 Extra¸ao de Parˆametros . . . . . . . . . . . . . . . . . . . . . . p. 44
3.3.2 Segmenta¸ao Autom´atica do Sinal de ECG . . . . . . . . . . . . p. 46
3.3.3 Aprendizagem e Adapta¸ao . . . . . . . . . . . . . . . . . . . . p. 46
3.3.4 Especifica¸ao dos Modelos . . . . . . . . . . . . . . . . . . . . . p. 47
4 ecnicas de Adapta¸ao p. 48
4.1 Teoria de HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 48
4.1.1 Elementos de um HMM . . . . . . . . . . . . . . . . . . . . . . p. 48
4.1.2 Os trˆes problemas asicos do HMM . . . . . . . . . . . . . . . . p. 49
4.1.2.1 Solu¸ao para o problema 1: alculo da axima Veros-
similhan¸ca (ML) . . . . . . . . . . . . . . . . . . . . . p. 49
4.1.2.2 Solu¸ao para o problema 2: algoritmo de Viterbi . . . p. 50
4.1.2.3 Solu¸ao para o problema 3 . . . . . . . . . . . . . . . . p. 51
4.2 Adapta¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55
4.2.1 Algoritmos em Lote (Batch Algorithms) . . . . . . . . . . . . . p. 55
4.2.2 Algoritmos On-line . . . . . . . . . . . . . . . . . . . . . . . . . p. 57
4.2.3 Treinamento Incremental . . . . . . . . . . . . . . . . . . . . . . p. 57
4.3 Aprendizagem EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 59
4.3.1 Adapta¸ao EM Incremental Implementada . . . . . . . . . . . . p. 62
4.4 Aprendizagem Segmental k-Means . . . . . . . . . . . . . . . . . . . . . p. 64
4.4.1 Adapta¸ao Segmental K-means Incremental Implementada . . . p. 67
4.5 Aprendizagem Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . p. 69
4.5.1 Aprendizagem MAP quasi-Bayes . . . . . . . . . . . . . . . . . p. 71
4.5.2 Aprendizagem MAP quasi-Bayes em Lote . . . . . . . . . . . . p. 74
4.5.3 Aprendizagem MAP quasi-Bayes Incremental . . . . . . . . . . p. 77
4.5.4 Adapta¸ao MAP Incremental Implementada . . . . . . . . . . . p. 79
5 Resultados e Conclus˜oes p. 81
5.1 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 81
5.2 Discuss˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 87
5.3 Conclus˜oes e Perspectivas . . . . . . . . . . . . . . . . . . . . . . . . . p. 89
Referˆencias p. 91
Anexos p. 94
Anexo A - Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 94
Transformada Wavelet . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 94
Escalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 96
Fun¸oes Wavelets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 96
Lista de S´ımbolos
λ Modelo Oculto de Markov
a
ij
Probabilidade de transi¸ao do estado i para o estado j
b
j
{k} Distribui¸ao das probabilidades de emiss˜ao de s´ımbolos
π Probabilidade inicial dos estados
O Observoes, dados ou amostras
q
j
Estado j
Q = q
1
q
2
...q
T
Seq¨uˆencia de estados
p(O|λ) Probabilidade da observao dado o modelo ou verossimilhan¸ca
δ
t
(i) Maior probabilidade ao longo do caminho, no tempo t
ψ
t
(j) Vetor para a recupera¸ao da melhor seq¨uˆencia de estados
L(λ) Logaritmo da verossimilhan¸ca
X(q) Distribui¸ao de probabilidade dos estados sobre as vari´aveis ocultas
F (X, λ) Fun¸ao custo do algoritmo EM
E[.] Operador Esperan¸ca
H(X(q)) Entropia da distribui¸ao X(q)
Q(λ, λ) Fun¸ao auxiliar no algoritmo EM
γ
t
(j, m) Probabilidade de emiss˜ao para caso cont´ınuo
c
jm
Coeficiente de mistura de gaussianas
µ
jm
Vetor edia
U
jm
Matriz de covariˆancia
¯
t
n
k
Estat´ısticas do bloco n
ˆq Caminho mais proavel
p(λ|O) Probabilidade a posteriori
p
0
(λ) Distribui¸ao a priori de λ
p(O) Probabilidade das observoes
g(λ) Aproxima¸ao de p(λ)
φ Fun¸ao de hiper-parˆametros
g(λ|ϕ
n
) Aproxima¸ao da probabilidade a posteriori
R(λ|λ) Fun¸ao auxiliar do algoritmo MAP
17
1 Introdu¸ao
O eletrocardiograma (ECG) ´e um gr´afico obtido quando os potenciais de um campo
el´etrico com origem no cora¸ao ao registrados `a superf´ıcie do organismo. Os sinais ao
detectados por eletrodos met´alicos ligados aos membros e `a parede tor´acica e ao depois
amplificados e registrados pelo eletrocardi´ografo. Deve notar-se que no ECG apenas
ao registradas diferen¸cas de potencial instantˆaneas entre os eletrodos. Apesar das suas
limita¸oes, o ECG ´e o exame auxiliar mais usado no diagn´ostico de doen¸cas card´ıacas. Isto
resulta do fato de ser um exame ao invasivo, barato e extremamente vers´atil. Criado em
1903 pelo fisiologista holandˆes Willem Einthoven, o eletrocardiograma registra a atividade
el´etrica do cora¸ao, a qual se apresenta alterada no aparecimento ou na evolu¸ao de mais
de 90% das doen¸cas card´ıacas, principalmente as arritmias e os infartos agudos.
A cada ano, cerca de 140 mil pessoas morrem de doen¸cas do cora¸ao no Brasil, se-
gundo dados da Organiza¸ao Mundial da Sa´ude. Cerca de 90% dessas mortes, inclusive as
decorrentes de mal ubito, poderiam ser evitadas com o diagn´ostico asico de um simples
eletrocardiograma, seguido de tratamento e acompanhamento edicos adequados. “Uma
boa consulta cardiol´ogica e um eletrocardiograma bem interpretado podem diagnosticar
mais de 90% dos problemas card´ıacos, poupando milhares de vidas”, segundo o Dr. Car-
los Alberto Pastore, diretor do Servi¸co de Eletrocardiologia do Instituto do Cora¸ao do
Hospital das Cl´ınicas (Incor-HCFMUSP) (USP, 2005).
O exame ´e eficaz, ainda, para acompanhar pacientes sob uso de medicamentos, como
antibi´oticos, antial´ergicos, antidepressivos e at´e antiarr´ıtmicos, que, em alguns casos, agem
negativamente sobre o cora¸ao, quando este ´e acometido de uma doen¸ca silenciosa, ainda
ao diagnosticada. Muitas vezes, a doen¸ca ´e congˆenita e ao apresenta qualquer sintoma,
mas, ao interagir com medica¸ao inadequada, pode ser fatal.
“A avalia¸ao cardiol´ogica anual, acompanhada de eletrocardiograma, de pacientes
acima de 40 anos e com hist´oria familiar de doen¸ca do cora¸ao ou fatores de risco impor-
tantes como colesterol alto, press˜ao alta, obesidade, tabagismo, etc, e pode prevenir os
1.1 Estado da Arte 18
eventos fatais”, alerta o m´edico. Ao longo da evolu¸ao do etodo de diagn´ostico, impul-
sionada pelas necessidades espec´ıficas dos edicos, foram surgindo diversas variantes do
exame que, em sua forma original, ´e feito com o paciente deitado e em repouso. O sistema
holter - eletrocardiograma de 24 horas - para avalia¸ao de arritmias, ´e um dos resultados
desse desenvolvimento.
As altera¸oes eletrocardiogr´aficas no infarto do mioardio foram identificadas pela
primeira vez por Pardee, em 1920 (NICOLAU et al., 2003), como correspondendo a ondas
de isquemia, les˜ao e necrose celular, representadas por aspectos morfol´ogicos espec´ıficos no
ECG. Vale lembrar que isquemia ´e a supress˜ao da circula¸ao sangu´ınea em determinada
parte do organismo, o que pode levar a altera¸oes do funcionamento deste organismo.
Atualmente, o eletrocardiograma ´e componente fundamental e indispens´avel na avalia¸ao
precoce e na estratifica¸ao de risco em pacientes com infarto agudo do mioardio, face `as
valiosas informa¸oes nele contidas.
O eletrocardiograma inicial faz o diagn´ostico de infarto agudo do mioc´ardio somente
em 60% dos pacientes com tal doen¸ca, sendo anormal, por´em ao definitivo, em 25%
dos mesmos, e, nos restantes 15%, situa-se dentro da normalidade. Essa sensibilidade
relativamente baixa do eletrocardiograma inicial melhora de forma significativa quando
se analisam eletrocardiogramas seriados, ou seja, uma an´alise ao longo do tempo, chegando
pr´oximo a 95% de diagn´osticos corretos de infarto do mioardio.
Mesmo com outras tecnologias para a an´alise do sinal card´ıaco, como o ecocardio-
grama ou tomografia computadorizada do orax, o eletrocardiograma convencional con-
tinua sendo fundamental no diagn´ostico e progn´ostico de pacientes com infarto agudo
do mioardio, fornecendo informa¸oes ´unicas e, freq¨uentemente, mais importantes que
aquelas obtidas com tecnologias mais sofisticadas e dispendiosas (NICOLAU et al., 2003).
1.1 Estado da Arte
Devido `a importˆancia da an´alise do eletrocardiograma, torna-se necess´aria a cria¸ao
de um sistema de an´alise autˆonomo que auxilie o edico no diagn´ostico do paciente e na
avalia¸ao do seu hist´orico card´ıaco que, por vezes, resulta na an´alise de horas de eletro-
cardiograma, o que ´e um trabalho repetitivo e pass´ıvel de erros. Assim, a segmenta¸ao
do sinal eletrocardiogr´afico ainda constitui um desafio atual, sobretudo para os registros
de longa dura¸ao. Vale lembrar que o ato de segmentar o sinal card´ıaco corresponde `a
localiza¸ao das suas formas elementares de onda e segmentos que ser˜ao mostrados nesta
1.1 Estado da Arte 19
disserta¸ao.
a, na literatura, muitos trabalhos na segmenta¸ao autˆonoma do sinal de ECG, como
(CHAZAL; REILLY, 2003), que detecta contra¸ao ventricular normal e prematura e utiliza
caracter´ısticas baseadas no formato das formas de onda do ECG e nos seus intervalos
como entrada para os classificadores. Estes ao baseados em dois modelos: um modelo
discriminante linear e um modelo de rede neural feed forward. Pode-se citar tamb´em
(SABRY-RISK et al., 1999), onde foi desenvolvido um classificador neural que distingue as
caracter´ısticas normais e anormais do sinal de ECG.
Outra ab ordagem que tem se mostrado eficiente na segmenta¸ao do sinal de ECG, ao
os modelos ocultos de Markov - HMM (do inglˆes Hidden Markov Models). Esta ecnica,
muito utilizada para reconhecimento de voz, ´e aplicada tamb´em em processamento de
sinais biom´edicos, como sugerido em (COHEN, 1998), e tem como principal vantagem sua
dinˆamica temporal, que permite uma melhor modelagem desses sinais. Pode-se citar (CO-
AST et al., 1990) como um dos primeiros trabalhos na ´area de segmenta¸ao e classifica¸ao
do sinal de ECG utilizando HMM. Ali ´e desenvolvida uma abordagem markoviana de-
pendente do paciente para a an´alise de arritmias card´ıacas. O mesmo sinal de ECG ´e
utilizado para aprendizagem e teste dos modelos. O sistema constru´ıdo necessita de uma
pr´e-etiquetagem manual cada vez que um novo sinal de ECG do indiv´ıduo ´e analisado,
constituindo um ponto fraco. Assim, os modelos ao treinados de forma supervisionada,
o que aumenta o ganho do sistema, mas que diminui sua autonomicidade.
Pode-se citar tamem o trabalho de Bardonova et al. (2003), que utiliza sinais eletro-
cardiogr´aficos de animais, de forma invasiva para a detec¸ao de isquemia do mioardio.
Nesse trabalho, assim como Coast, ele se utiliza um ´unico modelo de Markov para a classi-
fica¸ao do sinal, e ao a uma etapa de segmenta¸ao para a identifica¸ao de outras anor-
malidades card´ıacas. Ressalta-se que nenhum desses trabalhos desenvolve a adapta¸ao
de modelos de Markov para o ajuste `as modifica¸oes do sinal que ocorrem ao longo do
tempo. A adapta¸ao da modelagem de um sistema ´e necess´aria para que o mesmo possa
se ajustar `as flutua¸oes no sinal que podem ocorrer ao longo do tempo.
Existem trabalhos sobre adapta¸ao para etodos estat´ısticos, como as redes neurais
(WATROUS; TOWELL, 1995). Nesse caso, o autor utiliza a extra¸ao de caracter´ısticas do
paciente para o treinamento da rede em um sistema de monitora¸ao de eletrocardiograma.
O treinamento dos modelos dura cerca de 6 dias e a adapta¸ao ´e feita pelo etodo do
gradiente descendente. a processos de adapta¸ao que se utilizam de filtros adaptativos,
como em (SORIA et al., 1996), mas o sistema desenvolvido ao envolve a segmenta¸ao do
1.2 Estrutura do Trabalho 20
sinal de ECG, mas sim a identifica¸ao do come¸co e final de certas partes do batimento.
O trabalho desenvolvido em (ANDREAO, 2004) comp˜oem-se de um sistema de seg-
menta¸ao e classifica¸ao do sinal de ECG. Esta classifica¸ao ´e composta basicamente pela
identifica¸ao de extras´ıstoles ventricular e de epis´odios isquˆemicos. Para uma boa clas-
sifica¸ao ´e necess´aria a adapta¸ao, ao longo do temp o, dos modelos markovianos a cada
paciente. Essa adapta¸ao a ´e feita em (ANDREAO, 2004). O presente trabalho visa uma
melhoria no sistema de adapta¸ao a implementado. Assim, o objetivo desta disserta¸ao
´e o estudo e a implementa¸ao de novas t´ecnicas que ser˜ao apresentadas nesta disserta¸ao.
Para isso, fez-se um estudo comparativo de algoritmos de treinamento de HMM usados
para a adapta¸ao dos mesmos. Os algoritmos estudados foram: expectation-maximization
- EM, segmental k-means e maximum a posteriori - MAP. Existem grupos distintos que
trabalham com algoritmos baseados no crit´erio de maximum likelihood - ML (EM e seg-
mental k-means), como (DIGALAKIS, 1999), ou que trabalham com o crit´erio MAP, como
(HUO; LEE, 1997). Assim, este trabalho apresenta sua originalidade ao o no fato da
compara¸ao de algoritmos baseados em diferentes crit´erios de otimiza¸ao, mas tamem
pelo fato de aplic´a-los `a an´alise de sinais eletrocardiogr´aficos. Os resultados, que ser˜ao
apresentados aqui, mostram o desempenho das ecnicas implementadas e comprovam que
elas melhoraram a adapta¸ao do sistema.
1.2 Estrutura do Trabalho
Na Introdu¸ao foi vista a motivao para o desenvolvimento deste trabalho, seguido
de um estado da arte atual, situando o presente trabalho no mesmo contexto de um outro
a desenvolvido.
No Cap´ıtulo 2 ´e apresentada a fisiologia do cora¸ao e seu funcionamento para que se
possa analisar corretamente o sinal de ECG.
No Cap´ıtulo 3 ´e apresentado o sistema proposto em (ANDREAO, 2004), sobre o qual
o presente trabalho foi desenvolvido, refor¸cando algumas de suas caracter´ısticas.
As t´ecnicas de adapta¸ao implementadas ao apresentadas no Cap´ıtulo 4 e os resul-
tados e as conclus˜oes ao explicitados no Cap´ıtulo 5.
No Anexo A ´e apresentada a teoria de wavelets, as quais ao utilizadas na extra¸ao
de parˆametros do sinal.
21
2 O Corao
Neste cap´ıtulo inicia-se a discuss˜ao sobre o cora¸ao e suas caracter´ısticas, de acordo
com Guyton e Hall (2002). O cora¸ao, mostrado na Figura 1, constitui-se, na realidade,
de duas bombas distintas: o cora¸ao direito, que bombeia sangue para os pulm˜oes, e
o cora¸ao esquerdo, que bombeia sangue para os ´org˜aos perif´ericos. Cada um desses
cora¸oes ´e uma bomba puls´atil com duas amaras, sendo elas o ´atrio e o ventr´ıculo. O
´atrio funciona, principalmente, como bomba de escoamento, ajudando a movimentar o
sangue para o ventr´ıculo. O ventr´ıculo, por sua vez, fornece a for¸ca principal que propele o
sangue para a circula¸ao pulmonar, pelo ventr´ıculo direito, ou para a circula¸ao perif´erica,
no caso do ventr´ıculo esquerdo.
Figura 1: Estrutura do cora¸ao e curso do fluxo sang¨u´ıneo pelas amaras card´ıacas.
2.1 O Ciclo Card´ıaco 22
2.1 O Ciclo Card´ıaco
Os eventos card´ıacos que ocorrem desde o in´ıcio de cada batimento card´ıaco at´e o in´ıcio
do pr´oximo ao chamados de ciclo card´ıaco. O ciclo card´ıaco consiste em um per´ıodo de
relaxamento do usculo, chamado de di´astole, durante o qual o cora¸ao se enche com
sangue, seguido de um per´ıodo de contra¸ao, chamado de s´ıstole.
A Figura 2 mostra os diferentes eventos durante o ciclo card´ıaco, para o lado esquerdo
do cora¸ao. Os trˆes tra¸cados superiores mostram as varia¸oes da press˜ao na aorta, no
ventr´ıculo e ´atrio esquerdo, respectivamente. O quarto tra¸cado mostra as varia¸oes do
volume ventricular, o quinto, o eletrocardiograma, e o sexto, um fonocardiograma, que
´e o registro dos sons produzidos pelo cora¸ao durante o bombeamento. A alvula A-V
corresponde `as alvulas tric´uspide e mitral. O eletrocardiograma apresentado na Figura 2
mostra as ondas P, Q, R, S e T que ser˜ao discutidas adiante. Elas representam as tens˜oes
el´etricas geradas pelo cora¸ao e registradas pelo eletrocardi´ografo na superf´ıcie do corpo.
Figura 2: Eventos do ciclo card´ıaco na fun¸ao ventricular esquerda, mostrando as
altera¸oes da press˜ao atrial esquerda, da press˜ao ventricular esquerda, da press˜ao
ortica, do volume ventricular, do eletrocardiograma e do fonocardiograma.
A onda P ´e causada pela despolariza¸ao atrial, e isso ´e seguido pela contra¸ao atrial,
que provoca pequena elevao da curva da press˜ao atrial, imediatamente ap´os a onda
P. Cerca de 0,16 s ap´os o in´ıcio da onda P, o complexo QRS aparece, como resultado da
despolariza¸ao dos ventr´ıculos, iniciando a contra¸ao dos ventr´ıculos e provocando o in´ıcio
2.2 Excita¸ao R´ıtmica do Corao 23
da elevao da press˜ao ventricular, tamem mostrada na Figura 2. Portanto, o complexo
QRS come¸ca pouco antes do in´ıcio da s´ıstole ventricular. Finalmente, nota-se a onda T
ventricular no eletrocardiograma. Ela representa a fase de repolariza¸ao dos ventr´ıculos
quando as fibras musculares ventriculares come¸cam a relaxar. Por conseguinte, a onda T
ocorre pouco antes do t´ermino da contra¸ao ventricular.
No tra¸cado da press˜ao atrial da Figura 2 ao notadas trˆes principais elevoes de
press˜ao, chamadas de ondas de press˜ao atrial a, c e v. A onda a ´e causada pela contra¸ao
atrial. a a onda c ocorre quando os ventr´ıculos come¸cam a se contrair. Isso ´e causado,
em parte, pelo pequeno refluxo de sangue para os ´atrios no in´ıcio da contra¸ao ventricular,
mas, principalmente, pelo abaulamento das alvulas A-V em dire¸ao aos ´atrios, devido
ao aumento da press˜ao nos ventr´ıculos. Finalmente, a onda v ocorre pr´oximo ao fim
da contra¸ao ventricular; ela resulta do fluxo lento de sangue das veias para os ´atrios,
enquanto as alvulas A-V est˜ao fechadas durante a contra¸ao ventricular. Enao, quando
termina a contra¸ao ventricular, as alvulas A-V abrem-se, permitindo que esse sangue
armazenado nos ´atrios flua rapidamente para os ventr´ıculos, causando o desaparecimento
da onda v.
2.2 Excita¸ao R´ıtmica do Cora¸ao
O cora¸ao ´e dotado de um sistema eletrogˆenico, ou seja, possui um processo de auto-
excita¸ao el´etrica, especializado para gerar impulsos ritmados, que produzem a contra¸ao
r´ıtmica do m´usculo card´ıaco, e conduz esses impulsos rapidamente atrav´es do cora¸ao.
Quando esse sistema funciona normalmente, os ´atrios contraem-se cerca de 0,17 s antes
da contra¸ao dos ventr´ıculos, o que permite o seu enchimento antes que eles bombeiem o
sangue para os pulm˜oes e para a circula¸ao perif´erica. Outra importˆancia especial desse
sistema ´e permitir que todas as por¸oes dos ventr´ıculos se contraiam quase que simulta-
neamente, o que ´e essencial para a gera¸ao efetiva de press˜ao nas amaras ventriculares.
Esse sistema r´ıtmico e condutor do cora¸ao ´e suscet´ıvel `a les˜ao por doen¸ca card´ıaca,
em especial pela isquemia dos tecidos card´ıacos resultante do fluxo sangu´ıneo coron´ario
insuficiente. A conseq¨uˆencia ´e, geralmente, ritmo card´ıaco bizarro ou seq¨encia anormal
de contra¸ao das amaras card´ıacas, sendo que a eficiˆencia do bombeamento do cora¸ao
fica, em geral, gravemente afetada, podendo resultar em morte.
2.3 O Eletrocardiograma Normal 24
2.3 O Eletrocardiograma Normal
Quando o impulso card´ıaco passa pelo cora¸ao, a corrente el´etrica tamem se propaga
para os tecidos adjacentes ao cora¸ao. Uma pequena parte da corrente se dissemina por
toda a superf´ıcie do corpo. Se forem colocados eletrodos sobre a pele em pontos opostos do
cora¸ao, os potenciais el´etricos gerados por essa corrente p odem ser registrados, registro
este que ´e conhecido como eletrocardiograma (ECG). Um eletrocardiograma normal, para
dois batimentos card´ıacos, ´e mostrado na Figura 3. Note-se que a menor divis˜ao na vertical
corresponde a 0,1 mV e na horizontal a 0,04 s.
Figura 3: Eletrocardiograma normal.
O eletrocardiograma normal ´e formado pela onda P, pelo complexo QRS e pela onda
T. O complexo QRS ´e freq¨uentemente, mas nem sempre, formado por trˆes ondas distintas,
a onda Q, a onda R e a onda S.
A onda P ´e causada pelos potenciais el´etricos gerados quando os ´atrios se despola-
rizam, antes da contra¸ao atrial. O complexo QRS ´e causado pelos potenciais gerados
quando os ventr´ıculos se despolarizam antes da sua contra¸ao, isto ´e, `a medida que a onda
de despolariza¸ao se propaga pelos ventr´ıculos. Por conseguinte, tanto a onda P como os
componentes do complexo QRS ao ondas de despolariza¸ao. A onda T ´e causada pelos
potenciais gerados quando os ventr´ıculos se recuperam do estado de despolariza¸ao. Esse
processo ocorre normalmente no m´usculo ventricular de 0,25 s a 0,35 s ap´os a despola-
riza¸ao, e a onda T ´e conhecida como onda de repolariza¸ao.
Dessa forma, o eletrocardiograma ´e composto por ondas de despolariza¸ao e repola-
2.3 O Eletrocardiograma Normal 25
riza¸ao. A Figura 4 mostra uma fibra muscular card´ıaca nos quatro est´agios de despola-
riza¸ao e repolariza¸ao, com o vermelho indicando a despolariza¸ao.
Figura 4: Registro da onda de despolariza¸ao (A e B) e da onda de repolariza¸ao (C e
D) de uma fibra do m´usculo card´ıaco.
Durante a despolariza¸ao, o potencial negativo normal no interior da fibra desaparece
e o potencial da membrana se inverte, isto ´e, torna-se ligeiramente positivo no interior e
negativo no exterior. Na Figura 4A, a despolariza¸ao demonstrada pelas cargas positivas
no interior e pelas cargas negativas no exterior, ambas em vermelho, est´a se propagando
da esquerda para a direita. A primeira metade da fibra a est´a despolarizada enquanto
que a outra metade ainda est´a polarizada. Portanto, o eletrodo esquerdo no exterior da
fibra est´a em ´area de negatividade, e o eletrodo direito est´a em ´area de positividade, o
que faz o aparelho registrar um valor positivo.
`
A direita da fibra muscular ´e mostrado
o potencial entre os dois eletrodos registrado pelo aparelho de medida. Observe-se que,
quando a despolariza¸ao atingiu o ponto m´edio, na Figura 4A, o registro atingiu o valor
aximo.
Na Figura 4B, a despolariza¸ao se estende por toda a fibra muscular e o registro,
`a direita, retornou `a linha de base zero, visto que os eletrodos est˜ao agora em ´area de
igual negatividade. A onda completa ´e uma onda de despolariza¸ao, visto que resulta
da propaga¸ao da despolariza¸ao ao longo da fibra muscular. A Figura 4C mostra a
repolariza¸ao no ponto edio da fibra muscular, com a positividade retornando ao exterior
2.3 O Eletrocardiograma Normal 26
da fibra. Nesse ponto, o eletrodo esquerdo est´a em ´area de positividade e o eletrodo direito
est´a em ´area de negatividade. Conseq¨uentemente, o registro torna-se negativo, como
mostrado `a direita. Na Figura 4D, a fibra muscular est´a completamente repolarizada e
ambos os eletrodos est˜ao agora em ´area de p ositividade de modo que nenhum potencial
´e registrado entre eles. Dessa forma, no registro `a direita, o potencial retorna mais uma
vez ao valor zero. Essa onda negativa completa ´e uma onda de repolariza¸ao ao longo da
fibra muscular.
O potencial de ao monof´asico do m´usculo ventricular, como a dito, dura normal-
mente de 0,25 s a 0,35 s. A parte superior da Figura 5 mostra o potencial de ao
monof´asico registrado por um microeletrodo inserido no interior da fibra muscular ven-
tricular. A deflex˜ao desse potencial de ao ´e causada por despolariza¸ao e o retorno do
potencial `a linha de base ´e causado por repolariza¸ao.
Figura 5: Acima, potencial de ao monof´asico de fibra muscular ventricular durante o
funcionamento normal do cora¸ao, mostrando a despolariza¸ao apida e em seguida a
repolariza¸ao ocorrendo lentamente durante a fase do platˆo, mas rapidamente pr´oxima
do fim. Abaixo, eletrocardiograma registrado simultaneamente.
Observa-se na metade inferior da Figura 5 o registro simultˆaneo do eletrocardiograma
desse mesmo ventr´ıculo, o qual mostra as ondas QRS aparecendo no in´ıcio do potencial de
ao monof´asico e a onda T aparecendo no final. Ressalta-se que nenhum potencial ´e regis-
trado no eletrocardiograma quando o m´usculo ventricular est´a completamente polarizado
ou completamente despolarizado. Somente quando o m´usculo est´a parcialmente polari-
zado ou parcialmente despolarizado ´e que a corrente flui de uma parte dos ventr´ıculos
para outra e, portanto, alguma corrente flui para a superf´ıcie do corpo para produzir o
eletrocardiograma.
2.4 Deriva¸oes Eletrocardiogr´aficas 27
2.3.1 Valores Normais do Eletrocardiograma
As amplitudes normais das ondas no eletrocardiograma dependem da maneira que os
eletrodos ao colocados na superf´ıcie do corpo e de sua distˆancia ao cora¸ao. Quando um
eletrodo ´e colocado diretamente sobre os ventr´ıculos e um segundo eletrodo ´e colocado
em outro ponto do corpo, distante do cora¸ao, a amplitude do complexo QRS pode ser
de at´e 3 a 4 mV. Essa tens˜ao ´e ainda pequena quando comparada com o potencial de
ao monof´asico de 110 mV registrado diretamente na membrana do m´usculo card´ıaco.
Quando os eletrocardiogramas ao registrados com eletrodos nos dois bra¸cos ou em um
bra¸co e uma perna, a amplitude do complexo QRS, em geral, ´e de cerca de 1 mV do pico
da onda R `a base da onda S; a amplitude da onda P fica entre 0,1 e 0,3 mV; e a da onda
T fica entre 0,2 e 0,3 mV.
Para o intervalo PQ ou PR, ou seja, o tempo entre o in´ıcio da onda P e o in´ıcio do
complexo QRS, que corresponde ao intervalo entre o in´ıcio da excita¸ao el´etrica dos ´atrios
e o in´ıcio da excita¸ao dos ventr´ıculos, o valor normal ´e cerda de 0,16 s. O intervalo
PQ ´e tamb´em chamado de intervalo PR, devido `a ausˆencia freq¨uente da onda Q. Para o
intervalo QT, que corresponde `a contra¸ao do ventr´ıculo, que dura quase do come¸co do
in´ıcio da onda Q (ou onda R, se a onda Q est´a ausente) ao fim da onda T, o valor normal
´e de cerca de 0,35 s. a a freq¨uˆencia card´ıaca normal ´e de cerca de 72 batimentos por
minuto.
2.4 Derivoes Eletrocardiogr´aficas
2.4.1 Derivoes Bipolares Perif´ericas
A Figura 6 mostra as conex˜oes el´etricas entre os membros do paciente e o eletro-
cardi´ografo, para o registro dos eletrocardiogramas pelas chamadas derivoes bipolares
perif´ericas padr˜ao. O termo bipolar significa que o eletrocardiograma ´e registrado por
meio de dois eletrodos localizados nos diferentes lados do cora¸ao, neste caso nos mem-
bros. Assim, uma derivao ao ´e um fio ´unico ligado ao corpo, mas a combina¸ao de dois
fios e seus eletrodos para formar um circuito completo com o eletrocardi´ografo, represen-
tado por um registrador el´etrico. O potencial edio do corpo, que serve como referencial
para o eletrocardi´ografo, apesar de ao mostrado na Figura 6, ´e medido na perna direita
do paciente.
No registro da derivao p erif´erica I, o terminal negativo do eletrocardi´ografo est´a
2.4 Deriva¸oes Eletrocardiogr´aficas 28
conectado ao bra¸co direito e o terminal positivo ao bra¸co esquerdo. Portanto, quando
o ponto sobre o orax, onde o bra¸co direito se conecta ao orax, est´a eletronegativo em
rela¸ao ao ponto tor´acico, onde o bra¸co esquerdo se prende, o eletrocardi´ografo registra
positivamente. Quando o oposto ´e verdadeiro, o registro ´e negativo.
No registro da derivao perif´erica II, o terminal negativo do eletrocardi´ografo est´a
conectado ao bra¸co direito e o terminal oposto `a perna esquerda. Portanto, quando o
bra¸co est´a negativo em rela¸ao `a perna, o eletrocardi´ografo registra positivamente.
No registro da derivao perif´erica III, o terminal negativo do eletrocardi´ografo est´a
conectado ao bra¸co esquerdo e o terminal oposto `a perna esquerda. Isso significa que o
eletrocardi´ografo registra positivamente quando o bra¸co esquerdo est´a negativo em rela¸ao
`a perna esquerda.
Na Figura 6 foi tra¸cado um triˆangulo, chamado de Triˆangulo de Einthoven, em torno
da ´area card´ıaca. Esse ´e um meio esquem´atico de mostrar que os dois bra¸cos e a perna
esquerda formam os ertices de um triˆangulo ao redor do cora¸ao. Os dois v´ertices na parte
superior do triˆangulo representam os pontos onde os dois bra¸cos se conectam eletricamente
com os l´ıquidos do cora¸ao e o ertice inferior ´e o ponto onde a perna esquerda se conecta
com esses l´ıquidos.
Figura 6: Disposi¸ao convencional dos eletrodos para o registro do eletrocardiograma
pelas derivoes padr˜ao. O triˆangulo de Einthoven est´a disposto sobre o orax.
2.4 Deriva¸oes Eletrocardiogr´aficas 29
A lei de Einthoven, semelhante `a lei de Th`evenin, prop˜oe que caso os potenciais
el´etricos de duas das trˆes derivoes bipolares perif´ericas forem conhecidos em determinado
instante, a terceira pode ser determinada matematicamente a partir das duas primeiras,
simplesmente pela sua soma com a considera¸ao da polaridade. Um exemplo ´e apresentado
na Figura 6, onde a soma das voltagens das derivoes I e III ´e igual a voltagem da
derivao II.
A Figura 7 mostra os registros eletrocardiogr´aficos das derivoes I, II e III. Note-se
que, os eletrocardiogramas dessas trˆes derivoes ao similares entre si, pois todos regis-
tram ondas P e T positivas e a parte principal do complexo QRS tamb´em ´e positiva.
Ao se analisar os trˆes eletrocardiogramas, pode-se mostrar, com medidas cuidadosas e ob-
servao das polaridades, que, em qualquer instante, a soma dos potenciais das derivoes
I e III ´e igual ao potencial da derivao II, validando assim a lei de Einthoven.
Figura 7: Eletrocardiogramas normais registrados pelas trˆes derivoes padr˜ao.
Como o registro de todas as derivoes bipolares perif´ericas ao similares entre si,
ao importa muito qual derivao est´a sendo registrada quando se deseja diagnosticar
as diferentes arritmias card´ıacas, visto que o diagn´ostico das arritmias depende princi-
palmente das rela¸oes temporais entre as diferentes ondas do ciclo card´ıaco. Por outro
lado, quando se deseja diagnosticar les˜ao ventricular ou atrial, as derivoes registradas
ao muito importantes, visto que as anomalias da contra¸ao card´ıaca ou da condu¸ao
do impulso card´ıaco mudam acentuadamente o padr˜ao eletrocardiogr´afico em algumas
derivoes, sem afetar as outras.
2.4 Deriva¸oes Eletrocardiogr´aficas 30
2.4.2 Derivoes Tor´acicas (Derivoes Pr´e-Cordiais)
Muitas vezes os eletrocardiogramas ao registrados com um eletrodo colocado dire-
tamente na superf´ıcie anterior do orax, por sobre o cora¸ao, em um entre seis pontos
distintos, de 1 a 6, apresentados na Figura 8. Esse eletrodo est´a conectado ao terminal
positivo do eletrocardi´ografo e o eletrodo negativo, chamado de eletrodo indiferente, est´a
conectado, por meio de resistˆencias el´etricas, ao bra¸co direito, bra¸co esquerdo e `a perna
esquerda, ao mesmo tempo. Normalmente, seis derivoes tor´acicas padr˜ao ao registra-
das na parede tor´acica anterior, e o eletrodo tor´acico ´e colocado, respectivamente, nos seis
pontos indicados na Figura 8.
Figura 8: Conex˜oes do corpo com o eletrocardi´ografo para registro das derivoes
tor´acicas.
Os diversos registros obtidos por esse etodo, mostrados na Figura 9, ao conhecidos
como derivoes V
1
, V
2
, V
3
, V
4
, V
5
e V
6
. Dado que a superf´ıcie card´ıaca fica pr´oxima
`a parede tor´acica, cada derivao tor´acica registra, principalmente, o p otencial el´etrico
da musculatura card´ıaca, imediatamente abaixo do eletrodo. Portanto, anormalidades
relativamente diminutas nos ventr´ıculos podem causar altera¸oes acentuadas nos eletro-
cardiogramas registrados pelas derivoes tor´acicas.
Nas derivoes V
1
e V
2
, os registros de QRS do cora¸ao normal ao principalmente
negativos, visto que, como mostrado na Figura 8, o eletrodo tor´acico nessas derivoes est´a
2.5 Interpreta¸ao Eletrocardiogr´afica 31
Figura 9: Eletrocardiogramas normais registrados pelas seis derivoes tor´acicas.
muito mais pr´oximo da base do cora¸ao que do ´apice, e a base do cora¸ao ´e a dire¸ao da
eletronegatividade durante a maior parte do processo de despolariza¸ao ventricular. Por
outro lado, os complexos QRS nas derivoes V
4
, V
5
e V
6
ao em grande parte positivos,
visto que o eletrodo tor´acico nessas derivoes est´a pr´oximo do ´apice do cora¸ao, que ´e a
dire¸ao da eletropositividade durante a maior parte da despolariza¸ao.
2.4.3 Derivoes Unipolares Perif´ericas Aumentadas
Outro sistema de derivoes de grande uso ´e o da derivao unipolar perif´erica aumen-
tada. Nesse tipo de registro, dois dos membros ao conectados por meio de resistˆencias
el´etricas ao terminal negativo do eletrocardi´ografo e o terceiro membro ´e conectado ao
terminal positivo. Quando o terminal positivo est´a no bra¸co direito a derivao ´e chamada
de aVR; quando no bra¸co esquerdo, de aVL, e, quando na perna esquerda, de aVF.
Registros normais das derivoes unipolares perif´ericas aumentadas ao mostradas na
Figura 10. Todos ao similares aos registros das derivoes perif´ericas padr˜ao, exceto que
o registro da derivao aVR est´a invertido.
2.5 Interpreta¸ao Eletrocardiogr´afica
Qualquer altera¸ao no padr˜ao da transmiss˜ao do impulso card´ıaco pode causar po-
tenciais el´etricos anormais em torno do cora¸ao e, conseq¨uentemente, alterar as formas
das ondas no eletrocardiograma. Por essa raz˜ao, quase todas as anormalidades graves do
m´usculo card´ıaco podem ser detectadas pela an´alise dos contornos das diferentes ondas
nas diversas derivoes eletrocardiogr´aficas.
Muitas e distintas anormalidades card´ıacas, especialmente as que lesam o m´usculo
2.5 Interpreta¸ao Eletrocardiogr´afica 32
Figura 10: Eletrocardiogramas normais registrados pelas trˆes derivoes unipolares
perif´ericas aumentadas.
card´ıaco, fazem com que parte do cora¸ao permane¸ca parcial ou totalmente despolarizada
todo o tempo. Quando isso ocorre, a corrente flui entre as ´areas patologicamente despola-
rizadas e as ´areas normalmente polarizadas, mesmo entre os batimentos card´ıacos. Isso ´e
chamado de corrente de les˜ao. Ressalta-se que a parte lesada do cora¸ao ´e negativa, por-
que essa parte est´a despolarizada e emite cargas negativas para os l´ıquidos circundantes,
enquanto o restante do cora¸ao ´e positivo.
Algumas das anormalidades que causam corrente de les˜ao ao: i) trauma mecˆanico,
que torna as membranas ao perme´aveis que a repolariza¸ao total ao pode ocorrer;
ii) processos infecciosos, que lesam as membranas musculares e; iii) isquemia de ´areas
localizadas do usculo, provocada por oclus˜ao coron´aria local, que ´e a causa mais comum
de corrente de les˜ao no cora¸ao. Durante a isquemia, nutrientes suficientes do suprimento
sang¨u´ıneo coron´ario ao est˜ao dispon´ıveis para manter a despolariza¸ao da membrana do
m´usculo card´ıaco normal.
Poder-se-ia pensar que os aparelhos cardiogr´aficos poderiam determinar os per´ıodos
em que nenhuma corrente est´a fluindo ao redor do cora¸ao. Entretanto, existem no corp o
muitas correntes fugidias, tais como as correntes que resultam dos potenciais cutˆaneos e
de diferentes concentra¸oes onicas nos diversos l´ıquidos do corpo. Portanto, quando dois
eletrodos ao conectados entre os bra¸cos ou entre um bra¸co e uma perna, essas correntes
fugidias impossibilitam a pr´e-determina¸ao do ponto exato de referˆencia zero no eletro-
cardiograma. Por essas raz˜oes, o seguinte procedimento ´e adotado para se determinar
o ponto zero de referˆencia: primeiro, deve-se detectar o ponto exato no qual a onda de
despolariza¸ao completa sua passagem pelo cora¸ao, o que ocorre no fim do complexo
QRS. Exatamente nesse ponto, todas as regi˜oes dos ventr´ıculos est˜ao despolarizadas, in-
2.5 Interpreta¸ao Eletrocardiogr´afica 33
cluindo as regi˜oes lesadas e as normais, de modo que nenhuma corrente flui ao redor do
cora¸ao. At´e mesmo a corrente de les˜ao desaparece nesse ponto. Portanto, o potencial
do eletrocardiograma, nesse instante, tem voltagem zero. Esse ponto ´e chamado de ponto
“J”no eletrocardiograma, como mostrado na Figura 11.
Figura 11: Ponto ”J”como referencial zero de referˆencia do eletrocardiograma.
Em seguida, uma linha horizontal ´e tra¸cada atrav´es do eletrocardiograma, no n´ıvel
do ponto J, e essa linha horizontal ´e o n´ıvel do potencial zero nesse eletrocardiograma, a
partir do qual todos os potenciais causados pelas correntes de les˜ao devem ser medidos.
A Figura 11 mostra eletrocardiogramas de cora¸ao lesionado, registrado pelas de-
rivoes I e III, que mostram correntes de les˜ao. Em outras palavras, o ponto J de cada
um desses dois eletrocardiogramas ao est´a sobre a mesma linha que o segmento TP (final
da onda T e in´ıcio da onda P). A linha horizontal foi tra¸cada pelo ponto J para representar
o n´ıvel de voltagem zero em cada um dos dois registros. A voltagem da corrente de les˜ao,
em cada derivao, ´e a diferen¸ca entre o n´ıvel do segmento TP do eletrocardiograma (que
fica entre os batimentos card´ıacos quando a corrente de les˜ao) e o n´ıvel do potencial de
voltagem zero, como mostrado pelas duas setas nas respectivas derivoes. Na derivao
I, a voltagem registrada causada pela corrente de les˜ao est´a acima do n´ıvel do potencial
zero e, p ortanto, ´e positiva. Inversamente, na derivao III, o segmento TP est´a abaixo
do n´ıvel de voltagem zero; portanto, a voltagem de corrente de les˜ao na derivao III ´e
negativa.
A parte do eletrocardiograma que ocorre entre a extremidade do complexo QRS e o
in´ıcio da onda T ´e chamada de segmento ST. O ponto J fica no in´ıcio desse segmento.
2.5 Interpreta¸ao Eletrocardiogr´afica 34
Portanto, cada vez que uma corrente de les˜ao ocorre em uma das derivoes eletrocardi-
ogr´aficas, verifica-se que os segmentos ST e TP do eletrocardiograma ao est˜ao no mesmo
n´ıvel do registro. Na verdade, ´e o segmento TP, e ao o segmento ST, que ´e deslocado
do eixo zero. A maioria das pessoas, no entanto, est˜ao condicionadas a considerar o
segmento TP do eletrocardiograma com o n´ıvel de referˆencia zero, em vez do ponto J.
Portanto, quando uma corrente de les˜ao est´a evidente no eletrocardiograma, parece que
o segmento ST ´e deslocado do n´ıvel normal desse eletrocardiograma, o que ´e chamado de
desvio do segmento ST, que ´e utilizado na identifica¸ao de isquemia. Quando se vˆe um
desvio do segmento ST, sabe-se, imediatamente, que esse eletrocardiograma apresenta as
caracter´ısticas de uma corrente de les˜ao. De fato, a maioria dos eletrocardi´ografos ao
se refere `a corrente de les˜ao mas, simplesmente, faz men¸ao ao desvio do segmento ST, o
que significa a mesma coisa.
O fluxo sangu´ıneo insuficiente para o m´usculo card´ıaco deprime o metabolismo do
m´usculo, por trˆes raz˜oes: falta de oxigˆenio, ac´umulo excessivo de di´oxido de carbono e
falta de nutrientes suficientes. Conseq¨uentemente, a repolariza¸ao das membranas ao
ocorre nas ´areas de isquemia mioc´ardia grave. Freq¨uentemente, o m´usculo card´ıaco ao
morre porque o fluxo sangu´ıneo ´e suficiente para manter a vida do m´usculo, embora
ao seja suficiente para provocar a repolariza¸ao das membranas. Enquanto esse estado
persiste, a corrente de les˜ao continua a fluir durante o per´ıodo sist´olico (per´ıodo TP) de
cada batimento card´ıaco.
A isquemia extrema do usculo card´ıaco ocorre ap´os oclus˜ao coron´aria, e uma forte
corrente de les˜ao flui da ´area infartada dos ventr´ıculos, durante o intervalo TP, entre os
batimentos, como mostrado nas Figuras 12 e 13. Por conseguinte, uma das caracter´ısticas
diagn´osticas mais importantes dos eletrocardiogramas ap´os trombose coron´aria aguda ´e
a corrente de les˜ao.
A isquemia moderada ´e a causa mais comum de aumento na dura¸ao da despolariza¸ao
no m´usculo card´ıaco. Quando ela ocorre em apenas uma ´area do cora¸ao, o per´ıodo
de despolariza¸ao dessa ´area aumenta desproporcionalmente em rela¸ao ao de outras
partes. Como conseq¨uˆencia, pode acontecer mudan¸cas definitivas na onda T. A isquemia
pode resultar de oclus˜ao coron´aria progressiva e crˆonica, oclus˜ao coron´aria aguda ou
insuficiˆencia coron´aria relativa que ocorre durante o exerc´ıcio.
2.5 Interpreta¸ao Eletrocardiogr´afica 35
Figura 12: Corrente de les˜ao em infarto agudo da parede anterior.
Figura 13: Corrente de les˜ao em infarto agudo apical de parede posterior.
36
3 Sistema Atual e Metodologia
3.1 Introdu¸ao
A implementa¸ao deste trabalho se deu com o uso de uma interface gr´afica (GUI-
Graphical User Interface) em ambiente MatLab desenvolvida em (OLIVEIRA; ANDREAO,
2003-2004), a qual ´e vista na Figura 14. O sistema realiza a classifica¸ao do sinal de
ECG em quatro passos: Extrao de Caracter´ısticas, Aprendizagem, Segmenta¸ao e Clas-
sificao.
Figura 14: Interface GUI-Matlab desenvolvida em (OLIVEIRA; ANDREAO, 2003-2004).
3.1 Introdu¸ao 37
O ucleo do sistema ´e composto pelos algoritmos de processamento de sinais eletro-
cardiogr´aficos, que est˜ao estruturados de forma hier´arquica, como mostrado na Figura
15.
Figura 15: Sistema de detec¸ao de isquemia.
A Camada 0 tem por fun¸ao identificar uma seq¨uˆencia de formas elementares de
onda a partir de uma seq¨uˆencia de observoes do sinal de ECG. a a Camada 1 faz
a classifica¸ao de batimentos ESV (extrasystole ventriculaire), que ao batimentos que
apresentam extras´ıstole, ou normais, que abrangem todas as outras categorias de bati-
mentos. Na Camada 2 ´e feita a detec¸ao de epis´odios isquˆemicos a partir de uma an´alise
ao longo do tempo da evolu¸ao do deslocamento do segmento ST.
´
E importante frisar
que o presente trabalho se restringe `a implementa¸ao de novas ecnicas de adapta¸ao dos
modelos, ou seja, os algoritmos que ser˜ao apresentados aqui ao implantados na Camada
0.
O sistema apresentado na Figura 15 foi projetado para antecipar a ocorrˆencia de uma
doen¸ca card´ıaca, a saber, a isquemia. Esse trabalho, melhor detalhado em (ANDREAO,
2004), faz parte de um projeto francˆes de tele-vigilˆancia, chamado Tele-Pat, que tem
por objetivo a realiza¸ao de um sistema de alarme autom´atico para o acompanhamento `a
distˆancia de pessoas idosas ou com doen¸cas card´ıacas, (LAMKADDEM, 2005). Esse sistema
registra eletrocardiogramas, por modo port´atil, e o transmite a uma base de recep¸ao
dom´estica de tele-vigilˆancia. Uma conex˜ao do conjunto ´e garantida com um servidor
remoto localizado no centro de tele-vigilˆancia edico, o qual pode reagir aos alarmes
vindos do dispositivo de vigilˆancia na casa do paciente ou mesmo explorar continuamente
as informa¸oes biom´edicas do paciente. O sistema ´e mostrado na Figura 16.
3.1 Introdu¸ao 38
Figura 16: Sistema de tele-vigilˆancia TelePat.
O tratamento de alarme apresentado na Figura 16 corresponde `a an´alise de movi-
menta¸ao do corpo, com a medi¸ao dos pulsos card´ıacos, e pode se estender `a identifica¸ao
de doen¸cas card´ıacas utilizando a plataforma desenvolvida em (ANDREAO, 2004). Assim,
o sistema, a treinado com ECG normal e com aqueles que apresentam anomalias, ´e capaz
de gerar um alarme para preven¸ao de infarto do mioardio.
O presente trabalho, que opera na Camada 0, Figura 15, tem por objetivo identificar
as formas de onda do sinal de ECG, conforme mostra a Figura 17. O sistema deve ser
capaz de processar o sinal de diversos pacientes, com a finalidade de trabalhar com as ca-
racter´ısticas de cada pessoa. Para tal fim, ´e realizado um pro cesso de aprendizagem onde
o sistema aprende as formas elementares de onda do sinal de ECG, a partir da marca¸ao
feita por cardiologistas em uma base de dados de treinamento. Essa marca¸ao, tamem
chamada de etiquetas ou otulos, ´e feita em batimentos normais, uma vez que os batimen-
tos com alguma anomalia ao marcados com a respectiva anomalia e ao com a marca¸ao
das formas elementares. A adapta¸ao ao paciente ´e entendida como a aprendizagem das
formas de onda observadas do sinal de ECG de cada indiv´ıduo.
Figura 17: Arquitetura asica do sistema de detec¸ao.
A vantagem do sistema adaptativo est´a na compensa¸ao das varia¸oes no sinal de
ECG produzidas no decorrer da an´alise, que podem ser causadas por:
3.2 Sistema Atual 39
i) deslocamento dos eletrodos, movimentos do paciente, e outros problemas com a captura
do sinal;
ii) varia¸oes no sinal de ECG de pessoa para pessoa, e varia¸oes na mesma pessoa durante
o dia.
Uma vez que se utilize o processo de adapta¸ao, o banco de dados necess´ario para o
treinamento ser´a menor, pois o sistema sempre estar´a em treinamento, o que melhora o
desempenho do sistema autom´atico de an´alise do sinal de ECG apresentado na Figura
17. Deve-se ressaltar que o estudo sobre adapta¸ao apresentado no presente trabalho
foi aplicado sobre o sistema desenvolvido em (ANDREAO, 2004), e por isso ´e necess´ario
conhecer as caracter´ısticas do atual sistema para a proposi¸ao de implementa¸oes de
t´ecnicas de adapta¸ao.
3.2 Sistema Atual
O sistema desenvolvido em (ANDREAO, 2004) utiliza de uma abordagem markoviana
para a segmenta¸ao do batimento card´ıaco, reapresentado na Figura 18, com aplica¸ao `a
detec¸ao de isquemia. Um dos primeiros trabalhos nessa linha foi o desenvolvido por (CO-
AST et al., 1990). Ali, os autores fazem cada estado do modelo de Markov, com a topologia
esquerda-direita, corresponder a uma forma elementar do sinal de ECG, conforme visto
na Figura 19. Isso faz com que o modelo aprenda o batimento dentro de sua globalidade,
com a rela¸ao direta entre os estados e as ondas. Por exemplo, se ´e desejado que o modelo
aprenda a morfologia de uma nova onda P ou um novo complexo QRS, todo o modelo do
batimento deve ser treinado, o que aumenta a complexidade do problema.
Figura 18: Batimento card´ıaco.
3.2 Sistema Atual 40
Figura 19: Modelo do batimento card´ıaco, utilizado por (COAST et al., 1990).
Diferentemente, em (ANDREAO, 2004) cada forma elementar de onda e segmentos do
sinal de ECG ao modelados por um HMM, que, concatenadas, facilitam a aprendizagem
de novas morfologias. A Figura 20 apresenta o modelo do batimento composto de HMMs
concatenados. Vale lembrar que a onda ISO, que vem de linha isoel´etrica, corresponde
ao intervalo entre o final da onda T at´e o in´ıcio da onda P (ou do complexo QRS, caso
ao haja onda P).
´
E poss´ıvel notar a introdu¸ao de transi¸oes entre os modelos, como: i)
a transi¸ao da onda P para a onda ISO, para modelar as ondas P ao seguidas de uma
atividade ventricular; ii) transi¸ao de ISO para PQ sem passar por P, para modelar as
arritimias ventriculares e supra-ventriculares sem onda P vis´ıvel; iii) transi¸ao entre onda
T e ISO, para o modelamento cont´ınuo de uma seq¨uˆencia de batimentos.
Figura 20: Modelo do batimento card´ıaco composto pela concatena¸ao de HMMs.
A concatena¸ao dos modelos ´e feita pelo uso do algoritmo one-pass, onde os n´ıveis cor-
respondem `as ondas do batimento. Esse etodo foi adaptado para efetuar o alinhamento
temporal dos modelos `a seq¨uˆencia de observoes O
i
, i = 1, ..., T , segundo o modelo do
batimento proposto. A Figura 21 ´e um exemplo da decodifica¸ao de uma seq¨uˆencia de
observoes, cujo resultado ´e a posi¸ao, no tempo, de cada forma elementar do batimento,
o que, neste exemplo, significa a seq¨uˆencia dos modelos ISO-P-PQ-QRS-ST-T-ISO-P.
O processo de adapta¸ao ´e composto por duas fases, mostradas na Figura 22. Na Fase
1, os modelos gen´ericos ao adaptados pela primeira vez `as morfologias do sinal de ECG
do indiv´ıduo, sendo feito com os primeiros 20 segundos do tra¸cado de ECG. a a Fase
2 visa a adaptar os parˆametros do modelo `as flutua¸oes que podem aparecer, ao longo
3.2 Sistema Atual 41
Figura 21: Decodifica¸ao da seq¨uencia de observoes com o uso do algoritmo one-pass.
do tempo, sobre o sinal da pessoa. Nessa fase, a matriz de covariˆancia das distribui¸oes
gaussianas dos estados ao ´e reestimada, mas sim o vetor m´edia. A matriz ´e fixada nos
valores obtidos na Fase 1. A outra reestima¸ao que ´e feita na Fase 2 ´e a da matriz de
probabilidade de transi¸ao de estados.
Figura 22: Sistema de segmenta¸ao autom´atica do sinal de ECG.
A estrutura do algoritmo de adapta¸ao Baum-Welch (RABINER, 1989), da fam´ılia EM,
´e ilustrado na Figura 23. Note-se que cada registro de tra¸cado de ECG contido na base
usada, a base QT (LAGUNA et al., 1997), em geral possui 225000 pontos (15 min), com um
per´ıodo de amostragem de 4 ms. Esses pontos ao analisados (segmentados e adaptados)
em janelas de 20 s, ou seja, de 5000 pontos, dentro da rotina hmm segmentation gui.m.
3.2 Sistema Atual 42
Observa-se enao, que ao contr´ario de uma abordagem em lote, que utiliza todos os pontos
de uma o vez, o sistema atual ao usa todo o registro de uma ´unica vez para se efetuar
os alculos, mas o faz em blocos menores.
Figura 23: Arquitetura asica do algoritmo de ( ANDREAO, 2004).
Essa rotina chama uma outra chamada, rb adaptation non supervisee.m, que realiza
a Fase 1 do processo de adapta¸ao. Essa fase consiste em adaptar, pela primeira vez, os
modelos gen´ericos `as morfologias do sinal de ECG do indiv´ıduo nos primeiros 20 segundos
do seu tra¸cado, ou seja, no primeiro bloco de 5000 pontos. Este processo ´e feito com o
chamado da fun¸ao learn ghmm.m.
Ap´os a primeira fase, ´e, ent˜ao, chamada outra vez a rotina learn ghmm.m, dentro do
corpo principal de hmm segmentation gui.m, onde ´e implementada a Fase 2, que visa a
adaptar os parˆametros do modelo `as flutua¸oes que podem aparecer ao longo do tempo
sobre o sinal de ECG. Essa rotina ser´a utilizada a cada bloco ou conjunto de 5000 pontos
at´e o final do tra¸cado. Dentro de cada um desses blocos, a rotina ´e chamada para cada
modelo das formas elementares de onda, como o modelo de onda P, de onda T, de complexo
QRS, de linha ISO, entre outros. E ent˜ao, os exemplos de ocorrˆencia da forma elementar de
onda em an´alise, dentro desse bloco, ao guardados e depois passados para learn ghmm.m,
para os alculos de adapta¸ao.
Sobre o processo de adapta¸ao, ´e importante citar que, dentro de cada bloco e depois
para cada forma elementar de onda, os passos E (Expectation) e M (Maximization) do
algoritmo Baum-Welch ao executados at´e no aximo 10 vezes, ou at´e a convergˆencia, a
qual ´e medida pela diferen¸ca da verossimilhan¸ca entre duas itera¸oes. O n´umero aximo
de itera¸oes foi determinado de forma emp´ırica, assim como o limiar aceito para a con-
vergˆencia (ANDREAO, 2004). Ap´os learn ghmm.m, os modelos ao reestimados.
3.3 Metodologia 43
Figura 24: Sistema desenvolvido por (ANDREAO, 2004).
´
E importante ressaltar que na passagem de um bloco a outro nenhuma informa¸ao
sobre o bloco anterior ´e guardada, a ao ser os pr´oprios modelos λ reestimados. Essas
informa¸oes correspondem `as vari´aveis estat´ısticas que comp˜oem a distribui¸ao de pro-
babilidade dos estados sobre o conjunto de vari´aveis ocultas, X(q). Assim, cada bloco
´e inicializado com os modelos encontrados no grupo anterior, mas o valor inicial da dis-
tribui¸ao X(q), que armazena as informa¸oes do modelo, ´e igual a zero. Isto pode ser
observado na Figura 24.
Observa-se que a abordagem adotada em (ANDREAO, 2004) ao ´e uma abordagem
em lote propriamente dita, uma vez que ao ´e utilizado todo o conjunto de dados, de
uma ´unica vez, para as estima¸oes feitas no algoritmo Baum-Welch (RABINER, 1989),
mas tamb´em ao se torna uma abordagem incremental, pois executa 10 itera¸oes at´e a
convergˆencia por verossimilhan¸ca.
3.3 Metodologia
Para a realiza¸ao deste trabalho, primeiro, estudou-se a extra¸ao de caracter´ısticas
com o uso da interface a apresentada neste cap´ıtulo. Isso permitiu o estudo sobre a
influˆencia da transformada wavelet na extra¸ao de parˆametros do sinal de ECG. Depois
dessa etapa, o passo seguinte foi o estudo da segmenta¸ao do sinal de ECG, o que en-
globa o estudo da teoria de HMM (que ser´a apresentada nos pr´oximos cap´ıtulos) e sua
implementa¸ao na plataforma utilizada.
3.3 Metodologia 44
3.3.1 Extra¸ao de Parˆametros
A partir da teoria apresentada no Anexo A, estudaram-se os resultados da transfor-
mada wavelet sobre o sinal de ECG em rela¸ao `a escolha da fun¸ao wavelet e da escala
utilizada. Para isso, com o caminho ViewParameter Extraction, na interface, ´e visuali-
zada uma janela (Figura 25), que permite escolher a fun¸ao wavelet, o canal e o arquivo de
gravao. Note-se que a transformada wavelet ´e utilizada em outros trabalhos envolvendo
processamento de eletrocardiograma, como em (PROVAZNIK et al., 2000).
Figura 25: Tela de avalia¸ao.
Um estudo comparativo ´e apresentado na Figura 26, utilizando as fun¸oes Chap´eu
Mexicano e Morlet. Nota-se que, com a fun¸ao Chap´eu Mexicano, ´e poss´ıvel ressaltar
caracter´ısticas do sinal de ECG como o complexo QRS, o mesmo ao acontecendo para a
wavelet Morlet. Ap´os um estudo desenvolvido em (ANDREAO, 2004), foi eleita a wavelet
Chap´eu Mexicano como aquela que melhor caracteriza o sinal de ECG.
A Figura 27 mostra a representa¸ao de um sinal de ECG, no primeiro quadro, e a
transformada wavelet com a fun¸ao Chap´eu Mexicano, em trˆes escalas distintas, nos qua-
dros seguintes. A extra¸ao de caracter´ısticas do sinal de ECG ´e feita com a Transformada
Wavelet Cont´ınua (CWT) (ver anexo A), que permite uma representa¸ao robusta do sinal
e um modelamento preciso das ondas e das rupturas do sinal. A fun¸ao wavelet escolhida
foi a Chap´eu Mexicano com escala de dois, s = 2
j
, onde j = 2, 3 e 4.
O resultado da transformada corresponde `as observoes do sistema, e as trˆes escalas
combinadas se tornam uma representa¸ao que engloba as informa¸oes ´uteis do batimento
card´ıaco.
3.3 Metodologia 45
Figura 26: Compara¸ao com duas fun¸oes wavelets: a) usando a wavelet Chap´eu
Mexicano; b) usando a wavelet Morlet.
Figura 27: Transformada wavelet para um sinal de ECG.
3.3 Metodologia 46
3.3.2 Segmenta¸ao Autom´atica do Sinal de ECG
A segmenta¸ao do sinal de ECG pode ser vista como a decodifica¸ao de uma seq¨uen-
cia de observoes em fun¸ao das formas elementares do batimento. O processo de seg-
menta¸ao utiliza o algoritmo de Viterbi, e ´e controlado por um conjunto de regras, das
quais se pode citar: limiar de amplitude, corre¸ao da segmenta¸ao da onda T e supress˜ao
de falsos complexos QRS (ANDREAO, 2004).
A probabilidade de emiss˜ao b
j
(o
t
), um dos parˆametros dos modelos de Markov, ge-
ralmente ´e dada por uma mistura de gaussianas. Contudo, a partir dos histogramas
das observoes da base de aprendizagem, exemplificados pela Figura 28, determinou-se
que as observoes podem ser modeladas por uma ´unica gaussiana por estado de cada
HMM. Apesar que uma mistura de gaussianas consegue modelar melhor um conjunto de
observoes, ela demanda um grande custo computational, o que ao ´e justific´avel pelos
testes realizados em (ANDREAO, 2004).
Figura 28: Histograma das observoes da onda P. A escala j ´e correspondente `a
transformada wavelet efetuada.
3.3.3 Aprendizagem e Adapta¸ao
Uma etapa relacionada `a segmenta¸ao do sinal de ECG ´e a aprendizagem dos mo-
delos de Markov. Essa aprendizagem, ou seja, a estima¸ao dos parˆametros dos modelos
markovianos, ´e feita pelo etodo de Baum-Welch (BW) (RABINER, 1989), explicado mais
adiante, que maximiza a verossimilhan¸ca P (O|λ), dadas as observoes e dado o modelo.
Os modelos de cada forma elementar do batimento ao treinados por um conjunto de
aprendizagem pr´oprio. A partir de um modelo inicial, no qual uma boa estimativa se faz
necess´aria, o m´etodo BW executa a aprendizagem iterativa dos modelos, conforme pode
3.3 Metodologia 47
ser visto na Figura 29, e o crit´erio de convergˆencia ´e a compara¸ao da verossimilhan¸ca
dos dados de aprendizagem entre duas itera¸oes consecutivas.
Figura 29: Aprendizagem do modelo λ
k
pelo etodo de Baum-Welch (RABINER, 1989).
3.3.4 Especifica¸ao dos Modelos
As caracter´ısticas dos modelos utilizados para cada forma elementar de onda ao
mostradas na Tabela 1.
´
E importante dizer que todos os HMMs possuem a configura¸ao
esquerda-direita e ´e utilizada uma ´unica gaussiana para cada estado de cada modelo.
Tabela 1: Especifica¸oes dos modelos.
Modelo P PQ QRS ST T ISO
N
o
de estados 3 2 3 2 6 3
N
o
de exemplos de treinamento 660 719 770 339 760 697
48
4 T´ecnicas de Adapta¸ao
Neste cap´ıtulo ser˜ao estudadas as ecnicas de adapta¸ao implementadas no sistema
desenvolvido em (ANDREAO, 2004). Para a total compreens˜ao dessas t´ecnicas ´e necess´ario
abordar, primeiramente, a teoria dos modelos ocultos de Markov (HMM).
4.1 Teoria de HMM
Estudados a partir dos anos 60, os m´etodos estat´ısticos de Markov se tornaram usuais
por dois grandes motivos. Primeiro, porque os modelos de Markov possuem uma boa
estrutura matem´atica, que serve de base te´orica em um grande n´umero de aplica¸oes.
A outra raz˜ao ´e que, quando os modelos ao aplicados apropriadamente, eles funcionam
relativamente bem para aplica¸oes importantes como reconhecimento de voz e tratamento
de sinais biom´edicos.
4.1.1 Elementos de um HMM
Pode-se definir formalmente os elementos de um HMM, segundo Rabiner (1989), pelas
vari´aveis a seguir:
N ´e o n´umero de estados do modelo. Mesmo que os estados sejam escondidos, que
´e o caso deste trabalho, eles est˜ao relacionados a fenˆomenos f´ısicos do sinal a ser
tratado. Os estados ao chamados de S = {S
1
, S
2
, ..., S
N
} e o estado no tempo t ´e
chamado de q
t
.
M ´e o n´umero de s´ımbolos distintos existentes. Os s´ımbolos propriamente ditos ao
elementos do conjunto V = {v
1
, v
2
, ..., v
M
}.
A ´e a matriz de probabilidade de transi¸ao de estados. Os elementos da matriz A
podem ser definidos como a
ij
= P [q
t+1
= S
j
|q
t
= S
i
], ou seja, a probabilidade de se
estar no estado S
j
no tempo t + 1, dado que o estado anterior foi S
i
.
4.1 Teoria de HMM 49
B ´e a distribui¸ao das probabilidades de emiss˜ao de s´ımbolos, e ´e definida por:
B = {b
j
(k)}, onde b
j
(k) = P [v
k
em t|q
t
= S
j
]
π ´e a probabilidade inicial dos estados.
Pode-se, enao, representar um modelo de Markov λ como λ = (A, B, π) e o sistema
ir´a processar as observoes O = (O
1
O
2
...O
T
), que correspondem ao sinal medido. T ´e o
n´umero de observoes.
4.1.2 Os trˆes problemas asicos do HMM
Existem trˆes problemas a serem resolvidos por HMM e que ao utilizados em muitas
aplica¸oes, a saber:
problema 1: dada uma seq¨uˆencia de observoes e um modelo λ, qual a probabilidade
dessas observoes acontecerem, dado o modelo? Isto ´e, calcular P (O|λ).
problema 2: dada a seq¨uˆencia de observoes e o modelo λ, como escolher uma
seq¨uencia de estados Q = q
1
q
2
...q
T
que melhor representa a seq¨uˆencia de observoes?
problema 3: como ajustar os parˆametros do modelo λ = (A, B, π) para maximizar
P (O|λ)?
O primeiro problema trata de dizer qual o modelo, dentre os implementados, que
melhor representa uma seq¨uˆencia de observoes, ou seja, dizer a que classe pertencem as
observoes. a o segundo problema segmenta, ou seja, tenta encontrar a melhor seq¨uˆencia
de estados para uma dada observao.
´
E importante dizer que a arios crit´erios de
otimiza¸ao a se utilizar, e mais adiante ser´a proposta uma op¸ao. Por fim, o ´ultimo
problema visa otimizar os parˆametros, a fim de criar um modelo o mais pr´oximo poss´ıvel
do real, usando, para isso, uma seq¨uˆencia de observoes em um processo de treinamento,
que ´e essencial para a adapta¸ao dos parˆametros do modelo.
4.1.2.1 Solu¸ao para o problema 1: alculo da axima Verossimilhan¸ca (ML)
Uma das maneiras para se calcular a probabilidade da seq¨uˆencia de observao O =
O
1
O
2
...O
T
dado o modelo λ, ou seja, para se calcular P (O|λ), ´e contar todas as seq¨encias
de estados de mesmo comprimento T , isto ´e, Q = q
1
q
2
...q
T
, onde q
1
´e o estado inicial.
4.1 Teoria de HMM 50
A probabilidade da seq¨uˆencia de observao para a seq¨uˆencia de estados dada acima
pode ser escrita como
P (O|Q, λ) =
T
t=1
P (O
t
|Q
t
, λ),
onde se assume a independˆencia estat´ıstica das observoes, ou seja, P (O
1
O
2
...O
T
) =
T
i=1
P (O
i
). Assim, tem-se que:
P (O|Q, λ) = b
q
1
(O
1
).b
q
2
(O
2
)...b
q
T
(O
T
).
Depois de equacionar P (O|Q, λ), ´e poss´ıvel definir P (Q|λ) como
P (Q|λ) = π
q
1
a
q
1
q
2
a
q
2
q
3
...a
q
T 1
q
T
.
Enao, a probabilidade das observoes e da seq¨uˆencia de estados acontecerem ao mesmo
tempo ´e o produto dos dois termos acima, isto ´e,
P (O, Q|λ) = P (O|Q, λ)P (Q|λ).
A express˜ao acima ´e chamada de express˜ao de axima Verossimilhan¸ca, e, assim, a
probabilidade desejada, P (O|λ), ´e obtida pelo somat´orio das probabilidades sobre todas
as poss´ıveis seq¨encias de estados q, obtendo-se
P (O|λ) =
Q
P (O|Q, λ)P (Q|λ)
=
q
1
,q
2
,...,q
T
π
q
1
b
q
1
(O
1
)a
q
1
q
2
b
q
2
(O
2
)...a
q
T 1
b
q
T
(Q
T
).
Devido ao custo computacional para o alculo de P (O|λ), de acordo com a express˜ao
acima, existe um algoritmo chamado Forward-Backward, que diminui o n´umero de opera¸oes
para o alculo da probabilidade, que pode ser visto em (RABINER, 1989).
4.1.2.2 Solu¸ao para o problema 2: algoritmo de Viterbi
Diferentemente do problema 1, que possui uma solu¸ao exata, o problema 2 pode
ser resolvido de arias maneiras, dependendo do crit´erio de otimiza¸ao utilizado para
encontrar a seq¨uˆencia ´otima de estados associada `a seq¨uˆencia de observao dada. Por
exemplo, um crit´erio poss´ıvel seria escolher os estados q
t
os quais tem, individualmente,
a maior probabilidade de ocorrˆencia. Este crit´erio de otimiza¸ao maximiza o n´umero
esperado de estados individualmente corretos. Este crit´erio apresenta alguns problemas
com a seq¨uˆencia resultante, pois esta solu¸ao determina o estado mais proavel a cada
instante sem levar em considera¸ao a probabilidade de ocorrˆencia de seq¨uˆencia de estados.
4.1 Teoria de HMM 51
Pode-se, enao, modificar o crit´erio de otimiza¸ao. O mais utilizado ´e encontrar a
´unica melhor seq¨uˆencia de estados, ou seja, maximizar P (Q|O, λ), que ´e equivalente a
maximizar P (Q, O|λ). A solu¸ao ´e, ent˜ao, chamada de Algoritmo de Viterbi, que ´e
baseado em etodos de programa¸ao dinˆamica. Para encontrar a melhor seq¨encia de
estados, dada a observao, define-se δ
t
(i) = max
q
1
,q
2
,...,q
t1
P [q
1
q
2
...q
t
= S
i
, O
1
O
2
...O
t
|λ] como
a maior probabilidade ao longo do caminho, no temp o t, que considera as t observoes
que terminam no estado S
i
. Por indu¸ao, tem-se que
δ
t+1
(j) =
max
i
δ
t
(i)a
ij
b
j
(O
t+1
).
Para recuperar a seq¨uˆencia de estados, ´e necess´ario manter os dados que maximizam
a express˜ao acima para cada t e j. Isto ´e feito utilizando o vetor ψ
t
(j). O algoritmo de
Viterbi pode ser visto como o procedimento a seguir
Inicializa¸ao:
δ
1
(i) = π
i
b
i
(O
1
), 1 i N
ψ
1
(i) = 0
Recurs˜ao:
δ
t
(j) = max
1iN
[δ
t1
(i)a
ij
] b
j
(O
t
), 2 t T e 1 j N
ψ
t
(j) = arg max
1iN
[δ
t1
(i)a
ij
] , 2 t T e 1 j N
Termina¸ao:
P = max
1iN
[δ
T
(i)]
q
t
= arg max
1iN
[δ
T
(i)]
Volta ao caminho da seq¨uencia de estados:
q
t
=ψ
t+1
(q
t+1
), t = T 1, T 2, ..., 1
4.1.2.3 Solu¸ao para o problema 3
Este ´e o mais dif´ıcil dos trˆes problemas, a que ao existe um meio anal´ıtico conhecido
para se achar os parˆametros do modelo que maximizem a probabilidade da seq¨encia de
observoes. O que se faz ´e escolher o modelo λ = (A, B, π), tal que p(O|λ) ´e localmente
maximizado utilizando o algoritmo Expectation-Maximization ou o etodo Baum-Welch,
4.1 Teoria de HMM 52
(RABINER, 1989) que ´e o algoritmo EM adaptado para HMM.
Algoritmo Expectation-Maximization (EM). Este algoritmo pode ser utili-
zado para obter a axima verossimilhan¸ca, estimada em problemas com vari´aveis
ocultas ou ao-observ´aveis. Assim, ele utiliza a probabilidade p(O, q|λ) como ferra-
menta para o alculo de p(O|λ), com o objetivo de estimar os parˆametros do modelo
λ. Para isso, busca-se a maximiza¸ao do logaritmo de p(O|λ), ou seja, de
L(λ) = log p(O |λ) = log
q
p(O, q|λ).
Para a maximiza¸ao de L(λ), utiliza-se uma abordagem simplificada, considerando
X(q) como a distribui¸ao de probabilidade dos estados sobre o conjunto de vari´aveis
escondidas.
log
q
p(O, q|λ) = log
q
X(q)
p(O, q|λ)
X(q)
log
q
p(O, q|λ)
q
X(q) log
p(O, q|λ)
X(q)
log
q
p(O, q|λ)
q
X(q) log p(O, q|λ)
q
X(q) log X(q)
Pode-se ent˜ao definir uma fun¸ao F (X, λ) como a parte direita da desigualdade
acima, ou
F (X, λ) =
q
X(q) log p(O, q|λ)
q
X(q) log X(q). (4.1)
´
E poss´ıvel, enao, fazer uma rela¸ao entre a fun¸ao F (X, λ) e a fun¸ao L(λ), como
log
q
p(O, q|λ) F (X, λ). (4.2)
A equa¸ao 4.1 po de ser escrita tamb´em de outra forma, a saber,
F (X, λ) = E[log p(O, q|λ)] + H(X(q)), (4.3)
onde H(X(q)) ´e a entropia da distribui¸ao X(q).
O algoritmo EM busca a maximiza¸ao de F (X, λ), que ´e feita em duas etapas, a
Esperan¸ca (E) e a Maximiza¸ao (M). Na primeira etapa, ´e feita a reestima¸ao da
distribui¸ao X(q), mantendo-se fixo os parˆametros do modelo, e busca-se a maxi-
miza¸ao de F (X, λ ), ou seja,
X
k+1
arg max
X
F (X, λ
k
), (4.4)
4.1 Teoria de HMM 53
onde λ
k
representa os valores atuais dos parˆametros do modelo na itera¸ao k. Assim,
a maximiza¸ao de F (X, λ) na equa¸ao 4.1 acontece quando
X
k+1
(q) = p(q|O, λ
k
). (4.5)
e enao a desigualdade 4.2 se torna a igualdade F (X
k+1
, λ
k
) = L(λ
k
)
Na etapa de Maximiza¸ao, a fun¸ao F (X, λ) ´e maximizada modificando os parˆametros
do modelo e mantendo fixa a distribui¸ao X(q), ou seja,
λ
k+1
arg max
λ
F (X
k+1
, λ). (4.6)
Isto ´e feito maximizando a primeira parte da equa¸ao 4.1, a que a segunda parte
ao depende de λ, ou seja,
λ
k+1
= arg max
λ
q
p(q|O, λ
k
) log p(q, O|λ). (4.7)
Assim, define-se uma fun¸ao auxiliar Q como sendo o argumento de maximiza¸ao
Q(λ
k
, λ) =
q
p(q|O, λ
k
) log p(q, O|λ), (4.8)
ou seja,
Q(λ
k
, λ) = E [log p(q, O|λ)] . (4.9)
Vˆe-se, ent˜ao, que Q ´e a esperan¸ca matem´atica do logaritmo da densidade conjunta
das vari´aveis escondidas q e das observ´aveis O. Assim, pode-se afirmar que maxi-
mizar a fun¸ao Q ´e equivalente a maximizar L(λ), a que quando uma mudan¸ca dos
parˆametros do modelo fazem aumentar Q(λ
k
, λ) isso tamb´em aumentar´a L(λ).
Pode-se, enao, maximizar a esperan¸ca matem´atica Q para cada valor dos parˆametros
do modelo e, em seguida, reestim´a-los o que leva a maximiza¸ao de p(O|λ) para cada
itera¸ao k, a ao ser que a se esteja em um aximo local de Q. Para o caso de
HMM, como a foi dito, o algoritmo Baum-Welch (RABINER, 1989), detalhado a
seguir, foi especialmente desenvolvido para o m´etodo de aprendizagem baseado no
algoritmo EM.
Algoritmo Baum-Welch (BW). O treinamento de um HMM ´e um caso particular
do algoritmo EM. Na etapa E, a distribui¸ao a posteriori dos estados do HMM, que
´e uma vari´avel escondida, ´e estimada pela equa¸ao 4.5. Esta estima¸ao faz uso
dos algoritmos forward e backward, vistos em (RABINER, 1989), que diminuem os
recursos computacionais.
4.1 Teoria de HMM 54
Primeiro, a distribui¸ao a p osteriori pode ser escrita em fun¸ao da probabilidade de
jun¸ao das vari´aveis escondidas e observ´aveis, a saber
p(q|O, λ
k
) =
p(q, O|λ
k
)
q
p(q
, O|λ
k
)
.
O numerador da equa¸ao acima tamem pode ser escrito em fun¸ao dos parˆametros
do modelo, ou seja
p(q, O|λ
k
) =
T
t=1
p(q
t
|o
t
k
)p(q
0
|λ
k
)p(q
t
|q
t1
, λ
k
)
p(q, O|λ
k
) = π
q
0
T
t=1
b
q
t
(o
t
)a
q
t1
q
t
log p(q, O|λ
k
) = log π
q
0
+
T
t=1
log b
q
t
(o
t
) +
T
t=1
log a
q
t1
q
t
.
Assim, depois de calcular p(q, O|λ
k
), a etapa M ´e feita da seguinte forma:
Buscam-se os valores dos parˆametros do modelo que anulam a derivada da
fun¸ao Q(λ
k
, λ) em rela¸ao a cada parˆametro do HMM, utilizando multiplica-
dores de Lagrange;
Respeitam-se as restri¸oes que garantem a validade das probabilidades de
emiss˜ao b
j
(k), a de transi¸ao de estados a
ij
e a probabilidade inicial π.
Como resultado do algoritmo, tem-se as equa¸oes de reestima¸ao dos parˆametros do
modelo λ:
Probabilidade inicial:
π
k+1
j
=
p(q
0
= j, O|λ
k
)
p(O|λ
k
)
Probabilidade de transi¸ao de estados:
a
k+1
ij
=
T
t=1
p(q
t1
= i, q
t
= j, O|λ
k
)
T
t=1
p(q
t1
= i, O|λ
k
)
Probabilidade de emiss˜ao (caso cont´ınuo):
γ
t
(j, m) =
p(q
t
= j, O|λ
k
)
p(O|λ
k
)
c
jm
N(o
t
, µ
jm
, U
jm
)
M
m=1
c
jm
N(o
t
, µ
jm
, U
jm
)
4.2 Adapta¸ao 55
c
k+1
jm
=
T
t=1
γ
t
(j, m)
T
t=1
M
m=1
γ
t
(j, m)
µ
k+1
jm
=
T
t=1
γ
t
(j, m).o
t
T
t=1
γ
t
(j, m)
U
k+1
jm
=
T
t=1
γ
t
(j, m).(o
t
µ
jm
)(o
t
µ
jm
)
T r
T
t=1
γ
t
(j, m)
onde (X)
T r
representa a matriz transposta de X, c
jm
representa o coeficiente
da mistura de gaussianas, e µ
jm
e U
jm
ao o vetor m´edia e a covariˆancia da
distribui¸ao gaussiana, respectivamente.
4.2 Adapta¸ao
O processo de adapta¸ao do sistema desenvolvido em (ANDREAO, 2004) ´e fundamen-
tado na reaprendizagem dos modelos de Markov. Devido `a importˆancia da etapa de
adapta¸ao, ser˜ao estudados os principais algoritmos, suas caracter´ısticas e possibilidades
de implementa¸ao.
Existem duas formas de adapta¸ao, listadas a seguir (LEE; HUO, 2000) e mostradas
na Figura 30:
indireta, onde os modelos ao adaptados utilizando uma matriz de transforma¸ao;
direta, onde os modelos ao adaptados de acordo com um etodo de adapta¸ao.
´
E importante ressaltar que os algoritmos estudados aqui adotam a ecnica direta, pois
assim cada modelo pode ser adaptado separadamente quando desejado.
4.2.1 Algoritmos em Lote (Batch Algorithms)
Uma das formas de se adaptar HMMs ´e utilizar algoritmo em lote. Seu conceito, de
acordo com Digalakis (1999), consiste em que todos os dados de adapta¸ao precisam ser
armazenados e os parˆametros do modelo necessitam de m´ultiplas itera¸oes para serem
estimados, ou seja, passa-se arias vezes pelos dados armazenados, chamadas de ´epocas.
4.2 Adapta¸ao 56
Figura 30: Adapta¸ao direta e indireta de HMM (LEE; HUO, 2000).
Devido a essa caracter´ıstica, esses algoritmos apresentam a limita¸ao de que o usu´ario deve
ter uma grande quantidade de dados armazenados para servir de base para o processo de
adapta¸ao. Ent˜ao, os parˆametros do sistema ser˜ao adaptados off-line, ou em lote, sem
que o usu´ario possa ver os benef´ıcios da adapta¸ao aplicados a estes dados.
A maioria das aplica¸oes pr´aticas necessitam de algoritmos de adapta¸ao on-line e
incremental, ou seja, os parˆametros devem ser atualizados depois de cada observao ou
pequenos subconjuntos dentro do conjunto total de dados. Isso faz com que o desempenho
da aprendizagem melhore progressivamente, `a medida que o sistema for sendo usado.
Assim, os subconjuntos se beneficiam da adapta¸ao dos modelos adaptados durante a
passagem pelos subconjuntos anteriores. Enao ´e poss´ıvel sentir o efeito da adapta¸ao
dentro do conjunto grande de dados.
Como em (HUO; LEE, 1997), pode-se fazer uma rela¸ao entre os algoritmos em lote, ou
off-line, e os algoritmos on-line, ou seq¨uenciais, considerando que a vantagem dos algorit-
mos seq¨uenciais em rela¸ao aos algoritmos off-line ao est´a necessariamente no resultado
final, mas sim na eficiˆencia computacional, na condi¸ao de armazenagem reduzida e no
fato de que o resultado pode ser obtido sem ter que esperar que todos os dados sejam
processados.
Ressalte-se que, para qualquer tipo de algoritmo de adapta¸ao, deseja-se que ele seja
ao-supervisionado, para que possa se adaptar automaticamente `as novas observoes.
4.2 Adapta¸ao 57
4.2.2 Algoritmos On-line
Pode-se definir um algoritmo on-line como aquele que ´e desenvolvido para executar
uma adapta¸ao cont´ınua, usando um sistema de mem´oria limitado. Para que essa defini¸ao
seja colocada em pr´atica, a implementa¸ao de um algoritmo on-line deve fazer com que
ele se torne (HUO; MA, 2001):
incremental: os parˆametros do modelo devem se adaptar continuamente aos novos
dados de adapta¸ao, sem precisar de um armazenamento de um grande n´umero
pr´evio de dados de treinamento ou adapta¸ao. Isso aumenta a eficiˆencia computa-
cional e diminui as condi¸oes de armazenamento;
adaptativo: como as varia¸oes dos parˆametros do modelo correspondem `as varia¸oes
dos dados de observao, o sistema de adapta¸ao dever ter alguns mecanismos de
“esquecimento”para reduzir o efeito das antigas observoes em rela¸ao aos novos
dados de entrada;
eficiente: o algoritmo de adapta¸ao deve manter ou melhorar o desempenho com
uma pequena quantidade de dados de adapta¸ao, e se aproximar assintoticamente
do desempenho aximo da adapta¸ao off-line, `a medida que o n´umero de dados de
adapta¸ao for aumentando.
4.2.3 Treinamento Incremental
De acordo com as caracter´ısticas dos algoritmos on-line a citadas, pode-se ver que ao
´e poss´ıvel utilizar o tradicional algoritmo EM para reestimar os parˆametros do sistema.
Assim, foi criada uma vers˜ao incremental do m´etodo em um sistema de reconhecimento
de voz desenvolvido em (GOTOH; SILVERMAN, 1996), com a axima verossimilhan¸ca (Ma-
ximum Likelihood - ML) como crit´erio de otimiza¸ao. Esse algoritmo (GOTOH; SILVER-
MAN, 1996) foi implementado para um processo de treinamento de HMMs sem perda
de desempenho. Treinamentos convencionais de HMMs ao feitos usando algoritmos EM
que utilizam como crit´erio de convergˆencia a axima verossimilhan¸ca (ML), que ´e o caso
do sistema atual. De acordo com Neal e Hinton (1993) e Gauvain e Lee (1994), usando
uma variante incremental, melhoras substanciais na velocidade de treinamento po dem
ser obtidas com uma estima¸ao aximo a posteriori (MAP). Esse algoritmo seleciona
seq¨uencialmente os dados do subconjunto de treinamento, atualiza os parˆametros do sub-
conjunto e ent˜ao faz as itera¸oes at´e a convergˆencia. E assim, no trabalho desenvolvido
4.2 Adapta¸ao 58
por Gotoh e Silverman (1996) ao ´e necess´aria estimar uma distribui¸ao a priori, como
no treinamento bayesiano que ser´a visto adiante.
A justificativa te´orica para uma variante incremental do algoritmo EM ´e dada em
(NEAL; HINTON, 1993), onde se estabelece que se as estat´ısticas, ou seja, a distribui¸ao
X(q), para o passo de estima¸ao E, ao incrementalmente coletadas, os parˆametros do
modelo ao freq¨uentemente estimados e a convergˆencia acelera, a que a informa¸ao de
dados novos contribui para a estima¸ao dos novos parˆametros mais rapidamente que no
algoritmo padr˜ao.
A teoria usada em (GOTOH; SILVERMAN, 1996) ´e aplicada a dados que pertencem `a
Fam´ılia Exponencial, o que se aplica tamem ao sinal de ECG, uma vez que ele ´e modelado
por gaussianas, que nada mais ao do que curvas exponenciais.
´
E tamem necess´ario que
os dados sejam independentes, ou seja, p(O
1
, O
2
, ...O
T
) =
T
i=1
p(O
i
).
O algoritmo prop osto por Gotoh e Silverman (1996) pode ser descrito pelas seguintes
etapas:
Inicializa¸ao
Inicializar os parˆametros λ
0
.
Separar o conjunto de observoes em N subconjuntos O = O
n
, n = 1, ..., N.
Definir distribui¸oes iniciais X
n
0
(q) adequadas para cada subconjunto O
n
.
Inicializar o contador da itera¸ao k em zero.
Passo de estima¸ao (E)
Escolher um subconjunto O
n
Dado λ
k
, calcular os termos forward/backward e calcular X
n
k+1
(q) como X
n
k+1
(q) =
E[t(O
n
, q
n
|O
n
, λ
k
)].
Atualizar X
l
k+1
(q) X
l
k
(q) para os blocos l = n. Isso ao requer praticamente
alculo algum.
Estabelecer a distribui¸ao para todo o conjunto de dados como: X
k+1
(q) =
X
k
(q) X
n
k
(q) + X
n
k+1
(q).
Passo de maximiza¸ao (M)
Ajustar os parˆametros do modelo λ
(k+1)
para ser a solu¸ao da igualdade
E[t(O, q)|λ] = X
k+1
.
4.3 Aprendizagem EM 59
Se ao houver convergˆencia, fazer k = k +1 e repetir a partir do passo de estima¸ao.
Observe-se que os subconjuntos O
n
podem ser selecionados seq¨uencialmente ou ale-
atoriamente, e que, para cada itera¸ao, o subconjunto escolhido po de ser diferente da
itera¸ao anterior. Um problema que pode aparecer nessa abordagem incremental ´e o de
mem´oria para armazenar as estat´ısticas de cada subconjunto X
n
(q) separadamente. Isso
pode ocorrer quando o n´umero de subconjuntos ´e muito grande.
Isso rendeu ao trabalho desenvolvido por (GOTOH; SILVERMAN, 1996) uma redu¸ao
de tempo em horas de CPU de 9,1 para 2,7, sem prejudicar o desempenho de reconheci-
mento. Note-se que em (GOTOH; SILVERMAN, 1996) trabalha-se com reconhecimento da
fala. Foi observado, neste trabalho, que a uma melhora significativa no tempo de pro-
cessamento quando a um n´umero grande de subconjuntos, pois assim os parˆametros dos
modelos ser˜ao freq¨uentemente estimados. Ressalta-se que as melhorias foram obtidas sem
o uso da estima¸ao MAP, que requer uma estima¸ao a priori, o que ´e muito dif´ıcil de se
conseguir na maioria dos casos. Devido a algumas dificuldades de se guardar informa¸oes
(distribui¸oes) para grandes HMMs, ´e ent˜ao introduzida a id´eia de um ”fator de esque-
cimento”que consideraria com uma importˆancia menor as informa¸oes de subconjuntos
mais antigos.
4.3 Aprendizagem EM
Note-se que, para a adapta¸ao off-line , os dados precisam ser primeiramente arma-
zenados para depois se executar os passos EM (Expectation-Maximization) arias vezes
at´e a convergˆencia, ou seja, a cada itera¸ao do algoritmo ´e necess´ario fazer uma passagem
pelos dados, resultando ao final em arias passagens pelos dados ou observoes. Assim,
os parˆametros do sistema devem ser adaptados off-line antes que o usu´ario possa usufruir
dos benef´ıcios dessa adapta¸ao.
Para a adapta¸ao on-line, ´e necess´ario, ent˜ao, que seja feita uma ´unica passagem
pelos dados, para que os parˆametros possam ser atualizados incrementalmente. Digalakis
(1999) prop˜oe que, para facilitar a integra¸ao de uma adapta¸ao incremental com um
sistema de reconhecimento de fala, ´e prefer´ıvel que o treinamento dos modelos utilize
um procedimento segmental k-means em vez do treinamento Baum-Welch. Para este
trabalho, continuar-se-´a com o treinamento BW a utilizado em (ANDREAO, 2004) e a
adapta¸ao incremental tamb´em ser´a feita usando BW. Para se chegar ao algoritmo de
adapta¸ao incremental implementado na pr´oxima se¸ao, ser´a feita uma recapitula¸ao da
4.3 Aprendizagem EM 60
teoria do algoritmo EM.
O algoritmo EM pode ser visto como aquele que maximiza a fun¸ao conjunta
F (X, λ) = E[log p(O, q|λ)] + H(X(q)).
Considerando as observoes como O = O
n
, n = 1, ..., N, onde O
n
pode ser uma ob-
servao ou um grupo de observoes, q
n
como as vari´aveis ocultas correspondentes e que
as observoes ao independentes, enao a fun¸ao F (X, λ) pode ser escrita como a soma
das fun¸oes custo de cada bloco:
F (X, λ) =
N
i=1
F
i
(X
i
, λ)
F
i
(X
i
, λ) = E[log p(O
i
, q
i
|λ)] + H(X
i
(q)), i = 1, ..., N. (4.10)
Tanto a vers˜ao em lote quanto a vers˜ao incremental do algoritmo EM (no qual o BW
´e baseado), conforme a visto, ´e produzida por uma alternˆancia entre a maximiza¸ao da
fun¸ao F (X, λ) sobre a distribui¸ao X(q) (passo E) e sobre os parˆametros λ (passo M).
Assim, a (k + 1)-´esima itera¸ao do algoritmo EM em lote simplesmente maximiza, no
passo E, a distribui¸ao conjunta X(q) sobre todas as vari´aveis ao-observ´aveis q, como a
seguir:
Algoritmo EM em lote
Passo E
X
k+1
(q) =
N
i=1
X
i
k+1
(q
i
), onde:
X
i
k+1
(q
i
) = p(q
i
|O
i
, λ
k
)
para maximizar as fun¸oes
F
i
(X
i
, λ
k
).
e assim obter a fun¸ao F (X, λ
k
).
Passo M
Encontrar os parˆametros de λ
k+1
que maximizem F (X
k+1
, λ).
Para a elabora¸ao do algoritmo EM incremental, o passo E ir´a maximizar a distri-
bui¸ao conjunta X(q) definida sobre somente um subconjunto das vari´aveis ocultas. Por
exemplo, para a (k + 1)-´esima itera¸ao, onde est´a sendo processada somente a nesima
observao, a vers˜ao EM incremental ser´a:
Algoritmo EM incremental
4.3 Aprendizagem EM 61
Passo E
Selecionar O
n
e fazer:
X
k+1
(q) =
N
i=1
X
i
k+1
(q
i
), onde:
X
n
k+1
(q
n
) = p(q
n
|O
n
, λ
k
) para i = n
X
i
k+1
(q
i
) = X
i
k
(q
i
) para i = n
para maximizar somente a fun¸ao:
F
n
(X
n
, λ
k
)
mantendo F
i
(X
i
, λ
k
) com o valor pr´evio para as outras observoes.
e assim obter a fun¸ao F (X, λ
k
).
Passo M
Encontrar os parˆametros de λ
k+1
que maximizem F (X
k+1
, λ).
Note que o algoritmo EM incremental efetua o passo E para cada O
n
, que, como a
dito, pode ser uma observao ou um grupo de observoes, e arios passos M ao feitos
at´e a convergˆencia. Ressalta-se que, assim como no trabalho de Gotoh e Silverman (1996),
a cada itera¸ao ´e escolhido no passo E um novo subconjunto O
n
, que poder´a ser repetido
se a sele¸ao de O
n
for aleat´oria.
Quando a distribui¸ao das vari´aveis observ´aveis e ocultas ´e um membro da fam´ılia
exponencial, como no caso da gaussiana, o passo E do algoritmo EM se reduz ao alculo
das estat´ısticas, e o passo M ao alculo da axima verossimilhan¸ca e estima¸ao dos
parˆametros do modelo, dadas as estat´ısticas. Observe-se que no passo E a ao se faz
mais necess´aria a maximiza¸ao da fun¸ao F (X, λ
k
).
Na vers˜ao incremental, para fam´ılia exponencial, as estat´ısticas ao mantidas incre-
mentalmente. Na (k + 1)-´esima itera¸ao, as estat´ısticas da nesima observao O
n
proces-
sada pelo algoritmo ao calculadas usando as k estima¸oes do modelo. Essas estat´ısticas,
¯
t
n
k+1
, substituem o seu valor pr´evio,
¯
t
n
k
, o qual foi calculado usando os parˆametros do mo-
delo estimado quando a n-´esima observao foi previamente processada. Esse processa-
mento pr´evio pode ter ocorrido durante o alculo das estat´ısticas iniciais e a escolha de O
n
pode ser aleat´oria. Assim, as estat´ısticas acumuladas no algoritmo EM incremental para
fam´ılia exponencial ao armazenadas usando uma atualiza¸ao cont´ınua dos parˆametros
estimados, o que se op˜oe `a vers˜ao EM em lote, onde depois de cada passo M as estat´ısticas
de todo o conjunto de treinamento ao rearmazenadas usando os ´ultimos parˆametros es-
timados. Usando t(O
n
, q
n
) para denotar as estat´ısticas da nesima observao e suas
vari´aveis ocultas asso ciadas, enao a kesima itera¸ao do algoritmo EM incremental, para
membros da fam´ılia exponencial, pode ser descrita como:
4.3 Aprendizagem EM 62
Algoritmo EM incremental para fam´ılia exponencial
Passo E
Selecionar a n-´esima observao e calcular a esperan¸ca para as estat´ısticas
¯
t
n
k+1
= E[t(O
n
, q
n
)|O
n
, λ
k
)] para i = n, onde:
X
n
k+1
(q
n
) = p(q
n
|O
n
, λ
k
)
¯
t
i
k+1
=
¯
t
i
k
para i = n
¯
t
k+1
=
N
i=1
¯
t
i
k+1
=
¯
t
k
+
¯
t
n
k+1
¯
t
n
k
Passo M
Encontrar os parˆametros de λ
k+1
que maximizem a verossimilhan¸ca das observoes
dado
¯
t
k+1
, ou seja, encontrar a solu¸ao de E[t(O, q)|λ
k+1
] = t
k+1
.
Note-se que, por simplicidade e para associar o formalismo acima com o usado por
Neal e Hinton (1993) e Digalakis (1999), E
X
n
k+1
[.] ´e escrito apenas como E[.] que denota
a esperan¸ca da distribui¸ao sobre as vari´aveis ocultas, q
n
, dado por X
n
k+1
.
Observe-se que no algoritmo EM incremental, seja para fam´ılia exponencial ou ao,
se se considerar que as observoes ao processadas incrementalmente, tem-se ao final de
todas as observoes, uma ´unica passagem sobre os dados durante o passo E, e que, no
entanto, o passo M ´e executado arias vezes durante a passagem total.
Pode se ver, tamb´em, que ´e necess´ario manter uma opia separada do valor atual das
estat´ısticas t
i
k+1
para cada bloco de observoes. Isso torna o algoritmo computacional-
mente custoso, a menos que o conjunto de dados seja dividido em poucos blocos. Pode-se
notar a semelhan¸ca entre o algoritmo EM incremental para fam´ılia exponencial apresen-
tado p or Digalakis (1999), usado para adapta¸ao, e o apresentado por Gotoh e Silverman
(1996) usado para estima¸ao, assim como o problema de armazenagem das estat´ısticas
de cada observao ou conjunto de observoes O
n
, o que pode tornar o algoritmo at´e
mesmo impratic´avel.
Os conceitos apresentados pelas abordagens explicadas foram utilizados para a con-
cep¸ao do algoritmo EM incremental implementado, que ser´a abordado a seguir.
4.3.1 Adapta¸ao EM Incremental Implementada
No conceito de adapta¸ao on-line, onde se faz uma ´unica passagem pelos dados, a
necessidade de opias separadas das estat´ısticas pode ser eliminada se os valores iniciais
para as estat´ısticas de cada bloco
¯
t
n
0
forem ajustados para zero, e se as observoes forem
4.3 Aprendizagem EM 63
selecionadas seq¨uencialmente. De acordo com Neal e Hinton (1993), a itera¸ao do EM
incremental, que a partir daqui ´e denotado assim mesmo seja para a fam´ılia exponencial ou
ao, ´e implementada usando estat´ısticas que ao mantidas incrementalmente, come¸cando
com uma estimativa inicial, a qual pode ser ou ao consistente com a estimativa inicial
dos parˆametros e, portanto, podem ser igualadas a zero, ou seja, t
i
0
= 0, i = 1, ..., N.
A escolha de valores iniciais iguais a zero para as estat´ısticas parciais permite acumular
as estat´ısticas que forem surgindo no processo de adapta¸ao. Como ser´a feita uma ´unica
passagem pelos dados, ao a necessidade de se armazenar as estat´ısticas parciais de cada
bloco, mas somente a global, ou seja,
¯
t
k+1
=
¯
t
k
+
¯
t
n
k+1
.
Para implementar o algoritmo EM incremental na plataforma desenvolvida por An-
dreao (2004) tentou-se primeiramente dividir cada bloco de 5000 pontos em partes menores
ainda, ou seja, a cada observao. Isso significa que os passos EM seriam calculados para
cada amostra, o que resultou em uma situa¸ao inst´avel, com matrizes de covariˆancia sin-
gulares. Essa instabilidade ´e facilmente explic´avel, pois ao a dados suficientes para se
estimar a m´edia e a covariˆancia das gaussianas.
Ap´os uma releitura do trabalho de Digalakis (1999), chegou-se `a conclus˜ao que a ´unica
modifica¸ao a ser feita era a mudan¸ca do n´umero de itera¸oes do algoritmo BW do valor
10, anteriormente usado, para 1, como ilustrado na Figura 31. Enao, uma vez que os
valores iniciais das estat´ısticas a ao iguais a zero, com o n´umero de itera¸oes igual a um
tem-se uma ´unica passagem pelos dados. A ´unica coisa que falta ´e atualizar as estat´ısticas
incrementalmente, o que ser´a feito em uma pr´oxima etapa.
´
E importante observar que
essa modifica¸ao tem por objetivo implementar o algoritmo EM incremental para fam´ılia
exponencial, o que ´e justific´avel, uma vez que a gaussiana pertence a essa fam´ılia.
Ressalta-se mais uma vez, como a dito no Cap´ıtulo 3 e observado na Figura 31,
que cada bloco ´e inicializado com os modelos do bloco anterior, mas o valor inicial da
distribui¸ao X(q), que armazena as informa¸oes dos modelos, ´e sempre zero.
A Tabela 2 mostra os valores das constantes utilizadas. Uma vez implementada a
abordagem EM incremental, buscou-se outros m´etodos, que tamb´em utilizem a estima¸ao
ML, para serem implementados de forma incremental. A abordagem escolhida, a par-
tir da literatura, foi a segmental k-means e o pr´oximo passo foi, enao, o estudo e a
implementa¸ao da sua vers˜ao incremental.
4.4 Aprendizagem Segmental k-Means 64
Figura 31: Sistema para o algoritmo EM incremental implementado.
Tabela 2: Valores das constantes para o algoritmo implementado.
Constantes
N 45
k
max
1
4.4 Aprendizagem Segmental k-Means
O treinamento segmental k-Means ´e baseado na seq¨uˆencia de estados mais prov´avel,
que ´e justamente a sa´ıda do algoritmo de Viterbi, facilitando a implementa¸ao do algo-
ritmo. Para implementar a adapta¸ao online usando o algoritmo de treinamento segmen-
tal k-means, utiliza-se sua vers˜ao incremental, assim como foi feito com o algoritmo EM.
Deve-se, por´em, estudar a vers˜ao em lote desse algoritmo de adapta¸ao.
Segmental K-means em Lote
O algoritmo de treinamento segmental k-means maximiza a verossimilhan¸ca con-
junta das observoes e das seq¨uˆencias de estado escondidas associadas `as ob-
servoes, p(O, q|λ), em vez do crit´erio de axima verossimilhan¸ca (ML) p(O|λ)
usado no treinamento EM. O algoritmo segmental k-means desenvolve esta oti-
miza¸ao iterativamente, alternando entre duas etapas: a primeira, que visa encon-
trar a seq¨encia de estados mais proavel, dados os parˆametros atuais do modelo,
e a segunda, que visa obter uma nova estima¸ao para os parˆametros do modelo
otimizando a verossimilhan¸ca conjunta das observoes e da seq¨uˆencia de estados
mais proavel encontrada na etapa anterior.
A rela¸ao entre o treinamento segmental k-means e o EM pode ser vista escrevendo-
se a fun¸ao auxiliar do algoritmo EM. Esta ´ultima equa¸ao ´e uma fus˜ao das equa¸oes
4.4 Aprendizagem Segmental k-Means 65
4.8 e 4.9, e ´e maximizada a cada itera¸ao para gerar novas estima¸oes dos parˆametros
do modelo:
Q(λ
k
, λ
k+1
) = E
log p(q, O|λ
k+1
)
=
q
p(q|O, λ
k
) log p(q, O|λ
k+1
). (4.11)
Em contrapartida, a fun¸ao auxiliar do algoritmo segmental k-means ´e
log p(ˆq, O|λ
k+1
) =
q
δ(q ˆq) log p(q, O|λ
k+1
), (4.12)
onde
δ (q ˆq) =
1, se q = ˆq
0, caso contr´ario
Portanto, a seq¨uˆencia de estados oculta ˆq ´e justamente a seq¨uˆencia de estados mais
proavel, ou seja, a equa¸ao 4.12 ´e a probabilidade dessa seq¨encia. Enao, ˆq pode
ser estimado como
ˆq = q
λ
k
= arg max
q
p
q, O|λ
k
.
Como a visto, a distribui¸ao X(q) no algoritmo segmental k-means ´e
X(q) = δ(q ˆq),
e a equa¸ao 4.3, que descreve a fun¸ao F (X, λ) para o algoritmo EM, ou seja,
F (X, λ) = E[log p(O, q|λ)] + H(X(q)),
´e reescrita, para o algoritmo segmental k-means, como:
F (X, λ) =
q
δ(q ˆq) log p(O , q|λ)
q
δ(q ˆq) log δ(q ˆq). (4.13)
Nesse caso, H(X(q)) ´e zero e, considerando que a esperan¸ca da fun¸ao log p(O, q|λ)
´e calculada usando a distribui¸ao X(q) = δ(q ˆq), a fun¸ao F (X, λ) se torna
F (X, λ)
X(q)=δ(qˆq)
= log p(O, ˆq|λ). (4.14)
Enao, como a foi dito, o algoritmo segmental k-means maximiza F (X, λ), alter-
nando entre as maximiza¸oes sobre as diferentes seq¨uˆencias de estados ocultas ˆq
(etapa de segmenta¸ao) e sobre os parˆametros do modelo λ.
Pode-se resumir o algoritmo segmental k-means em lote como a seguir:
Algoritmo Segmental K-Means em lote
4.4 Aprendizagem Segmental k-Means 66
Segmenta¸ao
Fazer:
X
k+1
(q) =
N
i=1
X
i
k+1
(q
i
), onde:
X
i
k+1
(q
i
) = δ(q
i
ˆq
i
k+1
)
onde a seq¨uˆencia mais proavel de estados (MLSS - Most Likely State Se-
quence) ´e calculada por
ˆq
i
k+1
= arg max
q
i
p
q
i
, O
i
|λ
k
.
Reestima¸ao
Encontrar os parˆametros de λ
k+1
que maximizam F (X
k+1
, λ).
Segmental k-Means Incremental
Assim como foi feito com o algoritmo EM incremental (DIGALAKIS, 1999; NEAL;
HINTON, 1993), pode-se criar uma vers˜ao incremental do algoritmo segmental k-
means inserindo uma etapa de reestima¸ao depois do alculo da verossimilhan¸ca da
seq¨uˆencia mais proavel ˆq
k+1
n
de cada observao O
n
, ou seja,
Estima¸ao
X
k+1
(q) = δ
q ˆq
k+1
,
onde a seq¨uˆencia de estados com maior verossimilhan¸ca ´e calculada somente para a
observao O
n
:
ˆq
k+1
j
=
arg max
q
j
p
q
j
, O
j
|λ
k
, se j = n
ˆq
k
, se j = n
Maximiza¸ao
´
E o mesmo processo do algoritmo EM, ou seja, a equa¸ao 4.7, que ´e
λ
k+1
= arg max
λ
q
p(q|O, λ
k
) log p(q, O|λ).
Resumindo, tem-se:
Algoritmo Segmental K-Means Incremental
Segmenta¸ao
Selecionar O
n
e fazer:
X
k+1
(q) =
N
i=1
X
i
k+1
(q
i
), onde:
X
i
k+1
(q
i
) = δ(q
i
ˆq
i
k+1
)
onde a seq¨uˆencia mais prov´avel de estados ser´a:
4.4 Aprendizagem Segmental k-Means 67
ˆq
n
k+1
= arg max
q
n
p
q
n
, O
n
|λ
k
para i = n
ˆq
i
k+1
= ˆq
i
k
para i = n
.
Reestima¸ao
Encontrar os parˆametros de λ
k+1
que maximizam F (X
k+1
, λ).
Para a fam´ılia exponencial, o passo de segmenta¸ao do algoritmo k-means se reduz a
acumular as estat´ısticas sobre os estados da seq¨uˆencia mais prov´avel. Dessa forma,
as estat´ısticas ao mantidas incrementalmente, como ´e visto a seguir:
Algoritmo Segmental K-Means incremental para fam´ılia exponencial
Passo E
Selecionar a nesima observao e encontrar o caminho mais proavel corres-
pondente:
ˆq
n
k+1
= arg max
q
n
p
q
n
, O
n
|λ
k
e atualizar as estat´ısticas:
¯
t
n
k+1
= t(O
n
, q
n
k+1
) para i = n
¯
t
i
k+1
=
¯
t
i
k
para i = n
¯
t
k+1
=
N
i=1
¯
t
i
k+1
=
¯
t
k
+
¯
t
n
k+1
¯
t
n
k
Passo M
Encontrar os parˆametros de λ
k+1
que maximizam a verossimilhan¸ca das ob-
servoes, dado
¯
t
k+1
.
4.4.1 Adapta¸ao Segmental K-means Incremental Implementada
Depois de se estudar o algoritmo, foi necess´ario estudar a implementa¸ao do mesmo
sobre a plataforma desenvolvida por Andreao (2004). Para isso, usou-se como referˆencia
o trabalho de Salicetti (1996), onde ´e poss´ıvel encontrar as equa¸oes que foram utilizadas.
As modifica¸oes feitas no sistema apresentado na Figura 23 podem ser explicadas
considerando que a fun¸ao learn ghmm.m, na Fase 2, foi chamada para analisar um bloco
de 5000 pontos. a se em, dentro dessa janela de 20 s, os exemplos da forma ele-
mentar de onda a ser analisada. Esses exemplos se encontram armazenados dentro de
uma estrutura Matlab chamada data. Considerando que foram achados N
e
exemplos,
tˆem-se tamb´em as N
e
seq¨uˆencias ´otimas armazenadas na estrutura path, criada dentro de
hmm segmentation gui.m. As estruturas path e data ao passadas para a fun¸ao que agora
se chama learn ghmm km.m, que ´e a pr´opria learn ghmm.m modificada para a adapta¸ao
segmental k-means incremental. As modifica¸oes podem ser vistas na Figura 32.
4.4 Aprendizagem Segmental k-Means 68
Figura 32: Arquitetura asica do algoritmo segmental K-means incremental.
A adapta¸ao via algoritmo segmental k-means incremental requer que se calcule o
valor n
ij
(q
), que ´e o n´umero de transi¸oes do estado i ao estado j, onde a vari´avel q
´e
o caminho ´otimo de cada exemplo de cada forma elementar de onda. O valor n
ij
(q
) ser´a
obtido para os N
e
exemplos encontrados.
´
E alido lembrar que N
e
varia de acordo com o
n´umero de exemplos encontrados em cada bloco.
Na etapa de reestima¸ao, os parˆametros ao reestimados por:
Probabilidade inicial:
π
j
=
N
e
n
e
=1
δ(q
1
(n
e
) j)
N
e
Probabilidade de transi¸ao de estados:
a
ij
=
n
ij
(q
t
)
N
j=1
n
ij
(q
t
)
Probabilidade de emiss˜ao (caso cont´ınuo):
µ
j
=
T
t=1
δ(q
t
j)O
t
T
t=1
δ(q
t
j)
cov
j
=
T
t=1
δ(q
t
j)(O
t
µ
j
)(O
t
µ
j
)
T
t=1
δ(q
t
j)
,
onde T ´e o n´umero de amostras dentro de cada exemplo.
A adapta¸ao incremental segmental k-means ao apenas ´e acil de integrar ao deco-
4.5 Aprendizagem Bayesiana 69
dificador Viterbi, como tamb´em ´e adequada para a adapta¸ao ao-supervisionada, pois
nesse tipo de adapta¸ao ´e feita uma ´unica passagem pelos dados e informa¸oes suficientes
ao coletadas ao mesmo tempo. Por fim, os modelos do reconhecedor ao reestimados ao
final da passagem de todas as senten¸cas de adapta¸ao. O desempenho de reconhecimento
do sistema pode ser avaliado com um conjunto de teste separado.
´
E importante dizer que para o alculo da m´edia e da covariˆancia ao usados todos
os N exemplos, apesar de isto ao estar impl´ıcito nas equa¸oes, ou seja, ao utilizados
os N caminhos ´otimos para se buscar uma edia. Para o alculo da verossimilhan¸ca,
´e calculada a probabilidade ´otima, dados os parˆametros do modelo, atrav´es da fun¸ao
viterbi path.m, a qual ´e chamada dentro da fun¸ao learn ghmm km.m.
Assim, na Figura 33 ´e apresentado o sistema utilizando o algoritmo segmental k-means
implementado, e na Tabela 3 ao mostrados os valores das constantes utilizadas.
Figura 33: Sistema para o algoritmo segmental k-Means incremental implementado.
Tabela 3: Valores das constantes para o algoritmo implementado.
Constantes
N 45
k
max
1
N
e
variante
4.5 Aprendizagem Bayesiana
Uma outra abordagem para a adapta¸ao on-line ´e utilizando o treinamento ou apren-
dizagem Bayesiana. Essa abordagem deve ser capaz de atualizar os parˆametros da dis-
tribui¸ao a priori e a posteriori, e tamb´em de atualizar os parˆametros do modelo simul-
taneamente, utilizando o ´ultimo dado de adapta¸ao. Na abordagem Bayesiana, usa-se
4.5 Aprendizagem Bayesiana 70
o algoritmo MAP (Maximum a Posteriori) como m´etodo de estima¸ao (GAUVAIN; LEE,
1994). Tem-se tamem um suporte te´orico de aprendizagem, proposto em (LEE; LIN; JU-
ANG, 1991) para estimar os parˆametros vetor edia e a matriz de covariˆancia de HMM
de densidade cont´ınua (CDHMM) com m´ultiplas gaussianas.
Assim, estudou-se e efetuou-se a implementa¸ao do algoritmo MAP.
´
E importante
ressaltar que uma vez que esse algoritmo ´e baseado na teoria da inferˆencia Bayesiana,
ao era evidente a possibilidade do seu uso na arquitetura a desenvolvida por Andreao
(2004), a qual foi estruturada para uma abordagem de axima verossimilhan¸ca.
Pode-se ver em (RABINER; JUANG, 1993) que, para a abordagem Bayesiana, se os
parˆametros do modelo ao considerados fixos mas desconhecidos, a axima verossimi-
lhan¸ca (ML) estimada para λ, dada a seq¨encia de treinamento O, ´e encontrada resol-
vendo a equa¸ao de axima verossimilhan¸ca, ou seja,
λ
p(O|λ) = 0
Assumindo que λ ´e uma vari´avel aleat´oria, com uma distribui¸ao a priori p
0
(λ), ent˜ao o
aximo a posteriori (MAP) estimado para o modelo ´e obtido resolvendo
λ
p(λ|O) = 0,
dada a seq¨uˆencia de treinamento O. Usando o teorema de Bayes, pode-se reescrever
p(λ|O) como
p(λ|O) =
p(O|λ)p
0
(λ)
p(O)
.
A influˆencia do parˆametro pr´evio p
0
(λ) no processo de solu¸ao torna-se expl´ıcita, e
uma boa inicializa¸ao ´e essencial para a convergˆencia do algoritmo.
Como a conhecido, a abordagem de inferˆencia Bayesiana se torna um etodo con-
veniente para combinar as amostras do sinal e a informa¸ao anterior. Assumindo que os
parˆametros HMM ao vari´aveis aleat´orias, essa informa¸ao anterior ´e expressa na forma
de uma distribui¸ao anterior que chamamos de distribui¸ao a priori, a qual ´e combinada
com a fun¸ao de verossimilhan¸ca, via teorema de Bayes, para formar uma distribui¸ao
a posteriori na qual as inferˆencias ao baseadas. Conseq¨uentemente, a flexibilidade de
se incorporar uma quantidade vari´avel de informa¸ao anterior faz com que a inferˆencia
Bayesiana seja indicada para lidar com o problema de uma quantidade limitada de dados
de amostragem relevantes.
A id´eia desse tipo de aprendizagem Bayesiana adaptativa para HMM ao ´e uma novi-
4.5 Aprendizagem Bayesiana 71
dade. Rabiner e Juang (1993) prop˜oem o uso da estima¸ao bayesiana para a adapta¸ao do
parˆametro m´edia dos modelos, quando esta ´e modelada por uma gaussiana; Lee, Lin e Ju-
ang (1991) investigam arios etodos de treinamento bayesiano para adapta¸ao ao locutor
em tarefas de reconhecimento de palavras isoladas onde os parˆametros da densidade de
observao de estados de m´ultiplas gaussianas com matriz de covariˆancia diagonal foram
adaptados, mas ao adaptava todos os parˆametros do modelo. Posteriormente, Gauvain
e Lee (1994) conseguiram estender a adapta¸ao bayesiana para lidar com parˆametros de
densidades de m´ultiplas gaussianas com matriz de covariˆancia diagonal. Atualmente, con-
forme apresentado por Gauvain e Lee (1992), a aprendizagem MAP foi estendida para
todos os parˆametros de um HMM com densidade de observao de estados de m´ultiplas
gaussianas.
O algoritmo proposto em (HUO; LEE, 1997) ´e adaptativo em sua essˆencia e faz com
que ele p ossa ser usado para desempenhar o pap el integral de aprendizagem on-line adap-
tativa dos parˆametros do modelo utilizando somente os dados atuais para acompanhar
continuamente as varia¸oes das condi¸oes. A seguir, ser´a apresentada a teoria do algo-
ritmo MAP desenvolvido por Huo e Lee (1997), a qual permite encontrar a solu¸ao MAP
cl´assica de λ usando o algoritmo EM, o que a foi comprovado por Dempster, Laird e
Rubin (1977).
4.5.1 Aprendizagem MAP quasi-Bayes
Considere um HMM de densidade cont´ınua (CDHMM) onde a pdf (do inglˆes proba-
bility density function - fun¸ao densidade de probabilidade) de observao de estados ´e
considerada como uma mistura de pdf s de m´ultiplas gaussianas, ou seja,
b
j
(o
t
) =
M
m=1
c
jm
N(o
t
, µ
jm
, U
jm
),
onde
b
j
(o
t
) = N(o
t
, µ
j
, U
j
) =
1
(2π)
1
/
d
|U
j
|
1
/
2
exp
1
2
(o
t
µ
j
)
T
U
1
j
(o
t
µ
j
)
,
e
M
m=1
c
jm
= 1, 1 j N,
onde c
jm
´e o coeficiente de mistura das gaussianas.
A diferen¸ca entre as estima¸oes ML e MAP se encontra na suposi¸ao de uma distri-
4.5 Aprendizagem Bayesiana 72
bui¸ao anterior apropriada dos parˆametros a ser estimada. Assim, assumindo o modelo
λ como um vetor de parˆametros a ser estimado a partir das amostras O com pdf p(O|λ),
aqui aproximada por F (X, λ), e se p(λ) ´e a pdf anterior de λ, aqui aproximada por g(λ),
enao a estima¸ao MAP dos parˆametros do modelo, segundo a inferˆencia bayesiana, ´e
definida como a moda da pdf posterior de λ, denotada como p(λ|O), ou seja,
λ
k+1
arg max
λ
p(λ|O), (4.15)
λ
k+1
arg max
λ
p(O|λ)p(λ), (4.16)
λ
k+1
arg max
λ
F (X, λ)g(λ). (4.17)
Se λ ´e considerado como fixo mas desconhecido, ent˜ao ao existe conhecimento sobre
λ, o que ´e equivalente a uma pdf anterior ao-informativa, ou seja, g(λ) = constante e
enao a equa¸ao 4.16 se reduz `a formula¸ao ML a apresentada.
Assim, dentro de uma an´alise te´orica, considere o conjunto
˘
O
n
= {O
1
, O
2
, ..., O
n
}
como o de n amostras de observoes independentes que ao usadas para estimar os
parˆametros de λ. Sabe-se que o conhecimento inicial sobre λ est´a relacionado `a densidade
a priori p(λ) e que a inferˆencia bayesiana formal de λ ´e baseada na densidade a posteriori
a seguir, ou seja,
p(λ|
˘
O
n
) =
p(
˘
O
n
|λ)p(λ)
p(
˘
O
n
|λ)p(λ)
, (4.18)
onde denota uma regi˜ao admiss´ıvel do espa¸co de parˆametros. A equa¸ao 4.18 nada
mais ´e que a aplica¸ao da lei de Bayes:
p(λ|
˘
O
n
) =
p(
˘
O
n
|λ)p(λ)
p(
˘
O
n
)
.
Assumindo-se que os dados ou amostras de treinamento/adapta¸ao O
i
ao apresenta-
dos sucessivamente, ´e poss´ıvel obter uma express˜ao recursiva para a pdf a posteriori de λ
dado
˘
O
n
, a qual ´e
p(λ|
˘
O
n
) =
p(O
n
|
˘
O
n1
, λ)p(λ|
˘
O
n1
)
p(O
n
|
˘
O
n1
)
=
p(O
n
|λ)p(λ|
˘
O
n1
)
p(O
n
|λ)p(λ|
˘
O
n1
)
. (4.19)
Assim, considerando a pdf inicial como p(λ|
˘
O
0
) = p(λ), o uso repetido da equa¸ao
4.19 produz uma seq¨uˆencia de densidades p(λ|
˘
O
1
), p(λ|
˘
O
2
), e assim por diante. Isso serve
de base para se fazer uma inferˆencia bayesiana recursiva dos parˆametros λ, como pode
4.5 Aprendizagem Bayesiana 73
ser visto em (SPRAGINS, 1965).
Infelizmente, a implementa¸ao desta t´ecnica de aprendizagem para o treinamento
incremental de CDHMM traz algumas dificuldades computacionais. Isso faz com que
algumas aproxima¸oes sejam necess´arias para aliviar os custos computacionais. O proce-
dimento proposto ´e aplicar a recurs˜ao Bayes da equa¸ao 4.19 incrementalmente, com uma
ou mais observoes ou amostras consideradas a cada instante.
O algoritmo bayesiano de aprendizagem de λ proposto implica na especifica¸ao de uma
densidade a priori para λ, e no subseq¨uente alculo recursivo da densidade a posteriori
aproximada. Para o caso de CDHMM, onde a m´edia e a covariˆancia ao assumidas como
aleat´orias, a pdf anterior inicial de λ, p(λ), ´e aproximada por g(λ), que ´e assumida como
um produto das densidades Dirichlet e normal-Wishart (HUO; LEE, 1997),ou seja,
g(λ) = g(λ
).
N
j=1
M
m=1
g(µ
jm
, U
jm
),
onde
g(λ
)
N
j=1
π
η
i
1
i
.
N
j=1
a
η
ij
1
ij
.
M
m=1
c
ν
jm
1
jm
e
g(µ
jm
, U
jm
)
D
d=1
1
|U|
(α
jm
1/2)
jm
× exp
τ
jm
2U
jm
(µ
jm
κ
jm
) (µ
jm
κ
jm
)
t
× exp
β
jm
U
jm
.
Pode-se observar que a fun¸ao g(λ) ´e parametrizada pelo conjunto de hiper-parˆametros
positivos: η
i
, η
ij
, ν
jm
; τ
jm
, κ
jm
, α
jm
e β
jm
, usados para a estima¸ao dos parˆametros do
modelo λ = (π, A, B) e que D ´e a dimens˜ao do vetor edia. Ressalta-se que esses hiper-
parˆametros ao definidos para o caso de matriz de covariˆancia diagonal, que ´e o caso deste
trabalho.
Enao, a solu¸ao para tornar o algoritmo de aprendizagem Bayes recursivo realiz´avel
´e aproximar a verdadeira distribui¸ao a p osteriori p(λ|
˘
O
n
) na equa¸ao 4.19 pela distri-
bui¸ao trat´avel aproximada g(λ|ϕ
n
), correspondente ao produto F (X, λ )g(λ) apresentado
na equa¸ao 4.17, onde ϕ
n
denota os hiper-parˆametros atualizados depois de uma ob-
servao O
n
. Assim, a estima¸ao MAP “aproximada”dos parˆametros de um CDHMM ´e
obtido por
λ
n
= arg max
λ
g (λ|ϕ
n
) .
O termo “aproximada”depende do crit´erio adotado durante a aproxima¸ao. Uma
4.5 Aprendizagem Bayesiana 74
solu¸ao para ϕ
n
´e
ϕ
n
= arg min
ϕ
p(λ|
˘
O
n
) log
p(λ|
˘
O
n
)
g(λ|ϕ)
dλ.
Infelizmente, ao existe uma solu¸ao expl´ıcita de forma fechada para essa aproxima¸ao
e uma otimiza¸ao geral ´e necess´aria para estimar os hiper-parˆametros. Portanto, em vez de
usar essa aproxima¸ao, ´e proposto neste trabalho um m´etodo chamado de aprendizagem
quasi-Bayes, que ´e, ao mesmo tempo, computacionalmente simples e eficaz.
4.5.2 Aprendizagem MAP quasi-Bayes em Lote
O procedimento quasi-Bayes ´e uma solu¸ao aproximada que mant´em a essˆencia do
procedimento Bayes formal. No sentido em que a distribui¸ao posterior aproximada te-
nha uma m´edia idˆentica `aquela da distribui¸ao posterior verdadeira, as propriedades da
convergˆencia foram estabelecidas.
A cada passo da aprendizagem Bayes recursiva, o procedimento quasi-Bayes pro-
posto aproxima a distribui¸ao posterior resultante p(λ|
˘
O
n
) pela distribui¸ao “aproxi-
mada”trat´avel g(λ|ϕ
n
), sob a condi¸ao de que as duas distribui¸oes ter˜ao a mesma moda.
A id´eia ´e ilustrada na Figura 34. Esse procedimento tamem ser´a chamado aqui de
algoritmo MAP em lote.
Figura 34: Aproxima¸ao da verdadeira distribui¸ao posterior por uma simplificada, sob
o crit´erio de mesma moda.
Especificamente, considerando-se que, no instante n, tem-se a seq¨uˆencia de treina-
mento O
n
= (o
n
1
, o
n
2
, ..., o
n
T
n
), a seq¨uˆencia ao-observada do estado q
n
= (q
n
1
, q
n
2
, ..., q
n
T
n
), e
a seq¨uˆencia associada `as etiquetas das componentes ao-observadas da mistura de gaus-
sianas, e que o conhecimento a priori sobre λ ´e aproximado por g(λ|ϕ
n1
), ent˜ao, usando
o formalismo apresentado em (LEE; HUO, 2000), tem-se a estima¸ao MAP aproximada λ
n
de λ, repetindo-se os seguintes passos:
4.5 Aprendizagem Bayesiana 75
Passo E
Calcular
R(λ|λ
n1,k1
) = ρ. log g(λ|ϕ
n1
) + E[log p(O
n
, q
n
|λ)|O
n
, λ
n1,k1
], (4.20)
onde 0 < ρ 1 ´e o fator de esquecimento, com ρ = 1 significando que ao a
esquecimento.
Passo M
Escolher
λ
n1,k
= arg max
λ
R(λ|λ
n1,k1
) (4.21)
onde k = 1, 2, ..., K ´e o ´ındice da itera¸ao e K ´e o umero total de itera¸oes.
O procedimento EM acima apresentado vem do fato que F (X|λ) = Q(λ
k
, λ)+H(X(q))
e que quando Q(λ
k
, λ) > Q(λ
k
, λ
k
) enao F (X|λ) > F (X|λ
k
). Assim, pode-se usar o
mesmo procedimento para estimar a moda da densidade posterior maximizando agora a
fun¸ao auxiliar R(λ
k
, λ) = Q(λ
k
, λ) + log g(λ) a cada itera¸ao, em vez de Q(λ
k
, λ), como
na abordagem EM. Note que a fun¸ao custo da aprendizagem quasi-Bayes, representada
pela equa¸ao 4.20, ´e composta de duas partes, uma que representa a estima¸ao EM (se-
gundo termo `a direita da igualdade) somada `a outra parte que representa a distribui¸ao
aproximada a priori com peso ρ (primeiro termo `a direita da igualdade).
Torna-se importante, nesse momento, fazer a an´alise da influˆencia do conhecimento a
priori sobre o processo de adapta¸ao. Se o conhecimento ´e muito forte, ou um certo lote
de dados de adapta¸ao a foi incrementalmente processado, os novos dados de adapta¸ao,
normalmente, ter˜ao um pequeno efeito sobre a atualiza¸ao dos parˆametros no treinamento
incremental. Para se acompanhar continuamente as varia¸oes dos parˆametros do modelo
correspondentes `as informa¸oes apresentadas pelos novos dados, ´e necess´ario introduzir
algum mecanismo de esquecimento para reduzir o efeito das observoes passadas em
rela¸ao aos novos dados de entrada. O mecanismo proposto ´e um esquecimento exponen-
cial implementado pelo uso do coeficiente de esquecimento ρ na equa¸ao 4.20.
Os hiper-parˆametros da fun¸ao g(λ|ˆϕ) ao reestimados como a seguir:
ˆη
i
= ρ.(η
n1
i
1) + 1 + γ
1
(i) (4.22)
4.5 Aprendizagem Bayesiana 76
ˆη
ij
= ρ.(η
n1
ij
1) + 1 +
T
t=1
γ
t
(i, j) (4.23)
ˆν
jm
= ρ.(ν
n1
jm
1) + 1 + c
jm
(4.24)
ˆτ
jm
= ρ.τ
n1
jm
+ c
jm
(4.25)
ˆκ
jm
=
ρτ
n1
jm
κ
n1
jm
+ c
jm
¯o
jm
ρτ
n1
jm
+ c
jm
(4.26)
ˆα
jm
= ρ.(α
n1
jm
0.5) + 0.5 + 0.5c
jm
(4.27)
ˆ
β
jm
= ρβ
n1
jm
+
1
2
S
jm
+
ρτ
n1
jm
c
jm
2(ρτ
n1
jm
+ c
jm
)
× (¯o
jm
κ
n1
jm
)(¯o
jm
κ
n1
jm
)
t
, (4.28)
onde
γ
t
(i) = p(q
t
= i|O, λ) 1 t T 1 (4.29)
γ
t
(i, j) = p(q
t
= i, q
t+1
= j|O, λ) 1 t T 1 (4.30)
ζ
t
(j, m) = p(q
t
= j|O, λ) 1 t T 1 (4.31)
c
jm
=
T
t=1
ζ
t
(j, m) (4.32)
¯o
jm
=
T
t=1
ζ
t
(j, m)o
t
/c
jm
(4.33)
S
jm
=
T
t=1
ζ
t
(j, m)(o
t
¯o
jm
)(o
t
¯o
jm
)
t
. (4.34)
Os termos acima podem ser calculados pelo algoritmo de forward-backward, reali-
zando, assim, a adapta¸ao MAP em lote. O termo n representa o ´ındice da itera¸ao,
j o ´ındice do estado e m o ´ındice da gaussiana. As equa¸oes de reestima¸ao EM dos
parˆametros do modelo podem ser derivadas pela moda de g (λ|ˆϕ), e ao dadas por
π
i
=
ˆη
i
1
N
i=1
(ˆη
i
1)
(4.35)
a
ij
=
ˆη
ij
1
N
j=1
(ˆη
ij
1)
(4.36)
c
jm
=
ˆν
jm
1
M
m=1
(ˆν
jm
1)
(4.37)
µ
jm
= ˆκ
jm
(4.38)
U
jm
=
2ρβ
n1
jm
+ ρτ
n1
jm
(µ
jm
κ
n1
jm
)(µ
jm
κ
n1
jm
)
t
+
T
t=1
ζ
t
(j, m)(o
t
µ
jm
)(o
t
µ
jm
)
t
ρ(2α
n1
jm
1) +
T
t=1
ζ
t
(j, m)
.
(4.39)
Utilizando as equa¸oes acima, obt´em-se uma erie de pdf s aproximadas g(λ|ˆϕ), cuja
4.5 Aprendizagem Bayesiana 77
moda est´a se aproximando da moda da pdf p osterior verdadeira, apresentada na equa¸ao
4.19. Assim, a pdf aproximada ser´a calculada por
p(λ|O
n
) =
p(O
n
|λ)g(λ|ϕ
n1
)
p(O
n
|λ)g(λ|ϕ
n1
)
. (4.40)
Os hiper-parˆametros ϕ
n
ao atualizados pela ´ultima itera¸ao EM, usando as equa¸oes
4.22 a 4.28 para satisfazer a condi¸ao
g(λ|ϕ
n
) exp{R(λ|λ
n1+
k1
K
)}, (4.41)
e enao os parˆametros do CDHMM ao atualizados.
4.5.3 Aprendizagem MAP quasi-Bayes Incremental
O procedimento MAP em lote, visto na se¸ao anterior, pode ser estendido para o
procedimento segmental ou Viterbi, substituindo as equa¸oes 4.29 a 4.31 pelas equa¸oes
γ
t
(i) = δ(q
t
i), (4.42)
γ
t
(i, j) = δ(q
t
i)δ(q
t+1
j), (4.43)
ζ
t
(j, m) = γ
t
(i).
c
jm
N(o
t
, µ
jm
, U
jm
)
M
m=1
c
jm
N(o
t
, µ
jm
, U
jm
)
, (4.44)
onde q = (q
1
, q
2
, ..., q
T
) ´e a seq¨encia de estados mais prov´avel e δ(.) ´e a fun¸ao delta
Kronecker. Enao, a proposta feita neste trabalho ´e continuar a usar o procedimento que
utiliza a equa¸ao 4.20 e 4.21, mas com γ
t
(i), γ
t
(i, j) e ζ
t
(j, m) como apresentados nas
equa¸oes 4.42 a 4.44, ou seja, para a seq¨encia de estados mais proavel. Assim, tem-
se a influˆencia das observoes a processadas, dada por log g(λ|ϕ) com peso ρ, e o uso
do caminho ´otimo, o que reduz os custos computacionais. Vale notar que a verdadeira
influˆencia de ρ se a no momento do alculo dos hiper-parˆametros de acordo com as
equa¸oes 4.22 a 4.28 e com a reestima¸ao dos parˆametros do modelo que se efetua a
partir dos hiper-parˆametros. Os resultados obtidos por essa proposta ao apresentados
no Cap´ıtulo 5, e o algoritmo ´e dado por
Passo E
Calcular
L
n
(λ) = ρ. log g(λ|ϕ
n1
) + E
log p(O
n
, ˆq
n
|λ)|O
n
, λ
n1
+ L
n1
(λ) (4.45)
4.5 Aprendizagem Bayesiana 78
onde L(λ) ´e a fun¸ao custo utilizada.
Passo M
Escolher λ = λ
n
para maximizar L
n
(λ) e tamb´em atualizar os hiper-parˆametros
para obter ˆϕ
n
.
Observe que a fun¸ao L(λ) deve ser atualizada incrementalmente, e sua estima¸ao
inicial se a por meio de
L
0
(λ) = log p(λ) = log g(λ|ϕ
0
).
Uma quest˜ao que ainda resta resolver ´e sobre a estima¸ao inicial dos hiper-parˆametros.
A densidade anterior inicial g(λ|ϕ
0
) ´e assumida como um membro de uma fam´ılia pr´e-
determinada de distribui¸ao anterior. Devido `a dificuldade de se possuir um conhecimento
completo da distribui¸ao anterior, ´e adotada a abordagem emp´ırica, apresentada em (HUO;
LEE, 1997), para estimar os valores iniciais dos hiper-parˆametros ϕ
0
. Considerando que
a abordagem MAP ´e usada para a adapta¸ao dos modelos, e que estes a possuem uma
vers˜ao inicial advinda de um treinamento, ou seja, os modelos gen´ericos (mg), os hiper-
parˆametros iniciais ao dados empiricamente por
η
0
i
= 1 + ε
1
γ
(mg)
1
(i) (4.46)
η
0
ij
= 1 + ε
1
t
γ
(mg)
t
(i, j) (4.47)
ν
0
jm
= 1 + ε
1
t
ζ
(mg)
t
(j, m) (4.48)
τ
0
jm
= ε
1
t
ζ
(mg)
t
(j, m) (4.49)
κ
0
jm
= µ
(mg)
jm
(4.50)
α
0
jm
= 0.5 + 0.5ε
1
t
ζ
(mg)
t
(j, m) (4.51)
β
0
jm
= 0.5ε
1
U
(mg)
jm
t
ζ
(mg)
t
(j, m), (4.52)
onde 0 < ε
1
1 ´e o coeficiente que controla a importˆancia do conhecimento anterior ou
para equilibrar a contribui¸ao entre os dados de adapta¸ao, dados pelo modelo gen´erico
(mg), e os dados de adapta¸ao.
4.5 Aprendizagem Bayesiana 79
4.5.4 Adapta¸ao MAP Incremental Implementada
Depois de se estudar o algoritmo incremental apresentado na se¸ao anterior, ´e ne-
cess´ario estudar a implementa¸ao do mesmo sobre a plataforma desenvolvida em (AN-
DREAO, 2004).
´
E importante notar que a estrutura de aprendizagem quasi-Bayes apre-
sentada nas se¸oes anteriores ´e flex´ıvel o suficiente para processar uma observao a cada
instante ou um bloco de observoes pequeno o suficiente para garantir os requisitos com-
putacionais da atualiza¸ao bayesiana.
Assim como na implementa¸ao do algoritmo segmental k-means incremental, as mo-
difica¸oes feitas no sistema desenvolvido em (ANDREAO, 2004) correspondem `a Fase 2,
com a implementa¸ao da fun¸ao learn ghmm map.m apresentada na Figura 35.
Figura 35: Arquitetura asica do algoritmo MAP incremental.
´
E importante dizer o sistema desenvolvido em (ANDREAO, 2004) foi agora modificado
para se guardar as informa¸oes dos blocos anteriores, representadas por X(q), conforme
mostrado na Figura 36. Guardar as informa¸oes, tamb´em chamadas de estat´ısticas de
blocos anteriores, nos leva a uma real implementa¸ao de um algoritmo incremental, de
acordo com Digalakis (1999) e Gotoh e Silverman (1996).
A vari´avel ε
1
foi definida como 1/num exem, onde num exem corresponde ao n´umero
de exemplos analisados a cada instante. Este ´e o valor sugerido em (HUO; LEE, 1997),
apesar de ela poder ser especificada pelo usu´ario ou poder ser determinada a posteriori
pela medida da similaridade entre os dados de adapta¸ao e os modelos existentes.
Uma quest˜ao a se responder ´e qual deve ser o valor ´otimo de ρ, uma vez que ele
significa a influˆencia das observoes passadas na adapta¸ao dos modelos. Assim, para
se buscar o valor ´otimo de ρ, foram feitos experimentos para verificar o efeito dos hiper-
parˆametros na adapta¸ao dos modelos. Os testes realizados para a escolha de ρ ao
4.5 Aprendizagem Bayesiana 80
Figura 36: Sistema desenvolvido para abordagem MAP.
apresentados no Cap´ıtulo 5, o interessando, at´e o presente momento, que o seu valor
´otimo encontrado que foi ρ = 0, 4. Este valor ´otimo pode ser explicado de forma que ´e
necess´ario acelerar o esquecimento das estat´ısticas dos blocos anteriores para que o modelo
acompanhe da melhor maneira a evolu¸ao do sinal de ECG no tempo. No entanto, o
completo esquecimento das mesmas parece ser mal´efico, pois se perde, a´ı, dados para bem
restimar os parˆametros do modelo. Assim, o valor ´otimo seria um valor intermedi´ario,
que foi dado como 0, 4.
Uma vez encontrados os valores de ρ e
1
, foi executada toda a erie de testes, cujos
resultados ao apresentados no Cap´ıtulo 5. Uma outra etapa feita foi a checagem da robus-
tez da estima¸ao MAP, criando uma abordagem que ser´a chamada mais adiante de MAP
Incremental Robusto. Nela, os exemplos adquiridos durante a fase de segmenta¸ao do
sinal de ECG, em um dado bloco de 20 s, ao utilizados para a adapta¸ao, mesmo que
ao sejam representativos. Ressalte-se que, para as outras abordagens, foi determinado
empiricamente por (ANDREAO, 2004) um n´umero m´ınimo de exemplos que garantissem
pelo menos 30 amostras para cada gaussiana do modelo, de forma a permitir uma boa
estima¸ao dos seus parˆametros. Nesse sentido, a adapta¸ao MAP ser´a feita mesmo que
para poucos dados, o que ´e o ponto forte de se usar essa abordagem de adapta¸ao. Os
resultados para todas as abordagens ao apresentados no pr´oximo cap´ıtulo.
81
5 Resultados e Conclus˜oes
Neste cap´ıtulo ao mostrados os resultados encontrados, assim como as conclus˜oes
obtidas a partir das simula¸oes. Ser´a feita uma avalia¸ao e uma compara¸ao entre o
algoritmo desenvolvido em (ANDREAO, 2004), o algoritmo EM incremental, o algoritmo
segmental k-means incremental e o algoritmo MAP incremental, estes desenvolvidos neste
trabalho.
5.1 Resultados
Foram feitos quatro protocolos de simula¸ao: anota¸oes das ondas, anota¸oes de QRS,
anota¸oes de PVC e anota¸oes de isquemia, que se dividem em duas partes.
Primeira parte
Para esta parte ´e utilizada a base QT (LAGUNA et al., 1997). Detalhando um pouco
mais sobre tal base, ela ´e composta por 105 arquivos de 15 minutos de dura¸ao.
Cada registro conem o sinal de duas derivoes, com taxa de amostragem de 250
Hz. Os registros ao acompanhados pelas anota¸oes feitas por cardiologistas. Pelo
menos 30 batimentos por registro ao etiquetados com a indica¸ao das ondas, ou
formas elementares de onda (P, QRS e T) do batimento. A Tabela 4 mostra o
n´umero de formas elementares de onda da base QT etiquetadas pelo cardiologista.
Entre os 105 registros, 82 contˆem as etiquetas da classe do batimento entre mais de
13 anomalias diagnosticadas por um cardiologista.
1
a
Etapa: anota¸oes das ondas. Nesta etapa utilizam-se os 105 registros da
base para se calcular os parˆametros que avaliam o desempenho de segmenta¸ao
do sistema, aqui indicada pela detec¸ao, onde se calcula a porcentagem de
ondas P, QRS e T corretamente detectadas de acordo com as etiquetadas pelo
cardiologista.
As abordagens avaliadas foram: Sem Adapta¸ao, para o caso onde os mode-
5.1 Resultados 82
los ao ao adaptados, Andrao, para a abordagem a feita em (ANDREAO,
2004), EM Incremental , Segmental K-means Incremental , MAP In-
cremental e MAP Incremental Robusto, estas estudadas no Cap´ıtulo
4. Para esta primeira etapa, os resultados ao apresentados na Tabela 5, que
mostra os valores de detec¸ao obtidos para um canal.
Tabela 4: N´umero de etiquetas feitas para os 105 registros da base QT.
N´umero de etiquetas para os 105 registros
Onda P Complexo QRS Onda T
3194 3623 3543
Tabela 5: Precis˜ao e detec¸ao de ondas.
Detec¸ao de ondas
Onda P Complexo QRS Onda T
Sem Adapta¸ao
Detec¸ao (%) 87,26 99,31 99,27
Andrao
Detec¸ao (%) 92,89 99,86 99,83
EM Incremental
Detec¸ao (%) 91,45 100,00 99,97
Seg. K-means Inc.
Detec¸ao (%) 92,36 100,00 99,97
MAP Incremental
Detec¸ao (%) 93,11 100,00 99,97
MAP Inc. Robusto
Detec¸ao (%) 91,30 100,00 99,97
2
a
Etapa: anota¸oes de QRS. Destina-se `a detec¸ao de complexos QRS, e ´e
feita com 78 registros da base QT. Nesta etapa ao adotados dois crit´erios
de desempenho para avalia¸ao de detec¸ao das abordagens, que ao utilizados
pelos cardiologistas. O primeiro crit´erio ´e a sensibilidade (Se), que nada mais
´e que a fra¸ao de batimentos corretamente detectados, ou seja,
Se =
V P
V P + F N
,
5.1 Resultados 83
onde V P (verdadeiro positivo) ´e o n´umero de batimentos corretamente detecta-
dos e F N (falso negativo) ´e o n´umero de batimentos que ao foram detectados
pelo sistema. O denominador da ´ultima equa¸ao corresponde ao n´umero total
de batimentos etiquetados da base.
O segundo crit´erio de avalia¸ao ´e o valor preditivo positivo (P P ) que corres-
ponde `a capacidade do sistema de detectar batimentos verdadeiros, ou seja,
P P =
V P
V P + F P
,
onde F P (falso positivo) ´e o n´umero de batimentos detectados pela abordagem
que ao est˜ao de acordo com as etiquetas da base. Um batimento detectado
est´a de acordo com a base quando a distˆancia entre a posi¸ao das duas etiquetas
´e inferior a 150 ms.
Deve ser citado que as abordagens possuem a capacidade de trabalhar em um
contexto multi-canal (duas derivoes), e isto ´e feito com a “fus˜ao”de canais.
A fus˜ao de canais, dentro desta primeira parte, visa a confirmar a detec¸ao
de um batimento, uma vez que ele ´e detectado dentro de todas as derivoes.
´
E considerado que um batimento detectado em um canal est´a de acordo com
o detectado pelo outro canal quando a distˆancia entre a posi¸ao das duas
etiquetas ´e inferior a 200 ms. Assim, a ogica booleana ‘E’ ´e aplicada na fus˜ao.
Os resultados obtidos podem ser vistos na Tabela 6.
3
a
Etapa: anota¸oes de PVC (Premature Ventricular Contraction) ou ESV
(Extra Systole Ventriculaire). Detecta a ocorrˆencia de extras´ıstole ventricular,
que ´e uma arritmia ventricular caracterizada pela presen¸ca de um complexo
QRS pr´e-maturo, de morfologia diferente (complexo QRS mais largo) e com a
ausˆencia de uma onda P precedente. Nesta etapa, utiliza-se os mesmos registros
e crit´erios de desempenho usados na segunda etapa, e ´e importante notar que os
batimentos que ao ao etiquetados como normal nem ESV dentro da base ao
considerados normais dentro deste trabalho. Os resultados ao apresentados
na Tabela 7.
Segunda parte
Aqui ´e analisada a apari¸ao de epis´odios isquˆemicos. Essa an´alise consiste em medir
o deslocamento da amplitude do segmento ST e da onda T, segundo as regras
estabelecidas por um grupo de cardiologistas no momento da constru¸ao da base
europ´eia ST-T (TADDEI et al., 1991). Assim, fez-se necess´ario o uso dessa base,
5.1 Resultados 84
Tabela 6: Detec¸ao de complexos QRS.
Anota¸oes de QRS
VP FP FN Se (%) PP (%)
Sem Adapta¸ao
Canal1 82514 1862 159 99,81 97,79
Canal2 82437 2090 236 99,71 97,53
Fus˜ao 82294 20 379 99,54 99,98
Andrao
Canal1 82576 1021 97 99,88 98,78
Canal2 82527 1718 146 99,82 97,96
Fus˜ao 82484 67 189 99,77 99,92
EM Incremental
Canal1 82575 948 98 99,88 98,86
Canal2 82539 1699 134 99,84 97,98
Fus˜ao 82487 66 186 99,78 99,92
Seg. K-means Inc.
Canal1 82576 853 97 99,88 98,98
Canal2 82504 2144 169 99,80 97,47
Fus˜ao 82462 33 211 99,74 99,96
MAP Incremental
Canal1 82576 845 97 99,88 98,99
Canal2 82498 2523 175 99,79 97,03
Fus˜ao 82458 26 215 99,74 99,97
MAP Inc. Robusto
Canal1 82579 1030 94 99,89 98,77
Canal2 82531 2161 142 99,83 97,45
Fus˜ao 82510 18 163 99,80 99,98
a qual ´e composta de 90 registros de duas horas de 79 indiv´ıduos. Cada registro
conem o sinal de duas derivoes amostradas `a taxa de 250 Hz.
Ressalte-se que tal base ´e utilizada somente para as fases de segmenta¸ao e clas-
sifica¸ao dos epis´odios, uma vez que ela ao possui etiquetas de onda P, QRS, T.
Assim, os modelos iniciais ao treinados com os parˆametros extra´ıdos da base QT.
1
a
Etapa: anota¸oes de isquemia. Nessa etapa foram utilizados 48 registros
da base ST-T, os mesmos usados em (ANDREAO, 2004). As etiquetas da base
se referem aos epis´odios isquˆemicos associados a mudan¸cas do segmento ST
5.1 Resultados 85
Tabela 7: Detec¸ao de Extras´ıstoles.
Anota¸oes de PVC
Detec¸ao de Extras´ıstoles Detec¸ao de Batimentos Normais
VP FP FN Se (%) PP (%) VP FP FN Se (%) PP (%)
Sem Adapta¸ao
Canal 1 471 6 1225 27,77 98,74 80845 3054 132 99,84 99,36
Canal 2 391 15 1305 23,05 96,31 80756 3365 221 99,73 96,00
Fus˜ao 1156 214 540 68,16 84,38 80437 507 540 99,33 99,37
Andrao
Canal 1 1050 519 646 61,91 66,92 80866 1154 111 99,86 98,59
Canal 2 956 682 740 56,37 58,36 80864 1425 113 99,86 98,27
Fus˜ao 1529 454 167 90,15 77,11 80466 108 511 99,37 99,87
EM Incremental
Canal 1 1043 367 653 61,50 73,97 80884 1161 93 99,89 98,58
Canal 2 957 1046 739 56,43 47,78 80865 1369 112 99,86 98,34
Fus˜ao 1523 432 173 89,80 77,90 80513 113 464 99,43 99,86
Seg. K-means Inc.
Canal 1 1047 187 649 61,73 84,85 80887 1107 90 99,89 98,65
Canal 2 951 1461 745 56,07 39,43 80846 1462 131 99,84 98,22
Fus˜ao 1508 360 188 88,92 80,73 80536 110 441 99,46 99,86
MAP Incremental
Canal 1 1001 423 695 59,02 70,29 80893 1137 84 99,90 98,61
Canal 2 946 1823 750 55,78 34,16 80836 1444 141 99,83 98,25
Fus˜ao 1515 371 181 89,33 80,33 80497 109 480 99,41 99,86
MAP Inc. Robusto
Canal 1 995 425 701 58,67 70,07 80888 1320 89 99,89 99,39
Canal 2 927 1379 769 54,66 40,20 80870 1534 107 99,87 98,14
Fus˜ao 1488 380 208 87,74 79,66 80513 153 464 99,43 99,81
e da onda T. Todavia, para uma an´alise multicanal, os epis´odios etiquetados
em cada derivao ao combinados por uma ogica booleana ‘OU’. O n´umero
de epis´odios etiquetados em cada derivao e na combina¸ao entre elas ao
apresentados na Tabela 8.
Os crit´erios de avalia¸ao continuam sendo a sensibilidade (Se) na detec¸ao
de epis´odios e o valor preditivo positivo (PP), que representa a capacidade
de detectar epis´odios verdadeiros. Os resultados obtidos podem ser vistos na
5.1 Resultados 86
Tabela 8: N´umero de epis´odios etiquetados em 48 registros.
N´umero de Epis´odios Etiquetados
Derivao Epis´odios ST Epis´odios T
1 89 115
2 84 58
1 ’OU’ 2 120 117
Tabela 9. Os resultados, aqui, ao apresentados pela taxa bruta, onde os
´ındices ao calculados quando todos os registros ao considerados como um
´unico registro total e a taxa edia, onde os valores ao calculados para cada
registro separadamente.
Determina¸ao de ρ.
A detec¸ao de QRS ao foi relevante para a escolha de ρ. Assim, sua escolha foi
feita a partir dos resultados da detec¸ao de ondas, mais precisamente da detec¸ao da
onda P. Para se buscar o valor ´otimo de ρ foram feitos experimentos para verificar o
efeito dos hiper-parˆametros na adapta¸ao dos modelos. Os testes realizados foram
a detec¸ao de ondas e de complexos QRS (para o canal 1, base QT) com ρ variando
de 0 a 1 e os resultados obtidos ao apresentados nas Tabelas 10 e 11. Pode-se
observar que o uso das estat´ısticas dos blocos anteriores melhora o desempenho da
detec¸ao, sobretudo no que diz respeito `a detec¸ao de onda P. Para isso, ´e necess´ario
ponderar a contribui¸ao dos hiper-parˆametros. O comportamento da detec¸ao de
onda P com a varia¸ao de ρ pode ser visto na Figura 37. Observa-se tamb´em que o
melhor resultado encontrado foi para ρ = 0, 4, que foi escolhido como valor ´otimo.
Figura 37: Comportamento de detec¸ao de onda P com a varia¸ao de ρ.
5.2 Discuss˜ao 87
Tabela 9: N´umero de epis´odios isquˆemicos em 48 registros.
Detec¸ao de Epis´odios Isquˆemicos
Taxa Bruta Taxa edia
Se (%) PP (%) Se (%) PP (%)
Sem Adapta¸ao
Canal 1 86,52 51,45 90,56 71,62
Canal 2 76,19 51,24 83,97 78,33
Fus˜ao 74,17 73,33 77,97 81,96
Andrao
Canal 1 77,53 55,93 83,71 82,44
Canal 2 76,19 58,33 83,97 79,92
Fus˜ao 75,83 78,57 82,94 83,97
EM Incremental
Canal 1 87,64 61,11 90,76 81,51
Canal 2 78,57 57,27 85,20 75,96
Fus˜ao 81,67 73,60 86,38 80,84
Seg. K-means Inc.
Canal 1 86,52 65,18 89,80 82,46
Canal 2 77,38 53,04 83,73 72,73
Fus˜ao 79,17 79,82 82,86 85,47
MAP Incremental
Canal 1 80,90 62,28 84,46 85,22
Canal 2 76,19 57,14 82,25 78,66
Fus˜ao 81,67 78,33 86,27 84,67
MAP Inc. Robusto
Canal 1 80,90 56,67 84,28 75,72
Canal 2 76,19 57,66 83,14 82,72
Fus˜ao 76,67 77,97 82,18 84,57
5.2 Discuss˜ao
As tabelas apresentadas na se¸ao anterior podem levar a diversas conclus˜oes. Elas cer-
tamente comprovam a necessidade de se adaptar os modelos, uma vez que sem adapta¸ao
os resultados se apresentam inferiores. Em rela¸ao `as ab ordagens desenvolvidas, ´e impor-
tante lembrar que to das elas ao do tipo incremental, o que facilita a compara¸ao. Pode-se
ver tamem que a abordagem segmental k-Means incremental apresenta resultados muito
5.2 Discuss˜ao 88
Tabela 10: Detec¸ao de ondas para determinados valores de ρ.
Detec¸ao de Onda
ρ P QRS T
0,00 2946 3623 3542
0,10 2943 3623 3542
0,20 2954 3623 3542
0,30 2958 3623 3542
0,35 2964 3623 3542
0,40 2974 3623 3542
0,45 2954 3623 3542
0,50 2958 3623 3542
0,60 2959 3623 3542
0,70 2951 3623 3542
0,80 2922 3623 3542
0,90 2877 3623 3542
1,00 2883 3623 3542
Tabela 11: Detec¸ao de complexo QRS para determinados valores de ρ para o Canal 1.
Detec¸ao de QRS
ρ VP FP FN Se(%) PP (%)
0,00 82576 853 97 99,88 98,98
0,10 82575 856 98 99,88 98,97
0,20 82577 798 96 99,88 99,04
0,30 82575 907 98 99,88 98,91
0,35 82575 835 98 99,88 99,00
0,40 82576 845 97 99,88 98,99
0,45 82577 862 96 99,88 98,97
0,50 82577 853 96 99,88 98,98
0,60 82579 831 94 99,89 99,00
0,70 82581 849 92 99,89 98,98
0,80 82581 905 92 99,89 98,92
0,90 82583 1192 90 99,89 98,58
1,00 82589 1149 84 99,90 98,63
bons, mas a abordagem MAP incremental apresenta resultados ainda melhores.
Tem-se como principal vantagem das abordagens segmental k-means e MAP a pos-
sibilidade de uma verdadeira adapta¸ao on-line. A abordagem EM incremental tamb´em
5.3 Conclus˜oes e Perspectivas 89
possui essa vantagem, pois as vers˜oes incrementais dos algoritmos de adapta¸ao podem
melhorar a convergˆencia e reduzir os custos computacionais, o que os conduz a uma
aplica¸ao on-line. Entretanto, uma maneira de verificar qual abordagem incremental
´e mais indicada `a adapta¸ao on-line seria checar o tempo de alculo ou o n´umero de
opera¸oes computacionais executadas. a que os algoritmos segmental k-means incre-
mental e MAP incremental foram implementados em Matlab e o algoritmo EM em C++,
ao ´e poss´ıvel comparar os tempos, mas utiliza-se a compara¸ao do n´umero de la¸cos
‘for’ utilizados pelos mesmos no algoritmo de atualiza¸ao dos modelos. O n´umero de
la¸cos ‘for’ dos dois primeiros se resume a 2 com dimens˜oes ‘1:Q’ (n´umero de estados) e
1 com dimens˜oes ‘1:T’ (n´umero de amostras), a o terceiro, possui esse mesmo n´umero
de la¸cos ‘for’ apenas para efetuar o procedimento forward, al´em dos outros existentes.
Assim, conclui-se que a abordagem MAP, ou quasi-Bayes, ´e a mais apropriada para uma
adapta¸ao on-line do sinal de ECG, devido aos resultados de detec¸ao e `a redu¸ao dos
custos computacionais.
Em se tratando de abordagem MAP, ´e poss´ıvel verificar que mesmo quando os dados
ao ao suficientes ela se comporta de maneira razo´avel (abordagem MAP Inc. Robusto),
apresentando bons resultados de detec¸ao de onda P e detec¸ao de isquemia. O que
leva a refletir, em se tratando de detec¸ao de isquemia, sobre a importˆancia do n´umero
de batimentos corretamente detectados (Se) e a capacidade de detec¸ao de verdadeiros
batimentos (PP), pois ´e a principal diferen¸ca entre as abordagens MAP implementadas.
Pode-se observar, tamem, que assim como o algoritmo EM incremental o segmental k-
means incremental apresenta uma pequena p erda na detec¸ao de onda P, o que a princ´ıpio
ao ´e uma prioridade para a detec¸ao de isquemia. Vale citar que a detec¸ao de complexos
QRS, de acordo com o n´umero de etiquetas feitas pelo cardiologista, apresentado na Tabela
4, foi de 100%.
5.3 Conclus˜oes e Perspectivas
Esses resultados ao muito importantes para a cria¸ao de um sistema de adapta¸ao
on-line aplicado a um sistema port´atil de captura de sinais de ECG, o qual est´a sendo
desenvolvido no Institut National des el´ecommunications - Fran¸ca, devido `a redu¸ao dos
custos computacionais dos algoritmos de adapta¸ao. Viu-se que essa redu¸ao ao afetou,
mas sim, melhorou o desempenho do sistema.
O objetivo desse trabalho foi o estudo de ecnicas de adapta¸ao de modelos ocultos de
5.3 Conclus˜oes e Perspectivas 90
Markov para a an´alise do sinal de ECG. A comprovao de seus benef´ıcios foi verificada em
um sistema de segmenta¸ao e classifica¸ao de sinais de ECG a desenvolvido (ANDREAO,
2004). As ecnicas implementadas foram baseadas em crit´erios de otimiza¸ao de axima
verossimilhan¸ca (algoritmo EM e algoritmo segmental k-means) e de aximo a posteriori
(algoritmo MAP). Foi comprovado que a adapta¸ao ´e realmente necess´aria e que, entre
as abordagens implementadas, a que apresentou melhores resultados foi a abordagem
bayesiana, com a aprendizagem quasi-Bayes (HUO; LEE, 1997), executada pelo algoritmo
MAP. Esta se apresenta melhor, ao o pelos resultados mas tamb´em, pela requisi¸ao de
poucos dados para o seu processamento.
Assim, ser´a feito um estudo da poss´ıvel aplica¸ao das ecnicas apresentadas a outros
sinais biom´edicos como o EEG (eletroencefalograma). a existem alguns trabalhos nessa
´area como (OBERMAIER; GUGER; PFURTSCHELLER, 2001), onde se pode fazer a classi-
fica¸ao de tarefas mentais usando HMM e (CHIAPPA; BENGIO, 2004) que utiliza HMM
para modelar os ritmos de EEG . Os resultados obtidos tamem podem ser usados para
o estudo da adapta¸ao baseada em Multiple-Stream encontrada em (HUO; MA, 2001), a
qual utiliza uma arquitetura onde ´e poss´ıvel acoplar mais que uma t´ecnica de adapta¸ao,
e em que cada t´ecnica exerce uma fun¸ao distinta no processo de adapta¸ao, ou mesmo
para o reconhecimento de assinatura (SALICETTI, 1996).
91
Referˆencias
ANDREAO, R. V. Segmentation de battements ECG par approche markovienne :
application `a la d´etection de isch´emies. Tese (Doutorado) Ecole doctorale INT-UTT,
decembre 2004.
ANDREAO, R. V. et al. ST-Segment analysis using hidden Markov model beat
segmentation: application to ischemia detection. Computers in Cardiology, p. 384–384,
2004.
ANDREAO, R. V. et al. Efficient ECG multi-level wavelet classification through neural
network dimensionality reduction. In proceedings of the IEEE Workshop on Neural
Network for Signal Processing, p. 395–404, 2002.
BARDONOVA, J. et al. Detection of myocardial ischemia using hidden Markov models.
Proc. of the 25th Annual International Conference of the IEEE EMBS, p. 2869–2872,
2003.
BROOKS, D. H. et al. Best basis segmentation of ECG signal using novel optimality
criteria. In Proceedings of the IEEE International Conference on Acoustics, Speech, and
Signal Processing, p. 2750–2753, 1996.
CHAZAL, P. de; REILLY, R. B. Automatic classification of ECG beats using waveform
shape and heart beat interval features. In Proceedings of the IEEE International
Conference on Acoustics, Speech, and Signal Processing, p. II–269 II–272, 2003.
CHIAPPA, S.; BENGIO, S. HMM and IOHMM modeling of EEG rhythms for
asynchronous BCI systems. ESANN proceedings - European Symposium on Artificial
Neural Networks, p. 199–204, 2004.
COAST, D. A. Segmentation of high-resolution ECGs using hidden Markov models.
In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal
Processing, v. 1, p. 67–70, 1993.
COAST, D. A. et al. An approach to cardiac arrhythmia analysis using hidden Markov
models. IEEE Transactions on Biomedical Engineering, v. 37, n. 9, p. 826–836,
September 1990.
COCO, K. F. Notas de aula da disciplina sinais e sistemas. Universidade Federal do
Esp´ırito Santo - Brasil, 2003.
COHEN, A. Hidden Markov models in biomedical signal processing. Proceedings of the
20th Annual International Conference of the IEEE Engineering in Medicine and Biology
Society, v. 20, n. 3, p. 1145–1150, 1998.
Referˆencias 92
DEMPSTER, A. P.; LAIRD, N. M.; RUBIN, D. B. Maximum likelihood from incomplete
data via the EM algorithm. Journal of the Royal Statistical Society , v. 39, n. 1, p. 1–38,
1977.
DIGALAKIS, V. V. Online adaptation of hidden Markov models using incremental
estimation algorithms. IEEE Transactions on Speech and Audio Processing, v. 7, n. 3, p.
253–261, May 1999.
GAUVAIN, J.-L.; LEE, C.-H. MAP estimation of continuous density HMM: Theory
and applications. Proc. DARPA Speech and Natural Language Workshop, p. 185–190,
February 1992.
GAUVAIN, J.-L.; LEE, C.-H. Maximum a posteriori estimation for multivariate
gaussian mixture oservations of Markov chains. IEEE Transactions on Speech and Audio
Processing, v. 2, n. 2, p. 291–298, April 1994.
GOTOH, Y.; SILVERMAN, H. F. Incremental ML estimation of HMM parameters for
efficient training. In Proceedings of the IEEE International Conference on Acoustics,
Speech, and Signal Processing, p. 585–588, 1996.
GUYTON, A. C.; HALL, J. E. Tratado de Fisiologia M´edica . [S.l.]: Guanabara Koogan,
2002.
HUO, Q.; LEE, C.-H. On-line adaptive learning of the continuous density hidden Markov
model based on approximate recursive bayes estimate. IEEE Transactions on Speech and
Audio Processing, v. 5, n. 2, p. 161–172, March 1997.
HUO, Q.; MA, B. On-line adaptive learning of the continuous density hidden Markov
model based on multiple-stream prior evolution and posterior pooling. IEEE Transactions
on Speech and Audio Processing, v. 9, n. 4, p. 388–398, May 2001.
LAGUNA, P. et al. A database for evaluation of algorithms for measurement of QT and
other waveform intervals in the ecg. Computers in Cardiology, p. 673–676, 1997.
LAMKADDEM, S. Rapport de stage 3`eme ann´ee du cycle ing´enieur. [S.l.], 2005.
LEE, C.-H.; HUO, Q. On adaptive decision rules and decision parameter adaptation for
automatic speech recognition. Proc. IEEE, v. 88, n. 8, p. 1241–1269, August 2000.
LEE, C.-H.; LIN, C.-H.; JUANG, B.-H. A study on speaker adaptation of the parameters
of continuous density hidden Markov models. IEEE Transactions on Signal Processing ,
v. 39, n. 4, p. 806–814, April 1991.
LI, C.; ZHENG, C.; TAI, C. Detection of ECG characteristic points using wavelet
transforms. IEEE Transactions on Biomedical Engineering, v. 42, n. 1, p. 21–28, January
1995.
MALLAT, S. A Wavelet Tour of Signal Processing. San Diego, CA: Academic Press,
1998.
NEAL, R. M.; HINTON, G. E. A view of the EM algorithm that justifies incremental
and other variants. submitted to Biometrica, February 1993.
Referˆencias 93
NICOLAU, J. C. et al. Aplica¸oes cl´ınicas do eletrocardiograma no infarto agudo do
mioardio. Revista da Sociedade de Cardiologia de ao Paulo, v. 9, n. 3, 2003.
OBERMAIER, B.; GUGER, C.; PFURTSCHELLER, G. Information transfer rate in a
five-classes brain-computer interface. IEEE Trans. on Rehabilitation Engineering, v. 9,
p. 283–288, September 2001.
OLIVEIRA, F. I. de; ANDREAO, R. V. TELEPAT Classificator, MatLab-GUI Interface.
Evry-France, 2003–2004.
PROVAZNIK, I. et al. Wavelet transform in ECG signal processing. In Analysis
of Biomedical Signals and Images. Proceedings of the 15th International Conference
BIOSIGNAL 2000, p. 21–25, 2000.
RABINER, L. R. A tutorial on hidden Markov models and selected applications in
speech recognition. Proceedings of the IEEE, v. 77, n. 2, p. 257–286, February 1989.
RABINER, L. R.; JUANG, B. H. Fundamentals of Speech Recognition. 1993. Prentice
Hall.
SABRY-RISK, M. et al. Highly accurate higher order statistics based neural network
classifier of specific abnormality in eletrocardiogram signals. In Proceedings of the IEEE
International Conference on Acoustics, Speech, and Signal Processing, p. 1033–1036,
1999.
SALICETTI, S. G. Une approche neuronale predictive pour la reconnaissance en-ligne de
´ecriture cursive. Tese (Doutorado) Universit´e Paris VI, decembre 1996.
SORIA, E. et al. Adaptive system for the location of characteristic points in an ECG.
18th Annual International Conference of the IEEE Engineering in Medicine and Biology
Society, 1996.
SPRAGINS, J. A note on the iterative application of Bayes’ rule. IEEE Transactions on
Information Theory, IT-11, n. 4, p. 544–549, October 1965.
TADDEI, A. et al. The european ST-T database: development, distribution and use.
Computers in Cardiology, p. 170–180, 1991.
TORRENCE, C.; COMPO, G. P. A pratical guide to wavalet analysis. Bulletin of the
American Meteorological Society, v. 79, n. 1, p. 61–78, January 1998.
TUMER, M. B.; BELFORE, L. A.; ROPELLA, K. M. Applying hierarchical fuzzy
automatons to automatic diagnosis. Conf. North American Fuzzy Inf. Proc. Soc., p.
315–319, 1998.
USP, C. de Comunica¸ao Social da Universidade de S. P. Preven¸ao e diagn´ostico
precoce, receita para 90% dos problemas card´ıacos . 2005.
WATROUS, R.; TOWELL, G. A patient-adaptive neural network ECG patient
monitoring algorithm. Computers in Cardiology, p. 10–13, 1995.
94
Anexos
Anexo A - Wavelets
As wavelets em trˆes principais aplica¸oes:
i) Banco de Filtros: dependendo da base wavelet escolhida ´e poss´ıvel decompor e recons-
truir um sinal utilizando suas diferentes bandas de freq¨encia.
ii) Filtragem Adaptativa: no que se refere a uma an´alise de correla¸ao. A sa´ıda ser´a ´otima
quando o sinal de entrada se parecer mais com a fun¸ao wavelet escolhida.
iii) Localiza¸ao no tempo e na freq¨uˆencia: a transformada wavelet analisa as componen-
tes do sinal a partir de wavelets com escalas de tempo distintas e sua localiza¸ao em
freq¨encia est´a relacionada com o grau de regularidade da fun¸ao, que por sua vez est´a
relacionada ao n´umero de derivadas cont´ınuas existentes.
Transformada Wavelet
Fazendo uma breve revis˜ao da matem´atica das wavelets, sabe-se (COCO, 2003) que
elas ao fun¸oes caracterizadas por terem a edia igual a zero, ou seja,
+
−∞
ψ (t) dt = 0.
Se forem normalizadas, elas possuem energia unit´aria, ou seja ψ = 1, e, geralmente,
ao centradas no eixo t = 0.
A transformada wavelet pode ser vista como uma convolu¸ao entre o sinal f e a fun¸ao
wavelet escolhida, ou seja
W f (u, s) = f
¯
ψ
s
(u) ,
onde
¯
ψ
s
(t) =
1
s
ψ
t
s
´e chamada de wavelet escalada.
5.0 Anexo A - Wavelets 95
Escrevendo a wavelet escalada no dom´ınio da freq¨uˆencia, tem-se que
ˆ
¯
ψ
s
(ω) =
s
ˆ
ψ
() .
A transformada wavelet pode ser ilustrada como na seq¨uˆencia a seguir:
i) Efetua-se o produto interno entre a wavelet escalada e cada trecho do sinal, obtendo-se o
coeficiente de correla¸ao C que representa o grau de similaridade entre a wavelet escalada
e a parte do sinal comparada (Figura 38(a));
ii) Desloca-se a wavelet para a direita e repete-se o passo anterior. Essa etapa continua
enquanto existirem amostras do sinal (Figura 38(b)), e obt´em-se como resultado a Figura
38(c);
iii) Escala-se a wavelet e repetem-se os passos anteriores (Figura 39).
Figura 38: Transformada wavelet.
Figura 39: Transformada wavelet com mudan¸ca de escala.
5.0 Anexo A - Wavelets 96
Escalas
Para este trabalho foi escolhida como escala a Escala Dyadique ou Escala de Dois,
onde s = 2
j
. Isto se justifica pela simplifica¸ao dos alculos e por ao haver perda de
informa¸oes, a que essa ´e uma escala redundante e completa, segundo (MALLAT, 1998).
A Figura 40 mostra a transformada wavelet de um sinal de ECG, para diferentes
escalas.
Figura 40: Avalia¸ao do valor da escala na transformada wavelet.
Assim, ´e poss´ıvel observar que pequenas escalas est˜ao associadas `as componentes de
alta freq¨encia do sinal transformado, assim como as escalas maiores refletem as suas
componentes de baixa freq¨encia. Para o sinal de ECG, ´e importante mencionar que
quando a escala ´e muito grande (j > 5), a energia do complexo QRS diminui e a energia
do artefato de movimento e do ru´ıdo aumentam, limitando, enao, o tamanho da escala
a ser utilizada.
Fun¸oes Wavelets
´
E necess´ario, ent˜ao, ter algum crit´erio para a escolha da wavelet a ser usada. Alguns
fatores podem ser considerados:
5.0 Anexo A - Wavelets 97
Base Ortogonal ou ao-ortogonal: a base ortogonal ´e utilizada para processamento
de sinais, pois realiza uma representa¸ao compacta do sinal. Mas para a an´alise de
s´erie de tempo, um deslocamento ao peri´odico na erie de tempo produz um spectro
diferente da wavelet. a a transformada ao-ortogonal ´e altamente redundante nas
escalas grandes, onde o spectro da wavelet em momentos adjacentes ´e altamente
correlacionado.
´
E usada, ent˜ao, para an´alise de erie no tempo, onde varia¸oes
cont´ınuas e suaves na amplitude da wavelet ao esperadas.
Complexa ou Real: a wavelet complexa retorna a informa¸ao de amplitude e de
fase, aplicando-se `a captura do comportamento oscilat´orio do sinal. a a fun¸ao real
retorna uma ´unica componente, destinando-se a isolar picos ou descontinuidades.
Largura: uma fun¸ao wavelet estreita no tempo ter´a uma boa resolu¸ao temporal
mas uma pequena resolu¸ao na freq¨encia, enquanto que uma fun¸ao estreita se
apresenta com uma resolu¸ao pobre temporal e boa resolu¸ao na freq¨encia.
Forma: o formato da fun¸ao wavelet escolhida deve refletir o tipo de caracter´ısticas
que se deseja extrair do sinal.
Assim ´e que, depois de estudos e experimenta¸oes, a wavelet escolhida para melhor
ressaltar as caracter´ısticas a serem extra´ıdas do sinal de ECG foi a wavelet Chap´eu Mexi-
cano (Mexican Hat), a qual corresponde `a segunda derivada da fun¸ao gaussiana, conforme
visto na Figura 41, tendo como express˜ao matem´atica
ψ (t) =
2
3σπ
1
/
4
1
t
2
σ
2
e
t
2
2σ
2
.
No dom´ınio da freq¨uˆencia tem-se
ˆ
¯
ψ
s
(ω) =
s
8σ
5
2
π
1
/
4
3
2
e
(σsω)
2
2
.
Pode-se observar que as pequenas escalas ao associadas a filtros passa-altas, enquanto
as grandes escalas correspondem a filtros passa-baixas.
5.0 Anexo A - Wavelets 98
Figura 41: Fun¸ao Chap´eu Mexicano.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo