Download PDF
ads:
An
´
alise Comparativa de Estimadores da Ordem de
Cadeias de Markov
por
Paulo Angelo Alves Resende
Bras
´
ılia – DF
2009
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
An
´
alise Comparativa de Estimadores da Ordem de
Cadeias de Markov
Dissertac¸
˜
ao apresentada ao Programa de P
´
os-
Graduac¸
˜
ao em Matem
´
atica da Universidade
de Bras
´
ılia (UnB), como requisito parcial
para obtenc¸
˜
ao do grau de MESTRE EM
MATEM
´
ATICA.
por
Paulo Angelo Alves Resende
Orientador:
C
´
atia Regina Gonc¸alves
UNIVERSIDADE DE BRAS
´
ILIA
INSTITUTO DE CI
ˆ
ENCIAS EXATAS
DEPARTAMENTO DE MATEM
´
ATICA
Bras
´
ılia – DF
2009
ads:
`
A minha m
˜
ae, Angela Maria.
Resumo
Neste trabalho estudamos o estimador da ordem de cadeias de Markov usando o crit
´
erio
EDC (Efficient Determination Criterion) com o termo de penalidade
´
otimo proposto por
Dorea (2008). Realizamos uma an
´
alise comparativa das performances dos estimadores EDC
opt
,
BIC e AIC, baseada nos resultados de simulac¸
˜
oes computacionais realizadas.
Abstract
In what follows we study and analyze the Markov chain order estimator EDC (Efficient
Determination Criterion) with the penalty function proposed by Dorea (2008). We also carry
out extensive numerical simulations based on EDC, BIC and AIC, aiming to a detailed com-
parison of their features as well as their relative performance.
Sum
´
ario
Introduc¸
˜
ao p.7
1 Fundamentac¸
˜
ao Te
´
orica dos Estimadores p.11
1.1 Descric¸
˜
ao e Breve Hist
´
orico . . . . . . . . . . . . . . . . . . . . . . . . p.11
1.2 EDC: Consist
ˆ
encia e Termo de Penalidade
´
Otimo . . . . . . . . . . . . . p. 17
1.2.1 Notac¸
˜
oes e Resultados Auxiliares . . . . . . . . . . . . . . . . . p.17
1.2.2 Resultados Principais . . . . . . . . . . . . . . . . . . . . . . . . p.30
1.3 Considerac¸
˜
oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.46
2 An
´
alise Comparativa dos Estimadores p.50
2.1 Definic¸
˜
ao dos Experimentos Computacionais . . . . . . . . . . . . . . . p.51
2.2 An
´
alise dos Resultados Obtidos nas Simulac¸
˜
oes . . . . . . . . . . . . . . p.52
2.2.1 O estimador EDC
opt
´
e mais eficiente que o BIC . . . . . . . . . . p.52
2.2.2 Paran suficientemente pequeno, todosos estimadores t
ˆ
em tend
ˆ
encia
a subestimar . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.56
2.2.3 Comportamento do estimador AIC . . . . . . . . . . . . . . . . . p.57
2.3 Um Exemplo de Aplicac¸
˜
ao . . . . . . . . . . . . . . . . . . . . . . . . . p.61
Conclus
˜
ao p.63
Refer
ˆ
encias Bibliogr
´
aficas p.64
Ap
ˆ
endice A -- Recursos Computacionais Utilizados p.67
A.1 Programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.68
A.1.1 Descric¸
˜
ao das Principais Rotinas . . . . . . . . . . . . . . . . . . p.68
A.2 Estimativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.69
A.3 Ambiente Utilizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.70
7
Introduc¸
˜
ao
Os processos markovianos, em geral, v
ˆ
em sendo utilizados como modelos aplicados
em diversas
´
areas, tais como: economia (Silos 2006), geologia (Li 2007), ecologia (Balzter
2000), gen
´
etica (Nuel 2007), meteorologia (Martell 1999), ci
ˆ
encia da informac¸
˜
ao (Beno
ˆ
ıt
2005) e m
´
usica (McAlpine, Miranda & Hoggar 1999). Uma boa parte dessas aplicac¸
˜
oes
s
˜
ao tacitamente model
´
aveis usando Cadeias de Markov de ordem superior com espac¸os de
estados finitos. Os casos onde os espac¸os de estados n
˜
ao s
˜
ao finitos s
˜
ao naturalmente aprox-
imados para o caso discreto/finito em func¸
˜
ao das limitac¸
˜
oes computacionais e a necessidade
de simplificac¸
˜
ao do modelo.
Em linhas gerais, uma Cadeia de Markov de ordem r caracteriza-se como um processo
em que a informac¸
˜
ao num dado instante depende no m
´
aximo das informac¸
˜
oes nos r instantes
anteriores.
Neste cen
´
ario, conhecer a ordem de depend
ˆ
encia de um certo procedimento tem funda-
mental import
ˆ
ancia, n
˜
ao apenas para conhecer a depend
ˆ
encia em si, mas principalmente para
ser poss
´
ıvel estimar outros par
ˆ
ametros e encontrar a Cadeia de Markov superior que melhor
se adapta, em certo sentido, ao problema em an
´
alise. Dessa forma, a quest
˜
ao da estimac¸
˜
ao
da ordem de depend
ˆ
encia surge como um problema natural e inevit
´
avel.
Soma-se ao problema de estimac¸
˜
ao da ordem, a limitac¸
˜
ao dos tamanhos das amostras em
algumas aplicac¸
˜
oes, como por exemplo em sequ
ˆ
encias de tRNA
1
que possuem comprimento
entre 74 a 95 amino
´
acidos (Lewin 2004) e em partituras musicais que s
˜
ao limitadas a poucas
p
´
aginas.
Bartlett (1951) publicou um dos primeiros trabalhos sobre o problema de estimac¸
˜
ao
da ordem de uma Cadeia de Markov, propondo um teste de hip
´
oteses para testar a ordem
m
´
axima da cadeia. Seguindo a mesma linha, seu trabalho foi generalizado/aperfeic¸oado por
1
tRNA (Transfer RNA): Respons
´
avel por transportar amino
´
acidos para a s
´
ıntese de prote
´
ınas.
8
Hoel (1954), Good (1955), Anderson & Goodman (1957) e Billingsley (1961).
V
´
arias alternativas
`
as t
´
ecnicas de testes de hip
´
oteses t
ˆ
em sido propostas. Tong (1975)
prop
ˆ
os a aplicac¸
˜
ao do Crit
´
erio de Informac¸
˜
ao de Akaike (AIC), apresentado por Akaike
(1974) para selec¸
˜
ao de modelos, para a determinac¸
˜
ao da ordem de uma Cadeia de Markov,
com espac¸o de estados finito e assumindo a exist
ˆ
encia de um limitante superior conhecido
para a ordem.
Basicamente, Akaike (1974) considerou o problema da selec¸
˜
ao de um modelo, dentre K
modelos poss
´
ıveis, que melhor se aproxima do modelo verdadeiro e prop
ˆ
os um novo crit
´
erio
de informac¸
˜
ao que tem como base a informac¸
˜
ao m
´
edia de Kullback-Leibler (Kullback 1959)
e a raz
˜
ao de verossimilhanc¸a de Neyman-Pearson (vide Kendall, Stuart & Ord (1991) e Shao
(2007)).
Apesar da indiscut
´
ıvel import
ˆ
ancia do trabalho de Akaike (1974) e da utilizac¸
˜
ao do
estimador AIC, como sugerido por Tong (1975), para estimac¸
˜
ao da ordem de cadeias em
modelos de dados meteorol
´
ogicos por Gates & Tong (1976) e Chin (1977), n
˜
ao se con-
hecia nenhuma demonstrac¸
˜
ao rigorosa sobre as propriedades do procedimento AIC neste
caso. Finalmente Katz (1981) derivou formalmente a distribuic¸
˜
ao assint
´
otica do estimador
AIC e demonstrou sua inconsist
ˆ
encia para estimar a ordem de uma Cadeia de Markov.
Nesse mesmo trabalho foi proposto, como alternativa fracamente consistente, um estimador
baseado no Crit
´
erio de Informac¸
˜
ao Bayesiano (BIC)
2
, que foi um crit
´
erio de informac¸
˜
ao cri-
ado por Schwarz (1978) para selec¸
˜
ao de modelos, usando argumentos bayesianos. O crit
´
erio
proposto, basicamente, foi uma adaptac¸
˜
ao no termo de penalidade do AIC.
Vale ressaltar que, em um trabalho similar ao Katz, Shibata (1976) tamb
´
em demonstrou
a inconsist
ˆ
encia do estimador AIC para a ordem de processos auto-regressivos.
Csiszar & Shields (2000) demonstraram a consist
ˆ
encia forte do estimador BIC sem a
hip
´
otese que a ordem desconhecida seja limitada.
Simultaneamente, Zhao, Dorea & Gonc¸alves (2001) generalizaram os estimadores AIC
e BIC para a estimac¸
˜
ao da ordem r de uma Cadeia de Markov X =
{
X
n
}
com espac¸o de
estados finito E, apresentando o estimador EDC (Crit
´
erio de Informac¸
˜
ao Eficiente) baseado
na log-verossimilhanc¸a m
´
axima e com certa liberdade para a escolha do termo de penalidade.
2
Tamb
´
em conhecido por Schwarz Information Criterion (SIC).
9
Especificamente, de acordo com o crit
´
erio proposto por Zhao et al, a ordem r
´
e estimada
por ˆr
EDC
definido por
ˆr
EDC
= argmin
{
EDC(k);k = 0, . . . , K
}
(1)
e
EDC(k) = 2log
ˆ
L(k) +
γ
(k)c
n
, (2)
onde
ˆ
L(k)
´
e a func¸
˜
ao de m
´
axima verossimilhanc¸a da amostra (X
1
, . . . , X
n
) da cadeia X,
{
c
n
}
pode ser tomada como uma sequ
ˆ
encia de n
´
umeros positivos e
γ
(k) pode ser qualquer func¸
˜
ao
crescente em k.
No caso particular c
n
= 2,
γ
(k) = |E|
k
(|E|1), o estimador EDC reduz-se ao estimador
AIC, proposto por Akaike. No caso c
n
= log n e
γ
(k) = |E|
k
(|E|1) temos o BIC.
Sob a hip
´
otese da exist
ˆ
encia de um limitante superior K, conhecido, para a ordem r e
assumindo que a sequ
ˆ
encia
{
c
n
}
satisfaz:
c
n
log log n
e
c
n
n
0,
Zhao et al provaram a consist
ˆ
encia forte do estimador EDC. Como casos particulares,
obtiveram a consist
ˆ
encia forte do estimador BIC e a inconsist
ˆ
encia do AIC.
Posteriormente, Lopes (2005) estendeu o EDC para o caso de espac¸o de estados E enu-
mer
´
avel. Dorea & Lopes (2006) derivaram taxas de converg
ˆ
encia para o estimador EDC
e Dorea & Zhao (2004) obtiveram limitantes exponenciais para a probabilidade de erro do
estimador EDC.
Com a ampla possibilidade de escolha do termo de penalidade do EDC produzindo esti-
madores consistentes da ordem da cadeia, uma quest
˜
ao natural
´
e a escolha do melhor termo
de penalidade, ou seja, aquele que produziria um estimador consistente que, de certa forma,
teria maior chance de acerto, ou ainda, a melhor performance.
Dorea (2008) demonstrou a consist
ˆ
encia forte dos estimadores EDC sem assumir a ex-
ist
ˆ
encia de um limitante superior finito, K, da ordem e sob condic¸
˜
oes mais fracas sobre a
10
sequ
ˆ
encia
{
c
n
}
:
liminf
n
c
n
log log n
2|E|
|E|1
e lim
n
c
n
n
= 0.
Al
´
em disso, prop
ˆ
os como estimador consistente
´
otimo, dentre a classe (1) considerada,
aquele baseado no crit
´
erio
EDC
opt
(k) = 2log
ˆ
L(k) + 2|E|
k+1
log log n . (3)
Ou seja, prop
ˆ
os a escolha de
γ
(k) = |E|
k
(|E|1) e c
n
=
2|E|
|E|−1
log log n em (2).
Dorea mostrou teoricamente que a escolha do termo de penalidade em (3) produz um esti-
mador consistente melhor do que o BIC.
Nosso interesse neste trabalho
´
e fazer uma an
´
alise comparativa da performance desses
estimadores atrav
´
es de simulac¸
˜
oes num
´
ericas.
Inicialmente, no Cap
´
ıtulo 1, apresentamos um breve hist
´
orico, uma descric¸
˜
ao mais minu-
ciosa dos estimadores e estudamos em detalhes o trabalho de Dorea (2008), que nos auxiliar
´
a
na an
´
alise da performance dos estimadores.
No Cap
´
ıtulo 2 descrevemos primeiramente os experimentos computacionais realizados
com o objetivo de comparar a efici
ˆ
encia dos estimadores consistentes EDC
opt
e BIC, e de
analisar a performance do estimador n
˜
ao consistente AIC. Em seguida, apresentamos uma
discuss
˜
ao, pautada na teoria estudada, sobre os resultados obtidos nas simulac¸
˜
oes, onde veri-
ficamos principalmente que o estimador
´
otimo EDC
opt
apresenta uma performance substan-
cialmente melhor que o BIC, e essa vantagem aumenta em func¸
˜
ao da complexidade do mod-
elo considerado. Encerramos o cap
´
ıtulo, com a aplicac¸
˜
ao desses estimadores, num cen
´
ario
real, na an
´
alise de uma pec¸a musical.
Finalmente, apresentamos nossas conclus
˜
oes sobre o trabalho realizado.
As informac¸
˜
oes sobre o programa computacional desenvolvido para as simulac¸
˜
oes, tais
como ferramentas, linguagens e descric¸
˜
ao de rotinas relevantes, est
˜
ao no Ap
ˆ
endice A.
11
1 Fundamentac¸
˜
ao Te
´
orica dos
Estimadores
Neste cap
´
ıtulo n
´
os consideramos a classe de estimadores EDC (Crit
´
erio de Informac¸
˜
ao
Eficiente) da ordem de Cadeias de Markov, com espac¸o de estados finito, baseados na log-
verossimilhanc¸a m
´
axima penalizada, que foi proposta por Zhao, Dorea & Gonc¸alves (2001)
e que generaliza os estimadores cl
´
assicos AIC e BIC.
Na sec¸
˜
ao 1.1 apresentamos um breve hist
´
orico e uma descric¸
˜
ao desses estimadores.
Na sec¸
˜
ao 1.2 estudamos em detalhes o trabalho de Dorea (2008), onde a consist
ˆ
encia
forte desses estimadores
´
e demonstrada sob condic¸
˜
oes mais suaves do que as assumidas em
Zhao, Dorea & Gonc¸alves (2001) e um termo de penalidade
´
otimo
´
e proposto de tal forma a
obter um estimador fortemente consistente de melhor performance.
1.1 Descric¸
˜
ao e Breve Hist
´
orico
Considere uma Cadeia de Markov X =
{
X
n
}
n1
, de ordem desconhecida r, com espac¸o
de estados E =
{
1, 2, . . . , N
}
e probabilidades de transic¸
˜
ao
p(a
r+1
|a
r
1
) = P(X
n+1
= a
r+1
|X
n
nr+1
= a
r
1
) = P(X
n+1
= a
r+1
|X
nr+1
= a
1
, . . . , X
n
= a
r
),
(1.1)
onde consideramos a notac¸
˜
ao
a
r
1
= a
k
1
a
r
k
= (a
1
, . . . , a
r
), se 1 k r.
12
Dada uma certa amostra X
n
1
= (X
1
, . . . , X
n
) desta cadeia, o problema consiste em deter-
minar a ordem r do processo, baseado nesta amostra.
Como hip
´
otese inicial, assume-se a exist
ˆ
encia de um limitante superior conhecido para
r, isto
´
e
existe K (conhecido) tal que 0 r K. (1.2)
Inicialmente, assumindo (1.2), foi proposto por Bartlett (1951) e Hoel (1954), utilizar
testes de hip
´
oteses para a determinac¸
˜
ao da ordem da cadeia.
O teste proposto por Bartlett testa a hip
´
otese de que a cadeia tenha ordem m
´
axima k,
enquanto que Hoel testa a hip
´
otese de que a Cadeia de Markov em quest
˜
ao tenha ordem
m
´
axima k1 contra a hip
´
otese de que a cadeia tenha ordem m
´
axima k.
O teste de Hoel
´
e baseado na estat
´
ıstica da raz
˜
ao de verossimilhanc¸a de Neyman-Pearson
(vide, por exemplo, Shao (2007)) para testar hip
´
oteses compostas:
λ
=
ˆ
L(k1)
ˆ
L(k)
,
onde
ˆ
L(k)
´
e a m
´
axima verossimilhanc¸a estimada considerando verdadeira a hip
´
otese r = k,
dada por:
ˆ
L(k) =
a
k+1
1
ˆp(a
k+1
|a
k
1
)
N(a
k+1
1
|X
n
1
)
, (1.3)
assumindo 0
0
=
0
0
0
= 1, e
N(a
k
1
|X
n
1
) =
j=nk+1
j=1
1(X
j
= a
1
, . . . , X
j+k1
= a
k
). (1.4)
Na sequ
ˆ
encia, ˆp(a
k+1
|a
k
1
)
´
e o estimador de m
´
axima verossimilhanc¸a de (1.1). Usando
a semelhanc¸a de (1.3) com o modelo multinomial (Anderson & Goodman 1957), ou uma
simples verificac¸
˜
ao usando multiplicadores de Lagrange (Billingsley 1961), obt
´
em-se
13
ˆp(a
k+1
|a
k
1
) =
N(a
k+1
1
|X
n
1
)
N(a
k
1
|X
n
1
)
. (1.5)
Hoel (1954), supondo verdadeira a hip
´
otese nula H
0
: r = k1, verificou que
2log(
λ
)
χ
2
(|E|
k1
(|E|1)
2
). (1.6)
Isto
´
e, 2log(
λ
) possui uma distribuic¸
˜
ao assint
´
otica qui-quadrado com |E|
k1
(|E|1)
2
graus de liberdade, onde |E|
´
e a cardinalidade do conjunto E. Para isso, utilizou a aproximac¸
˜
ao
normal para distribuic¸
˜
oes multinomiais.
Tong (1975) prop
˜
oe a aplicac¸
˜
ao do Crit
´
erio de Informac¸
˜
ao de Akaike (AIC), apresentado
por Akaike (1974) para selec¸
˜
ao de modelos, para a determinac¸
˜
ao da ordem de uma Cadeia
de Markov com espac¸o de estados finito.
Em linhas gerais, em seu trabalho, Akaike questiona a utilidade pr
´
atica dos procedimen-
tos de testes de hip
´
oteses como m
´
etodos para a construc¸
˜
ao ou identificac¸
˜
ao de um modelo
estat
´
ıstico. Considerando o problema da selec¸
˜
ao de um dos modelos M
1
, . . . , M
K
que melhor
se aproxima do modelo verdadeiro M
r
, Akaike prop
˜
oe um novo crit
´
erio de informac¸
˜
ao que
tem como base a informac¸
˜
ao m
´
edia de Kullback-Leibler (Kullback & Leibler (1951) e Kull-
back (1959)). Para a estimac¸
˜
ao desta diverg
ˆ
encia s
˜
ao utilizadas as propriedades assint
´
oticas
da raz
˜
ao de verossimilhanc¸a de Neyman-Pearson para testar hip
´
oteses compostas e de esti-
madores de m
´
axima verossimilhanc¸a (vide Billingsley (1961), Kendall, Stuart & Ord (1991)
ou Rao (1973)).
Conforme sugerido por Tong (1975) e seguindo Lopes (2005), o problema de estimac¸
˜
ao
da ordem de uma Cadeia de Markov de ordem desconhecida r, com espac¸o de estados
finito e assumindo a hip
´
otese (1.2), pode ser inserido no contexto de selec¸
˜
ao de mode-
los da seguinte forma: denota-se por M
k
a classe de processos estoc
´
asticos X =
{
X
n
}
n1
,
com espac¸o de estados E =
{
1, 2, . . . , N
}
, para o qual existe k 1 tal que para todo n k
P(X
1
= a
1
, . . . , X
n1
= a
n1
, X
n
= a
n
) = P(X
1
= a
1
, . . . , X
k
= a
k
)
nk
j=1
p
a
j
a
j+1
...a
j+k1
;a
j+k
, para
a matriz de transic¸
˜
ao apropriada P=
p
a
1
...a
k
;a
k+1
, onde p
a
1
...a
k
;a
k+1
= p
a
k
1
;a
k+1
= p(a
k+1
|a
k
1
),
como denotado em (1.1). A classe de processos i.i.d.
´
e denotada por M
0
.
14
Desta maneira, a ordem de uma cadeia X =
{
X
n
}
n1
em M =
k
M
k
´
e o menor inteiro r
tal que, para algum l 1, X =
{
X
n
}
nl
est
´
a em M
r
.
Baseado numa amostra X
n
1
= (X
1
, . . . , X
n
) de uma cadeia X =
{
X
n
}
de ordem descon-
hecida r, pode-se estimar r selecionando-se a classe do modelo M
ˆr
em M =
k
M
k
que melhor
se ajusta
`
a M
r
.
Assumindo (1.2), ou seja, r K (K conhecido), e admitindo que cada hip
´
otese H
k
:
{
a cadeia de Markov ´e de ordem k
}
represente o modelo M
k
, com matriz P =
p
a
k
1
;a
k+1
associada, deseja-se, ent
˜
ao, selecionar sobre M =
{
M
0
, M
1
, . . . , M
k
}
o modelo M
ˆr
que melhor
se ajusta a M
r
.
Sob a hip
´
otese H
k
, com k = 0, 1, . . . , K, a func¸
˜
ao de m
´
axima verossimilhanc¸a
´
e dada por
(1.3), (1.4) e (1.5), ou seja,
ˆ
L(k) =
a
k+1
1
N(a
k+1
1
|X
n
1
)
N(a
k
1
|X
n
1
)
N(a
k+1
1
|X
n
1
)
,
onde N(a
k
1
|X
n
1
), dado em (1.4), representao n
´
umero de ocorr
ˆ
encias de a
k
1
na amostra (X
1
, . . . , X
n
)
e no caso k = 0 interpreta-se N(a
k
1
|X
n
1
) = n.
Assim, baseado nesta estat
´
ıstica, o Crit
´
erio de Informac¸
˜
ao de Akaike, utilizado por Tong
(1975) para selecionar a ordem que melhor se ajusta
`
a ordem verdadeira r da cadeia
´
e
AIC(k) = 2log
ˆ
L(k) + 2
γ
(k), (1.7)
onde
γ
(k) = |E|
k
(|E|1)
´
e o n
´
umero de par
ˆ
ametros livres a serem estimados em H
k
. A
estimativa ˆr de r
´
e aquela que minimiza AIC(k), dentre k = 0, 1, . . . , K, ou seja,
ˆr
AIC
= argmin
{
AIC(k);k = 0, 1, . . . , K
}
. (1.8)
Uma fundamentac¸
˜
ao mais detalhada dos trabalhos de Akaike e Tong pode ser encontrada
em Lopes (2005).
Posteriormente, Katz (1981) obteve a distribuic¸
˜
ao assint
´
otica do estimador AIC e mostrou
15
sua inconsist
ˆ
encia para a estimac¸
˜
ao da ordem da cadeia, com a exist
ˆ
encia de uma probabil-
idade positiva de superestimar a ordem. Como uma alternativa ao procedimento AIC, Katz
sugere o uso do Crit
´
erio de Informac¸
˜
ao Bayesiano (BIC) proposto por Schwarz (1978) para
a estimac¸
˜
ao da dimens
˜
ao de um modelo.
O estimador BIC da ordem r de uma Cadeia de Markov X, sob a hip
´
otese (1.2) e baseado
numa amostra X
n
1
= (X
1
, . . . , X
n
), pode ser descrito como
ˆr
BIC
= argmin
{
BIC(k);k = 0, 1, . . . , K
}
,
onde
BIC(k) = 2log
ˆ
L(k) +
γ
(k)log n ,
com
ˆ
L(k) e
γ
(k) definidos como no crit
´
erio AIC.
Com a substituic¸
˜
ao da constante 2, no termo de penalidade do AIC em (1.7), pelo fator
log n, que depende do tamanho da amostra e converge ao infinito a uma taxa suficiente-
mente lenta, foi poss
´
ıvel obter a consist
ˆ
encia fraca do estimador ˆr
BIC
, demonstrada por Katz
(1981). No entanto, foi apontado por Katz, atrav
´
es de alguns experimentos computacionais
modestos, a tend
ˆ
encia do estimador BIC de subestimar a ordem da cadeia.
Mesmo depois dos trabalhos de Schwarz (1978) e Katz (1981), ficaram duas quest
˜
oes
em aberto a consist
ˆ
encia forte do BIC e a possibilidade de se obter termos de penalidade
“melhores”. Csiszar & Shields (2000) responderam a primeira quest
˜
ao apresentando uma
demonstrac¸
˜
ao da consist
ˆ
encia forte do estimador BIC, sem assumir a priori a exist
ˆ
encia
de um limitante superior da ordem [hip
´
otese (1.2)], mas deixaram explicitamente a se-
gunda quest
˜
ao em aberto: “it remains open whether smaller penalty terms suffice for consis-
tency....
Paralelamente, Zhao, Dorea & Gonc¸alves (2001), propuseram o estimador EDC (Effi-
cient Determination Criterion) com uma certa liberdade para a escolha do termo de penali-
dade e inclu
´
ındo como casos particulares os estimadores AIC e BIC. Especificamente, r ser
´
a
estimado por ˆr
EDC
, a estimativa m
´
ınima de EDC, ou seja,
16
ˆr = argmin
{
EDC(k);k = 0, . . . , K
}
, (1.9)
onde
EDC(k) = 2log
ˆ
L(k) +
γ
(k)c
n
, (1.10)
com c
n
podendo ser tomada como uma sequ
ˆ
encia de n
´
umeros positivos dependendo de n
(ou, mais geral, como uma sequ
ˆ
encia de vari
´
aveis aleat
´
orias positivas) e
γ
(k) podendo ser
tomada como qualquer func¸
˜
ao crescente em k.
Nos casos particulares: c
n
= 2,
γ
(k) = |E|
k
(|E|1) e c
n
= log n,
γ
(k) = |E|
k
(|E|1)
temos os crit
´
erios AIC e BIC respectivamente.
Zhao, Dorea & Gonc¸alves (2001) provaram a consist
ˆ
encia forte do estimador ˆr
EDC
para
estimar a ordem r de uma Cadeia de Markov X =
{
X
n
}
, cujo processo derivado
Y
(k)
= (X
n
, . . . , X
n+k1
)
k1
´
e irredut
´
ıvel e recorrente positivo, assumindo a hip
´
otese (1.2) e sob as seguintes condic¸
˜
oes
para a sequ
ˆ
encia
{
c
n
}
no termo de penalidade:
c
n
log log n
e
c
n
n
0. (1.11)
Em particular, obtiveram a consist
ˆ
encia forte de ˆr
BIC
.
Al
´
em disso, observaram que se ao inv
´
es de (1.11) assumirmos que
{
c
n
}
´
e uniformemente
limitada por uma constante, ent
˜
ao ˆr
EDC
´
e inconsistente. Este
´
e o caso do estimador ˆr
AIC
.
Com isso, qualquer c
n
satisfazendo as condic¸
˜
oes em (1.11), d
´
a origem a um estimador
fortemente consistente. Dessa forma,
´
e natural pensar em qual c
n
fornece o estimador com
maior chance de acerto.
Recentemente, Dorea (2008), considerando
γ
(k) = |E|
k
(|E|1), prop
ˆ
os o seguinte
termo de penalidade como sendo
´
otimo dentro dessa classe de estimadores consistentes:
17
c
n
=
2
|
E
|
|
E
|
1
log log n .
Al
´
em disso, Dorea (2008) demonstrou, sob algumas condic¸
˜
oes de regularidade sobre
X, a consist
ˆ
encia forte do estimador EDC sem a hip
´
otese (1.2) de limitac¸
˜
ao da ordem e
assumindo as seguintes hip
´
oteses (mais fracas) sobre c
n
:
liminf
n
c
n
log log n
2|E|
|E|1
e limsup
n
c
n
n
= 0.
Em particular, Dorea apresentou uma prova alternativa a de Csisz
´
ar-Shields (2000) para
a consist
ˆ
encia forte do estimador BIC sem a limitac¸
˜
ao (1.2).
1.2 EDC: Consist
ˆ
encia e Termo de Penalidade
´
Otimo
Nesta sec¸
˜
ao, consideramos a classe de estimadores EDC, dados por (1.9) e (1.10), com
γ
(k) = |E|
k
(|E|1) e c
n
> 0 uma sequ
ˆ
encia de constantes, proposto por Zhao, Dorea &
Gonc¸alves (2001) e que generaliza os estimadores AIC e BIC.
Como mencionamos no final da sec¸
˜
ao anterior, Dorea (2008) abordaa quest
˜
ao da escolha
do termo de penalidade
´
otimo e ainda demonstra a consist
ˆ
encia forte do estimador EDC, sob
condic¸
˜
oes suaves de regularidade, sem a hip
´
otese (1.2). A seguir apresentamos um estudo
detalhado de seu trabalho.
1.2.1 Notac¸
˜
oes e Resultados Auxiliares
Suponha X =
{
X
n
}
n1
, uma Cadeia de Markov de ordem r, com probabilidades de
transic¸
˜
ao
p(a
r+1
|a
r
1
) = P(X
n+1
= a
r+1
|X
n
nr+1
= a
r
1
). (1.12)
Para k r, considere o processo Y
(k)
=
Y
(k)
n
n1
, com Y
(k)
n
= (X
n
, . . . , X
n+k1
) E
k
.
18
Considerando A
i
= (a
i,1
, . . . , a
i,k
) E
k
, temos que
1
P(Y
(k)
n+1
= A
n+1
|Y
(k)
n
= A
n
, . . . ,Y
(k)
1
= A
1
) =
= P( (X
n+1
, . . . , X
n+k
) = (a
n+1,1
, . . . , a
n+1,k
)|
(X
n
, . . . , X
n+k1
) = (a
n,1
, . . . , a
n,k
), . . . , (X
1
, . . . , X
k1
) = (a
1,1
, . . . , a
1,k
)).
Considerando apenas os casos poss
´
ıveis, isto
´
e, a
i, j
= a
i1, j+1
, e denotando a
i+ j1
= a
i, j
,
ent
˜
ao
P(Y
(k)
n+1
= A
n+1
|Y
(k)
n
= A
n
, . . . ,Y
(k)
1
= A
1
) =
= P(X
n+1
= a
n+1
|X
n
1
= a
n
1
)
= P(X
n+1
= a
n+1
|X
n
nr+1
= a
n
nr+1
)
= P(X
n+1
nr+2
= a
n+1
nr+2
|X
n
nr+1
= a
n
nr+1
)
= P(Y
(k)
n+1
= A
n+1
|Y
(k)
n
= A
n
).
Assim, conclu
´
ımos que Y
(k)
´
e uma Cadeia de Markov homog
ˆ
enea de primeira ordem,
com probabilidades de transic¸
˜
ao
P(Y
(k)
n+1
= a
k+1
2
|Y
(k)
n
= a
k
1
) = p(a
k+1
|a
k
1
) = p(a
k+1
|a
k
kr+1
). (1.13)
Assim, se X =
{
X
n
}
n1
´
e uma Cadeia de Markov de ordem r e espac¸o de estados
E, ent
˜
ao, para k r o processo Y
(k)
=
Y
(k)
n
n1
, onde Y
(k)
n
= (X
n
, . . . , X
n+k1
) E
k
,
´
e
chamado Cadeia de Markov k-derivada de X.
Podemos induzir a recorr
ˆ
encia e aperiodicidade nas cadeias derivadas da seguinte forma:
Proposic¸
˜
ao 1.1. Se as probabilidades de transic¸
˜
ao da Cadeia de Markov X, de ordem r,
s
˜
ao estritamente positivas e k r, ent
˜
ao a cadeia k-derivada Y
(k)
´
e irredut
´
ıvel e aperi
´
odica.
Consequentemente, erg
´
odica.
Demonstrac¸
˜
ao. Como o espac¸o de estados, E, de X
´
e finito, temos que o espac¸o de estados
da cadeia k-derivada, E
k
, tamb
´
em
´
e finito. Por outro lado, para quaisquer dois estados a
(k)
=
1
Supostamente, Doob foi o primeiro a sugerir essa adaptac¸
˜
ao em Doob (1966) p
´
aginas 89 e 185.
19
a
k
1
e b
(k)
= b
k
1
, temos por (1.13)
P(Y
(k)
2
= a
k
2
b
1
, . . . ,Y
(k)
k
= a
k
b
k1
1
,Y
(k)
k+1
= b
k
1
|Y
(k)
1
= a
k
1
)
= p( b
1
|a
k
1
) ····· p(b
k
|a
k
b
k1
1
)
=
p(b
1
|a
r
1
). . . p(b
r
|a
r
b
r1
1
) > 0, para k = r
p(b
1
|a
k
kr+1
). . . p(b
r
|b
k1
kr
) > 0, para k > r.
Assim, todos os estados se comunicam e portanto a Cadeia de Markov
´
e irredut
´
ıvel.
Como o espac¸o de estados
´
e finito, segue que ela
´
e recorrente positiva e portanto erg
´
odica
(vide, por exemplo, Kannan (1979)).
Al
´
em disso, para todo a E, A = (a, a, . . . , a), temos que P(Y
(k)
n+1
= A|Y
(k)
n
= A) > 0,
usando a irredutibilidade, conclu
´
ımos que Y
(k)
´
e aperi
´
odica.
Vale observar que a rec
´
ıproca da proposic¸
˜
ao anterior n
˜
ao
´
e verdadeira.
Uma quest
˜
ao natural
´
e a relac¸
˜
ao entre as cadeias derivadas de X. Quanto a ergodicidade,
podemos ter:
Proposic¸
˜
ao 1.2. Se a cadeia k-derivada de X
´
e erg
´
odica, com distribuic¸
˜
ao de equil
´
ıbrio
(estacion
´
aria)
π
k
(a
k
1
), ent
˜
ao a cadeia (k+1)-derivada possui distribuic¸
˜
ao estacion
´
aria dada
por
π
k+1
(a
k+1
1
) =
π
k
(a
k
1
)p(a
k+1
|a
k
kr+1
). (1.14)
Demonstrac¸
˜
ao. Como por hip
´
oteseY
(k)
possui a distribuic¸
˜
ao de equil
´
ıbrio e estacion
´
aria
π
k
,
ent
˜
ao temos
π
k
(a
k
1
) =
b
k
1
π
k
(b
k
1
)p(a
k
1
|b
k
1
)
(vide, por exemplo, Kannan (1979)).
Como p(a
k
1
|b
k
1
) = 0 para a
k1
1
= b
k
2
,
20
π
k
(a
k
1
) =
a
0
π
k
(a
0
a
k1
1
)p(a
k
1
|a
0
a
k1
1
)
=
a
0
π
k
(a
0
a
k1
1
)p(a
k
|a
0
a
k1
1
). (1.15)
Para a Cadeia de Markov (k+ 1)-derivada definimos
π
k+1
(a
k+1
1
) =
π
k
(a
k
1
)p(a
k+1
|a
k
1
). (1.16)
Ent
˜
ao, substituindo (1.15) em (1.16), temos
π
k+1
(a
k+1
1
) =
a
0
π
k
(a
0
a
k1
1
)p(a
k
|a
0
a
k1
1
)p(a
k+1
|a
k
1
). (1.17)
Da
´
ı novamente, aplicando (1.16) em (1.17), com um ajuste nos sub-
´
ındices, obtemos
π
k+1
(a
k+1
1
) =
a
0
π
k
(a
0
a
k1
1
)p(a
k
|a
0
a
k1
1
)p(a
k+1
|a
k
1
)
=
a
0
π
k+1
(a
0
a
k
1
)p(a
k+1
|a
k
1
)
=
b
k
0
π
k+1
(b
k
0
)p(a
k+1
|b
k
0
).
Logo
π
k+1
dada por (1.14)
´
e uma distribuic¸
˜
ao estacion
´
aria para Y
(k+1)
.
Para simplificar a notac¸
˜
ao, vamos utilizar
π
(a
k
1
) =
π
k
(a
k
1
) e
π
(a
k+l
1
) =
π
k+l
(a
k+l
1
).
Note que esta notac¸
˜
ao est
´
a bem definida pois, atrav
´
es do dom
´
ınio,
´
e poss
´
ıvel fazer a
distinc¸
˜
ao entre as distribuic¸
˜
oes.
Por induc¸
˜
ao, temos:
Corol
´
ario 1.3. Se a cadeia r-derivada de X
´
e erg
´
odica ent
˜
ao, para l > r, a k-derivada de X
21
possui distribuic¸
˜
ao estacion
´
aria dada por
π
(a
k
1
) =
π
(a
r
1
)p(a
r+1
|a
r
1
). . . p(a
k
|a
k1
kr
). (1.18)
Das proposic¸
˜
oes 1.1 e 1.2 segue:
Corol
´
ario 1.4. Se X
´
e uma Cadeia de Markov, de ordem r, cujas probabilidades de transic¸
˜
ao
s
˜
ao estritamente positivas, ou seja, p(a
r+1
|a
r
1
) > 0, a
r+1
1
E
r+1
, ent
˜
ao para todo k r
a cadeia Y
(k)
possui distribuic¸
˜
ao de equil
´
ıbrio (estacion
´
aria) dada por (1.18), onde
π
(a
r
1
)
indica a distribuic¸
˜
ao de equil
´
ıbrio de Y
(r)
.
Intuitivamente vemos que uma cadeia de ordem r pode ser modelada por uma cadeia de
ordem k > r sem qualquer perda. Esse resultado (Corol
´
ario 1.4) mostra que a ergodicidade
´
e preservada neste caso.
O Lema abaixo
´
e necess
´
ario para detalhar os resultados de Dorea (2008). Embora seja
um resultado simples,
´
e de grande import
ˆ
ancia, pois com ele
´
e poss
´
ıvel relacionar as diversas
formas de contagem de uma determinada sequ
ˆ
encia de eventos.
Lema 1.5. Considerando a notac¸
˜
ao N(a
k
1
) = N(a
k
1
|X
n
1
), definida em (1.4), temos que
N(a
k
1
) =
a
0
N(a
0
a
k
1
) + 1(X
1
= a
1
, . . . , X
k
= a
k
)
e
N(a
k
1
) =
a
k+1
N(a
k
1
a
k+1
) + 1(X
nk+1
= a
1
, . . . , X
n
= a
k
). (1.19)
Mais ainda, se l > 0, por induc¸
˜
ao segue que:
N(a
k
1
) =
a
0
1l
N(a
0
1l
a
k
1
) +
l1
i=0
a
0
i
1(X
i+k+1
1
= a
0
i
a
k
1
)
e
22
N(a
k
1
) =
a
k+l
k+1
N(a
k
1
a
k+l
k+1
) +
l1
i=0
a
k+1+i
k+1
1(X
n
nki
= a
k
1
a
k+1+i
k+1
). (1.20)
Demonstrac¸
˜
ao. Usando a definic¸
˜
ao de N(a
k
1
)
N(a
k
1
) =
j=nk+1
j=1
1(X
j
= a
1
, . . . , X
j+k1
= a
k
)
=
j=nk+1
j=2
a
0
1(X
j1
= a
0
, X
j
= a
1
, . . . , X
j+k1
= a
k
)
+ 1(X
1
= a
1
, . . . , X
k
= a
k
)
=
a
0
i=nk
i=1
1(X
i
= a
0
, X
i+1
= a
1
, . . . , X
i+k
= a
k
)
+ 1(X
1
= a
1
, . . . , X
k
= a
k
)
=
a
0
N(a
0
a
k
1
)
+ 1(X
1
= a
1
, . . . , X
k
= a
k
).
Analogamente,
N(a
k
1
) =
j=nk+1
j=1
1(X
j
= a
1
, . . . , X
j+k1
= a
k
)
=
j=nk
j=1
a
k+1
1(X
j
= a
1
, . . . , X
j+k1
= a
k
, X
j+k
= a
k+1
)
+ 1(X
nk+1
= a
1
, . . . , X
n
= a
k
)
=
a
k+1
j=nk
j=1
1(X
j
= a
1
, . . . , X
j+k1
= a
k
, X
j+k
= a
k+1
)
+ 1(X
nk+1
= a
1
, . . . , X
n
= a
k
)
=
a
k+1
N(a
k
1
a
k+1
)
+ 1(X
nk+1
= a
1
, . . . , X
n
= a
k
).
Em resultados subsequentes, tamb
´
em vamos utilizar a seguinte adaptac¸
˜
ao da desigual-
dade das m
´
edias.
Lema 1.6 (Desigualdade das M
´
edias). Supondo a
i
> 0 e e
i
> 0, i = 1..l, ent
˜
ao
23
i
e
i
l
i=1
e
i
1
a
i
i
e
i
l
i=1
a
e
i
i
l
i=1
e
i
a
i
i
e
i
.
Nas demonstrac¸
˜
oes dos resultados da pr
´
oxima sub-sec¸
˜
ao, vamos precisar de algumas
relac¸
˜
oes da func¸
˜
ao verossimilhanc¸a. Essas relac¸
˜
oes est
˜
ao intimamente ligadas aos resultados
apresentados, pois tratam do comportamento local de L e
ˆ
L.
Lema 1.7. Seja X uma Cadeia de Markov de ordem r com probabilidades de transic¸
˜
ao
dadas em (1.12). Ent
˜
ao
(a) para k r, log L(k+ 1) = log L(k) + o(
δ
n
) e log L(k+ 1) = log L(r) + o(
δ
n
);
(b) log
ˆ
L(k) =
a
l+1
1
N(a
l+1
1
)log
N(a
l+1
1+lk
|X
n
1
)
N(a
l
1+lk
|X
n
1
)
+ o(
δ
n
) para todo l 0 e 0 k < l;
(c)
ˆ
L(k+ 1)
ˆ
L(k) + o(
δ
n
), k 0,
onde L(k)
´
e a func¸
˜
ao verossimilhanc¸ade X supondo a ordem k e
ˆ
L
´
e a m
´
axima verossimilhanc¸a,
como definida em (1.3). Al
´
em disso, o(
δ
n
) significa que
o(
δ
n
)
δ
n
0 sempre que
δ
n
. Neste
caso, o(
δ
n
)
´
e limitado em n.
Demonstrac¸
˜
ao. (a) Por definic¸
˜
ao
L(k+ 1) =
b
k+2
1
p(b
k+2
|b
k+1
1
)
N(b
k+2
1
)
. (1.21)
Como k r, temos que p(b
k+2
|b
k+1
1
) = p(b
k+2
|b
k+1
2
) e substituindo em (1.21) obtemos
L(k+ 1) =
b
k+2
1
p(b
k+2
|b
k+1
2
)
N(b
k+2
1
)
.
Agrupando adequadamente e usando o Lema 1.5 obtemos
24
L(k+ 1) =
b
k+2
2
p(b
k+2
|b
k+1
2
)
b
1
N(b
k+2
1
)
=
b
k+2
2
p(b
k+2
|b
k+1
2
)
N(b
k+2
2
)1(b
k+2
2
=X
k+1
1
)
=
b
k+2
2
p(b
k+2
|b
k+1
2
)
N(b
k+2
2
)
·
b
k+2
2
p(b
k+2
|b
k+1
2
)
1(b
k+2
2
=X
k+1
1
)
. (1.22)
Chamando
β
o segundo fator do
´
ultimo membro de (1.22) e usando a definic¸
˜
ao de L(k)
obtemos
L(k+ 1) = L(k) ·
β
.
Tomando logaritmo e considerando que
β
n
˜
ao depende de n temos
log L(k+ 1) = log L(k) + o(
δ
n
).
(b) Por (1.3) e (1.5) temos
ˆ
L(k) =
b
k+1
1
N(b
k+1
1
)
N(b
k
1
)
N(b
k+1
1
)
,
e pelo Lema 1.5, segue
ˆ
L(k) =
b
k+1
1
N(b
k+1
1
)
N(b
k
1
)
b
0
(lk)+1
N(b
0
(lk)+1
b
k
1
)+
l1
i=0
b
0
i
1(b
0
i
b
k
1
=X
i+k+1
1
)
.
Considerando a
l+1
1
= b
k+1
(lk)+1
e
1(b
0
i
b
k
1
= X
i+k+1
1
) = c(a
l+1
1
), temos
ˆ
L(k) =
a
l+1
1
N(a
l+1
1+lk
)
N(a
l
1+lk
)
N(a
l+1
1
)
a
l+1
1
N(a
l+1
1+lk
)
N(a
l
1+lk
)
c(a
l+1
1
)
. (1.23)
25
Chamando o segundo fator em (1.23) de
β
e tomando logaritmo, obtemos
log
ˆ
L(k) =
a
l+1
1
N(a
l+1
1
)log
N(a
l+1
1+lk
)
N(a
l
1+lk
)
+ o(
δ
n
).
(c) Para provar que
ˆ
L(k+ 1)
ˆ
L(k) + o(
δ
n
), seguiremos as ideias da demonstrac¸
˜
ao do
Teorema 1 de Dorea & Zhao (2004), p
´
aginas 3689-3697.
Para k 0, temos
log
ˆ
L(k+ 1) =
a
k+2
1
log N(a
k+2
1
)
N(a
k+2
1
)
N(a
k+1
1
)
.
Como por (1.19) N(a
k+1
1
) =
a
k+2
N(a
k+2
1
) + 1(X
nk
= a
1
, . . . , X
n
= a
k+1
),
log
ˆ
L(k) =
a
k+1
1
log N(a
k+1
1
)
N(a
k+1
1
)
N(a
k
1
)
=
a
k+2
1
log N(a
k+2
1
)
N(a
k+2
2
)
N(a
k+1
2
)
+ o(
δ
n
).
Da
´
ı segue
log
ˆ
L(k) log
ˆ
L(k+ 1) =
a
k+2
1
N(a
k+2
1
)log
N(a
k+2
2
)
N(a
k+1
2
)
N(a
k+1
1
)
N(a
k+2
1
)
+ o(
δ
n
)
=
a
k+2
1
N(a
k+1
1
)
N(a
k+2
1
)
N(a
k+1
1
)
log
N(a
k+2
2
)
N(a
k+1
2
)
N(a
k+1
1
)
N(a
k+2
1
)
+ o(
δ
n
)
=
a
k+1
1
N(a
k+1
1
)
a
k+2
N(a
k+2
1
)
N(a
k+1
1
)
log
N(a
k+2
2
)
N(a
k+1
2
)
N(a
k+1
1
)
N(a
k+2
1
)
+ o(
δ
n
).
Note que
a
k+2
N(a
k+2
1
)
N(a
k+1
1
)
< . Assim, usando a desigualdade de Jensen temos:
26
a
k+2
N(a
k+2
1
)
N(a
k+1
1
)
log
N(a
k+2
2
)
N(a
k+1
2
)
N(a
k+1
1
)
N(a
k+2
1
)
+ o(
δ
n
)
log
a
k+2
N(a
k+2
1
)
N(a
k+1
1
)
N(a
k+2
2
)
N(a
k+1
2
)
N(a
k+1
1
)
N(a
k+2
1
)
+ o(
δ
n
)
log
a
k+2
N(a
k+2
2
)
N(a
k+1
2
)
+ o(
δ
n
)
log 1 + o(
δ
n
) = o(
δ
n
).
Assim, conclu
´
ımos que
log
ˆ
L(k) log
ˆ
L(k+ 1) o(
δ
n
).
Observac¸
˜
ao 1.8. Como
ˆ
L(k) depende apenas da amostra, que
´
e conhecida, podemos deter-
minar melhor seu comportamento. Nesse sentido, o item (c) do Lema anterior pode ser mais
espec
´
ıfico:
ˆ
L(k+ 1)
ˆ
L(k)
Demonstrac¸
˜
ao. Pela definic¸
˜
ao e pela demonstrac¸
˜
ao do item (b) do lema, temos respectiva-
mente
ˆ
L(k+ 1) =
a
k+2
1
N(a
k+2
1
)
N(a
k+1
1
)
N(a
k+2
1
)
(1.24)
e
27
ˆ
L(k) =
b
k+1
1
N(b
k+1
1
)
N(b
k
1
)
N(b
k+1
1
)
=
b
k+1
1
N(b
k+1
1
)
N(b
k
1
)
b
0
[
N(b
0
b
k+1
1
)+1(X
k+1
1
=b
k+1
1
)
]
=
b
0
b
k+1
1
N(b
k+1
1
)
N(b
k
1
)
N(b
0
b
k+1
1
)
b
k+1
1
N(b
k+1
1
)
N(b
k
1
)
1(X
k+1
1
=b
k+1
1
)
=
a
k+2
1
N(a
k+2
2
)
N(a
k+1
2
)
N(a
k+2
1
)
N(X
k+1
1
)
N(X
k
1
)
. (1.25)
Para mostrar o desejado, basta obter
ˆ
L(k+1)
ˆ
L(k)
1. Usando (1.24) e (1.25), temos
ˆ
L(k+ 1)
ˆ
L(k)
=
a
k+2
1
N(a
k+2
1
)
N(a
k+1
1
)
N(a
k+1
2
)
N(a
k+2
2
)
N(a
k+2
1
)
N(X
k
1
)
N(X
k+1
1
)
.
Usando o Lema 1.6, segue
ˆ
L(k+ 1)
ˆ
L(k)
a
k+2
1
N(a
k+2
1
)
+ 1
a
k+2
1
N(a
k+2
1
)
N(a
k+1
1
)N(a
k+2
2
)
N(a
k+2
1
)N(a
k+1
2
)
+
N(X
k+1
1
)
N(X
k
1
)
a
k+2
1
N(a
k+2
1
)
+1
. (1.26)
Para o numerador (e expoente) do segundo membro de (1.26), usando o Lema 1.5, temos
28
a
k+2
1
N(a
k+2
1
)
+ 1 =
a
k+1
1
a
k+2
N(a
k+1
1
a
k+2
) + 1
=
a
k+1
1
N(a
k+1
1
) 1(X
n
nk
= a
k+1
1
)
+ 1
=
a
k+1
1
N(a
k+1
1
) 1+ 1
=
a
k+1
1
N(a
k+1
1
). (1.27)
Da mesma forma para o denominador, obtemos
a
k+2
1
N(a
k+2
1
)
N(a
k+1
1
)N(a
k+2
2
)
N(a
k+2
1
)N(a
k+1
2
)
+
N(X
k+1
1
)
N(X
k
1
)
=
a
k+2
1
N(a
k+1
1
)N(a
k+2
2
)
N(a
k+1
2
)
+
N(X
k+1
1
)
N(X
k
1
)
=
a
k+2
2
N(a
k+2
2
)
N(a
k+1
2
)
a
1
N(a
1
a
k+1
2
) +
N(X
k+1
1
)
N(X
k
1
)
=
a
k+2
2
N(a
k+2
2
)
N(a
k+1
2
)
N(a
k+1
2
) 1(X
k
1
= a
k+1
2
)
+
N(X
k+1
1
)
N(X
k
1
)
=
a
k+2
2
N(a
k+2
2
)
a
k+2
2
1(X
k
1
= a
k+1
2
)
N(a
k+2
2
)
N(a
k+1
2
)
+
N(X
k+1
1
)
N(X
k
1
)
=
a
k+2
2
N(a
k+2
2
)
a
k+2=X
k+1
N(X
k
1
a
k+2
)
N(X
k
1
)
N(X
k+1
1
)
N(X
k
1
)
+
N(X
k+1
1
)
N(X
k
1
)
=
a
k+2
2
N(a
k+2
2
)
a
k+2=X
k+1
N(X
k
1
a
k+2
)
N(X
k
1
)
. (1.28)
Aplicando (1.28) e (1.27) em (1.26), segue
29
ˆ
L(k+ 1)
ˆ
L(k)
a
k+1
1
N(a
k+1
1
)
a
k+2
2
N(a
k+2
2
)
a
k+2=X
k+1
N(X
k
1
a
k+2
)
N(X
k
1
)
a
k+1
1
N(a
k+1
1
)
1.
Tamb
´
em ser
˜
ao utilizados os pr
´
oximos tr
ˆ
es teoremas, o primeiro pode ser encontrado em
Dacunha-Castelle, Duflo & McHale (1986) e os outros em Meyn & Tweedie (1993).
Teorema 1.9 (Lei Forte dos Grandes N
´
umeros). Suponha Z uma Cadeia de Markov irre-
dut
´
ıvel, recorrente positiva, com espac¸o de estados finito E e distribuic¸
˜
ao estacion
´
aria
π
.
Considere ainda f : E R e g : E (0, ) cont
´
ınuas, ent
˜
ao
f(Z
j
)
g(Z
j
)
q.c.
E
π
( f(Z
j
))
E
π
(g(Z
j
))
.
Teorema 1.10 (Teorema do Limite Central). Se Z
´
e uma Cadeia de Markov erg
´
odica com
espac¸o de estados finito E e distribuic¸
˜
ao estacion
´
aria
π
, g : E R, S
n
(g) =
n
j=1
g(Z
j
) e
θ
2
g
= E
π
(g
2
(Z
1
)) + 2
n
j=2
E
π
(g(Z
1
)g(Z
j
)) > 0, ent
˜
ao
S
n
(g) E
π
(S
n
(g))
n
θ
2
g
d
N (0, 1).
Teorema 1.11 (Lei do Logaritmos Iterado). Se Z
´
e uma Cadeia de Markov erg
´
odica com
espac¸o de estados finito E e distribuic¸
˜
ao estacion
´
aria
π
, g : E R, S
n
(g) =
n
j=1
g(Z
j
) e
θ
2
g
= E
π
(g
2
(Z
1
)) + 2
n
j=2
E
π
(g(Z
1
)g(Z
j
)), ent
˜
ao
(a) Se
θ
2
g
= 0, quase certamente
lim
n
1
n
[S
n
(g) E
π
(S
n
(g))] = 0.
(b) Se
θ
2
g
> 0, quase certamente
30
limsup
n
S
n
(g) E
π
(S
n
(g))
2
θ
2
g
nlog log n
= 1
e
liminf
n
S
n
(g) E
π
(S
n
(g))
2
θ
2
g
nlog log n
= 1.
1.2.2 Resultados Principais
Daqui para frente, vamos assumir que X
´
e uma Cadeia de Markov de ordem r, com
espac¸os de estados E finito, |E| 2 e probabilidades de transic¸
˜
ao estritamente positivas, ou
seja,
p(a
r+1
|a
r
1
) > 0, a
r+1
1
= (a
1
, . . . , a
r+1
) E
r+1
. (1.29)
Lembremos que pelas proposic¸
˜
oes 1.1, 1.2 e corol
´
arios 1.3 e 1.4, segue que as cadeias
k-derivadas Y
(k)
, k r, s
˜
ao irredut
´
ıveis e erg
´
odicas e se
π
(a
r
1
)
´
e a distribuic¸
˜
ao de equil
´
ıbrio
estacion
´
aria para a cadeia r-derivadaY
(r)
, ent
˜
ao para k > r a k-derivadaY
(k)
tem distribuic¸
˜
ao
estacion
´
aria
π
(a
k
1
) =
π
k
(a
k
1
) dada por (1.18), ou seja,
π
(a
k
1
) =
π
(a
r
1
)p(a
r+1
|a
r
1
). . . p(a
k
|a
k1
kr
).
Lema 1.12. Se X
´
e uma Cadeia de Markov de ordem r satisfazendo (1.29) ent
˜
ao, k r e
a
k+1
1
E
k+1
, temos
limsup
n
N(a
k+1
1
) N(a
k
1
)p(a
k+1
|a
k
1
)
2
nlog log n
= 2
π
(a
k+1
1
)(1 p(a
k+1
|a
k
1
)) (1.30)
quase certamente. Onde
π
(a
k+1
1
)
´
e a distribuic¸
˜
ao estacion
´
aria da cadeia k-derivada Y
(k)
.
31
Demonstrac¸
˜
ao. Considere
g(Y
(k+1)
j
) = 1(Y
(k+1)
j
= a
k+1
1
) 1(Y
(k)
j
= a
k
1
)p(a
k
+ 1|a
k
1
) (1.31)
e
S
nk
(g) =
nk
j=1
g(Y
(k+1)
j
).
Usando a definic¸
˜
ao de N(a
k
1
) e g, obtemos
S
nk
(g) = N(a
k+1
1
) N(a
k
1
)p(a
k
k+1
|a
k
1
) + 1(Y
(k)
nk+1
= a
n
nk+1
)p(a
k
k+1
|a
k
1
)
= N(a
k+1
1
) N(a
k
1
)p(a
k
k+1
|a
k
1
) + o(
δ
n
). (1.32)
Indicando por E
π
a esperanc¸a relativo
`
a distribuic¸
˜
ao estacion
´
aria
π
, ent
˜
ao de (1.31) e
(1.18)
E
π
(g(Y
(k+1)
j
)) =
π
(a
k+1
1
)
π
(a
k
1
)p(a
k+1
|a
k
1
)
= 0 ,
e da
´
ı
E
π
(S
nk
) = 0. (1.33)
Da mesma forma, temos de (1.31) e (1.18)
E
π
(g
2
(Y
(k+1)
j
)) =
π
(a
k+1
1
)(1 p(a
k+1
|a
k
1
))
2
+
π
(a
k
1
)(1 p(a
k+1
|a
k
1
))p(a
k+1
|a
k
1
)
2
=
π
(a
k+1
1
)(1 p(a
k+1
|a
k
1
))
(1 p(a
k+1
|a
k
1
)) + p(a
k+1
|a
k
1
)
=
π
(a
k+1
1
)(1 p(a
k+1
|a
k
1
)). (1.34)
Paracalcular E(g(Y
(k+1)
1
)·g(Y
(k+1)
j
)) com j > 1, consideremos F
j+k1
=
σ
(X
1
, . . . , X
j+k1
),
32
ent
˜
ao, como Y
(k+1)
j
´
e F
j+k1
-mensur
´
avel, temos
E
g(Y
(k+1)
1
) ·g(Y
(k+1)
j
)
= E
E(g(Y
(k+1)
1
) ·g(Y
(k+1)
j
)|F
j+k1
)
= E
g(Y
(k+1)
1
)E
1(Y
(k+1)
j
= a
k+1
1
) 1(Y
(k)
j
= a
k
1
)p(a
k+1
|a
k
1
)|F
j+k1

.(1.35)
Mas,
E
1(Y
(k+1)
j
= a
k+1
1
)|F
j+k1
= E
1(Y
(k)
j
= a
k
1
)1(X
j+1
= a
k+1
)|F
j+k1
= 1(Y
(k)
j
= a
k
1
)p(a
k+1
|a
k
1
).
Logo substituindo em (1.35) segue
E
g(Y
(k+1)
1
) ·g(Y
(k+1)
j
)
= 0. (1.36)
Agora, usando (1.34) e (1.36), obtemos
θ
2
g
= E
π
(g
2
(Y
(k+1)
1
)) + 2
n
j=2
E
g(Y
(k+1)
1
) ·g(Y
(k+1)
j
)
=
π
(a
k+1
1
)(1 p(a
k+1
|a
k
1
)). (1.37)
Aplicando (1.37), (1.32) e (1.33) no Teorema 1.11, considerando t = n k, e como
θ
2
g
> 0 (por (1.29)) temos
1 = limsup
n
S
t
(g)E(S
t
(g))
2
θ
2
g
tloglogt
= limsup
n
N(a
k+1
1
)N(a
k
1
)p(a
k+1
|a
k
1
)+1(Y
(k)
nk+1
=a
n
nk+1
)
2
π
(a
k+1
1
)(1p(a
k+1
|a
k
1
))tloglogt
= limsup
n
N(a
k+1
1
)N(a
k
1
)p(a
k+1
|a
k
1
)
2
π
(a
k+1
1
)(1p(a
k+1
|a
k
1
))tloglogt
.
Pela continuidade da func¸
˜
ao h(x) = x
2
e usando que t =
nk
n
n, temos que
33
1 =
limsup
n
N(a
k+1
1
)N(a
k
1
)p(a
k+1
|a
k
1
)
2
π
(a
k+1
1
)(1p(a
k+1
|a
k
1
))tloglogt
2
= limsup
n
[
N(a
k+1
1
)N(a
k
1
)p(a
k+1
|a
k
1
)
]
2
2
π
(a
k+1
1
)(1p(a
k+1
|a
k
1
))tloglogt
= limsup
n
[
N(a
k+1
1
)N(a
k
1
)p(a
k+1
|a
k
1
)
]
2
2
π
(a
k+1
1
)(1p(a
k+1
|a
k
1
))nloglog
(
nk
n
)
n
nk
n
.
Usando a continuidade de loglogx, e das propriedades de limsup obtemos
1 = limsup
n
N(a
k+1
1
) N(a
k
1
)p(a
k+1
|a
k
1
)
2
2
π
(a
k+1
1
)(1 p(a
k+1
|a
k
1
))nlog log
nk
n
n
nk
n
=
1
2
π
(a
k+1
1
)(1 p(a
k+1
|a
k
1
))
limsup
n
N(a
k+1
1
) N(a
k
1
)p(a
k+1
|a
k
1
)
2
nlog log n
e portanto temos (1.30).
Observac¸
˜
ao 1.13. Sob as mesmas hip
´
oteses do Lema 1.12, podemos ainda ter
liminf
n
N(a
k+1
1
) N(a
k
1
)p(a
k+1
|a
k
1
)
2
nlog log n
= 0. (1.38)
Demonstrac¸
˜
ao. Usando a definic¸
˜
ao de N(a
k
1
), para n > k, podemos verificar que
φ
n+1
:=
N(a
k+1
1
|X
n+1
1
)N(a
k
1
|X
n+1
1
)p(a
k+1
|a
k
1
)
(n+1)loglog(n+1)
=
N(a
k+1
1
|X
n
1
)+1(X
n+1
nk+1
=a
k+1
1
)N(a
k
1
|X
n
1
)p(a
k+1
|a
k
1
)1(X
n+1
nk+1
=a
k+1
1
)p(a
k+1
|a
k
1
)
(n+1)loglog(n+1)
=
N(a
k+1
1
)N(a
k
1
)p(a
k+1
|a
k
1
)
(n+1)loglog(n+1)
+
1(X
n+1
nk+1
=a
k+1
1
)1(X
n+1
nk+1
=a
k+1
1
)p(a
k+1
|a
k
1
)
(n+1)loglog(n+1)
.
Da
´
ı dado
ε
> 0, para n suficientemente grande,
34
|
φ
n
φ
n+1
| =
N(a
k+1
1
) N(a
k
1
)p(a
k+1
|a
k
1
)
nlog log n
N(a
k+1
1
) N(a
k
1
)p(a
k+1
|a
k
1
)
(n+ 1)log log (n+ 1)
1(X
n+1
nk+1
= a
k+1
1
) 1(X
n+1
nk+1
= a
k+1
1
)p(a
k+1
|a
k
1
)
(n+ 1)log log (n+ 1)
N(a
k+1
1
) N(a
k
1
)p(a
k+1
|a
k
1
)
nlog log n
N(a
k+1
1
) N(a
k
1
)p(a
k+1
|a
k
1
)
(n+ 1)log log (n+ 1)
+
1(X
n+1
nk+1
= a
k+1
1
) 1(X
n+1
nk+1
= a
k+1
1
)p(a
k+1
|a
k
1
)
(n+ 1)log log (n+ 1)
ε
+
1(X
n+1
nk+1
= a
k+1
1
) 1(X
n+1
nk+1
= a
k+1
1
)p(a
k+1
|a
k
1
)
(n+ 1)log log (n+ 1)
2
ε
. (1.39)
Usando racioc
´
ınio semelhante ao usado na prova do Lema 1.12, mas aplicando o Teo-
rema 1.11 para o liminf, podemos verificar que
liminf
n
φ
n
=
2
π
(a
k+1
1
)(1 p(a
k+1
|a
k
1
)). (1.40)
Al
´
em disso, aplicando o Teorema 1.11 para o limsup obtemos
limsup
n
φ
n
=
2
π
(a
k+1
1
)(1 p(a
k+1
|a
k
1
)). (1.41)
Assim, dado
ε
> 0, pode-se tomar n
0
tal que n > n
0
implica que
|
φ
n
φ
n+1
|
<
ε
. Al
´
em
disso, de (1.40) e (1.41), temos que existe n
1
> n
0
tal que
φ
n
1
> 0 e
φ
n
1
+1
0. Usando
(1.39), obtemos que
|
φ
n
1
φ
n
1
+1
|
<
ε
. Logo
ε
>
|
φ
n
1
φ
n
1
+1
|
=
φ
n
1
φ
n
1
+1
=
|
φ
n
1
0
|
+
|
0
φ
n
1
+1
|
>
|
φ
n
1
0
|
=
|
φ
n
1
|
.
Assim conclu
´
ımos que
35
liminf
n
N(a
k+1
1
) N(a
k
1
)p(a
k+1
)
2
nlog log n
= liminf
n
|
φ
n
1
|
2
= 0.
Teorema 1.14. Se X
´
e uma Cadeia de Markov de ordem r satisfazendo (1.29), ent
˜
ao para
k r temos quase certamente
(a)
limsup
n
log
ˆ
L(k) log L(k)
log log n
=
γ
(k), (1.42)
(b)
log
ˆ
L(k) log L(k) o(
δ
n
), (1.43)
onde
γ
(k) = |E|
k
(|E|1)
´
e o n
´
umero de par
ˆ
ametros livres, considerando o modelo de ordem
k.
Demonstrac¸
˜
ao. (a) Da definic¸
˜
ao de L(k) e
ˆ
L(k) temos
log
ˆ
L(k) log L(k) =
a
k+1
1
N(a
k+1
1
)log
N(a
k+1
1
)
N(a
k
1
)
a
k+1
1
N(a
k+1
1
)log p(a
k+1
|a
k
1
)
=
a
k+1
1
N(a
k+1
1
)log
N(a
k
1
)p(a
k+1
|a
k
1
)
N(a
k+1
1
)
=
a
k+1
1
N(a
k+1
1
)log
1+ z
n
(a
k+1
1
)
, (1.44)
onde z
n
(a
k+1
1
) =
N(a
k
1
)p(a
k+1
|a
k
1
)N(a
k+1
1
)
N(a
k+1
1
)
. Notemos que, como
N(a
k+1
1
)
N(a
k
1
)
q.c.
p(a
k+1
|a
k
1
) ent
˜
ao
z
n
(a
k+1
1
)
q.c.
0.
Considerando o desenvolvimento em s
´
erie de Taylor em torno de 1 para log x em (1.44),
temos que
36
log
ˆ
L(k) log L(k) =
a
k+1
1
N(a
k+1
1
)z
n
(a
k+1
1
) +
+
1
2
a
k+1
1
N(a
k+1
1
)
z
n
(a
k+1
1
)
2
a
k+1
1
R(a
k+1
1
), (1.45)
com
lim
z
n
(a
k+1
1
)0
R(a
k+1
1
)
z
n
(a
k+1
1
)
2
= 0. (1.46)
Usando o Lema 1.5 na primeira parcela de (1.45), temos
a
k+1
1
N(a
k+1
1
)z
n
(a
k+1
1
) =
a
k
1
a
k+1
N(a
k
1
)p(a
k+1
|a
k
1
) N(a
k+1
1
)
=
a
k
1
N(a
k
1
)
N(a
k
1
) 1(X
n
nk+1
= a
k
1
)

=
a
k
1
1(X
n
nk+1
= a
k
1
)
= 1. (1.47)
Agora, como
N(a
k+1
1
)
n
q.c.
π
(a
k+1
1
), usando o Lema 1.12 obtemos
limsup
n
N(a
k+1
1
)
z
n
(a
k+1
1
)
2
log log n
= limsup
n
N(a
k+1
1
) N(a
k
1
)p(a
k+1
|a
k
1
)
nlog log n
n
N(a
k
1
)
= 2
π
(a
k+1
1
)(1 p(a
k+1
|a
k
1
))
1
π
(a
k+1
1
)
= 2(1 p(a
k+1
|a
k
1
)) (1.48)
e
37
limsup
n
z
n
(a
k+1
1
)
2
log log n
= limsup
n
N(a
k+1
1
)
z
n
(a
k+1
1
)
2
log log n
n
N(a
k+1
1
)
1
n
= 0. (1.49)
Assim, de (1.48) segue
limsup
1
2
a
k+1
1
1
π
(a
k+1
1
)
z
n
(a
k+1
1
)
2
nlog log n
=
1
2
a
k+1
1
1
π
(a
k+1
1
)
2
π
(a
k+1
1
)
1 p(a
k+1
|a
k
1
)
=
a
k+1
1
1 p(a
k+1
|a
k
1
)
= |E|
k
(1|E|)
=
γ
(k). (1.50)
Por outro lado, de (1.46) e (1.49) segue
limsup
a
k+1
1
R(a
k+1
1
)
log log n
= limsup
a
k+1
1
R(a
k+1
1
)
z
n
(a
k+1
1
)
2
log log n
R(a
k+1
1
)
= 0. (1.51)
Logo, de (1.45), (1.47), (1.50) e (1.51) obtemos (1.42).
(b) Temos de (1.45) e (1.47) que
log
ˆ
L(k) log L(k) = 1+
1
2
a
k+1
1
N(a
k+1
1
)
z
n
(a
k+1
1
)
2
a
k+1
1
R(a
k+1
1
)
1
a
k+1
1
R(a
k+1
1
).
38
Assim, para provar (1.43) basta mostrarmos que
a
k+1
1
R(a
k+1
1
) = o(
δ
n
). (1.52)
Paraisto, basta observarmos que, como
N(a
k+1
1
)
n
q.c.
π
(a
k+1
1
), usando (1.38) daObservac¸
˜
ao
1.13 temos que
liminf
n
z
n
(a
k+1
1
)
2
log log n
= liminf
n
N(a
k+1
1
) N(a
k
1
)p(a
k+1
|a
k
1
)
2
nlog log n
n
2
N(a
k+1
1
)
2
1
n
= 0.
Da
´
ı usando (1.46) segue que
liminf
n
a
k+1
1
R(a
k+1
1
)
log log n
= 0. (1.53)
Logo, de (1.46), (1.51) e (1.53) obtemos (1.52) e consequentemente
log
ˆ
L(k) log L(k) o(
δ
n
).
Observac¸
˜
ao 1.15. Sob as mesmas hip
´
oteses do Teorema 1.14 e repetindo o mesmoracioc
´
ınio
da prova da parte (a) deste teorema, substituindo limsup por liminf e usando a Observac¸
˜
ao
1.13 no lugar do Lema 1.12 podemos mostrar
liminf
n
log
ˆ
L(k) log L(k)
log log n
= 0.
39
Para simplificar a notac¸
˜
ao utilizada nos pr
´
oximos resultados, considere:
δ
(k) =
a
r+1
1
π
(a
r
1
)p(a
r+1
|a
r
1
)log
p(a
r+1
|a
r
1
)
q(a
r+1
|a
r
rk+1
)
, (1.54)
onde
q(a
r+1
|a
r
1
) = p(a
r+1
|a
r
1
)
e
q(a
r+1
|a
r
rk+1
) =
a
rk
1
π
(a
r
1
)p(a
r+1
|a
r
1
)
a
rk
1
π
(a
r
1
)
, para 0 k < r. (1.55)
Uma motivac¸
˜
ao para a definic¸
˜
ao de q(a
r+1
|a
r
rk+1
)
´
e escrever uma probabilidade com
depend
ˆ
encia menor que r em termos das probabilidades conhecidas. Podemos ainda ver que,
quase certamente,
lim
N(b
k+1
1
)
N(b
k
1
)
= lim
n
b
0
(rk)+1
N(b
k+1
(rk)+1
) + o(
δ
n
)
b
0
(rk)+1
N(b
k
(rk)+1
) + o(
δ
n
)
= lim
n
b
0
(rk)+1
N(b
k
(rk)+1
)
n
N(b
k+1
(rk)+1
)
N(b
k
(rk)+1
)
b
0
(rk)+1
N(b
k
(rk)+1
)
n
= q(a
r+1
|a
r
rk+1
). (1.56)
Teorema 1.16. Se X
´
e uma Cadeia de Markov de ordem r satisfazendo (1.29) ent
˜
ao, se
0 k < r, temos
lim
n
log
ˆ
L(r) log
ˆ
L(k)
n
=
δ
(k), q.c. (1.57)
e
δ
(k) > 0 e
δ
(k)
δ
(k+ 1). (1.58)
40
Demonstrac¸
˜
ao. Seja 0 k < r. Para provar (1.57), notemos que de (1.20) do Lema 1.5
podemos obter
log
ˆ
L(r) log
ˆ
L(k) =
a
r+1
1
N(a
r+1
1
)log
N(a
r+1
1
)
N(a
r
1
)
a
k+1
1
N(a
k+1
1
)log
N(a
k+1
1
)
N(a
k
1
)
=
a
r+1
1
N(a
r+1
1
)log
N(a
r+1
1
)
N(a
r
1
)
a
k+1
1
a
r+1
k+2
N(a
k+1
1
a
r+1
k+2
) + o(
δ
n
)
log
N(a
k+1
1
)
N(a
k
1
)
=
a
r+1
1
N(a
r+1
1
)log
N(a
r+1
1
)
N(a
r
1
)
a
k+1
1
a
r+1
k+2
N(a
k+1
1
a
r+1
k+2
)
log
N(a
k+1
1
)
N(a
k
1
)
+ o(
δ
n
)
=
a
r+1
1
N(a
r+1
1
)log
N(a
r+1
1
)
N(a
r
1
)
N(a
k
1
)
N(a
k+1
1
)
+ o(
δ
n
). (1.59)
Agora, lim
N(a
k
1
)
N(a
k+1
1
)
N(a
r+1
1
)
N(a
r
1
)
= 1 para algum a
r+1
1
, caso contr
´
ario a ordem da Cadeia de
Markov seria menor ou igual a k < r. Como
N(a
r+1
1
)
n
q.c.
p(a
r+1
|a
r
1
),
N(a
r+1
1
)
N(a
r
1
)
q.c.
π
(a
r
1
) (usando
o Teorema 1.9) ent
˜
ao, juntamente com (1.56), segue que
lim
n
log
ˆ
L(r) log
ˆ
L(k)
n
= lim
n
a
r+1
1
N(a
r+1
1
)
n
log
N(a
r+1
1
)
N(a
r
1
)
N(a
k
1
)
N(a
k+1
1
)
=
a
r+1
1
p(a
r+1
|a
r
1
)
π
(a
r
1
)log
p(a
r+1
|a
r
1
)
q(a
r+1
|a
r
rk+1
)
=
δ
(k).
Para provar (1.58), primeiramente segue da desigualdade de Jensen que
41
δ
(k) =
a
k+1
1
p(a
k+1
|a
k
1
)
π
(a
k
1
)log
p(a
k+1
|a
k
1
)
q(a
k+1
|a
k
1
)
= -
a
k
1
π
(a
k
1
)
a
k+1
p(a
k+1
|a
k
1
)log
q(a
k+1
|a
k
1
)
p(a
k+1
|a
k
1
)
> -
a
k
1
π
(a
k
1
)log
a
k+1
p(a
k+1
|a
k
1
)
q(a
k+1
|a
k
1
)
p(a
k+1
|a
k
1
)
= -
a
k
1
π
(a
k
1
)log
a
k+1
q(a
k+1
|a
k
1
)
= 0 ,
pois
a
k+1
q(a
k+1
|a
k
1
) = 1.
A
´
ultima desigualdade de (1.58) segue de (1.57) e da parte (c) do Lema 1.7, ou seja,
δ
(k) = lim
n
log
ˆ
L(r) log
ˆ
L(k)
n
= lim
n
log
ˆ
L(r) log
ˆ
L(k) +log
ˆ
L(k+1) log
ˆ
L(k+1)
n
= lim
n
log
ˆ
L(r) log
ˆ
L(k+1)
n
+ lim
n
log
ˆ
L(k+1) log
ˆ
L(k)
n
lim
n
log
ˆ
L(r) log
ˆ
L(k+1)
n
=
δ
(k+ 1).
Teorema 1.17. Seja X uma Cadeia de Markov com espac¸o de estados E, tal que |E| 2 e
satisfazendo (1.29). Considere o crit
´
erio EDC em (1.9), (1.10) com
γ
(k) = |E|
k
(|E|1) e
{
c
n
}
uma sequ
ˆ
encia de constantes reais, c
n
> 0.
(a) Se k r, ent
˜
ao quase certamente
liminf
n
EDC(k+ 1) EDC(k)
log log n
= 2
γ
(k+ 1) +
liminf
n
c
n
log log n
(|E|1)
γ
(k)
(1.60)
e
limsup
n
EDC(k+ 1) EDC(k)
log log n
= 2
γ
(k) +
limsup
n
c
n
log log n
(|E|1)
γ
(k). (1.61)
42
(b) Se 0 k < r, ent
˜
ao quase certamente
lim
n
EDC(k) EDC(r)
n
= 2
δ
(k) + [
γ
(k)
γ
(r)] lim
n
c
n
n
. (1.62)
Demonstrac¸
˜
ao. (a) Se k r, do Lema 1.7 temos log L(k+ 1) = log L(k) + o(
δ
n
). Ent
˜
ao
da definic¸
˜
ao (1.10) do EDC segue
EDC(k+1) - EDC(k) = -2 log
ˆ
L(k+ 1) +
γ
(k+ 1)c
n
+ 2log
ˆ
L(k)
γ
(k)c
n
= -2
log
ˆ
L(k+ 1) log L(k+ 1)
+ 2
log
ˆ
L(k) log L(k)
+ c
n
[
γ
(k+ 1)
γ
(k)] + o(
δ
n
).
Como
γ
(k) = |E|
k
(|E|1) segue
EDC(k+1) - EDC(k) = -2
log
ˆ
L(k+ 1) log L(k+ 1)
+ 2
log
ˆ
L(k) log L(k)
+ c
n
γ
(k)(|E|1) + o(
δ
n
).
Da
´
ı, usando (1.42) do Teorema 1.14, temos
liminf
n
EDC(k+1)EDC(k)
loglogn
= -2 limsup
n
log
ˆ
L(k+1) logL(k+1)
loglogn
+2 liminf
n
log
ˆ
L(k) logL(k)
loglogn
+
γ
(k)(|E|1)liminf
n
c
n
loglogn
= -2
γ
(k+ 1) +
γ
(k)(|E|1)liminf
n
c
n
loglogn
e assim (1.60) est
´
a provado.
Analogamente, usando (1.42) obtemos
limsup
n
EDC(k+1)EDC(k)
loglogn
= -2 liminf
n
log
ˆ
L(k+1) logL(k+1)
loglogn
+2 limsup
n
log
ˆ
L(k) logL(k)
loglogn
+
γ
(k)(|E|1)limsup
n
c
n
loglogn
= 2
γ
(k) +
γ
(k)(|E|1)liminf
n
c
n
loglogn
e segue (1.61).
43
(b) Para 0 k < r, temos usando (1.57) do Teorema 1.16
lim
n
EDC(k)EDC(r)
n
= 2 lim
n
log
ˆ
L(r) log
ˆ
L(k)
n
+ [
γ
(k)
γ
(r)] lim
n
c
n
n
= 2
δ
(k) + [
γ
(k)
γ
(r)] lim
n
c
n
n
,
e portanto (1.62) est
´
a provado.
Corol
´
ario 1.18. Seja X uma Cadeia de Markov, satisfazendo as mesmas hip
´
oteses do Teo-
rema 1.17 e c
n
> 0 satisfazendo
liminf
n
c
n
log log n
2|E|
|E|1
e limsup
n
c
n
n
= 0. (1.63)
(a) Se k > r ent
˜
ao, quase certamente
liminf
n
EDC(k) EDC(r)
log log n
0 (1.64)
e
limsup
n
EDC(k) EDC(r)
log log n
> 2
γ
(r)(kr)(|E|+ 1) > 2
γ
(r), (1.65)
com o limite em (1.65) mon
´
otono crescente em k.
(b) Se 0 k < r, ent
˜
ao quase certamente
lim
n
EDC(k) EDC(r)
n
= 2
δ
(k), (1.66)
com o limite (1.66) mon
´
otono decrescente em k.
Demonstrac¸
˜
ao. (a) Seja k > r. Aplicando as hip
´
oteses (1.64) em (1.60) no Teorema 1.17,
obtemos
liminf
n
EDC(k+ 1) EDC(k)
log log n
2
γ
(k+ 1) +
2|E|
|E|1
(|E|1)
γ
(k)
= 2
γ
(k+ 1) + 2|E|
γ
(k)
= 2|E|
k+1
(|E|1) + 2|E||E|
k
(|E|1)
= 0. (1.67)
44
Agora, como EDC(k)EDC(r) =
k1
j=r
[EDC( j+ 1) EDC( j)]. Aplicando (1.67) repeti-
das vezes, obtemos (1.64). De forma semelhante, aplicando (1.63) em (1.61) obtemos
limsup
n
EDC(k+ 1) EDC(k)
log log n
2
γ
(k) +
2|E|
|E|1
(|E|1)
γ
(k)
= 2
γ
(k)(1+ |E|). (1.68)
Novamente, aplicando repetidas vezes (1.68), como para k > r
γ
(k) >
γ
(r) podemos
obter
limsup
n
EDC(k)EDC(r)
loglogn
=
k1
i=r
limsup
n
EDC(i+1)EDC(i)
loglogn
2(1+ |E|)
k1
i=r
γ
(i)
> 2(1+ |E|)
γ
(r)(kr)
e (1.65) est
´
a provado.
(b) Segue de (1.63) e do Teorema 1.16.
Corol
´
ario 1.19. Sob as mesmas hip
´
oteses do Teorema 1.17, o estimador EDC, com termo
de penalidade positivo que satisfac¸a (1.63),
´
e fortemente consistente. Reciprocamente, um
estimador baseado na verossimilhanc¸a penalizada que n
˜
ao satisfac¸a (1.63) n
˜
ao
´
e fortemente
consistente.
Demonstrac¸
˜
ao. Nessas hip
´
oteses, usando o Corol
´
ario 1.18, temos de (a) que, quase certa-
mente, ˆr
EDC
r e por (b) temos que lim ˆr
EDC
r, onde conclu
´
ımos a igualdade.
Por outro lado, se liminf
c
n
loglogn
<
2|E|
|E|−1
, ent
˜
ao, usando (1.60) do Teorema 1.17, temos
quase certamente
liminf
EDC(r+ 1) EDC(r)
log log n
= 2
γ
(r+ 1) +
liminf
c
n
log log n
(|E|1)
γ
(r)
< 0,
o que indica que poder
´
a ocorrer superestimac¸
˜
ao da ordem. Al
´
em disso, se limsup
c
n
n
= c > 0,
45
temos por (1.62) do teorema 1.17 que
limsup
EDC(r1) EDC(r)
n
= 2
δ
(r1) + [
γ
(r1)
γ
(r)]c,
que n
˜
ao garante a consist
ˆ
encia, pois poder
´
a ter casos em que |[
γ
(r1)
γ
(r)]c| > 2
δ
(r
1).
Segue como consequ
ˆ
encia imediata o seguinte corol
´
ario.
Corol
´
ario 1.20. O estimador AIC n
˜
ao
´
e fortemente consistente.
Corol
´
ario 1.21. O estimador BIC
´
e fortemente consistente.
Demonstrac¸
˜
ao. Para o estimador BIC temos c
n
= log n e temos
liminf
n
log n
log log n
= >
2|E|
|E|1
e
limsup
n
log n
n
= 0,
logo as hip
´
oteses do Corol
´
ario 1.19 est
˜
ao satisfeitas.
Corol
´
ario 1.22. Sob as hip
´
oteses do Corol
´
ario 1.18, o termo de penalidade
´
otimo
´
e
c
n
·
γ
(k) =
2|E|
|E|1
log log(n) ·(|E|1)|E|
k
. (1.69)
Demonstrac¸
˜
ao. O termo de penalidade deve ser o menor poss
´
ıvel para evitar subestimac¸
˜
ao
da ordem e grande o suficiente para ter a consist
ˆ
encia forte. Neste caso, pelas condic¸
˜
oes do
Corol
´
ario 1.18, o menor termo assint
´
otico
´
e
2|E|
|E|−1
log log(n) ·(|E|1)|E|
k
.
Em consequ
ˆ
encia desse resultado, segue:
Corol
´
ario 1.23. O estimador BIC penaliza mais que necess
´
ario.
Como pode ser verificado na demonstrac¸
˜
ao do Corol
´
ario 1.22, o fato do BIC penalizar
mais que o necess
´
ario gera uma maior tend
ˆ
encia desse estimador a subestimar a ordem.
Vale ressaltar tamb
´
em que o Corol
´
ario 1.21
´
e o teorema da consist
ˆ
encia forte do BIC,
apresentada por Csiszar & Shields (2000).
46
1.3 Considerac¸
˜
oes
Se 0 k < r, pela equac¸
˜
ao (1.59) na prova do Teorema 1.16 e pela definic¸
˜
ao de N(a
r+1
1
)
em (1.4), temos que
log
ˆ
L(r) log
ˆ
L(k) =
a
r+1
1
jk
j=1
1(X
j+k
j
= a
k+1
1
)
log
N(a
r+1
1
)
N(a
r
1
)
N(a
k
1
)
N(a
k+1
1
)
+ o(
δ
n
).
Considerando a cadeia (r+ 1)-derivada, Y
(r+1)
e tomando g : E R,
g(Y
(r+1)
j
) =
a
r+1
1
1(Y
j
= a
k+1
1
)log
N(a
r+1
1
)
N(a
r
1
)
N(a
k
1
)
N(a
k+1
1
)
e S
n
(g) =
n
j=1
g(Y
j
),
temos
log
ˆ
L(r) log
ˆ
L(k) =
j=n
j=1
g(Y
(r+1)
j
) + o(
δ
n
) = S
n
(g) + o(
δ
n
).
Assim, segue do Teorema 1.10
log
ˆ
L(r) log
ˆ
L(k) n
δ
(k)
n
θ
2
g
d
N (0, 1),
onde
θ
2
g
=
a
r+1
1
π
(a
r+1
1
)
log
p(a
r+1
|a
r
1
)
q(a
r+1
|a
r
rk+1
)
2
+2
n
j=2
a
r+1
1
,b
r+1
1
P(Y
(k+1)
1
= a
r+1
1
)P(Y
(k+1)
j
= b
r+1
1
)log
p(a
r+1
|a
r
1
)
q(a
r+1
|a
r
rk+1
)
log
p(b
r+1
|b
r
1
)
q(b
r+1
|b
r
rk+1
)
.
Analisando o comportamento para n suficientemente grande e fixo, podemos ent
˜
ao con-
cluir da argumentac¸
˜
ao acima e do Teorema 1.16: Se X
´
e uma Cadeia de Markov de ordem r
satisfazendo (1.29) ent
˜
ao, para k < r
47
(i) 2log
ˆ
L(k) + 2log
ˆ
L(r) = 2n
δ
(k) + o(n) e
(ii) 2log
ˆ
L(k) + 2log
ˆ
L(r) N (2n
δ
(k), n
θ
2
g
).
Estas conclus
˜
oes despertam o interesse em se conhecer melhor
δ
(k). O Teorema 1.16
mostra que
δ
(k) deve ser positivo para k < r e, pela sua definic¸
˜
ao,
´
e poss
´
ıvel notar que pode
ser arbitrariamente pr
´
oximo de 0. Entretanto, podemos ter um limitante superior para
δ
(k),
limitando-o no intervalo, relativamente pequeno, (0, log |E|). Isto
´
e: conforme definido,
δ
(k) < log |E|.
De fato, usando as definic¸
˜
oes (1.54) e (1.55) de
δ
(k) e q(a
r+1
|a
r
rk+1
), respectivamente,
e o Lema 1.6 podemos obter
48
δ
(k) = log
a
r+1
1
p(a
r+1
|a
r
1
)
q(a
r+1
|a
r
rk+1
)
p(a
r+1
|a
r
1
)
π
(a
r
1
)
log
a
r+1
1
p(a
r+1
|a
r
1
)p(a
r+1
|a
r
1
)
π
(a
r
1
)
b
rk
1
π
(b
rk
1
a
r
rk+1
)p(a
r+1
|b
rk
1
a
r
rk+1
)
b
rk
1
π
(b
rk
1
a
r
rk+1
)
= log
a
r+1
rk+1
a
rk
1
p(a
r+1
|a
r
1
)p(a
r+1
|a
r
1
)
π
(a
r
1
)
b
rk
1
π
(b
rk
1
a
r
rk+1
)p(a
r+1
|b
rk
1
a
r
rk+1
)
b
rk
1
π
(b
rk
1
a
r
rk+1
)
< log
max
a
r+1
1
(p(a
r+1
|a
r
1
))
a
r+1
rk+1
a
rk
1
p(a
r+1
|a
r
1
)
π
(a
r
1
)
b
rk
1
π
(b
rk
1
a
r
rk+1
)p(a
r+1
|b
rk
1
a
r
rk+1
)
b
rk
1
π
(b
rk
1
a
r
rk+1
)
log
a
r+1
rk+1
b
rk
1
π
(b
rk
1
a
r
rk+1
)
= log |E| . (1.70)
Assim, podemos justificar a escolha do termo de penalidade
´
otimo em (1.69) no Corol
´
ario
1.22 alternativamente da seguinte forma:
Considere X
r
, uma Cadeia de Markov de ordem r satisfazendo (1.2) e |E|= N 2. Para
k < r e usando a argumentac¸
˜
ao acima temos que para o estimador indique corretamente a
ordem
´
e necess
´
ario a desigualdade
49
(
γ
(r)
γ
(k))c
n
2log
ˆ
L(k) + 2log
ˆ
L(r)
N (2n
δ
(k), n
θ
2
g
) (1.71)
Nesse sentido, como
δ
(k) (0, log |E|)
´
e arbitr
´
ario, deve-se tomar o menor c
n
assintot-
icamente que garanta a consist
ˆ
encia forte para que a desigualdade ocorra para n pequeno.
Neste caso, c
n
=
|E|
|E|−1
log log n .
Por outro lado, um termo pequeno pode causar uma tend
ˆ
encia a superestimac¸
˜
ao da or-
dem para uma cadeia X
d
, de ordem d < r. Entretanto, quando (
γ
(r)
γ
(k))c
n
> 2n
δ
(k), a
partir de (1.71), o erro de subestimac¸
˜
ao de X
r
´
e aproximadamente
P
N (2n
δ
(k), n
θ
2
g
) < (
γ
(r)
γ
(k))c
n
> P
N (2n
δ
(k), n
θ
2
g
) < 2n
δ
(k)
= 0, 5
enquanto, usando (1.6), X
d
tem menos de 50% de chance de superestimac¸
˜
ao (erro).
Portanto, tomar o termo menor assintoticamente (que garanta a consist
ˆ
encia forte)
´
e uma
boa escolha para antecipar o fim da tend
ˆ
encia a subestimar e, por outro lado, n
˜
ao induz uma
tend
ˆ
encia a superestimar.
50
2 An
´
alise Comparativa dos
Estimadores
Neste cap
´
ıtulo s
˜
ao apresentados os resultados obtidos em simulac¸
˜
oes realizadas com
o objetivo de comparar os estimadores fortemente consistentes BIC e EDC
opt
(EDC com
termo de penalidade
´
otimo) definidos por (1.9) e (1.69) no cap
´
ıtulo anterior, al
´
em de analisar
o comportamento do estimador, inconsistente, AIC dado por (1.8).
Vale ressaltar que, esse tipo de comparac¸
˜
ao seria praticamente imposs
´
ıvel de ser feita
toda teoricamente. Isso porque levaria a contas exageradamente grandes que dependeriam
das probabilidades de transic¸
˜
ao desconhecidas
1
. Al
´
em disso, n
˜
ao faria sentido simplificar as
express
˜
oes tomando comportamentos assint
´
oticos.
As simulac¸
˜
oes computacionais foram realizadas considerando os casos em que a ordem
varia de 0 a 6 (r = 0..6) e o tamanho do espac¸o de estados varia de 2 a 10 (N = 2..10),
perfazendo 63 casos. Para cada caso foram consideradas mil cadeias de Markov, geradas
aleatoriamente. E para cada Cadeiade Markov foi gerada 1 amostra de tamanho100 milh
˜
oes.
Foram consideradas “sub-amostras” desta, tomando-se os fragmentos da posic¸
˜
ao inicial at
´
e
tamanhos pr
´
e-definidos. Isso n
˜
ao s
´
o d
´
a uma sensac¸
˜
ao de aproximac¸
˜
ao, do ponto de vista
te
´
orico, mas traz um grande benef
´
ıcio computacional, pois desta forma as contagens de um
fragmento de amostra s
˜
ao feitas a partir das contagens do
´
ultimo fragmento computado.
Os casos foram escolhidos em func¸
˜
ao das capacidades computacionais. Os tamanhos
das amostras foram determinados empiricamente, na busca de valores mais adequados para
a comparac¸
˜
ao dos estimadores.
1
Esse fato foi observado por Katz (1981), que diz: “Analytical expressions for exact distributions of
ˆ
k
aic
and
ˆ
k
bic
(as a function of the sample size n) are not available and, in any event, would probably be too complicated
to be very useful.
51
Esses n
´
umeros, embora n
˜
ao aparentem muita expressividade, s
˜
ao consider
´
aveis. No caso
de maior complexidade (r = 6 e N = 10), temos uma Cadeia de Markov com (101)10
6
=
9.000.000 par
ˆ
ametros e, para este caso, nos testes realizados, os estimadores necessitam de
amostras superiores a 100 milh
˜
oes para acusarem a ordem corretamente!
As simulac¸
˜
oes geraram ao todo 22.050.000
2
resultados para an
´
alise. Dessa forma, foram
considerados relat
´
orios sumarizados, com o foco na comparac¸
˜
ao direta entre os m
´
etodos, e
distribuic¸
˜
oes dos valores calculados para cada m
´
etodo.
A seguir, na sec¸
˜
ao 2.1, descrevemos os objetivos e a metodologia dos experimentos real-
izados e na sec¸
˜
ao 2.2 apresentamos uma an
´
alise dos resultados obtidos nas simulac¸
˜
oes. Para
finalizar, apresentamos na sec¸
˜
ao 2.3 um exemplo simples de aplicac¸
˜
ao desses estimadores na
an
´
alise de pec¸as musicais sugerido por McAlpine, Miranda & Hoggar (1999).
2.1 Definic¸
˜
ao dos Experimentos Computacionais
Objetivos
Conhecer o comportamento dos estimadores em amostras “pequenas” e “grandes”;
Identificar, para cada caso, os tamanhos em que os estimadores acertam 50%;
Comparar a efici
ˆ
encia dos estimadores em relac¸
˜
ao a ordem (r), tamanho do espac¸o de
estados (N) e tamanho da amostra (n);
Metodologia
Para cada (r, N) {0, . . . , 6}×{2, . . . , 10}, gerar 1000 cadeias de Markov, de forma
aleat
´
oria. Para cada cadeia, gerar uma amostra de tamanho 100 milh
˜
oes. Para cada “sub-
amostra” desta, calcular e salvar os valores da log-verossimilhanc¸a e ordens indicadas pelos
estimadores ˆr
EDC
, ˆr
BIC
e ˆr
AIC
.
Usando o banco de dados criado, gerar relat
´
orios e gr
´
aficos apropriados, a fim de auferir
conclus
˜
oes.
2
Resultado de 349100063
52
Utilizar o procedimento proposto por Raftery (1985) para a gerac¸
˜
ao de modelos de
Cadeias de Markov por permitir uma maior representatividade. Na gerac¸
˜
ao das amostras
utilizar a biblioteca/algoritmo de aleatoriedade proposto por Park & Miller (1988).
Indicadores Comparativos
Porcentagens de acertos para cada caso (r, N, n) considerado;
Porcentagens de acertos sumarizados, para casos onde s
˜
ao fixados r ou N ou n;
Porcentagens de acertos para todos os casos, considerados conjuntamente;
Para os n
´
ıveis de sumarizac¸
˜
ao descritos nos itens anteriores, considerar as porcenta-
gens de acerto (erro) de um certo estimador, quando os outros acertam (erram) – esse
indicador d
´
a uma noc¸
˜
ao de quais s
˜
ao plenamente “substitu
´
ıveis” por outros;
Gr
´
aficos para cada caso (r, N), considerando a porcentagem de acerto em func¸
˜
ao do
tamanho da amostra n;
Gr
´
aficos das distribuic¸
˜
oes dos estimadores em casos espec
´
ıficos (r, N, n).
2.2 An
´
alise dos Resultados Obtidos nas Simulac¸
˜
oes
A seguir apresentamos algumas conclus
˜
oes obtidas ap
´
os a an
´
alise dos resultados dos
experimentos realizados.
2.2.1 O estimador EDC
opt
´
e mais eficiente que o BIC
Em todos os casos simulados, o EDC
opt
apresentou maior proporc¸
˜
ao de acertos que o
BIC para qualquer tamanho de amostra. A excec¸
˜
ao foi para os casos onde |E|= 2 e em certo
intervalo do tamanho amostral. Nestes casos, os termos de penalidade do BIC podem ser
menores que os do EDC
opt
, o que justifica o resultado obtido.
53
An
´
alise dos Indicadores
A Tabela 2.1 apresenta resultados obtidos no caso |E| = 4 e r = 1, onde a coluna n rep-
resenta o tamanho da amostra, “<”, = e “>”, respectivamente, representam as proporc¸
˜
oes
de subestimac¸
˜
ao, acerto e superestimac¸
˜
ao para cada n.
Tabela 2.1: Distribuic¸
˜
oes de Acertos dos Estimadores EDC
opt
e BIC para o caso |E| = 4 e
r = 1
n EDC
opt
BIC
< = > < = >
10 98,70% 1,30% 0% 99,10% 0,90% 0%
25 90,20% 9,80% 0% 91,40% 8,60% 0%
68 50,60% 49,40% 0% 60,30% 39,70% 0%
775 0% 100,00% 0% 0,10% 99,90% 0%
900 0% 100,00% 0% 0% 100,00% 0%
Da mesma forma, a Tabela 2.2 apresenta os resultados para o caso |E| = 10 e r = 1.
Como pode ser verificado, em ambos casos, o EDC
opt
apresenta melhor performance que o
BIC. No de menor complexidade (|E| = 4) as proporc¸
˜
oes de acertos s
˜
ao semelhantes, para
o caso de maior complexidade (|E| = 10) o EDC
opt
necessitou de pouco mais da metade
do tamanho da amostra para acertar mais de 50% dos casos [considerando a mediana da
distribuic¸
˜
ao de acertos como indicador de performance]. Esse distanciamento se verifica
a medida que a complexidade (n
´
umero de par
ˆ
ametros livres) aumenta. Na Tabela 2.3 est
´
a
representado, para cada caso, o tamanho de amostra m
´
ınimo em que cada estimador acer-
tou pelo menos 50%, a
´
ultima coluna tem a proporc¸
˜
ao prop :=
n em que BIC acerta 50%
n em que EDC
opt
acerta 50%
, que
indica o “quanto o EDC
opt
´
e melhor que o BIC”.
Tabela 2.2: Distribuic¸
˜
oes de Acertos dos Estimadores EDC
opt
e BIC para o caso |E| = 10 e
r = 1
n EDC
opt
BIC
< = > < = >
218 99,80% 0,20% 0% 100,00% 0,00% 0%
425 40,90% 59,10% 0% 100,00% 0,00% 0%
450 28,90% 71,10% 0% 99,90% 0,10% 0%
600 3,10% 96,90% 0% 91,10% 8,90% 0%
775 0,10% 99,90% 0% 48,20% 51,80% 0%
950 0% 100,00% 0% 15,40% 84,60% 0%
1812 0% 100,00% 0% 0% 100,00% 0%
54
Tabela 2.3: Tamanhos de Amostras M
´
ınimos em que os Estimadores EDC
opt
e BIC acertam
mais que 50%
r |E| n EDC
opt
n BIC prop
1
2 76 50 0,65
3 53 50 0,94
4 72 85 1,18
5 100 150 1,50
6 143 225 1,57
7 200 337 1,68
8 250 475 1,90
9 337 625 1,85
10 425 775 1,82
2
2 1125 925 0,82
3 1125 1500 1,33
4 2000 3250 1,62
5 3125 5750 1,84
6 5750 11250 1,95
7 8000 16875 2,10
8 10625 23750 2,23
9 16875 40000 2,37
10 23750 62500 2,63
3
2 10625 11250 1,05
3 10000 15625 1,56
4 23750 45000 1,89
5 47500 100000 2,10
6 93750 212500 2,26
7 162500 400000 2,46
8 293750 775000 2,63
9 525000 1437500 2,73
10 637500 1812500 2,84
4
2 32500 37500 1,15
3 81250 137500 1,69
4 225000 475000 2,11
5 600000 1437500 2,39
6 1562500 4250000 2,72
7 2875000 8125000 2,82
8 4750000 13750000 2,89
5
2 143750 175000 1,21
3 337500 650000 1,92
4 1687500 4000000 2,37
5 5625000 15000000 2,66
6
2 400000 525000 1,31
3 2000000 4000000 2,00
4 11875000 28750000 2,42
Nota-se que os casos onde |E| = 2 e r
{
1, 2
}
ou |E| = 3 e r = 1 s
˜
ao at
´
ıpicos o
estimador BIC apresenta melhor performance que o EDC
opt
isso
´
e justific
´
avel pois, para
n pequeno (se |E| = 2, n no intervalo [5, 4500]
´
e suficiente, como exemplo, veja o Gr
´
afico
2.1, com os respectivos termos de penalidade, considerando k = 3 e |E| = 2), o termo de
penalidade do BIC
´
e menor que o do EDC
opt
e, para as ordens considerados (r = 0, . . . , 6),
o tamanho nessas proporc¸
˜
oes garante uma probabilidade pequena de superestimac¸
˜
ao para
ambos os casos. Assim, o estimador com o menor termo de penalidade tem uma maior
chance de acerto. Esses tr
ˆ
es casos espec
´
ıficos n
˜
ao contradizem o Corol
´
ario 1.22, pois para n
55
maior, o termo de penalidade do BIC
´
e maior que o do EDC
opt
, e o corol
´
ario toma o menor
termo assint
´
otico.
Figura 2.1: Termos de penalidade do BIC (cont
´
ınuo) e EDC
opt
(pontilhado) para |E| = 2 e
k = 3 em func¸
˜
ao de n
`
A medida que aumenta a complexidade (n
´
umero de par
ˆ
ametros livres) dos modelos,
aumenta tamb
´
em a diferenc¸a entre as proporc¸
˜
oes de acerto do EDC
opt
e BIC. Isso ocorre
pois, modelos mais complexos exigem tamanhos de amostras maiores, e nestes casos os
termos de penalidade de ambos se distanciam substancialmente, refletindo essa diferenc¸a
nas proporc¸
˜
oes de acerto. Isso nos leva a concluir que, para casos ainda mais complexos que
os simulados, o EDC
opt
dever
´
a apresentar uma proporc¸
˜
ao de acerto ainda maior que o BIC.
Para os outros casos considerados de |E| e r, podemos observar que o comportamento
dos estimadores
´
e semelhante ao descrito aqui no caso r = 1, conforme podemos ver nas
Tabelas 2.4 e 2.5 para os casos (r, |E|) = (3, 4) e (r, |E|) = (4, 5).
Tabela 2.4: Distribuic¸
˜
oes de Acertos dos Estimadores EDC
opt
e BIC para o caso |E| = 4 e
r = 3
n EDC
opt
BIC
< = > < = >
1562 99,90% 0,10% 0,00% 100,00% 0,00% 0,00%
2375 98,80% 1,20% 0,00% 99,90% 0,10% 0,00%
23125 50,20% 49,80% 0,00% 65,10% 34,90% 0,00%
9375000 0,00% 100,00% 0,00% 0,60% 99,40% 0,00%
23750000 0,00% 100,00% 0,00% 0,00% 100,00% 0,00%
56
Tabela 2.5: Distribuic¸
˜
oes de Acertos dos Estimadores EDC
opt
e BIC para o caso |E| = 4 e
r = 5
n EDC
opt
BIC
< = > < = >
6500 100,00% 0,00% 0,00% 100,00% 0,00% 0,00%
32500 99,80% 0,20% 0,00% 100,00% 0,00% 0,00%
68750 93,60% 6,40% 0,00% 99,70% 0,30% 0,00%
600000 49,80% 50,20% 0,00% 66,40% 33,60% 0,00%
1437500 33,50% 66,50% 0,00% 49,90% 50,10% 0,00%
16875000 7,00% 93,00% 0,00% 13,81% 86,19% 0,00%
100000000 0,00% 100,00% 0,00% 3,40% 96,60% 0,00%
2.2.2 Paransuficientementepequeno,todososestimadores t
ˆ
emtend
ˆ
encia
a subestimar
Katz (1981) por tr
ˆ
es vezessugere que os estimadores BIC e AIC subestimam em amostras
pequenas – “...
ˆ
k
BIC
seldom overestimates the true order., “...A simple modification of the
BIC procedure could reduce this tendency to underfit., “...except for n = 50, the AIC pro-
cedure virtually never underfits... Esse comportamento foi verificado nas simulac¸
˜
oes
para os estimadores considerados.
A explicac¸
˜
ao para esse fato segue da seguinte argumentac¸
˜
ao: 2[log
ˆ
L(r) log
ˆ
L(l)] =
2n
δ
(l) + o(n) se l < r (Teorema 1.16), e portanto EDC(l) EDC(r) = 2n
δ
(l) + o(n)
c
n
(
γ
(r)
γ
(l)). Como
δ
(l)
´
e relativamente pequeno (conforme (1.70)), c
n
(
γ
(r)
γ
(l)) >
2n
δ
(l)+ o(n) para n suficientemente pequeno, o que leva
`
a subestimac¸
˜
ao. Obviamente, isso
n
˜
ao pode ocorrer para n qualquer. O que justifica a n
˜
ao ocorr
ˆ
encia de subestimac¸
˜
oes da
ordem para n grande.
A Tabela 2.6 apresenta a distribuic¸
˜
ao de acertos para alguns casos em tamanhos variados.
Observa-se que o comportamento do AIC inverte para certo n que depende da complex-
idade e, como ser
´
a visto na pr
´
oxima sec¸
˜
ao, o AIC pode ter probabilidade consideravelmente
pequena de superestimac¸
˜
ao para n grande.
57
Tabela 2.6: Distribuic¸
˜
oes de Acertos dos Estimadores EDC
opt
, BIC e AIC
r |E| n EDC
opt
BIC AIC
< = > < = > < = >
1 3
10 80,30% 19,70% 0,00% 73,90% 26,10% 0,00% 63,10% 36,90% 0,00%
22 72,20% 27,80% 0,00% 67,40% 32,60% 0,00% 39,80% 59,90% 0,30%
168 15,00% 85,00% 0,00% 15,80% 84,20% 0,00% 3,30% 93,50% 3,20%
1375 0,60% 99,40% 0,00% 0,80% 99,20% 0,00% 0,10% 96,20% 3,70%
3125 0,00% 100,00% 0,00% 0,10% 99,90% 0,00% 0,00% 96,20% 3,80%
5000 0,00% 100,00% 0,00% 0,00% 100,00% 0,00% 0,00% 97,10% 2,90%
1 4
10 98,70% 1,30% 0,00% 99,10% 0,90 % 0,00% 96,10% 3,90% 0,00%
131 18,40% 81,60% 0,00% 27,50% 72,50 % 0,00% 1,60% 98,40% 0,00%
212 7,30% 92,70% 0,00% 12,20% 87,80 % 0,00% 0,20% 99,70% 0,10%
975 0,00% 100,00% 0,00% 0,00% 100,00% 0,00% 0,00% 99,90% 0,10%
2 3
17 100,00% 0,00 % 0,00% 100,00% 0,00 % 0,00% 99,90% 0,10% 0,00%
137 96,50 % 3,50 % 0,00% 97,30 % 2,70 % 0,00% 58,59% 41,30% 0,10%
175000 1,70 % 98,30 % 0,00% 3,50 % 96,50% 0,00% 0,10% 99,80% 0,10%
4750000 0,00 % 100,00% 0,00% 0,00 % 100,00% 0,00% 0,00% 99,90% 0,10%
2 5
137 100,00% 0,00% 0,00% 100,00% 0,00% 0,00% 99,70% 0,30% 0,00%
400 99,90% 0,10% 0,00% 100,00% 0,00% 0,00% 67,00% 33,00% 0,00%
650 99,00% 1,00% 0,00% 100,00% 0,00% 0,00% 50,10% 49,90% 0,00%
750 97,00% 3,00% 0,00% 9990% 0,10% 0,00% 47,00% 53,00% 0,00%
3125 49,90% 50,10% 0,00% 68,10% 31,90% 0,00% 20,90% 79,10% 0,00%
6000 35,80% 64,20% 0,00% 49,00% 51,00% 0,00% 13,70% 86,30% 0,00%
106250 5,40% 94,60% 0,00% 10,60% 89,40% 0,00% 0,50% 99,50% 0,00%
187500 4,10% 95,90% 0,00% 6,40% 93,60% 0,00% 0,00% 100,00% 0,00%
837500 0,00% 100,00% 0,00% 1,50% 98,50% 0,00% 0,00% 100,00% 0,00%
2000000 0,00% 100,00% 0,00% 0,00% 100,00% 0,00% 0,00% 100,00% 0,00%
3 10
17500 100,00% 0,00% 0,00% 100,00% 0,00% 0,00% 99,39% 0,61% 0,00%
81250 99,39% 0,61% 0,00% 100,00% 0,00% 0,00% 61,26% 38,74% 0,00%
131250 91,49% 8,51% 0,00% 100,00% 0,00% 0,00% 49,24% 50,76% 0,00%
637500 49,94% 50,06% 0,00% 77,07% 22,93% 0,00% 20,62% 79,38% 0,00%
1812500 30,63% 69,37% 0,00% 49,74% 50,26% 0,00% 12,31% 87,69% 0,00%
11250000 10,31% 89,69% 0,00% 19,51% 80,49% 0,00% 0,60% 99,40% 0,00%
13750000 7,90% 92,10% 0,00% 18,21% 81,79% 0,00% 0,00% 100,00% 0,00%
100000000 0,00% 100,00% 0,00% 6,41% 93,59% 0,00% 0,00% 99,20% 0,80%
4 4
2000 100,00% 0,00% 0,00% 100,00% 0,00% 0,00% 99,80% 0,20% 0,00%
9000 99,90% 0,10% 0,00% 100,00% 0,00% 0,00% 81,90% 18,10% 0,00%
15625 98,40% 1,60% 0,00% 99,90% 0,10% 0,00% 68,70% 31,30% 0,00%
37500 88,60% 11,40% 0,00% 96,90% 3,10% 0,00% 49,70% 50,30% 0,00%
225000 49,30% 50,70% 0,00% 64,90% 35,10% 0,00% 20,90% 79,10% 0,00%
475000 36,60% 63,40% 0,00% 49,40% 50,60% 0,00% 13,30% 86,70% 0,00%
16250000 2,80% 97,20% 0,00% 7,60% 92,40% 0,00% 0,00% 100,00% 0,00%
100000000 0,10% 99,90% 0,00% 0,40% 99,60% 0,00% 0,00% 100,00% 0,00%
2.2.3 Comportamento do estimador AIC
Mesmo com a inconsist
ˆ
encia do estimador AIC e a exist
ˆ
encia de alternativas fortemente
consistentes, este estimador v
ˆ
em sendo utilizado em muitas aplicac¸
˜
oes nas mais diferentes
´
areas (Yamaoka, Nakagawa & Uno (2005), Hoon, Imoto & Miyano (2002), Rose, Dick,
Viken & Kaprio (2001), dentre os mais recentes).
Assim, a quest
˜
ao, j
´
a levantada por Kuha (2004), por exemplo, sobre a efic
´
acia da utilizac¸
˜
ao
do estimador AIC merece ainda ser estudada. Neste sentido, realizamos as simulac¸
˜
oes
num
´
ericas com o objetivo de analisar especialmente a performance do AIC em amostras de
58
tamanho finito (n
˜
ao necessariamente grande) e a probabilidade de superestimac¸
˜
ao do AIC,
apontada por Katz (1981).
Em linhas gerais, nos resultados obtidos para todos os casos considerados, verificou-
se um comportamento padr
˜
ao entre as proporc¸
˜
oes de acertos dos estimadores, sendo que
o AIC subestimava para amostras bem pequenas, apresentava maior quantidade de acertos
para amostras pequenas, mantendo proporc¸
˜
ao de acerto pr
´
oximo de sua distribuic¸
˜
ao limite.
Os tamanhos das amostras em que esses comportamentos apareciam dependiam substancial-
mente da complexidade dos casos considerados.
Para n grande e casos de menor complexidade, o AIC manteve uma taxa de acerto maior
que 67%. Para casos de maior complexidade, essa taxa se manteve em valores pr
´
oximos
de 100% que n
˜
ao contradiz a sua inconsist
ˆ
encia, pois a probabilidade de superestimac¸
˜
ao,
embora positiva, pode ser pequena.
An
´
alise dos Indicadores
A Tabela 2.7 apresenta o caso r = 1 e |E| = 2. Verifica-se que o AIC, EDC
opt
e BIC
acertam, respectivamente, 42, 92%, 28, 65% e 39, 53%, para n = 10. Entretanto, com n =
5000000, o AIC acerta apenas 67, 17%, enquanto ambos outros acertam 100, 00% dos casos.
Mas, para um caso de maior complexidade (Tabela 2.8), r = 1 e |E| = 6, o AIC, EDC
opt
e
BIC acertam, respectivamente, 43, 92%, 0, 50% e 0, 00%, para n = 45 e para n = 5000000, o
AIC acerta 100, 00%.
Tabela 2.7: Distribuic¸
˜
oes de Acertos dos Estimadores Para o Caso r = 1 e |E| = 2
n EDC
opt
BIC AIC
< = > < = > < = >
10 70,45 28,65 0,89 53,68 39,53 6,78 45,20 42,92 11,87
57 52,99 46,91 0,10 43,40 54,80 1,79 24,95 50,90 24,15
375000 0,59 99,41 0,00 0,59 99,41 0,00 0,30 70,06 29,64
475000 0,59 99,41 0,00 0,59 99,41 0,00 0,00 68,77 31,23
5000000 0,00 100,00 0,00 0,00 100,00 0,00 0,00 67,17 32,83
Cabe observar que o AIC acerta primeiro pois, 2(log
ˆ
L(r) log
ˆ
L(l)) = 2n
δ
(l) + o(n)
se l < r (Teorema 1.16), e portanto EDC(l) EDC(r) = 2n
δ
(l) + o(n) c
n
(
γ
(r)
γ
(l)).
59
Tabela 2.8: Distribuic¸
˜
oes de Acertos dos Estimadores Para o Caso r = 1 e |E| = 6
n EDC
opt
BIC AIC
< = > < = > < = >
22 100,00 0,00 0,00 100,00 0,00 0,00 99,80 0,20 0,00
45 99,50 0,50 0,00 100,00 0,00 0,00 56,08 43,92 0,00
200 11,87 88,13 0,00 46,70 53,30 0,00 0,00 100,00 0,00
5000000 0,00 100,00 0,00 0,00 100,00 0,00 0,00 100,00 0,00
Assim,
´
e necess
´
ario n suficientemente grande para 2n
δ
(l) + o(n) > c
n
(
γ
(r)
γ
(l)) e o esti-
mador n
˜
ao subestimar a ordem. Neste caso, quanto menor o fator c
n
no termo de penalidade,
menor o n necess
´
ario para que isso ocorra. Como o AIC tem um termo de penalidade menor
que o EDC
opt
e BIC, ele acerta primeiro.
Por outro lado, o AIC erra mesmo para n substancialmente grande. Isso vem do fato
dele ser inconsistente (Katz 1981). Basicamente, 2[log
ˆ
L(l) log
ˆ
L(r)]
χ
2
(
γ
(l)
γ
(r))
se l > r (Billingsley 1961). Enquanto isso, o termo de penalidade do AIC
´
e constante, resul-
tando em AIC(l) AIC(r)
χ
2
(
γ
(l)
γ
(r)) + 2(
γ
(l)
γ
(r)). Logo, como P(
χ
2
(
γ
(l)
γ
(r)) > 2(
γ
(l)
γ
(r))) > 0, temos uma probabilidade positiva de AIC(l) < AIC(r), levando
`
a superestimac¸
˜
ao da ordem.
Entretanto, P(
χ
2
(t) > 2t) pode ser muito pequena se t =
γ
(l)
γ
(r) for grande, o
que ocorre em modelos mais complexos. Para exemplificar, calculamos alguns valores de
P(
χ
2
(
γ
(l)
γ
(r)) > 2(
γ
(l)
γ
(r))) na Tabela 2.9
3
.
Nas simulac¸
˜
oes, consideramos o limitante superior para a ordem igual a 7 (i.e. K = 7).
Utilizando as mesmas contas realizadas por Katz (1981), temos que, assintoticamente,
P(ˆr
aic
> r) =
K
i=r
P(ˆr
aic
= i)
K
i=r
P
2[log
ˆ
L(i+ 1) log
ˆ
L(i)] > 2(
γ
(i+ 1)
γ
(i))
=
K
i=r
P
χ
2
[
γ
(i+ 1)
γ
(i)] > 2(
γ
(i+ 1)
γ
(i))
Assim, para o caso considerado por Katz, |E|= 2 e r = 1, a probabilidade assint
´
otica do
AIC superestimar
´
e
3
Foi utilizado o programa R para o c
´
alculo num
´
erico.
60
Tabela 2.9: Probabilidades Calculadas para a Distribuic¸
˜
ao
χ
2
|E| l
γ
(l)
γ
(l 1) P(
χ
2
(
γ
(l)
γ
(l 1)) > 2(
γ
(l)
γ
(l 1))) Probabilidade
|E|= 2
2 2 P(
χ
2
(
γ
(2)
γ
(1)) > 2(
γ
(2)
γ
(1))) 0, 135335
3 4 P(
χ
2
(
γ
(3)
γ
(2)) > 2(
γ
(3)
γ
(2))) 0, 0915782
4 8 P(
χ
2
(
γ
(4)
γ
(3)) > 2(
γ
(4)
γ
(3))) 0, 0423801
5 16 P(
χ
2
(
γ
(5)
γ
(4)) > 2(
γ
(5)
γ
(4))) 0, 00999978
6 32 P(
χ
2
(
γ
(6)
γ
(5)) > 2(
γ
(6)
γ
(5))) 0, 000659928
7 64 P(
χ
2
(
γ
(7)
γ
(6)) > 2(
γ
(7)
γ
(6))) 0, 00000361702
|E|= 3
2 12 P(
χ
2
(
γ
(2)
γ
(1)) > 2(
γ
(2)
γ
(1))) 0, 0203410
3 36 P(
χ
2
(
γ
(3)
γ
(2)) > 2(
γ
(3)
γ
(2))) 0, 000340357
4 108 P(
χ
2
(
γ
(4)
γ
(3)) > 2(
γ
(4)
γ
(3))) 0, 00000000333
5 324 P(
χ
2
(
γ
(5)
γ
(4)) > 2(
γ
(5)
γ
(4))) < 10
10
6 972 P(
χ
2
(
γ
(6)
γ
(5)) > 2(
γ
(6)
γ
(5))) < 10
10
7 2916 P(
χ
2
(
γ
(7)
γ
(6)) > 2(
γ
(7)
γ
(6))) < 10
10
|E|> 6
2 150 P(
χ
2
(
γ
(2)
γ
(1)) > 2(
γ
(2)
γ
(1))) < 10
10
3 900 P(
χ
2
(
γ
(3)
γ
(2)) > 2(
γ
(3)
γ
(2))) < 10
10
4 5400 P(
χ
2
(
γ
(4)
γ
(3)) > 2(
γ
(4)
γ
(3))) < 10
10
5 32400 P(
χ
2
(
γ
(5)
γ
(4)) > 2(
γ
(5)
γ
(4))) < 10
10
6 194400 P(
χ
2
(
γ
(6)
γ
(5)) > 2(
γ
(6)
γ
(5))) < 10
10
7 1166400 P(
χ
2
(
γ
(7)
γ
(6)) > 2(
γ
(7)
γ
(6))) < 10
10
7
i=2
P(ˆr
aic
= i) > P
2[log
ˆ
L(2) log
ˆ
L(1)] > 2[
γ
(2)
γ
(1)]
= P
χ
2
(
γ
(2)
γ
(1)) > 2[
γ
(2)
γ
(1)]
=
0, 13
e
7
i=2
P(ˆr
aic
= i) <
7
i=2
P
2[log
ˆ
L(i) log
ˆ
L(i1)] > 2[
γ
(i)
γ
(i1)]
=
7
i=2
P
χ
2
(
γ
(i)
γ
(i1)) > 2[
γ
(i)
γ
(i1)]
=
0, 13+ 0, 09+ 0, 05 = 0, 27
Por outro lado, se considerarmos o caso |E| = 6 e r = 1, essa probabilidade
´
e
7
i=2
P(ˆr
aic
= i) <
7
i=2
P
2[log
ˆ
L(i) log
ˆ
L(i1)] > 2[
γ
(i)
γ
(i1)]
=
7
i=2
P
χ
2
(
γ
(i)
γ
(i1)) > 2[
γ
(i)
γ
(i1)]
=
6·10
10
61
Isso justifica os resultados encontrados nas simulac¸
˜
oes, onde o AIC aparenta convergir
para a ordem verdadeira para os modelos mais complexos.
Observa-se que Katz desenvolveu as contas apenas para um caso simples, em que o
AIC apresenta uma probabilidade substancial de superestimac¸
˜
ao. Os outros casos n
˜
ao foram
mencionados. Isso e outras indicac¸
˜
oes induzem ao pensamento err
ˆ
oneo: “O AIC erra muito
sempre.
2.3 Um Exemplo de Aplicac¸
˜
ao
Nas simulac¸
˜
oes realizadas foram consideradas amostras geradas por algoritmos, que
representavam modelos markovianos “perfeitos”. Entretanto, como observou Akaike (1974),
a hip
´
otese da exist
ˆ
encia de uma Cadeia de Markov, estacion
´
aria, que gerou a amostra pode
mudar completamente o comportamento dos estimadores. Por isso,
´
e interessante observar
como os m
´
etodos se comportam em “dados reais”.
Uma aplicac¸
˜
ao simples e interessante de Cadeias de Markov de ordem superior
´
e a pro-
posta por McAlpine, Miranda & Hoggar (1999), que sugere a utilizac¸
˜
ao desse procedimento
na modelagem de m
´
usicas. Isso pode ser utilizado n
˜
ao apenas para gerar m
´
usicas aleatoria-
mente, mas tamb
´
em para analisar/classificar composic¸
˜
oes existentes e gerar novas m
´
usicas a
partir dessas.
Nesse sentido, foi escolhido, a “Serenata N
o
13” de Mozart, em func¸
˜
ao da sua grande
quantidade de notas musicais para a voz considerada (total de 21233). Os resultados est
˜
ao
na Tabela 2.10.
Como pode ser observado, os resultados da Tabela 2.10, s
˜
ao satisfat
´
orios para assumir
a ordem como maior ou igual a 3, mas n
˜
ao para assumi-la como 3. Mesmo assim,
´
e
poss
´
ıvel notar que os comportamentos dos estimadores foram semelhantes aos verificados
nas simulac¸
˜
oes: para n pequeno todos subestimaram a ordem; o AIC teve melhor perfor-
mance no in
´
ıcio; o EDC
opt
foi mais eficiente que o BIC.
No caso considerado |E| = 7, a probabilidade de superestimac¸
˜
ao do AIC
´
e pequena e o
tamanho da amostra n
˜
ao foi grande o suficiente para a ocorr
ˆ
encia de superestimac¸
˜
ao.
62
Tabela 2.10: Ordens Indicadas pelos Estimadores para a “Serenata N
o
13” de Mozart
n EDC
opt
BIC AIC
91 0 0 0
101 0 0 1
161 1 0 1
171 1 0 1
181 1 1 1
581 1 1 2
1261 2 1 2
2851 2 2 2
4561 2 2 3
12871 3 2 3
21231 3 2 3
Este exemplo de aplicac¸
˜
ao a dados reais
´
e bastante simples e a an
´
alise do comportamento
dos estimadores em dados reais mais relevantes, como por exemplo dados meteorol
´
ogicos,
ser
´
a objeto de estudos futuros.
63
Conclus
˜
ao
As simulac¸
˜
oes realizadas indicaram que o estimador EDC
opt
tem melhor performance
que o BIC e que essa diferenc¸a aumenta em func¸
˜
ao da complexidade das Cadeias de Markov
em an
´
alise.
Como tamb
´
em verificado por Katz (1981) para os estimadores AIC e BIC, observou-se
uma tend
ˆ
encia desses estimadores e do EDC
opt
a subestimar a ordem quando o tamanho da
amostra n
˜
ao
´
e suficientemente grande.
Vale ressaltar que Katz (1981), argumentando a inconsist
ˆ
encia do AIC, realizou simulac¸
˜
oes
apenas para o caso |E| = 2 e r = 1, em que o AIC apresenta probabilidade substancial de
superestimac¸
˜
ao. Entretanto, verificamos no nosso trabalho que para casos de maior complex-
idade essa probabilidade pode ser consideravelmente pequena, at
´
e mesmo insignificante.
64
Refer
ˆ
encias Bibliogr
´
aficas
Akaike, H. 1974. A new look at the statistical model identification. Automatic Control,
IEEE Transactions on 19(6):716–723.
Anderson, T. W. & Leo A. Goodman. 1957. “Statistical Inference about Markov Chains.
The Annals of Mathematical Statistics 28(1):89–110.
Balzter, Heiko. 2000. “Markov chain models for vegetation dynamics. Ecological Mod-
elling 126(2-3):139–154.
Bartlett, M. S. 1951. “The frequency goodness of fit test for probability chains. Proceedings
of the Cambridge Philosophical Society .
Beno
ˆ
ıt, Gerald. 2005. Application of Markov chains in an interactive information retrieval
system.Inf. Process. Manage. 41(4):843–857.
Billingsley, Patrick. 1961. “Statistical Methods in Markov Chains. The Annals of Mathe-
matical Statistics 32(1):12–40.
Chin, E. H. 1977. “Modelling daily precipitation occurrence process with Markov chain.
Water Resources Res. 13:949–956.
Csiszar, Imre & Paul C. Shields. 2000. “The Consistency of the BIC Markov Order Estima-
tor.The Annals of Statistics 28(6):1601–1619.
Dacunha-Castelle, Didier, Marie Duflo & David McHale. 1986. Probability and Statistics.
Vol. II Springer.
Doob, J. L. 1966. Stochastic Processes (Wiley Publications in Statistics). John Wiley & Sons
Inc.
Dorea, C. C. Y. 2008. “Optimal penalty term for EDC Markov chain order estimator. An-
nales de l’Institut de Statistique de l’Universite de Paris (l’ISUP) 52:15–26.
Dorea, C. C. Y. & J. S. Lopes. 2006. “Convergence Rates for Markov Chain Order Estimates
Using EDC Criterion.Bulletin of the Brazilian Mathematical Society 37:561–570.
Dorea, C. C. Y. & L. Zhao. 2004. “Exponential Bounds for the Rate of Convergence of
the EDC Criterion. In: IX Congreso LatinoAmericano de Probabilidad y Estadistica
Matematica .
65
Feller, William. 1968. An Introduction to Probability Theory and Its Applications, Volume
1. Wiley.
Gates, P. & H. Tong. 1976. “On Markov chain modeling to some weather data. J. Appl.
Meteor. 15:1145–1151.
Good, I. J. 1955. “The Likelihood Ratio Test for Markoff Chains.Biometrika 42(3/4):531–
533.
Hoel, Paul G. 1954. A Test for Markoff Chains.Biometrika 41(3/4):430–433.
Hoon, Michiel J. L., Seiya Imoto & Satoru Miyano. 2002. Inferring Gene Regulatory Net-
works from Time-Ordered Gene Expression Data Using Differential Equations. In DS
’02: Proceedings of the 5th International Conference on Discovery Science. London,
UK: Springer-Verlag pp. 267–274.
Kannan, D. 1979. Introduction to Stochastic Processes. Elsevier Science.
Katz, Richard W. 1981. “On Some Criteria for Estimating the Order of a Markov Chain.
Technometrics 23(3):243–249.
Kendall, Maurice, Alan Stuart & Keith J. Ord. 1991. Advanced Theory of Statistics: Classi-
cal Inference and Relationship. Vol. 2 6th ed. Oxford, UK: Oxford University Press.
Kuha, Jouni. 2004. AIC and BIC: Comparisons of Assumptions and Performance. Socio-
logical Methods Research 33(2):188+.
Kullback, S. 1959. Information theory and statistics. New York: John Wiley and Sons.
Kullback, S. & R. A. Leibler. 1951. “On Information and Sufficiency.The Annals of Math-
ematical Statistics 22(1):79–86.
Lewin, Benjamin. 2004. Genes VIII. Upper Saddle River, NJ: Pearson Prentice Hall.
Li, Weidong. 2007. A Fixed-Path Markov Chain Algorithm for Conditional Simulation of
Discrete Spatial Variables.Mathematical Geology .
Lopes, Jaques Silveira. 2005. Determinac¸
˜
ao da Ordem de uma Cadeia de Markov Usando o
Crit
´
erio EDC PhD thesis Universidade de Bras
´
ılia, UNB, Brasil.
Martell, David L. 1999. A Markov chain model of day to day changes in the Canadian
forest fire weather index.International Jornal of Wildland Fire 9:265–273.
McAlpine, Kenneth, Eduardo Miranda & Stuart Hoggar. 1999. “Making Music with Algo-
rithms: A Case-Study System.Comput. Music J. 23(2):19–30.
Meyn, S. P. & R. L. Tweedie. 1993. Markov Chains and Stochastic Stability. Springer-
Verlag, London.
66
Nuel, Gregory. 2007. “Numerical Solutions for Patterns Statistics on Markov Chains.Sta-
tistical Applications in Genetics and Molecular Biology 5(1):26.
Park, S. K. & K. W. Miller. 1988. “Random number generators: good ones are hard to find.
Commun. ACM 31(10):1192–1201.
Raftery, Adrian E. 1985. A Model for High-order Markov Chains.J. R. Statist. Soc. B. .
Rao, C. R. 1973. Linear Statistical Inference and its Applications. 2nd ed. New York: J.
Wiley and Sons.
Rose, R J, D M Dick, R J Viken & J Kaprio. 2001. “Gene-environment interaction in patterns
of adolescent drinking: regional residency moderates longitudinalinfluences on alcohol
use.Clinical and Experimental Research pp. 637–43.
Schwarz, Gideon. 1978. “Estimating the Dimension of a Model. The Annals of Statistics
6(2):461–464.
Shao, J. 2007. Mathematical Statistics. New York: Springer Verlag.
Shibata, R. 1976. “Selection of the Order of an Autoregressive model by Akaike’s Informa-
tion Criterion.Biometrika 63:117–126.
Silos, Pedro. 2006. Assessing Markov chain approximations: A minimal econometric ap-
proach.Journal of Economic Dynamics and Control 30(6):1063–1079.
Tong, H. 1975. “Determination of the Order of a Markov Chain by Akaike’s Information
Criterion.Journal of Applied Probability 12(3):488–497.
Yamaoka, Kiyoshi, Terumichi Nakagawa & Toyozo Uno. 2005. Application of Akaike’s in-
formation criterion (AIC) in the evaluation of linear pharmacokinetic equations.Jour-
nal of Pharmacokinetics and Pharmacodynamics .
Zhao, L., C. Dorea & C. Gonc¸alves. 2001. “On Determination of the Order of a Markov
Chain.Statistical Inference for Stochastic Processes 4(3):273–282.
67
AP
ˆ
ENDICE A -- Recursos Computacionais
Utilizados
Sem d
´
uvidas, a grande dificuldade em se gerar simulac¸
˜
oes em escala tecnicamente sig-
nificativa se reside na criac¸
˜
ao do ambiente computacional adequado e eficiente.
Dentro desse problema, podemos citar:
A escolha da linguagem Geralmente linguagens mais f
´
aceis de utilizar n
˜
ao s
˜
ao
as mais eficientes computacionalmente. Por outro lado, em alguns casos, linguagens
eficientes s
˜
ao de dif
´
ıcil manutenc¸
˜
ao e programac¸
˜
ao. Para contornar esse problema,
pode-se utilizar diferentes linguagens em rotinas distintas;
Adequac¸
˜
ao do volume de dados A gerac¸
˜
ao de muitos dados necessita de maior
espac¸o para armazenagem e maior capacidade computacional para gerenci
´
a-lo. Deve-
se considerar a quantidade estritamente necess
´
aria para os resultados desejados.
A seguir, apresentamos uma pequena parcela do trabalho realizado na criac¸
˜
ao dos pro-
gramas e scripts para a gerac¸
˜
ao das simulac¸
˜
oes, relat
´
orios e gr
´
aficos. Para isso foi consider-
ado as seguintes premissas:
Efici
ˆ
encia – R
´
apido computacionalmente;
Escalabilidade Possibilidade de aumentar a velocidade agregando mais poder de
processamento.
68
A.1 Programa
Dentre as linguagens avaliadas (“R”, “C”, “C++”, “Perl”, “Python” e “PHP”), notou-se,
indubitavelmente, que a linguagem “C”
´
e a que melhor atendia as premissas postas. Al
´
em
disso, como os procedimentos s
˜
ao relativamente simples, n
˜
ao haveria grande impacto na
facilidade de programac¸
˜
ao. Para a gerac¸
˜
ao de relat
´
orios foi utilizado a ferramenta AWK”;
os gr
´
aficos foram gerados utilizando-se do aplicativo “GnuPlot”; os dados armazenados no
banco de dados “PostgreSQL”.
Para solucionar o problema da escalabilidade, o programa foi dividido em pequenos
m
´
odulos
1
, que podem trabalhar em v
´
arios computadores em paralelo
2
.
No banco de dados, foram criadas tabelas para salvar as seguintes informac¸
˜
oes
3
:
Cadeias de Markov – Com suas respectivas matrizes de transic¸
˜
ao;
Amostras – Amostras geradas pelas cadeias;
Log-verossimilhanc¸as Estimadas Valores de
ˆ
L(k), k = 0..7, de cada tamanho de
certa amostra;
Ordens Estimadas – De cada Log-verossimilhanc¸a estimada;
Tarefas – Utilizadas para orientar os trabalhos dos m
´
odulos.
Nas simulac¸
˜
oes principais, foram salvas apenas as ordens estimadas para cada estimador
juntamente com alguns valores da log-verossimilhanc¸a.
A.1.1 Descric¸
˜
ao das Principais Rotinas
As rotinas principais criadas foram:
Simular Desempenha o trabalho principal, gerando os modelos aleat
´
orios e salvando
os resultados num
´
ericos;
1
Arquitetura dashboard
2
Trabalho em cluster
3
Entidades.
69
Gerar Relat
´
orio – Cria os indicadores apresentados nesse trabalho;
Gerar Gr
´
afico Cria figuras para facilitar a identificac¸
˜
ao de “padr
˜
oes” de comporta-
mento.
Al
´
em dessas, foram geradas outras rotinas que auxiliaram nos testes e verificac¸
˜
oes. Estas
n
˜
ao s
˜
ao enfatizadas nessa dissertac¸
˜
ao, mas tamb
´
em est
˜
ao dispon
´
ıveis.
A gerac¸
˜
ao de relat
´
orios e gr
´
aficos
´
e realizada computando diretamente no banco dedados
[usando a linguagem SQL]. A gerac¸
˜
ao do relat
´
orio em Latex
´
e feita utilizando o aplicativo
AWK. Como a rotina “Simular”
´
e a principal nesse trabalho, apresentamos a descric¸
˜
ao do
seu funcionamento abaixo.
1. Recupera no banco de dados uma tarefa a ser executada, obtendo os par
ˆ
ametros da
ordem e tamanho do espac¸o de estados;
2. Cria na mem
´
oria a matriz de transic¸
˜
ao. Para cada probabilidade condicionada (linha
da matriz)
´
e gerada a distribuic¸
˜
ao particionando aleatoriamente, de forma uniforme
o intervalo [0, 1] e considerando as partic¸
˜
oes de forma ordenada (quando utilizado o
modelo proposto por Raftery (1985) a l
´
ogica
´
e a mesma);
3. Gera uma amostra na mem
´
oria com comprimento de 100 milh
˜
oes. Para iniciar a
amostra
´
e sempre considerado o condicionamento por “000...0”;
4. Para cada “sub-amostra”:
(a) Atualizaa matriz de contagem [aqui h
´
a o ganho ao considerar as“sub-amostras”];
(b) Calcula os valores da log-verossimilhanc¸a (de 0 a 7) e salva no banco;
(c) Calcula os estimadores ˆr
edc
, ˆr
bic
e ˆr
aic
, salvando-os no banco;
A.2 Estimativas
O tempo de execuc¸
˜
ao de cada rotina independente varia com o tipo da tarefa e/ou com o
volume de dados envolvido. Para fins comparativos, apresentamos os tempos aproximados
70
medidos
4
na Tabela A.1.
Tabela A.1: Tempos de execuc¸
˜
ao das rotinas
Rotina Tempo Aproximado de Execuc¸
˜
ao
Simular 5 a 180 segundos
Gerar Relat
´
orio 1 segundo a 2 dias
Gerar Gr
´
afico 1 a 30 segundos
Pode-se rodar diversas rotinas emum mesmo computador, considerando uma por proces-
sador. Al
´
em disso, as rotinas podem trabalhar em computadores distintos ao mesmo tempo.
Isso aumenta consideravelmente a velocidade dos trabalhos.
A.3 Ambiente Utilizado
Para esse trabalho foi utilizado computadores com processadores AMD Turion 64. O
sistema operacional utilizado foi o Ubuntu Linux. Dentre as principais ferramentas desta-
camos o compilador GCC vers
˜
ao 4.3.1 e a libc6 vers
˜
ao 2.7. Os n
´
umeros aleat
´
orios foram
obtidos a partir das bibliotecas propostas por Park & Miller (1988).
4
Em um computador mono-processado AMD Turion 64 X2 800 Mhz.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo