Download PDF
ads:
An´alise Bayesiana de Referˆencia para a classe
de Distribui¸oes Hiperb´olicas Generalizadas
Tha´ıs C. O. da Fonseca
Orientadores: Helio S. Migon e Marco A. R. Ferreira
21 de junho de 2004
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Sum´ario
1 Introdu¸ao 4
1.1 Distribui¸ao Hiperb´olica Generalizada . . . . . . . . . . . . . . 7
1.2 Parˆametros da distribui¸ao . . . . . . . . . . . . . . . . . . . . 10
1.3 Subclasses e distribui¸oes limite . . . . . . . . . . . . . . . . . 13
1.4 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Sum´ario da disserta¸ao . . . . . . . . . . . . . . . . . . . . . . 17
2 Inferˆencia 19
2.1 Estima¸ao por axima Verossimilhan¸ca . . . . . . . . . . . . 19
2.2 Inferˆencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Distribui¸ao a priori . . . . . . . . . . . . . . . . . . . 24
2.2.2 Prioris ao informativas . . . . . . . . . . . . . . . . . 25
2.2.3 Distribui¸ao a posteriori . . . . . . . . . . . . . . . . . 27
1
ads:
2.2.4 M´etodos de Monte Carlo . . . . . . . . . . . . . . . . . 28
3 Distribui¸ao t-Student 32
3.1 Priori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Estudo simulado . . . . . . . . . . . . . . . . . . . . . . . . . 38
4 Modelos de Regress˜ao t-Student 44
4.1 Priori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Estudo simulado . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Distribui¸ao Hiperb´olica 66
5.1 Priori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2 Aplica¸ao a dados simulados . . . . . . . . . . . . . . . . . . . 76
5.3 Aplica¸ao a dados reais . . . . . . . . . . . . . . . . . . . . . . 79
6 O caso geral 85
6.1 A priori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2 Aplica¸ao a dados simulados . . . . . . . . . . . . . . . . . . . 94
7 Conclus˜oes e trabalhos futuros 99
Referˆencias Bibliogr´aficas 101
2
Apˆendice 105
3
Cap´ıtulo 1
Introdu¸ao
A classe de Distribui¸oes Hiperb´olicas Generalizadas (GHD) foi originalmente
introduzida por Barndorff-Nielsen (1977). Ele utilizou uma subclasse dessa
distribui¸ao para modelar o tamanho de gr˜aos de areia sujeitos a ventos
cont´ınuos. Uma vantagem dessa classe de distribui¸oes ´e englobar muitos
casos particulares e distribui¸oes limites. Por exemplo, a Hiperb´olica, a
Normal Inversa Gaussiana (NIG), a t-Student, a Normal e a Laplace As-
sim´etrica. Para maiores detalhes e outros casos limites veja Barndorff-Nielsen
(1978). Uma outra grande vantagem que pode ser bastante ´util em algumas
aplica¸oes ´e o fato dessa distribui¸ao permitir assimetrias. Al´em disto, esta
distribui¸ao pode ser obtida como uma mistura na edia e na variˆancia da
normal.
Desde o seu desenvolvimento, a GHD tem sido usada em diferentes
´areas do conhecimento. Inicialmente, era usada na f´ısica, biologia e astrono-
mia. Em 1982, por exemplo, Barndorff-Nielsen utiliza a subclasse Hiperb´olica
na modelagem da energia de uma part´ıcula de um as ideal em substitui¸ao
4
as distribui¸oes Gaussianas. Mais recentemente, as GHD em sendo uti-
lizadas tamb´em para modelar dados do mercado financeiro. Eberllin e Keller
(1995) foram os primeiros a utilizar a GHD neste contexto. Em seu trabalho,
utilizaram a subclasse Hiperb´olica para modelar dados do mercado alem˜ao.
Jaschke (1997) mostra que a GHD ´e um limite fraco de um processo de volati-
lidade estoastica que ´e modelado como um Garch(1,1). Barndorff-Nielsen
(1997) reporta as vantagens da utiliza¸ao da subclasse Normal Inversa Gaus-
siana na modelagem da dados de finan¸cas e tamb´em de turbulˆencia. Segundo
ele, a distribui¸ao Normal Inversa Gaussiana ´e capaz de capturar regimes
caracter´ısticos entre per´ıodos de pequenas flutua¸oes aleat´orias e per´ıodos
de alta atividade. Em finan¸cas, esse fenˆomeno ´e chamado volatilidade es-
toastica e em turbulˆencia, ´e chamado intermitˆencia (para mais detalhes
veja Frisch 1995, cap´ıtulo 8). Bibby e Sorensen (1997) utilizam a GHD como
distribui¸ao limite para difus˜oes. Prause (1999) utiliza a GHD para mode-
lagem de dados da Alemanha e EUA. Fajardo et al. (2002) analisam dados
do mercado brasileiro utilizando a GHD.
Apesar das boas propriedades da classe de distribui¸oes hiperb´olicas
generalizadas, problemas ao encontrados na inferˆencia para esse modelo.
Isso ao se deve apenas a dificuldades num´ericas de estima¸ao mas tamb´em a
dificuldades te´oricas relacionadas com a verossimilhan¸ca do modelo. Barndorff-
Nielsen e Blæsild (1981) mencionam as caudas pesadas da verossimilhan¸ca
a para uma subclasse da distribui¸ao hiperb´olica generalizada. Um dos
problemas encontrados para o modelo geral ´e a estima¸ao do parˆametro
de subclasse. Prause (1999) sugere com um estudo de simula¸ao que so-
mente para tamanhos de amostra grande a estimativa desse parˆametro ´e
razo´avel. Desses resultados ele conclui que pelo menos 250 observoes ao
necess´arias para obten¸ao de um ajuste adequado. Ele reporta tamb´em
5
que em muitos casos o algor´ıtmo desenvolvido por ele converge para dis-
tribui¸oes limites. Mostramos nessa disserta¸ao que esta dificuldade existe
porque a uma probabilidade positiva do estimador de axima verossimi-
lhan¸ca ao assumir valores finitos e isso ocorre quando certas combina¸oes
dos parˆametros levam a modelos limites. Al´em disso, os algor´ıtmos de maxi-
miza¸ao da verossimilhan¸ca at´e hoje desenvolvidos ao possuem convergˆencia
anal´ıtica provada, a convergˆencia para um aximo global ´e obtida apenas
empiricamente. Um problema num´erico encontrado no desenvolvimento de
algor´ıtmos de estima¸ao ´e o n´umero de fun¸oes modificadas de Bessel que
devem ser calculadas na avalia¸ao da densidade. Prause (1999) utiliza uma
aproxima¸ao num´erica para essas fun¸oes (Teukolsky, Vetterling e Flannery
1992, agina 236 a 252). Uma outra solu¸ao para esse problema seria con-
siderar o parˆametro de subclasse fixo e utilizar algum crit´erio de compara¸ao
de modelos para escolher o mais adequado, pois com a subclasse previa-
mente escolhida os problemas num´ericos se reduzem bastante. Um programa
de computador para estima¸ao por axima verossimilhan¸ca para subclasses
da distribui¸ao, baseado em observoes independentes e identicamente dis-
tribu´ıdas, foi desenvolvido por Blaesied e Sorensen (1992, 1996).
O fato da verossimilhan¸ca ter muitas dificuldades associadas sugere que
devemos procurar uma maneira de calibrar a informa¸ao obtida dos dados.
Uma solu¸ao ´e utilizar uma distribui¸ao a priori que funcionaria como peso
para a informa¸ao fornecida pela verossimilhan¸ca. Mas, a elicita¸ao de pri-
oris subjetivas para os parˆametros ´e uma dificuldade devido `a mudan¸ca de
interpreta¸ao dos parˆametros para as diferentes subclasses. Assim, desen-
volvemos uma an´alise Bayesiana utilizando MCMC baseada na priori ao
informativa de Jeffreys, sob fun¸ao de perda absoluta, e portanto, a mediana
ser´a o estimador pontual ´otimo. Alguns resultados interessantes ao obtidos:
6
a priori desenvolvida permite uma an´alise satisfat´oria mesmo para amostras
pequenas; as propriedades do estimador proposto ao bem melhores que os
do EMV. Inicialmente, utiliza-se subclasses e casos particulares e posterior-
mente, desenvolve-se a priori para o caso geral. Um estudo simulado para
an´alise do efeito do tamanho da amostra na inferˆencia tamb´em ´e realizado.
Toda metodologia apresentada foi implementada na linguagem Ox (Doornik,
2002) que ´e uma linguagem matricial orientada a objeto.
No restante deste cap´ıtulo, apresentamos uma revis˜ao da GHD. Na
Se¸ao 1.1, apresenta-se a densidade do modelo hiperb´olico generalizado. Na
se¸ao 1.2, apresentam-se algumas propriedades relativas aos parˆametros da
distribui¸ao. Na se¸ao 1.3, temos algumas subclasses e distribui¸oes limite e
na se¸ao 1.4, a fun¸ao geradora de momentos.
1.1 Distribui¸c˜ao Hiperb´olica Generalizada
As propriedades matem´aticas da GHD mostradas neste cap´ıtulo ao esta-
belecidas em Barndorff-Nielsen (1977).
Defini¸ao 1.1 (Distribui¸ao univariada) Uma quantidade aleat´oria Y ´e
dita ter distribui¸ao Hiperb´olica Generalizada se possui fun¸ao densidade de
probabilidade dada por:
f(y|λ, α, β, δ, µ) = a(λ, α, β, δ) [δ
2
+(yµ)
2
]
(
λ
1
2
)
/2
K(y; λ, α, β, δ, µ) (1.1)
onde y e
(i) a(λ, α, β, δ) =
(α
2
β
2
)
λ
2
2πα
λ0.5
δ
λ
K
λ
(δ
α
2
β
2
)
7
(ii) K(y; λ, α, β, δ, µ) = K
λ0.5
(α
δ
2
+ (y µ)
2
)exp{β(y µ)}
(iii) K
λ
(.) ´e a fun¸ao modificada de Bessel de 3
a
ordem com ´ındice λ e
´e representada na forma de integral por:
K
λ
(z) = 0.5
0
x
λ1
exp{−0.5z(x + x
1
)} dx
A nota¸ao utilizada aqui para a Distribui¸ao Hiperb´olica Generalizada
´e a seguinte: Y GHD(λ, α, β, δ, µ)
Proposi¸ao 1.1 (Mistura) A distribui¸ao Hiperb´olica Generalizada pode
ser obtida atrav´es de uma mistura na m´edia e na variˆancia da Normal. Seja
Y |W N(µ + βW, W ) e W GIG
1
(λ,
α
2
β
2
, δ). Ent˜ao, Y possui
distribui¸ao hiperb´olica generalizada que ´e obtida por:
f(y|λ, α, β, δ, µ) =
0
g(y|µ, β, w)h(w|λ, δ, α, β)dw, (1.2)
onde g ´e a densidade da Normal com edia µ + βW e variˆancia W e h ´e
a densidade da Inversa Gaussiana Generalizada (GIG) com parˆametros λ,
α
2
β
2
e δ.
Prova:
f(y|λ, α, β, δ, µ) =
0
(2πw)
1/2
exp
1
2w
[y (µ + βw)]
2
×
c(λ,
α
2
β
2
, δ)w
λ1
exp
1
2
[w
1
δ
2
+ w(α
2
β
2
)]
dw
1
Se W GIG(ρ, γ, κ) ent˜ao sua densidade ´e dada por:
c(ρ, γ, κ) w
ρ1
exp
1
2
(κ
2
w
1
+ γ
2
w)
, κ, γ 0, ρ , w > 0,
onde c(ρ, γ, κ) =
(γ)
ρ
2K
ρ
(γκ)
. Jørgensen (1982) apresenta mais detalhes sobre essa fam´ılia de
distribui¸oes.
8
= (2π)
1/2
c(λ,
α
2
β
2
, δ) × exp{β(y µ)} ×
0
w
(λ0.5)1
exp
1
2
[w
1
(δ
2
+ (y µ)
2
)] + wα
2
dw
= (2π)
1/2
c(λ,
α
2
β
2
, δ)
c(λ 0.5, α,
δ
2
+ (y µ)
2
)
× exp{β(y µ)}
=
(α
2
β
2
)
λ
2
2πα
λ0.5
δ
λ
K
λ
(δ
α
2
β
2
)
(δ
2
+ (y µ)
2
)
(
λ
1
2
)
/2
×
K
λ0.5
(α
δ
2
+ (y µ)
2
)exp{β(y µ)}
Uma outra propriedade interessante ´e que o modelo hiperb´olico gene-
ralizado ´e um modelo de loca¸ao e escala.
Proposi¸ao 1.2 (Modelo loca¸ao-escala) O modelo hiperb´olico genera-
lizado ´e um modelo de locao e escala.
Prova:
f(y|λ, α, β, δ, µ) =
(α
2
β
2
)
λ/2
2πα
λ0.5
δ
λ
K
λ
(δ
α
2
β
2
)
(δ
2
+ (y µ)
2
)
(λ0.5)/2
×
K
λ0.5
(
α
δ
2
+ (
y
µ
)
2
)
exp
{
β
(
y
µ
)
}
Seja ¯α = αδ e
¯
β = βδ, enao:
f(y|λ, α, β, δ, µ) =
1
δ
(¯α
2
¯
β
2
)
λ/2
2π ¯α
1/2
K
λ
(
¯α
2
¯
β
2
)
1 +
y µ
δ
2
(λ0.5)/2
× K
λ0.5
¯α
1 +
y µ
δ
2
exp
¯
β
y µ
δ

=
1
δ
f
y µ
δ
onde f(x) =
(¯α
2
¯
β
2
)
λ/2
2π ¯α
1/2
K
λ
(
¯α
2
¯
β
2
)
(1 + x
2
)
(λ0.5)/2
K
λ0.5
¯α
1 + x
2
exp
¯
βx
Logo, o modelo ´e de loca¸ao e escala.
9
Proposi¸ao 1.3 (Transforma¸ao linear) A classe GHD ´e fechada para
transforma¸oes lineares. Se X GHD(λ, α, β, δ, µ) ent˜ao, Y = aX + b
GHD(λ
+
, α
+
, β
+
, δ
+
, µ
+
) onde λ
+
= λ, α
+
=
α
|a|
, β
+
=
β
|a|
, δ
+
= δ|a| e
µ
+
= + b.
Prova:
Em Blæsild (1981,teorema I).
1.2 Parˆametros da distribui¸c˜ao
A distribui¸ao hiperb´olica generalizada possui cinco parˆametros que per-
mitem descrever assimetrias e caudas semi-pesadas
2
. Como exemplo temos a
GHD(1,1,0,1,0) que possui caudas mais pesadas que a t-Student com 3 graus
de liberdade por´em possui variˆancia finita dada por
K
2
(1)
K
1
(1)
. Lembre-se que a
t-Student com 3 graus de liberdade ´e a t-Student com cauda mais pesada e
variˆancia bem definida.
No gr´afico (1.1) apresentamos a densidade e a log-densidade da dis-
tribui¸ao normal, t-Student e hiperb´olica generalizada. Note que enquanto
a fun¸ao log-densidade da normal padr˜ao tem a forma de uma par´abola, a
log-densidade para a GHD(1,1,0,1,0) tem a forma de uma hip´erbole, o que
originou seu nome.
2
O termo caudas semi-pesadas indica que a densidade se comporta da seguinte forma
quando y ±∞:
f(y; λ, α, β, δ, µ) |y|
λ1
exp{(α + β)y}
Para detalhes veja Barndorff-Nielsen e Blæsild (1981), equa¸ao 15.
10
.
Figura 1.1: Densidade e log-densidade: Normal(0,1); t-Student(3);
GHD(1,1,0,1,0)
Os dom´ınios de varia¸ao dos parˆametros do modelo ao mostrados na
tabela (1.1).
Parˆametro Fun¸ao Dom´ınio
λ subclasses/caudas pesadas
α forma
+
β assimetria (α, α)
δ escala
+
µ loca¸ao
Tabela 1.1: Descri¸ao dos parˆametros da Distribui¸ao Hiperb´olica General-
izada.
Os parˆametros δ e µ ao respons´aveis pela escala e loca¸ao, respectiva-
mente. Como visto na se¸ao anterior, atrav´es de uma reparametriza¸ao obte-
mos um modelo de loca¸ao e escala. O parˆametro λ ´e respons´avel pelo peso
das caudas e pelas subclasses da distribui¸ao. Quanto maior esse parˆametro
11
mais pesada ´e a cauda. O parˆametro β ´e respons´avel pela assimetria da
distribui¸ao, para β = 0 temos uma distribui¸ao sim´etrica em torno de µ e
quanto maior o valor de |β| mais assim´etrica ´e a distribui¸ao. Para valores
positivos de β temos assimetria `a direita e para valores negativos de β temos
assimetria `a esquerda. Essas propriedades ao ilustradas na figura (1.2).
−2 0 2 4 6
0.0 0.2 0.4 0.6 0.8
y
densidade
λ = 2
λ = 1
λ = 0
λ = 1
λ = 2
−2 0 2 4 6
0.0 0.2 0.4 0.6
y
densidade
α = 0.1
α = 0.5
α = 1
α = 2
α = 3
(a) Densidade GH(λ,2,0,1,2) (b) Densidade GH(1,α,0,1,2)
−15 −5 0 5 10 15 20
0.0 0.1 0.2 0.3 0.4
y
densidade
β = 1.8
β = 1.4
β = 0
β = 1.4
β = 1.8
−2 0 2 4 6
0.0 0.2 0.4 0.6 0.8
y
densidade
δ = 0.01
δ = 0.5
δ = 1
δ = 1.5
δ = 3
(c) Densidade GH(1,2,β,1,2) (d) Densidade GH(1,2,0,δ,2)
Figura 1.2: Varia¸ao dos parˆametros do modelo hiperb´olico generalizado.
12
1.3 Subclasses e distribui¸oes limite
Usando propriedades da fun¸ao Bessel pode-se obter subclasses da GHD.
Algumas propriedades ao apresentadas no apˆendice.
Defini¸ao 1.2 (Distribui¸ao Hiperb´olica) Para λ = 1 temos a subclasse
de distribui¸oes hiperb´olicas (HIP) com densidade dada por:
g(y; α , β, δ, µ) =
α
2
β
2
2αδK
1
(δ
α
2
β
2
)
exp
α
δ
2
+ (y µ)
2
+ β(y µ)
(1.3)
onde, y, µ , δ > 0 e |β| < α
Defini¸ao 1.3 (Distribui¸ao Normal Inversa Gaussiana) Para
λ = 0.5 temos a subclasse de distribui¸oes Normal Inversa Gaussiana
(NIG) com densidade dada por:
g(y; α , β, δ, µ) =
αδ
π
exp
δ
α
2
β
2
+ β(y µ)
K
1
(α
δ
2
+ (y µ)
2
)
δ
2
+ (y µ)
2
(1.4)
onde, y, µ , δ > 0 e |β| α
As subclasses acima ao obtidas utilizando a seguinte propriedade:
K
1/2
(x) = K
1/2
(x) =
π
2
x
1/2
e
x
.
A distribui¸ao Normal Inversa Gaussiana pode aproximar a maioria das
Distribui¸oes Hiperb´olicas de maneira bastante eficiente. Al´em disso, pode
descrever observoes com um comportamento de cauda consideravelmente
pesado. Outras subclasses de interesse ao a Distribui¸ao Hip´erbola, obtida
quando λ = 0 e a Distribui¸ao Hiperbol´oide, obtida quando λ = 0.5.
13
Muitas distribui¸oes ao obtidas como limite da GHD, tais como a Nor-
mal, a t-Student, a Normal Rec´ıproca Inversa Gaussiana, a Gama Variˆancia,
a Inversa Gaussiana Generalizada e a Laplace Assim´etrica.
Defini¸ao 1.4 (Distribui¸ao Normal) A distribui¸ao Normal resulta como
um caso limite da GHD para δ e δ σ
2
.
Proposi¸ao 1.4 (Distribui¸ao t-Student) A distribui¸ao t-Student resulta
de uma mistura da normal com a distribui¸ao gama inversa. A t-St(η, µ, σ
2
)
´e obtida para λ = η/2, α = β = 0 e δ
2
= ησ
2
.
Prova:
A distribui¸ao Hiperb´olica Generalizada ´e expressa atraes de uma mis-
tura por (1.2) que pode ser escrita como:
f(y; λ, α, β, δ, µ) =
0
(2πw)
1/2
exp
1
2w
[y (µ + βw)]
2
× c(λ,
α
2
β
2
, δ)w
λ1
exp
1
2
[w
1
δ
2
+ w(α
2
β
2
)]
dw,
onde c(λ,
α
2
β
2
, δ) =
(α
2
β
2
)
λ/2
2δ
λ
K
λ
(δ
α
2
β
2
)
Das propriedades da fun¸ao Bessel temos que K
λ
(x) Γ(λ)2
λ1
x
λ
,
quando x 0 e tamem K
λ
(x) = K
λ
(x). Dessa forma, para α β temos
que c(λ,
α
2
β
2
, δ) se reduz a
2
λ
δ
2λ
Γ(λ)
Para β 0 temos:
f(y; λ, δ, µ) =
2
λ
2πδ
2λ
Γ(λ)
0
w
(λ1/2)1
exp
1
w
δ
2
+ (y µ)
2
2

dw
=
Γ(λ + 1/2)
πδ
2λ
Γ(λ)
δ
2
+ (y µ)
2
(λ+1/2)
14
Fazendo λ =
η
2
e δ
2
= ησ
2
obtemos:
f(y; ν, µ ) =
Γ
η+1
2
η
η/2
πσ
2
Γ
η
2
η +
y µ
σ
2
(
η+1
2
)
, y
Resultando na t-St(η, µ, σ
2
).
Uma outra maneira de obter a t-Student ´e utilizando λ = η/2, α β
e µ = 0. Neste caso, obtemos a t-St(η, 0, δ
2
). A t-Student ao central
3
ao
resulta como caso limite ou particular da distribui¸ao Hiperb´olica Genera-
lizada. Isso ocorre porque a t-Student ao central ´e uma mistura somente na
variˆancia com edia constante, enquanto a GHD ´e uma mistura na edia e
na variˆancia.
Defini¸ao 1.5 (Distribui¸ao GIG) A distribui¸ao Inversa Gaussiana Ge-
neralizada resulta como um caso limite da GH quando αδ
2
τ, α β =
ψ
2
e µ = 0. Obtemos ent˜ao a GIG(λ, ψ, τ).
1.4 Momentos
Proposi¸ao 1.5 (Fun¸ao Geradora de Momentos) A fun¸ao geradora
de momentos da GHD ´e dada por:
M(t) = e
µt
α
2
β
2
α
2
(β + t)
2
λ/2
K
λ
(δ
α
2
(β + t)
2
)
δ
α
2
β
2
)
, |β + t| < α (1.5)
3
A densidade da t ao central ´e dada por:
f(x) =
η
η/2
Γ(η + 1)
2
η
e
λ
2
/2Γ(η /2)
(η + x
2
)
η/ 2
2λxF
η
2
+ 1;
3
2
;
λ
2
x
2
2(η+x
2
)
(η + x
2
((η + 1)/2)
+
F
η+1
2
;
1
2
;
λ
2
x
2
2(η+ x
2
)
η + x
2
Γ (η/2 + 1)
,
onde F (a; b; z) = 1 +
a
b
z +
a(a+1)
b(b+1)
z
2
2!
+
a(a+1)(a+2)
b(b+1)(b+2)
z
3
3!
+ ···
15
Prova:
M(t) = E
e
ty
=
−∞
f(y; λ, α, β, δ, µ) e
ty
dy
=
−∞
a(λ, α, β, δ)(δ
2
+(yµ)
2
)
(λ0.5)/2
K
λ0.5
α
δ
2
+ (y µ)
2
e
{β(yµ)+ty}
dy
= a(λ, α, β, δ)e
µt
−∞
(δ
2
+(yµ)
2
)
(λ0.5)/2
K
λ0.5
α
δ
2
+ (y µ)
2
e
{(β+t)(yµ)}
dy
= e
µt
a(λ, α, β, δ)
a(λ, α, β + t, δ)
= e
µt
α
2
β
2
α
2
(β + t)
2
λ/2
K
λ
(δ
α
2
(β + t)
2
)
K
λ
(δ
α
2
β
2
)
, |β+t| < α
Podemos calcular a m´edia e a variˆancia da GHD atrav´es das derivadas
da fun¸ao de momentos.
Corol´ario 1.1 (M´edia da GHD) A distribui¸ao hiperb´olica generalizada
tem a seguinte m´edia:
E[Y ] = µ +
βδ
2
ρ
K
λ+1
(ρ)
K
λ
(ρ)
(1.6)
onde ρ = δ
α
2
β
2
.
Note que para β = 0 temos uma distribui¸ao sim´etrica em torno de µ.
Prova:
M
(t) =
(α
2
β
2
)
λ/2
K
λ
δ
α
2
β
2
e
µt
K
λ
δ
α
2
(β + t)
2
(α
2
(β + t)
2
)
λ/2
Usando propriedade K
λ
(x) =
x
K
λ
(x) =
λ
x
K
λ
(x) K
λ+1
obtemos:
M
(t) =
(α
2
β
2
)
λ/2
K
λ
δ
α
2
β
2
e
µt
µK
λ
δ
α
2
(β + t)
2
(α
2
(β + t)
2
)
λ/2
+
(β + t)δK
λ+1
δ
α
2
(β + t)
2
(α
2
(β + t)
2
)
(λ+1)/2
M
(0) = µ +
βδ
α
2
β
2
K
λ+1
δ
α
2
β
2
K
λ
δ
α
2
β
2
16
Corol´ario 1.2 (Variˆancia da GHD) A distribui¸ao hiperb´olica generalizada
tem a seguinte variˆancia:
V ar[Y ] = δ
2
K
λ+1
(ρ)
ρK
λ
(ρ)
+
β
2
δ
2
ρ
2
K
λ+2
(ρ)
K
λ
(ρ)
K
λ+1
(ρ)
K
λ
(ρ)
2
(1.7)
onde ρ = δ
α
2
β
2
.
Prova:
M

(t) = µM
(t)+
(α
2
β
2
)
λ/2
K
λ
(ρ)
e
µt
µ
K
λ
δ
α
2
(β+t)
2
(α
2
(β+t)
2
)
λ/2
+ δ
(β+t)K
λ+1
δ
α
2
(β+t)
2
(α
2
(β+t)
2
)
(λ+1)/2
K
λ
δ
α
2
(β+t)
2
(α
2
(β+t)
2
)
λ/2
=
δ(β+t)K
λ+1
(δ
α
2
(β+t)
2
)
(α
2
(β+t)
2
)
(λ+1)/2
(β+t)K
λ+1
δ
α
2
(β+t)
2
(α
2
(β+t)
2
)
(λ+1)/2
=
K
λ+1
δ
α
2
(β+t)
2
(α
2
(β+t)
2
)
(λ+1)/2
(β+t)
2
δK
λ+2
δ
α
2
(β+t)
2
(α
2
(β+t)
2
)
(λ+2)/2
Dessa forma, obtemos o 2
o
momento da distribui¸ao:
E[Y
2
] = M

(0) = µE[Y ] +
µδβK
λ+1
(ρ)
α
2
β
2
K
λ
(ρ)
+
δK
λ+1
(ρ)
α
2
β
2
K
λ
(ρ)
+
δ
2
β
2
K
λ+2
(ρ)
(α
2
β
2
)K
λ
(ρ)
V ar(Y ) = E[Y
2
] (E[Y ])
2
=
µE[Y ] +
µδβK
λ+1
(ρ)
α
2
β
2
K
λ
(ρ)
+
δK
λ+1
(ρ)
α
2
β
2
K
λ
(ρ)
+
δ
2
β
2
K
λ+2
(ρ)
(α
2
β
2
)K
λ
(ρ)
µE[X] +
βδµK
λ+1
(ρ)
α
2
β
2
K
λ
(ρ)
+
β
2
δ
2
(K
λ+1
(ρ))
2
(α
2
β
2
)(K
λ
(ρ))
2
= δ
2
K
λ+1
(ρ)
ρK
λ
(ρ)
+
β
2
α
2
β
2
K
λ+2
(ρ)
K
λ
(ρ)
K
λ+1
(ρ)
K
λ
(ρ)
2

1.5 Sum´ario da disserta¸ao
No cap´ıtulo 2, ao apresentados os procedimentos de inferˆencia sobre o mo-
delo hiperb´olico generalizado. Para isso, descreve-se alguma teoria para a
17
obten¸ao de estimadores de axima verossimilhan¸ca e da priori de Jeffreys.
Al´em disso, apresentamos alguns conceitos asicos relacionados a prioris ao
informativas.
No Cap´ıtulo 3, temos inferˆencia em modelos t-Student, onde desenvolve-
se a priori de Jeffreys para o modelo e apresenta-se um estudo simulado.
O estudo simulado inclui uma an´alise frequentista de estimadores pontuais
Bayesianos (m´edia e mediana a posteriori) com objetivo de comparar esses
estimadores com o estimador de axima verossimilhan¸ca.
No cap´ıtulo 4, apresentamos an´alise de regress˜ao utilizando erros t-
Student. Neste cap´ıtulo ´e realizado um estudo simulado com o objetivo de
comparar a priori desenvolvida com outras prioris propostas na literatura.
No Cap´ıtulo 5, ´e feita inferˆencia em modelos hiperb´olicos. Desenvolve-
se a priori de Jeffreys para o modelo e apresenta-se aplica¸oes: uma utilizando
dados gerados artificialmente e outra utilizando dados reais. ao feitas com-
para¸oes com estimadores de axima verossimilhan¸ca obtidos por alguns
m´etodos de maximiza¸ao.
No Cap´ıtulo 6, temos inferˆencia para o modelo geral. Desenvolve-se a
priori de Jeffreys para o modelo e apresenta-se uma aplica¸ao a dados gerados
artificialmente.
No Cap´ıtulo 7, ser˜ao apresentadas as conclus˜oes da disserta¸ao e algu-
mas propostas para trabalhos futuros.
18
Cap´ıtulo 2
Inferˆencia
Neste cap´ıtulo abordamos a inferˆencia sobre modelos hiperb´olicos generaliza-
dos. Como dito anteriormente, problemas ao encontrados na estima¸ao dos
parˆametros desse modelo. Os problemas ao tanto num´ericos como te´oricos.
Inicialmente mostra-se alguns problemas na obten¸ao de estimadores de axima
verossimilhan¸ca para o modelo hiperb´olico generalizado. A seguir apresenta-
se algumas quest˜oes relevantes no tratamento de dados utilizando este modelo
sob o ponto de vista bayesiano.
2.1 Estima¸c˜ao por axima Verossimilhan¸ca
Defini¸ao 2.1 Considere Y = (Y
1
, ..., Y
n
) independentes e identicamente
distribu´ıdos com densidade p(y|θ). O estimador de axima verossimilhan¸ca
(EMV) de θ ´e o valor
ˆ
θ Θ que maximiza L(θ; y) =
n
i=1
p(y
i
|θ).
19
Maximizar L(θ; y) ´e equivalente a maximizar l(θ; y) = log(L(θ; y)). O
EMV ´e obtido encontrando os zeros das equa¸oes de verossimilhan¸ca que ao
dadas por
θ
l(θ; y).
Considere Y
1
, ..., Y
n
observoes independentes e identicamente distribu´ı-
das da GHD com parˆametros λ, α, β, δ e µ.
Defini¸ao 2.2 A fun¸ao log-verossimilhan¸ca para o modelo hiperb´olico ge-
neralizado ´e dada por:
l ( λ, α, β, δ, µ; y) = n log(a(λ, α, β, δ, µ)) + (λ 0.5)
n
i=1
l og(δ
2
+ (y
i
µ)
2
) +
n
i=1
log(K
λ0.5
α
δ
2
+ (y
i
µ)
2
+ β
n
i=1
(y
i
µ) (2.1)
onde λ, µ , δ > 0 e |β| < α
As equa¸oes de verossimilhan¸ca ao mostradas numa forma especial que
ser´a ´util mais a frente.
Proposi¸ao 2.1 (Equa¸oes de verossimilhan¸ca) Defina k
λ
(x) =
λ
K
λ
(x),
R
λ
(x) =
K
λ+1
(x)
K
λ
(x)
. As equa¸oes de verossimilhan¸ca para o modelo hiperb´olico
generalizado ao dadas por:
λ
l =
N
i=1
k
λ0.5
(ϑ
i
)
K
λ0.5
(ϑ
i
)
+ ln(ϑ
i
) E
k
λ0.5
(ϑ
i
)
K
λ0.5
(ϑ
i
)
+ ln(ϑ
i
)

α
l =
1
α
N
i=1
{ϑ
i
R
λ0.5
(ϑ
i
) E[ϑ
i
R
λ0.5
(ϑ
i
)]}
β
l =
N
i=1
{y
i
E[y
i
]}
δ
l = α
2
δ
N
i=1
1
ϑ
i
1
R
λ1.5
(ϑ
i
)
E
1
ϑ
i
1
R
λ1.5
(ϑ
i
)

µ
l = α
2
N
i=1
y
i
µ
ϑ
i
1
R
λ1.5
(ϑ
i
)
E
y
i
µ
ϑ
i
1
R
λ1.5
(ϑ
i
)

Onde ρ = δ
α
2
β
2
, ϑ
i
= α
δ
2
+ (y
i
µ)
2
. Para alculos utiliza-se
20
a propriedade: ln(K
λ
(x))
=
x
l n(K
λ
(x)) =
λ
x
R
λ
(x). As esperan¸cas acima
ao calculadas na distribui¸ao dos dados e ao dadas por:
E
k
λ0.5
(ϑ
i
)
K
λ0.5
(ϑ
i
)
+ ln(ϑ
i
)
=
k
λ
(ρ)
K
λ
(ρ)
ln(ρ) + 2ln(αδ)
E[ϑ
i
R
λ0.5
(ϑ
i
)] =
α
2
δ
2
ρ
R
λ
(ρ) 1
E[y
i
] =
βδ
2
ρ
R
λ
(ρ) + µ
E
1
ϑ
i
1
R
λ1.5
(ϑ
i
)
=
ρ
α
2
δ
2
R
λ
(ρ)
2
λ
E
y
i
µ
ϑ
i
1
R
λ1.5
(ϑ
i
)
=
β
α
2
Prova:
Para obter as equa¸oes de verossimilhan¸ca basta derivar 2.2, resultando
em:
λ
l =
N
i=1
k
λ0.5
(ϑ
i
)
K
λ0.5
(ϑ
i
)
+ ln(ϑ
i
)
k
λ
(ρ)
K
λ
(ρ)
ln(ρ) + 2ln(αδ)

α
l =
1
α
N
i=1
{ϑ
i
R
λ0.5
(ϑ
i
)
α
2
δ
2
ρ
R
λ
(ρ) 1
}
β
l =
N
i=1
y
i
βδ
2
ρ
R
λ
(ρ) + µ

δ
l = α
2
δ
N
i=1
1
ϑ
i
1
R
λ1.5
(ϑ
i
)
ρ
α
2
δ
2
R
λ
(ρ)
2
λ

µ
l = α
2
N
i=1
y
i
µ
ϑ
i
1
R
λ1.5
(ϑ
i
)
β
α
2

Seja θ = (λ, α, β, δ, µ). E
θ
j
l(θ)
= 0, j = 1, 2, ..., 5, prova em Migon
e Gamerman. Ent˜ao,
E
λ
l
=
N
i=1
E

k
λ0.5
(ϑ
i
)
K
λ0.5
(ϑ
i
)
+ ln(ϑ
i
)
k
λ
(ρ)
K
λ
(ρ)
ln(ρ) + 2ln(αδ)

=
N
i=1
E

k
λ0.5
(ϑ
i
)
K
λ0.5
(ϑ
i
)
+ ln(ϑ
i
)
N
k
λ
(ρ)
K
λ
(ρ)
ln(ρ) + 2ln(αδ)

= NE

k
λ0.5
(ϑ
i
)
K
λ0.5
(ϑ
i
)
+ ln(ϑ
i
)
N
k
λ
(ρ)
K
λ
(ρ)
ln(ρ) + 2ln(αδ)

= 0
21
Logo, E

k
λ0.5
(ϑ
i
)
K
λ0.5
(ϑ
i
)
+ ln(ϑ
i
)
=
k
λ
(ρ)
K
λ
(ρ)
ln(ρ) + 2ln(αδ)

. Os resul-
tados para os outros parˆametros ao obtidos analogamente.
Para β e µ os estimadores de axima verossimilhan¸ca ao obtidos di-
retamente das equa¸oes de verossimilhan¸ca. Para os outros parˆametros, ´e
necess´ario utilizar um m´etodo num´erico de maximiza¸ao da verossimilhan¸ca
perfilada. O fato da verossimilhan¸ca ter muitas dificuldades associadas torna
dif´ıcil a obten¸ao de etodos de maximiza¸ao que tragam resultados satis-
fat´orios. Isso ´e exemplificado nas figuras (2.1) e (2.2), referentes a verossimi-
lhan¸ca condicional
1
para o modelo HG(1,2,0,1,2) e uma amostra de tamanho
30.
Figura 2.1: Curva de contorno da verossimilhan¸ca condicional do modelo
GHD(λ, α, β, δ, µ) para λ, α = 2, β = 0, δ = 1, µ = 2 e N=30.
1
A verossimilhan¸ca condicional ´e dada por: l(θ
k
|θ
k
, y), onde θ
k
´e um subvetor de θ e
θ
k
´e o restante do vetor, por´em com os valores fixados no valor ”verdadeiro”do parˆametro.
22
Figura 2.2: Curva de contorno da verossimilhan¸ca condicional do modelo
GHD(λ, α, β, δ, µ) para λ, α = 2, β = 0, δ = 1, µ = 2 e N=30.
Observa-se que para algumas combina¸oes dos parˆametros a verossimi-
lhan¸ca condicional tende para uma constante diferente de zero, como por
exemplo quando α e δ . Isso acontece quando temos uma com-
bina¸ao de parˆametros que leva a um modelo limite. No exemplo anterior,
para α , δ e
α
δ
= σ
2
, temos como caso limite a distribui¸ao
N(µ, σ
2
), como definido em (1.4). Isso acontece para muitas combina¸oes
dos parˆametros, pois a GHD tem muitas distribui¸oes como modelos limites.
23
Para esses casos, temos que l(θ
) c, onde θ
´e um subconjunto do espa¸co
dos parˆametros que implica num modelo limite. Neste contexto, um pro-
cedimeto usual de maximiza¸ao da verossimilhan¸ca ao levar´a a resultados
adequados. Essas caracter´ısticas da verossimilhan¸ca sugerem que devemos
procurar uma maneira de calibrar a informa¸ao obtida dos dados. Uma
maneira de fazer isso ´e atraes da An´alise Bayesiana que permite, atraes da
distribui¸ao a priori, uma penaliza¸ao da fun¸ao de verossimilhan¸ca.
2.2 Inferˆencia Bayesiana
Ap´os a atribui¸ao de um modelo para os dados em estudo, uma quest˜ao
essencial envolve a especifica¸ao de densidades a priori para os parˆametros
do modelo.
2.2.1 Distribui¸ao a priori
A distribui¸ao a priori representa o conhecimento a respeito do parˆametro
de interesse antes de observar o conjunto de dados. A elicita¸ao de prioris
´e uma quest˜ao mais problem´atica pois envolve descrever cren¸cas por uma
forma matem´atica. Existem algumas maneiras de atribuir distribui¸oes a
priori tais como prioris subjetivas, conjugadas e ao-informativas.
Se algum conhecimento a respeito de θ est´a dispon´ıvel isto pode ser
usado para especificar a densidade a priori. Uma fam´ılia param´etrica de
densidades pode ser definida. Deve-se ser bastante cuidadoso ao selecionar
uma fam´ılia de distribui¸oes, pois ela deve realmente representar a informa¸ao
dispon´ıvel. Por exemplo, ao devemos atribuir probabilidade nula para um
24
evento se ao temos certeza que ele ´e imposs´ıvel.
A atribui¸ao de prioris conjugadas ´e uma maneira de proceder uma
an´alise Bayesiana simples (que ao exige integra¸oes) por´em pode ao ser
adequada em muitos casos.
Uma outra quest˜ao importante na atribui¸ao de distribui¸oes a priori ´e
que em alguns casos ´e complicado a atribui¸ao de prioris subjetivas ou deseja-
se encontrar uma maneira de representar cren¸cas individuais de forma que
essa informa¸ao seja m´ınima quando comparada com a informa¸ao fornecida
pelos dados. Neste contexto, temos as distribui¸oes a priori ao informativas
ou de referˆencia.
2.2.2 Prioris ao informativas
A id´eia da utiliza¸ao de prioris ao informativas ´e o desejo de fazer inferˆencia
estat´ıstica baseada no m´ınimo de informa¸ao subjetiva a priori quanto seja
poss´ıvel. Uma outra justificativa ´e a expectativa de que as evidˆencias vindas
do experimento sejam mais fortes que a priori.
Inicialmente, prioris uniformes foram propostas neste contexto. Para
Θ , p(θ) c significa que nenhum valor de θ ´e mais prov´avel (Bayes,
1763). Mas algumas dificuldades ao encontradas na utiliza¸ao desta priori.
Por exemplo, esta priori ´e impr´opria se o intervalo de defini¸ao do parˆametro
for ilimitado e ao ´e invariante a transforma¸oes um a um.
A classe de prioris ao informativas propostas por Jeffreys (1961) ´e
invariante a transforma¸oes um a um, mas tem a desvantagem de, em muitos
casos, levar a prioris impr´oprias.
25
Defini¸ao 2.3 (Priori de Jeffreys) Considere Y com fun¸ao de probabi-
lidade (densidade) p(y|θ). A priori ao informativa de Jeffreys ´e dada por:
p(θ) | I(θ)|
1/2
, θ Θ
k
(2.2)
onde I(θ) ´e a medida de Informa¸ao de Fisher esperada de θ em Y.
Entender e medir a informa¸ao contida nos dados ´e um aspecto muito
importante na atividade estat´ıstica. A medida mais comum de informa¸ao ´e
a medida de informa¸ao de Fisher.
Defini¸ao 2.4 (Informa¸ao de Fisher) Seja Y um vetor aleat´orio com
densidade p(y|θ). A medida de Informa¸ao de Fisher esperada de θ em Y ´e
definida por:
I(θ) = E
Y |θ
2
θ
T
θ
l og(p(y|θ))
(2.3)
onde I
ij
(θ) = E
Y |θ
2
θ
i
θ
j
l og(p(y|θ))
, i, j = 1, 2, ..., k
A medida de informa¸ao de Fisher definida dessa maneira est´a rela-
cionada com o valor edio da curvatura da verossimilhan¸ca. Quanto maior
essa curvatura, maior a informa¸ao contida na verossimilhan¸ca e maior ser´a
I(θ). A informa¸ao de Fisher observada ´e obtida quanto utilizamos a amostra
dispon´ıvel ao inv´es de tomar a esperan¸ca na distribui¸ao dos dados. Esta ´e
uma medida local de informa¸ao enquanto a informa¸ao esperada ´e uma
medida global.
Seja Y = (Y
1
, ..., Y
n
) uma cole¸ao de vari´aveis aleat´orias independentes
com distribui¸ao p
i
(y|θ). Seja I(θ) e I
i
(θ) a medida de informa¸ao de Fisher
em Y e Y
i
, respectivamente. Enao,
I(θ) =
n
i=1
I
i
(θ) (2.4)
26
Defini¸ao 2.5 (Fun¸ao Escore) A fun¸ao escore de Y, denotada por U(Y ; θ)
´e definida por:
U(Y ; θ) =
θ
l og(p(y|θ))
Sob certas condi¸oes de regularidade
2
,
I(θ) = E
Y |θ
U(Y ; θ)U
T
(Y ; θ)
2.2.3 Distribui¸ao a posteriori
Dada a verossimilhan¸ca l(θ; y) e uma distribui¸ao a priori para o vetor de
parˆametros p(θ), para qualquer inferˆencia param´etrica ou decis˜ao a respeito
de θ o passo inicial ´e a obten¸ao da densidade a posteriori que ´e definida por:
Defini¸ao 2.6 (Distribui¸ao a posteriori) A distribui¸ao a posteriori de
θ ´e obtida utilizando o Teorema de Bayes, a verossimilhan¸ca l(θ; y) e a in-
forma¸ao a priori p(θ)
p(θ|y) =
l(θ; y)p(θ)
l(θ; y)p(θ)
(2.5)
E para obter informa¸oes sobre observoes futuras x geradas pelo modelo
param´etrico condicional a θ e y, o elemento fundamental ´e a densidade pre-
ditiva dada por:
p(x|y) =
p(x|θ)p(θ|y), xy|θ
2
As condi¸oes de regularidade ao basicamente: (i) a diferencia¸ao da fun¸ao de
verossimilhan¸ca pode ser feita em todo espa¸co do parˆametro; (ii) integra¸ao e diferen-
cia¸ao podem ser trocadas. Para maiores detalhes veja Migon e Gamerman (1999).
27
Para obten¸ao de densidades a posteriori e preditivas ´e necess´ario integrar
no dom´ınio de θ. E para obten¸ao de mais informa¸oes (momentos e quantis,
por exemplo) ´e necess´ario um n´umero ainda maior de integra¸oes. No caso
em que θ ´e univariado o problema de integra¸ao tem, em geral, acil solu¸ao.
Mas no caso em que θ tem k componentes o problema de integra¸ao pode
se tornar bastante complexo. Neste contexto, ecnicas de aproxima¸oes de
integrais ao necess´arias para implementa¸ao do m´etodo bayesiano. Uma
t´ecnica que facilita muito a inferˆencia Bayesiana ´e a simula¸ao estoastica,
particularmente, os M´etodos de Monte Carlo via Cadeias de Markov.
2.2.4 M´etodos de Monte Carlo
Um etodo bastante simples e de acil implementa¸ao quando o espa¸co de
parˆametros ao possui muitas dimens˜oes ´e o M´etodo de Reamostragem Pon-
derada.
M´etodo de reamostragem ponderada
Suponha que g(θ) seja a densidade da qual desejamos amostrar e que o
sabemos avaliar p(θ), onde:
g(θ) = cp(θ), para c > 0
Passo1: Escolha uma proposta q(.) que cubra p(.) pelo menos nas
caudas.
Passo2: Gera-se θ
1
, θ
2
, ..., θ
M
q(.)
Passo3: Calcula-se os pesos das amostras geradas w
i
=
p(θ
i
)
q(θ
i
)
28
Passo4: Padroniza-se os pesos w
i
=
w
i
M
j=1
w
j
Passo5: Reamostra-se θ
(1)
, θ
(2)
, ..., θ
(m)
a partir de (θ
1
, θ
2
, ..., θ
M
) com
probabilidades (w
1
, w
2
, ..., w
M
)
(θ
(1)
, θ
(2)
, ..., θ
(m)
) ´e uma amostra de g(θ). Observe que m pode ser
diferente de M.
M´etodo de MCMC
Algoritmo de Metropolis Hastings
O algoritmo de Metropolis Hastings se baseia em gera¸oes consecutivas
de uma cadeia de Markov cuja distribui¸ao limite ´e a distribui¸ao de interesse,
φ(ω). Assumindo que ω
(0)
´e o valor inicial da cadeia de Markov, o algoritmo
se desenvolve da seguinte forma:
I. No passo i, gera-se ω
prop
q(.|ω
(i1)
)
II. Posi¸ao final da cadeia em i:
ω
(i)
ω
prop
com probabilidade α
ω
(i)
ω
(i1)
com probabilidade 1 α
onde α = min{1,
φ(ω
prop
)q(ω
i1
|ω
prop
)
φ(ω
i1
)q(ω
prop
|ω
i1
)
}
III. Repita I e II at´e a convergˆencia da cadeia.
Algoritmo de Metropolis
O algoritmo de Metropolis ´e obtido como caso particular do Metropolis
29
Hastings quando a distribui¸ao proposta ´e centrada no valor do parˆametro
na itera¸ao anterior.
Amostrador de Gibbs
O algoritmo de Gibbs ´e obtido como caso particular do Metropolis Hast-
ings quando a distribui¸ao proposta ´e a distribui¸ao condicional completa do
parˆametro que est´a sendo gerado.
Convergˆencia das cadeias geradas
A convergˆencia da cadeia para a distribui¸ao limite ocorre quando o
n´umero de itera¸oes tende a infinito. Na pr´atica, o valor gerado ´e conside-
rado proveniente da distribui¸ao limite ap´os um n´umero (M
0
) suficientemente
grande de itera¸oes. Uma quest˜ao importante ´e qu˜ao grande deve ser M
0
.
Em geral, utilizam-se formas emp´ıricas de verifica¸ao da convergˆencia que
estudam as propriedades estat´ısticas das eries geradas. Entre as principais
t´ecnicas de verifica¸ao da convergˆencia temos:
(i) Trajet´oria de uma cadeia
Se o gr´afico da cadeia gerada ap´os um per´ıodo inicial apresenta o
mesmo comportamento qualitativo e quantitativo ent˜ao a indica¸ao de con-
vergˆencia.
(ii) Cadeias m´ultiplas
Podemos utilizar arias cadeias inicializadas em valores diferentes. A
convergˆencia ´e obtida quando todas as cadeias tem o mesmo comporta-
30
mento qualitativo e quantitativo. Gelman e Rubin (1992) prop˜oe um m´etodo
baseado em an´alise de variˆancia para verificar a similaridade entre as cadeias.
(iii) edias erg´odicas
Definimos
¯
θ
j
=
1
j
j
i=1
θ
(j)
, para j = 1, 2, 3, .... A sequˆencia (
¯
θ
j
) con-
verge quase que certamente para E[θ] quando j . Para mais detalhes
veja Geman e Geman (1984). Na pr´atica, podemos olhar o gr´afico das m´edias
erg´odicas da cadeia gerada e observar em que ponto a cadeia apresenta um
comportamento assint´otico.
(iv) An´alise esp ectral
Utiliza t´ecnicas de an´alise de eries temporais para verificar a con-
vergˆencia da cadeia. Geweke (1992) sugere uma estat´ıstica baseada na variˆancia
assinotica de estimadores para a edia da cadeia gerada. A estat´ıstica pro-
posta ´e comparada com valores da N(0,1).
31
Cap´ıtulo 3
Distribui¸c˜ao t-Student
Como visto anteriormente, a distribui¸ao t-Student com η graus de liber-
dade, parˆametro de loca¸ao µ e parˆametro de escala σ
2
´e obtida como um
caso particular da GHD com α = β = 0, λ =
η
2
e δ =
ησ. Neste
cap´ıtulo, desenvolve-se a priori de Jeffreys para um caso mais simples, o caso
t-St(η, 0, 1).
3.1 Priori de Jeffreys
Defini¸ao 3.1 Uma quantidade aleat´oria Y ´e dita ter distribui¸ao t-Student
com η graus de liberdade, locao µ e escala σ
2
quando possui densidade
p(y|η) = c(η, σ
2
)
η +
y µ
σ
2
(η+1)/2
, y (3.1)
onde c(η, σ
2
) =
Γ((η+1)/2)η
η/2
Γ(η/2)
πσ
2
32
Sejam Y
1
, ..., Y
n
n replica¸oes independentes de uma vari´avel aleat´oria
com fun¸ao de densidade (3.1), com µ = 0 e σ = 1. A nota¸ao utilizada ´e
t-St(η) para a t-St(η, 0, 1).
Defini¸ao 3.2 A fun¸ao log-verossimilhan¸ca para o modelo t-St(η) ´e dada
por:
l ( η; y) = log
Γ
(η + 1)
2

log
Γ
η
2

+
η
2
log(η)
(η + 1)
2
l og
η + y
2
,
(3.2)
onde η
+
As caudas da fun¸ao de verossimilhan¸ca associada ao modelo t-Student
ao tendem para zero quando η tende para infinito. Esse problema ´e e-
xemplificado no gr´afico (3.1) da verossimilhan¸ca para dois conjuntos de dados
de tamanho 50 gerado da t-St(9) e t-St(20), respectivamente. A constante
mostrada no gr´afico ´e o produto da densidade normal padr˜ao apresentada em
(3.3) que decorre do modelo limite obtido quando η . Alguns problemas
relacionados com a verossimilhan¸ca do modelo t-Student multivariado sob o
ponto de vista Bayesiano ao apresentados em Fernandez e Steel (1999). Em
seu trabalho Fernandez e Steel utilizam inferˆencia Bayesiana e reportam que
m´etodos de estima¸ao tais como axima verossimilhan¸ca e algoritmo EM
podem convergir para aximos locais. Para uma an´alise cl´assica, sugere-
se utiliza¸ao de m´etodos eficientes (Lehmann, 1983), verossimilhan¸ca agru-
pada (Beckman e Johnson, 1987) e verossimilhan¸ca modificada (Cheng e Iles,
1987).
Note que para o primeiro caso dependendo de onde o algoritmo de
maximiza¸ao da verossimilhan¸ca for inicializado este ao convergir´a para o
33
(a) Verossimilhan¸ca do modelo t-Student com η = 9 e valor da constante em (3.3).
(b) Verossimilhan¸ca do modelo t-Student com η = 20 e valor da constante em (3.3).
Figura 3.1: Fun¸ao de verossimilhan¸ca para uma amostra de tamanho 50
gerada da t-St(η).
aximo global. Para o segundo exemplo, ao a um aximo, invibializando
algoritmos de maximiza¸ao dessa fun¸ao.
Proposi¸ao 3.1 Se a priori utilizada para η no modelo t-St(η) for impr´opria
a posteriori tamb´em ser´a.
34
Prova:
Sabemos que se y|λ N(0, λ
1
) e λ Ga
η
2
,
η
2
enao, y t-St(η).
Fazendo η , temos que a distribui¸ao de λ se degenera no valor 1.
Resultando em y N(0, 1).
Dessa forma,
lim inf
η→∞
l(η; y) = c =
n
i=1
φ(y
i
), (3.3)
onde φ(.) ´e a densidade da normal padr˜ao.
Isso quer dizer que > 0 b tal que η > b implica |l(η; y) c| < .
Considere p(η) impr´opria, isto ´e,
0
p(η) = . Enao,
a
p(η) =
, a > 0.
Assim,
a
p(η)l(η; y) =
η
a
p(η)l(η; y) +
η
p(η)l(η; y), onde
η
> b.
Mas = (c )
η
p(η) <
η
p(η) < (c + )
η
p(η) =
Enao,
η
p(η)l(η; y) = que implica
a
p(η)l(η; y) = . Re-
sultando numa posteriori impr´opria.
Neste trabalho, propomos a utiliza¸ao da priori ao informativa de
Jeffreys, que leva em conta a curvatura da verossimilhan¸ca e utiliza essa
informa¸ao para atribuir pesos aos valores de η.
Proposi¸ao 3.2 A priori de Jeffreys associada ao modelo t-Student ´e dada
por:
p(η)
2 h(η) ψ
(2)
η + 1
2
+ ψ
(2)
η
2
2
η
1/2
(3.4)
onde ψ
(2)
(z) =
d
2
dz
2
log(Γ(z)) ´e a fun¸ao trigama de z e h(.) ´e uma esperan¸ca
35
tomada na distribui¸ao dos dados, definida por:
h(η) = E
Y
2
η + y
2
η + 1
(η + y
2
)
2
=
2
η + 1
η + 2
η(η + 3)
(3.5)
Prova:
Derivando duas vezes (3.2) obtemos:
N
4
ψ
(2)
η + 1
2
ψ
(2)
η
2
+
2
η
+
1
2
N
i=1
η + 1
(η + y
2
i
)
2
2
η + y
2
i
Calculando esperan¸cas na distribui¸ao dos dados (3.1):
E
y
1
(η + y
2
)
k
=
−∞
c(η, 1)[η + y
2
]
(η+2k+1)/2
dy,
onde c(η, 1) =
Γ((η+1)/2)
Γ(η/2)
η
η/2
π
.
Enao,
E
y
1
(η + y
2
)
k
=
c(η, 1)
c(η + 2k, η/(η + 2k))
η
η + 2k
(η+2k+1)/2
,
onde c(η + 2k, η/(η + 2k)) =
Γ((η+2k+1)/2)
Γ(η+2k/2)
(η+2k)
(η+2k)/2
η/(η+2k)π
.
Simplificando obtemos:
E
y
1
(η + y
2
)
k
=
Γ((η + 1)/2)
Γ(η/2)
Γ((η + 2k)/2)
Γ((η + 2k + 1)/2)
η
k
Para k=1
E
y
1
η + y
2
=
1
η + 1
Para k=2
E
y
1
(η + y
2
)
2
=
(η + 2)
(η + 3)(η + 1)η
Resultando em
E
Y
2
η + y
2
η + 1
(η + y
2
)
2
=
2
η + 1
η + 2
η(η + 3)
36
(a) Verossimilhan¸ca. (b) Priori. (c) Condicional completa.
Figura 3.2: Fun¸ao de verossimilhan¸ca, distribui¸ao a priori e condicional
completa para dados de tamanho N=50 gerados da t-St(15).
A figura (3.2) mostra a forma e o efeito da priori na forma da posteriori.
A priori obtida deve ser pr´opria, caso contr´ario a posteriori seria impr´opria,
como foi provado na proposi¸ao (3.1). Para mostrar que a priori obtida ´e
pr´opria basta que ela tenha a seguinte propriedade:
lim
η→∞
p(η) = O(η
k
), para k > 1
Proposi¸ao 3.3 As caudas de p(η) ao de ordem O(η
2
).
Prova:
A priori para η ´e dada por (3.4). Para provar o resultado basta mostrar
que ψ
(2)
η
2
+ ψ
(2)
η+1
2
+
4
η+1
2
η
2(η+2)
η(η+3)
possui ordem O(η
4
).
De Abramowitz e Stegun (1968) temos a ormula assint´otica:
ψ
(2)
η
2
2
η
+
2
η
2
+
4
3η
3
+
k=2
B
2k
2
η
2k+1
ψ
(2)
η + 1
2
2
η + 1
+
2
(η + 1)
2
+
4
3(η + 1)
3
+
k=2
B
2k
2
(η + 1)
2k+1
37
ψ
(2)
η
2
ψ
(2)
η + 1
2
+
4
η + 1
2
η
2(η + 2)
η(η + 3)
= 2A + B
A =
1
η
2
+
2
3η
3
+
1
η + 1
1
(η + 1)
2
2
3(η + 1)
3
η + 2
η(η + 3)
=
21η
3
+ 48η
2
+ 29η + 6
3η
3
(η + 1)
3
(η + 3)
= O(η
4
)
B =
k=2
B
2k
2
2k+1
1
η
2k+1
1
(η + 1)
2k+1
=
k=2
B
2k
2
2k+1
2k
η
2k+1
(η + 1)
2k+1
+ O(η
2k+1
)
=
k=2
B
2k
2
2k+1
O(η
2(k+1)
) + O(η
2k+1
)
= O(η
5
)
Logo, 2A+B ´e de ordem O (η
4
) que implica que p(η) tem caudas de
ordem O(η
2
).
3.2 Estudo simulado
Nesta se¸ao, ao apresentados os resultados de um estudo de simula¸ao uti-
lizando a priori de Jeffreys desenvolvida na se¸ao anterior. Foram gerados
conjuntos de dados artificiais com distribui¸ao t-St(η) para diferentes va-
lores de η (η = 1, 2, 4, 9, 15, 20). Foram utilizados tamb´em dois tamanhos
amostrais (N = 50, 250) para verificarmos o efeito que o tamanho do con-
junto de dados tem sobre a inferˆencia.
38
As amostras a posteriori do parˆametro η foram obtidas atrav´es do pro-
cedimento de reamostragem ponderada. Esse etodo foi utilizado por ser
de simples implementa¸ao quando o problema de estima¸ao ´e univariado.
A distribui¸ao proposta utilizada foi a U(0,500). As amostras geradas da
distribui¸ao a posteriori de η possuem tamanho 10000. Para cada cen´ario
(N, η) foram calculadas estimativas para as seguintes quantidades: m´edia a
posteriori (E[η|y]), desvio padr˜ao a posteriori (SD[η|y]), mediana a posteri-
ori (MED[η|y]) e quantis 0.025 e 0.975 a posteriori. Al´em disso, obteve-se
tamem o estimador de axima verossimilhan¸ca (ˆη). Este foi obtido por
maximiza¸ao num´erica atrav´es do etodo da bissec¸ao que utiliza a primeira
derivada e busca o aximo da fun¸ao num intervalo especificado (o intervalo
utilizado foi (0.1,300)). A tabela (3.1) cont´em o sum´ario dessas informa¸oes.
A figura (3.3) mostra uma amostra da posteriori de η obtida para dados de
tamanho N=50 gerados da t-St(9).
Figura 3.3: Amostra da posteriori de η para dados de tamanho N=50 gerados
da t-St(9), curva de densidade a posteriori exata e reta vertical em η = 9.
39
N η E[η|y] SD[η|y] MED[η|y] Q 0.025 Q 0.975 ˆη
50 1 1.2952 0.3033 1.2650 0.7889 1.9802 1.2851
2 1.7893 0.5001 1.676 1.0996 2.8862 1.7593
4 7.3701 7.6216 5.4078 2.5506 24.8976 6.3406
9 21.6500 27.3702 10.7848 2.9567 116.8921 18.1636
15 27.5333 36.6484 14.7018 3.5757 149.3739 300.0000
20 37.5899 43.2721 20.6881 5.3216 177.2996 300.0000
250 1 0.9453 0.0815 0.9458 0.7938 1.0929 1.2379
2 2.5038 0.3167 2.4648 1.9764 3.2478 2.5263
4 3.9773 0.6442 3.7935 2.7904 5.3930 3.7839
9 10.5724 5.9506 9.1788 5.1037 23.9685 9.3655
15 16.6966 16.6067 12.8446 5.8470 52.7890 12.9609
20 20.7400 20.6897 14.9660 6.6600 78.6246 15.9342
Tabela 3.1: Estat´ısticas descritivas das amostras a posteriori para o Modelo
t-Student(η) e estimadores de axima verossimilhan¸ca para N=50 e N=250.
A estimativa da mediana a posteriori est´a sempre bem pr´oxima do valor
verdadeiro de η quando N=50, enquanto o estimador de axima verossim-
ilhan¸ca tem um comportamento muito ruim, assumindo valores muito dis-
tantes do valor verdadeiro do parˆametro. Para N=250, a estimativa da edia
a posteriori se comporta melhor que a estimativa da mediana a posteriori,
a qual tem um comportamento similar ao estimador de axima verossimil-
han¸ca.
Observamos que para N=50 o estimador de axima verossimilhan¸ca
obtido para η pode assumir o limite superior do intervalo de busca do es-
timador quando η = 15, 20 indicando que este ao assume um valor finito.
40
O que sugere que a uma probabilidade positiva do estimador de axima
verossimilhan¸ca ser infinito, que depende de η e do tamanho do conjunto
de dados. Esse comp ortamanto do estimador de axima verossimilhan¸ca
se deve ao fato da verossimilhan¸ca de η possuir caudas muito pesadas que
tendem para uma constante diferente de zero. Como foi exemplificado na
figura (3.1). Ou seja, a uma probabilidade positiva do modelo selecionado
pelo etodo de axima verossimilhan¸ca ser o normal quando os dados foram
gerados do modelo t-Student.
Com o objetivo de estudar as propriedades frequentistas de alguns es-
timadores (m´edia a posteriori, mediana a posteriori e estimador de axima
verossimilhan¸ca), repetiu-se o procedimento de estima¸ao para 500 conjuntos
de dados. As amostras da distribui¸ao a posteriori de η possuem tamanho
1000. Os valores utilizados para η foram: 1, 2, 4, 9, 15, 18 e 20.
A tabela (3.2) apresenta a probabilidade estimada do estimador de
axima verossimilhan¸ca ser infinito ( P (ˆη = )), que ´e obtida pela pro-
por¸ao de vezes que a estimativa de axima verossimilhan¸ca encontrada
pelo m´etodo de estima¸ao foi maior que 80 no intervalo de busca (0.1,300).
ao calculados o vi´es e o erro quadr´atico m´edio do estimador da edia a
posteriori, do estimador da mediana a posteriori e do estimador de axima
verossimilhan¸ca. Essas quantidades foram calculadas condicionais ao esti-
mador de axima verossimilhan¸ca ser finito. Os resultados ao mostrados
no gr´afico (3.4). Para evitar o efeito da escala no gr´afico, mostramos o odulo
do vi´es dividido por η e a ra´ız quadrada do erro quadr´atico m´edio dividido
por η. Na tabela (3.3) temos a cobertura frequentista do intervalo de 95%
de credibilidade, que ´e calculada com base na propor¸ao de vezes que o valor
verdadeiro do parˆametro caiu dentro do intervalo.
41
η 1 2 4 9 15 18 20
N=50 0.000 0.000 0.038 0.234 0.370 0.402 0.434
N=250 0.000 0.000 0.000 0.014 0.114 0.150 0.196
Tabela 3.2: P (ˆη = ) para N=50 e N=250 para diferentes valores de η.
Podemos observar que a uma probabilidade bastante alta do estimador
de axima verossimilhan¸ca ao assumir um valor finito quando N = 50 a
para η igual a 4. Por exemplo, temos uma probabilidade de aproximadamente
23% que o modelo selecionado para os dados por axima verossimilhan¸ca
seja o normal quando os dados forem gerados de uma t-St(9). a para N=250,
essa probabilidade o ´e razoavelmente grande para η = 15.
η 1 2 4 9 15 18 20
N=50 0.92 0.94 0.96 0.96 0.98 0.98 0.97
N=250 0.96 0.96 0.95 0.95 0.96 0.98 0.97
Tabela 3.3: cobertura frequentista do intervalo de 95% de credibilidade para
N=50 e N=250.
A cobertura a posteriori obtida ´e aproximadamente a esperada, indi-
cando que a an´alise Bayesiana usando a priori proposta ´e bastante adequada
para o modelo t-Student.
A m´edia e a mediana a posteriori tem erro quadr´atico m´edio bem menor
que o estimador de axima verossimilhan¸ca. Entre esses dois estimadores,
a mediana quase sempres possui vi´es menor exceto para η 15 (N=50) e
η = 20 (N=250). Conclu´ımos que a mediana a posteriori deve ser utilizada
como estimador p ontual por ser bem mais est´avel que os outros estimadores.
42
(a) Vi´es para N=50. (b) EQM para N=50.
(c) Vi´es para N=250. (d) EQM para N=250.
Figura 3.4: Vi´es e erro quadr´atico m´edio condicionais para η =
1, 2, 4, 9, 15, 20 e N=50,250.
43
Cap´ıtulo 4
Modelos de Regress˜ao
t-Student
Um importante aspecto na an´alise de regress˜ao ´e o uso de distribui¸oes ao
gaussianas para a componente de erro. Em alguns casos, ´e necess´ario a
utiliza¸ao de distribui¸oes com caudas mais pesadas como a t-Student. O
primeiro trabalho nessa ´area ´e o de Zellner (1976), no qual examina-se as
consequˆencias de adotarmos a distribui¸ao t-Student multivariada em subs-
titui¸ao a normal multivariada. Extens˜oes ao consideradas em Osiewalski e
Steel (1993). Uma an´alise Bayesiana foi desenvolvida em Geweke (1993),
onde reporta-se que uma an´alise ao informativa pode ser complicada e
por esse motivo utiliza-se apenas prioris pr´oprias para os graus de liber-
dade. Branco et al (1998) aconselham a utiliza¸ao de prioris pr´oprias para
os parˆametros do modelo, caso contr´ario a posteriori encontrada pode ao
ser pr´opria. Neste trabalho, utilizamos an´alise Bayesiana ao-informativa de
Jeffreys para fazer inferˆencia sobre modelos lineares cuja componente de erro
44
ao vari´aveis aleat´orias independentes e com distribui¸ao t-Student. A dis-
tribui¸ao t-Student ´e um caso particular da GHD como mostrado em (3.1).
Neste cap´ıtulo tratamos do modelo t-St(η, µ, σ
2
), onde µ pode ser fun¸ao de
regressores.
4.1 Priori de Jeffreys
Considere observoes (x, y) onde x = (x
1
, . . . , x
N
)
T
´e uma matriz N × k de
k covari´aveis e y = (y
1
, . . . , y
N
)
T
´e um vetor N × 1.
Condicional aos x
i
s, os y
i
s ao independentes e possuem distribui¸ao
y
i
|x t-St(η, x
T
i
β, σ
2
), onde β = (β
1
, . . . , β
k
) ´e um vetor k ×1 de coeficientes,
η ´e o parˆametro dos graus de lib erdade e σ
2
´e o parˆametro de escala. Todos
os parˆametros ao considerados desconhecidos.
Defini¸ao 4.1 A fun¸ao log-verossimilhan¸ca para o modelo t-St(η, x
T
i
β, σ
2
)
´e dada por:
l(η, β, σ
2
; y) = N
ψ
η + 1
2
ψ
η
2
+
η
2
log(η) log(σ)
η + 1
2
N
i=1
l og
η +
y x
T
β
σ
2
,
onde ψ(x) = log(Γ(x)), η, σ
2
+
e β R
k
.
A verossimilhan¸ca apresenta problemas an´alogos aos citados no cap´ıtulo
3. A figura (4.1) ilustra alguns dos problemas. Observamos que para η ×σ a
verossimilhan¸ca condicional ao possui uma moda, o que torna a estima¸ao
por axima verossimilhan¸ca invi´avel. Zellner (1976) mostra que se os graus
45
de liberdade ao considerados desconhecidos o m´etodo de axima verossi-
milhan¸ca ao deve ser utilizado. Singh (1988) sugere a utiliza¸ao do m´etodo
dos momentos nesse caso.
(a) Verossimilhan¸ca para η e β
0
. (b) Verossimilhan¸ca para η e β
1
.
(c) Verossimilhan¸ca para η e σ. (d) Verossimilhan¸ca para β
0
e β
1
.
(e) Verossimilhan¸ca para β
0
e σ. (f) Verossimilhan¸ca para β
1
e σ.
Figura 4.1: Fun¸ao de verossimilhan¸ca condicional para uma amostra de
tamanho 30 gerada da t-St(η,x
T
β,σ
2
), onde η = 4, β = (2, 1)
T
e σ = 1.5. X
1
´e o vetor unit´ario e X
2
ao observoes da N(0,1).
46
Sugerimos a utiliza¸ao da priori ao informativa de Jeffreys para o
modelo. Para isso encontramos a matriz de informa¸ao de Fisher atrav´es da
2
a
derivada da fun¸ao log-verossimilhan¸ca.
Proposi¸ao 4.1 A matriz de informa¸ao de Fisher para θ = (η, σ
2
, µ) no
modelo de regress˜ao t-Student ´e dada por:
A
1
. .
A
2
A
3
.
0 0 A
4
A
1
=
N
4
2
2
η + 1
η + 2
η(η + 3)
ψ
(2)
η + 1
2
+ ψ
(2)
η
2
2
η
A
2
=
2N
σ
1
(η + 1)(η + 3)
A
3
=
2N
σ
2
η
η + 3
A
4
=
η + 1
σ
2
(η + 3)
N
i=1
X
i
X
T
i
Note que A
1
, A
2
e A
3
ao escalares enquanto A
4
´e uma matriz k × k.
Assim, 0 ´e k × 1 e M ´e bloco diagonal com dimens˜ao (k + 2) × (k + 2).
Prova:
(i) X t St(η, 0, 1) E[X
k
] = 0 se k ´ımpar e E[X
k
] =
η
k
Γ
(
1
2
+k
)
Γ
(
η
2
k
)
Γ
(
1
2
)
Γ
(
η
2
)
se
k para; Para maiores detalhes veja Wilks (1963) pp 185.
(ii) Y = µ + σX Y t St(η, µ, σ
2
) e E[Y
k
] = 0 se k ´ımpar e E[Y
k
] =
σ
k
E[X
k
] se k par;
47
(iii) E
y
η +
yµ
σ
2
k
=
Γ((η+1)/2)
Γ(η/2)
Γ((η+2k)/2)
Γ((η+2k+1)/2)
η
k
Considere c(η, σ
2
) =
Γ((η+1)/2)η
η/2
Γ(η/2)
πσ
2
como na defini¸ao (3.1).
E
y
η +
y µ
σ
2
k
=
−∞
c(η, 1)
η +
y µ
σ
2
(η +2 k+1)/2
dy
=
c(η, 1)
c(η + 2k, η/(η + 2k))
η
η + 2k
(η +2k+1)/2
=
Γ((η + 1)/2)
Γ(η/2)
Γ((η + 2k)/2)
Γ((η + 2k + 1)/2)
η
k
Para k=1 E
y
1
η+y
2
=
1
η+1
e para k=2 E
y
1
(η+y
2
)
2
=
(η+2)
(η+3)(η+1)η
.
(iv) E
y
(y µ)
q
η +
yµ
σ
2
1
=
1
η+1
E
y
[(yµ)
q
], y tSt
η + 2, µ, σ
2
η
η+2
E
y
(y µ)
q
η +
y µ
σ
2
1
=
−∞
(y µ)
q
c(η, 1)
η +
y µ
σ
2
(η +2+1) /2
dy
=
c(η, 1)
c(η + 2, η/(η + 2))
η
η + 2
(η +2+1) /2
E
y
[(y µ)
q
]
=
1
η + 1
E
y
[(y µ)
q
], y t St
η + 2, µ, σ
2
η
η + 2
(v) E
y
(y µ)
q
η +
yµ
σ
2
2
=
η+2
η(η+1)(η+3)
E
y
[(yµ)
q
], y tSt
η + 4, µ, σ
2
η
η+4
E
y
(y µ)
q
η +
y µ
σ
2
2
=
−∞
(y µ)
q
c(η, 1)
η +
y µ
σ
2
(η +4+1) /2
dy
=
c(η, 1)
c(η + 4, η/(η + 4))
η
η + 4
(η +4+1) /2
E
y
[(y µ)
q
]
=
(η + 2)
(η + 3)(η + 1)η
E
y
[(y µ)
q
], y t St
η + 4, µ, σ
2
η
η + 4
48
Calculando a derivada segunda da fun¸ao log verossimilhan¸ca (4.1)
obtemos:
2
η
2
l =
N
4
ψ
(2)
η + 1
2
ψ
(2)
η
2
+
2
η
+
1
2
N
i=1
η + 1
η +
yµ
σ
2
2
2
η +
yµ
σ
2
Por (iii) temos que E
y
2
η
2
l
=
N
4
+ψ
(2)
η+1
2
ψ
(2)
η
2
+
2
η
+ 2
η+2
η(η+3)
2
η+1

.
2
ησ
l =
1
σ
3
N
i=1
(y µ)
2
η +
yµ
σ
2
(η + 1)
(y µ)
2
η +
yµ
σ
2
2
Por (iv) e (v) temos que E
y
2
ησ
l
=
N
σ
2
(η+1)(η+3)
2
ηβ
l =
1
σ
2
N
i=1
(y µ)X
T
i
η +
yµ
σ
2
(η + 1)
(y µ)X
T
I
η +
yµ
σ
2
2
Por (iv) e (v) temos que E
y
2
ηβ
l
= 0
2
σ
2
l =
N
σ
2
η + 1
σ
2
N
i=1
3
σ
2
(y µ)
2
η +
yµ
σ
2
2
σ
2
(y µ)
4
η +
yµ
σ
2
2
Por (iv) e (v) temos que E
y
2
σ
2
l
=
N
σ
2
2η
η+3
49
2
σβ
l =
2(η + 1)
σ
2
N
i=1
1
σ
(y µ)X
T
i
η +
yµ
σ
2
1
σ
3
(y µ)
3
X
T
i
η +
yµ
σ
2
2
Por (iv) e (v) temos que E
y
2
σβ
l
= 0
2
ββ
T
l =
(η + 1)
σ
2
N
i=1
X
i
X
T
i
η +
yµ
σ
2
2
σ
2
(y µ)
2
X
i
X
T
i
η +
yµ
σ
2
2
Por (iv) e (v) temos que E
y
2
ββ
T
l
=
η+1
η+3
1
σ
2
N
i=1
X
i
X
T
i
Proposi¸ao 4.2 A priori de Jeffreys associada ao modelo de regress˜ao t-
Student ´e dada por:
p(η, β, δ) σ
(k+1)
η+1
η+3
k
2
η
η+3
1
2
ψ
(2)
(
η
2
)
ψ
(2)
(
η+1
2
)
2
(η
2
1)(η+3)+(η+1)
2
+4
η(η+1)
2
(η+3)
1
2
onde k ´e o umero de regressores.
Prova:
A matriz de informa¸ao de Fisher ´e mostrada na proposi¸ao (4.1). Essa
matriz ´e bloco diagonal implicando que o determinante de M ´e dado por
(A
1
A
3
A
2
2
) det(A
4
).
A
1
A
3
A
2
2
=
N
2
σ
2
η
η + 3
2
2
η + 1
η + 2
η(η + 3)
+ ψ
(2)
η
2
ψ
(2)
η + 1
2
2
η + 1
4N
2
σ
2
1
(η + 1)
2
(η + 3)
2
50
det(A
4
) =
1
σ
2
k
η + 1
η + 3
k
det
N
i=1
X
T
i
X
i
1
σ
2
k
η + 1
η + 3
k
Enao, o determinante da matriz de informa¸ao de Fisher ´e proporcional
a:
σ
2(k+1)
η + 1
η + 3
k
η
η + 3
k
ψ
(2)
η
2
ψ
(2)
η+1
2
2
(η
2
1)(η + 3) + (η + 1)
2
+ 4
η(η + 1)
2
(η + 3)
Segue o resultado.
A priori obtida ´e similar a proposta por Fernandez e Steel (1999) que
sugerem, para o caso univariado, p(β, σ) σ
(k+1)
e p(η) a distribui¸ao
exponecial com m´edia igual a 10. A priori de Jeffreys obtida aqui ´e dada
por: p(β, σ, η) = σ
(k+1)
p(η) onde p(η) tamem tem forma exponencial como
pode ser visto na figura (4.2). A priori de Jeffreys tem a vantagem de ser
totalmante ao informativa, ao contr´ario da priori proposta por Fernandez
que utiliza uma distribui¸ao a priori com edia 10.
O gr´afico (4.3) mostra como o problema encontrado na verossimilhan¸ca
fica resolvido para o conjunto de dados mostrado anteriormente quando uti-
lizamos a priori de Jeffreys.
4.2 Estudo simulado
Nesta se¸ao, ao apresentados os resultados de um estudo de simula¸ao uti-
lizando a priori de Jeffreys desenvolvida na se¸ao anterior. Inicialmente foram
gerados conjuntos de dados artificiais com distribui¸ao t-St(η,X
T
β,σ
2
) para
51
Figura 4.2: Priori marginal de η.
η = 4 e dois tamanhos amostrais (N = 30, 100). Foram utilizadas duas co-
vari´aveis: uma assumindo o valor 1 e outra uma gera¸ao aleat´oria da N(0,1).
As amostras a posteriori de
θ
= (
η, β, σ
) foram obtidas usando o etodo
de MCMC. A amostragem foi feita em blocos: (β) e (η, σ), pois ´e a com-
bina¸ao de maior correla¸ao dentro de cada bloco e menor correla¸ao entre
blocos. Por´em as distribui¸oes propostas utilizadas ao independentes:
β
(prop)
N
2
(β
(k)
, d
2
1
).
log(η
(prop)
) N(log(η
(k)
), d
2
2
) e log(σ
(prop)
) N(log(δ
(k)
, d
2
3
).
As probabilidades de aceita¸ao do algoritmo ao mostradas no apˆendice.
Foram geradas cadeias de tamanho 50000 (N=30) e tamanho 20000 (N=100).
A figura (5.4) mostra a m´edia erg´otica das cadeias geradas ao longo das
itera¸oes.
52
(a) Posteriori condicional para η e β
0
. (b) Posteriori condicional para η e β
1
.
(c) Posteriori condicional para η e σ. (d) Posteriori condicional para β
0
e β
1
.
(e) Posteriori condicional para β
0
e σ. (f) Posteriori condicional para β
1
e σ.
Figura 4.3: Curvas de contorno da distribui¸ao a posteriori dos parˆametros
de interesse para uma amostra de tamanho 30 gerada da t-St(η,x
T
β,σ
2
), onde
η = 4, β = (2, 1)
T
e σ = 1.5. X
1
´e o vetor unit´ario e X
2
ao observoes da
N(0,1).
A convergˆencia da cadeia foi verificada utilizando o crit´erio de Geweke.
Para N=30, a amostra a posteriori foi obtida usando um burn-in de 48000
itera¸oes. Para N = 100 utilizou-se um burn-in de 18000 itera¸oes. Para cada
53
(a) edia erg´otica da cadeia gerada para N=30.
(b) edia erg´otica da cadeia gerada para N=100.
Figura 4.4: M´edia erg´otica para cadeias geradas utilizando dados de tamanho
N e η = 4.
54
cen´ario (N, θ) foram calculadas estimativas para a edia a posteriori (E[θ|y]),
o desvio padr˜ao a posteriori (SD[θ|y]), a mediana a posteriori (MD[θ|y]) e
os quantis 0.025 e 0.975 a posteriori. A tabela (4.1) conem o sum´ario dos
resultados. A figura (4.5) mostra o histograma das amostras obtidas e reta
vertical no valor ”verdadeiro”do parˆametro.
(a) Histograma da amostra a posteriori para N=30.
(a) Histograma da amostra a posteriori para N=100.
Figura 4.5: Histograma da amostra a posteriori da distribui¸ao dos
parˆametros do modelo de regress˜ao t-Student para a priori de Jeffreys e
reta vertical no valor ”verdadeiro”do parˆametro.
55
N θ E[θ|y] SD[θ|y] MED[θ|y] q0.025 q0.975
30 η = 4 4.9332 3.1054 3.9707 1.3377 12.9398
σ = 1.5 1.6042 0.3559 1.5948 0.9382 2.3524
β
0
= 2 2.1965 0.3698 2.2298 1.4347 2.8902
β
1
= 1 0.916 0.3631 0.9156 0.2354 1.6332
100 η = 4 3.7 1.0732 3.5807 2.071 6.1376
σ = 1.5 1.2999 0.1622 1.2971 0.9942 1.6283
β
0
= 2 1.8428 0.1679 1.8588 1.5009 2.1495
β
1
= 1 0.9289 0.1688 0.932 0.5804 1.2801
Tabela 4.1: Estat´ısticas descritivas das amostras a posteriori para dados de
tamanho N=30 e N=100 utilizando a priori de Jeffreys para os parˆametros
do modelo de regress˜ao t-Student.
Note que a estimativa da mediana da distribi¸ao a posteriori de η est´a
muito pr´oxima do valor verdadeiro quando N=30. a para N=100 a m´edia ´e
uma estimativa mais adequada. Quando N cresce a variˆancia das estimativas
diminuem bastante. Com o objetivo de comparar a priori desenvolvida com
outras prioris utilizadas na literatura foi implementada uma das prioris pro-
postas por Geweke (1993) e a priori proposta por Fernandez e Steel (1999).
Geweke utiliza a seguinte priori:
p(β, σ) σ
1
e p(η) = λ exp{−λη}
Fernandez e Steel utilizam a priori:
p(β, σ) σ
(p+1)
e p(η) = 0.1 exp{−0.1η}
Para as duas propostas gerou-se sequˆencias de tamanho 20000 e a con-
vergˆencia foi verificada utilizando o crit´erio de Geweke. As amostras a pos-
teriori foram obtidas usando um burn-in de 18000 itera¸oes. Os resultados
56
obtidos para a proposta de Geweke utilizando λ = 1 ao mostrados na tabela
(4.2) e os resultados obtidos para a proposta de Fernandez e Steel ao mostra-
dos na tabela (4.3). As figura (4.6) e (4.7) mostram histogramas das amostras
obtidas e reta vertical no valor ”verdadeiro”do parˆametro para essas prioris.
N θ E[θ|y] SD[θ|y] MED[θ|y] q0.025 q0.975
30 η = 4 2.6969 1.066 2.4873 1.2158 5.2823
σ
2
= 1.5 1.5237 0.3485 1.5281 0.9133 2.3065
β
0
= 2 2.3478 0.3671 2.3643 1.5832 2.9957
β
1
= 1 0.9219 0.3302 0.9135 0.3102 1.5925
100 η = 4 3.0924 0.8355 2.972 1.7513 4.9768
σ
2
= 1.5 1.2839 0.165 1.2878 0.965 1.6342
β
0
= 2 1.85 0.1615 1.8544 1.5327 2.1782
β
1
= 1 0.9368 0.1605 0.9477 0.6212 1.2489
Tabela 4.2: Estat´ısticas descritivas das amostras a posteriori para dados de
tamanho N=30 e N=100 utilizando a priori proposta por Geweke.
N θ E[θ|y] SD[θ|y] MED[θ|y] q0.025 q0.975
30 η = 4 9.4653 4.4824 8.8922 2.8461 20.4477
σ
2
= 1.5 1.8042 0.3234 1.7904 1.1849 2.4793
β
0
= 2 2.1596 0.3812 2.1765 1.3532 2.9022
β
1
= 1 1.0492 0.3517 1.0455 0.3893 1.7798
100 η = 4 3.776 1.1572 3.4837 2.0196 6.1542
σ
2
= 1.5 1.3109 0.1662 1.3078 1.0068 1.6189
β
0
= 2 1.8468 0.1616 1.8435 1.5401 2.1919
β
1
= 1 0.9314 0.1627 0.9271 0.6208 1.2219
Tabela 4.3: Estat´ısticas descritivas das amostras a posteriori para dados de
tamanho N=30 e N=100 utilizando a priori proposta por Fernandez.
57
(a) Histograma da amostra a posteriori para N=30.
(a) Histograma da amostra a posteriori para N=100.
Figura 4.6: Histograma da amostra a posteriori da distribui¸ao dos
parˆametros do modelo de regress˜ao t-Student para a priori de Geweke e
reta vertical no valor ”verdadeiro”do parˆametro.
58
(a) Histograma da amostra a posteriori para N=30.
(a) Histograma da amostra a posteriori para N=100.
Figura 4.7: Histograma da amostra a posteriori da distribui¸ao dos
parˆametros do modelo de regress˜ao t-Student para a priori de Fernandez
e Steel e reta vertical no valor ”verdadeiro”do parˆametro.
59
As estimativas para η utilizando a priori de Geweke est˜ao distantes
do valor verdadeiro do parˆametro mesmo quando N cresce. a utilizando a
proposta de Fernandez e Steel, os resultados obtidos para N=100 ao bastante
bons, por´em para N=30 o valor da m´edia a posteriori ´e aproximadamente a
m´edia da priori.
Esses resultados dizem respeito a dois conjuntos de dados gerados da
t-St(4). Para comparar os resultados obtidos utilizando as trˆes prioris para
diferentes valores de η replicou-se o processo de estima¸ao 100 vezes e calculou-
se o vi´es e o erro quadr´atico edio dos estimadores da m´edia e mediana a
posteriori para η = (0.5, 1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25). Os resulta-
dos ao mostrados apenas para η por ser o parˆametro de maior interesse.
Para a priori proposta por Geweke utilizou-se trˆes valores de λ (0.05,0.2,1).
A figura (4.8) mostra o vi´es e o errro quadr´atico edio dos estimadores da
m´edia e mediana a posteriori usando as prioris de Jeffreys e Geweke. A
figura (4.10) mostra o vi´es e o erro quadr´atico edio dos estimadores da
m´edia e mediana a posteriori usando as prioris de Jeffreys e de Fernadez e
Steel. E finalmente, a figura (4.11) mostra a cobertura a posteriori da edia
e mediana.
60
(a) Fun¸ao do vi´es usando Jeffreys e Geweke.
(b) Fun¸ao do erro quadr´atico m´edio usando Jeffreys e Geweke.
Figura 4.8: Vi´es e erro quadr´atico edio de alguns estimadores pontuais
obtidos utilizando a priori de Jeffreys e a priori proposta por Geweke.
O vies e o erro quadr´atico m´edio dos estimadores obtidos utilizando a
priori de Geweke com λ = 0.05 ao muito grandes para η < 5. Para obser-
varmos melhor o comportamento dos outros estimadores os gr´aficos foram
refeitos sem essas quantidades.
61
(a) Fun¸ao do vi´es usando Jeffreys e Geweke.
(b) Fun¸ao do erro quadr´atico m´edio usando Jeffreys e Geweke.
Figura 4.9: Vi´es e erro quadr´atico edio de alguns estimadores pontuais
obtidos utilizando a priori de Jeffreys e a priori proposta por Geweke (exceto
para λ = 0.05).
Para η 5 a mediana utilizando Jeffreys o ´e pior (em termos do eqm)
que os estimadores obtidos utilizando Geweke com λ = 1, por´em o eqm desses
estimadores se torna muito grande quando η cresce. Para η > 5 a mediana
utilizando Jeffreys o ´e pior (em termos do eqm) que os estimadores obtidos
utilizando Geweke com λ = 0.02, por´em o eqm desses estimadores ´e muito
grande quando η 5 . A mediana a posteriori usando Jeffreys parece mais
est´avel que os outros estimadores.
62
(a) Fun¸ao do vi´es usando Jeffreys e Geweke.
(b) Fun¸ao do erro quadr´atico m´edio usando Jeffreys e Geweke.
Figura 4.10: Vi´es e erro quadr´atico edio de alguns estimadores pontuais
obtidos utilizando a priori de Jeffreys e a priori proposta por Fernandez e
Steel.
Novamente a mediana a posteriori obtida utilizando a priori de Jeffreys
parece mais est´avel que os outros estimadores.
63
Figura 4.11: Cobertura frequentista de alguns estimadores pontuais obtidos
utilizando a priori de Jeffreys, de Geweke e de Fernandez e Steel.
A cobertura frequentista do intervalo de 95% de credibilidade diminui
quando η cresce. A cobertura para Jeffreys e Fernandez-Steel se mat´em mais
pr´oximos de 0.95 que os outros estimadores.
64
Cap´ıtulo 5
Distribui¸c˜ao Hiperb´olica
Neste cap´ıtulo desenvolve-se a priori de Jeffreys para a subclasse hiperb´olica.
Como visto anteriormente, a distribui¸ao hiperb´olica ´e obtida como uma
subclasse da HG para λ = 1.
5.1 Priori de Jeffreys
Defini¸ao 5.1 Uma quantidade aleat´oria Y ´e dita ter distribui¸ao Hiperb´olica
com parˆametros α, β, δ e µ quando possui densidade
g(y; α , β, δ, µ) =
α
2
β
2
2αδK
1
(δ
α
2
β
2
)
exp
α
δ
2
+ (y µ)
2
+ β(y µ)
(5.1)
onde, y, µ , δ > 0 e |β| < α e K
1
(.) ´e a fun¸ao modificada de Bessel de
3
a
ordem com ´ındice 1.
Note que no caso da distribui¸ao hiperb´olica a ´unica fun¸ao de Bessel
presente na densidade ao depende dos dados, o que facilita a inferˆencia.
65
Sejam Y
1
, ..., Y
n
n replica¸oes independentes de uma vari´avel aleat´oria
com fun¸ao de densidade (5.1).
Defini¸ao 5.2 A fun¸ao de log-verossimilhan¸ca para o modelo hiperb´olico ´e
dada por:
l(α, β, δ, µ) = N
1
2
l og(α
2
β
2
) log(αδ) log
K
1
δ
α
2
β
2

α
N
i=1
δ
2
+ (y
i
µ)
2
+ β
N
i=1
(y
i
µ) + c (5.2)
onde, µ , δ > 0 e |β| < α
Defina ϑ
i
= α
δ
2
+ (y
i
µ)
2
, ρ = δ
α
2
β
2
, R
λ
(x) =
K
λ+1
(x)
K
λ
(x)
e
S
λ
(x) =
K
λ+2
(x)
K
λ
(x)
R
2
λ
(x).
Proposi¸ao 5.1 As equa¸oes de verossimilhan¸ca ao dadas por:
α
l =
1
α
N
i=1
{ϑ
i
E[ϑ
i
]}
β
l =
N
i
=1
{y
i
E[y
i
]}
δ
l = δα
2
N
i=1
1
ϑ
i
E
1
ϑ
i

µ
l = α
2
N
i=1

y
i
µ
ϑ
i
E
y
i
µ
ϑ
i

(5.3)
onde E[ϑ
i
] =
α
2
δ
2
ρ
R
1
(ρ) 1;
E[y
i
] =
βδ
2
ρ
R
1
(ρ) + µ;
E
1
ϑ
i
=
ρ
α
2
δ
2
R
1
(ρ)
2
ρ
=
ρ
α
2
δ
2
1
R
0
(ρ)
e
E
y
i
µ
ϑ
i
=
β
α
2
66
Prova:
A demonstra¸ao para o caso geral foi feita no cap´ıtulo 2, proposi¸ao
(2.1). Para o caso hiperb´olico basta tomar λ = 1 resultando em:
α
l =
1
α
N
i=1
ϑR
0.5
(ϑ)
αδ
2
ρ
R
1
(ρ)
β
l =
N
i=1
y
βδ
2
ρ
R
1
(ρ) µ
δ
l = α
2
δ
N
i=1
1
ϑR
0.5
(ϑ)
ρ
α
2
δ
2
R
1
(ρ)
2
ρ

µ
l = α
2
N
i=1
(y
i
µ)
ϑR
0.5
(ϑ)
β
α
2
Da defini¸ao 5 (apˆendice A) temos R
0.5
(ϑ) = 1 +
1
ϑ
e da defini¸ao 6
(apˆendice A) temos R
0.5
(ϑ) = 1, ent˜ao:
α
l =
1
α
N
i=1
ϑ + 1
αδ
2
ρ
R
1
(ρ)
β
l =
N
i=1
y
βδ
2
ρ
R
1
(ρ) µ
δ
l = α
2
δ
N
i=1
1
ϑ
ρ
α
2
δ
2
R
1
(ρ)
2
ρ

µ
l = α
2
N
i=1
(y
i
µ)
ϑ
β
α
2
ao encontrados alguns problemas associados a verossimilhan¸ca desse
modelo. Isso ocorre quando algumas combina¸oes de parˆametros levam a
distribui¸oes limites. Por exemplo, para δ e
α
δ
σ
2
temos o mo-
delo N(µ, σ
2
) como limite. Isso ´e exemplificado na figura (5.1) que mostra
a verossimilhan¸ca condicional de (α, δ) para um conjunto de dados com dis-
tribui¸ao H(2,0,1,2) e tamanho 100.
67
Figura 5.1: Fun¸ao de verossimilhan¸ca condicional de α e δ para o modelo
H(2,0,1,2).
Um m´etodo de maximiza¸ao da verossimilhan¸ca ao traria resultados
satisfat´orios. Isso ´e comprovado quando utilizamos alguns etodos de ma-
ximiza¸ao como o etodo de Newton, Quasi Newton e Nelder-Mead. Esses
m´etodos est˜ao dispon´ıveis atrav´es da fun¸ao fit.hyperb(.) do R que faz parte
da biblioteca de distribui¸oes hiperb´olicas desenvolvida por David Scott.
Essa biblioteca fornece uma cole¸ao de fun¸oes para trabalhar com a dis-
tribui¸ao hiperb´olica. A tabela (5.1) cont´em o sum´ario das informa¸oes.
Os resultados obtidos ao muito ruins. O m´etodo que se saiu melhor
foi o de Nelder e Mead que o encontrou valores muito grandes para α e δ.
Para evitar essas dificuldades sugere-se a utiliza¸ao da priori de Jeffreys para
esse modelo. Como um primeiro passo para o desenvolvimento da priori,
encontramos a matriz de Informa¸ao de Fisher.
68
θ Newton Q-Newton Nelder-Mead
α = 2 27.4663 21.1749 27.4605
β = 0 -0.4910 -13.4426 0.1944
δ = 1 25.6837 9.0368 25.6855
µ = 2 2.4747 9.5139 1.8321
Tabela 5.1: Estimativas de axima verossimilhan¸ca para dados da H(2,0,1,2)
com tamanho 100.
Proposi¸ao 5.2 A matriz de informa¸ao de Fisher (M) de θ = (α, β, δ, µ)
para o modelo hiperb´olico, E
θ
L
θ
L
T
, que ´e dada por:
M = N×
1
α
2
V (ϑ) . . .
1
α
COV (ϑ, y) V (y) . .
αδCOV
ϑ,
1
ϑ
α
2
δCOV
y,
1
ϑ
α
4
δ
2
V
1
ϑ
.
αCOV
ϑ,
y µ
ϑ
α
2
COV
y,
y µ
ϑ
α
4
δCOV
1
ϑ
,
y µ
ϑ
α
4
V
y µ
ϑ
Prova:
A primeira derivada da fun¸ao log-verossimilhan¸ca ´e dada na proposi¸ao
(5.3). Defina as seguintes vari´aveis e constantes:
Φ
1
(y) = ϑ; Φ
2
(y) = y; Φ
3
(y) =
1
ϑ
; Φ
4
(y) =
yµ
ϑ
c
1
=
1
α
, c
2
= 1, c
3
= δα
2
e c
4
= α
2
Dessa forma,
θ
i
l = c
i
{Φ
i
(y) E
i
(y)]}, enao:
69
E
θ
i
L
θ
j
L
T
= c
i
c
j
E {
i
(y) E
i
(y)])(Φ
j
(y) E
j
(y)])}
= c
i
c
j
COV {Φ
i
(y), Φ
j
(y)},
para i, j = 1, 2, 3, 4
Da´ı, M ´e dada por variˆancias e covariˆancias.
Proposi¸ao 5.3 A priori de Jeffreys associada a esse modelo ´e dada por:
p(α, β, δ, µ) |M|
1/2
(5.4)
As componentes da matriz ao calculadas sob a distribui¸ao dos dados e ao
dadas por:
V (ϑ) =
α
2
δ
2
ρ
2
α
2
δ
2
ρ
S
1
(ρ) R
1
(ρ)
1
COV (ϑ, y) =
α
2
βδ
4
ρ
2
S
1
(ρ)
COV
ϑ,
1
ϑ
= S
1
(ρ) + (
ρ
α
2
δ
2
2
ρ
)R
1
(ρ)
2
α
2
δ
2
COV
ϑ,
yµ
ϑ
=
β
α
2
V (y) = δ
2
R
1
(ρ)
ρ
+
β
2
δ
2
ρ
2
S
1
(ρ)
COV
y,
1
ϑ
=
β
α
2
S
1
(ρ)
2
ρ
R
1
(ρ)
COV
y,
yµ
ϑ
=
1
α
2
V
1
ϑ
=
1
α
4
δ
4
{α
4
δ
4
e
y
0
ρ
2
R
1
(ρ)
2
+ 4ρR
1
(ρ) 4}
COV
1
ϑ
,
yµ
ϑ
=
1
α
4
δ
2
{α
4
δ
2
(e
y
1
µe
y
0
) βρR
1
(ρ) + 2β}
V
yµ
ϑ
= e
y
2
2µe
y
1
+ µ
2
e
y
0
β
2
α
4
Observe que V
1
ϑ
, COV
1
ϑ
,
yµ
ϑ
e V
yµ
ϑ
dependem da fun¸ao e
y
k
,
que ´e calculada numericamente e ´e definida por:
e
y
k
= E
y
y
k
ϑ
2
, k = 0, 1, 2
70
Prova:
As componentes de M ao calculadas por:
COV {Φ
i
(y), Φ
j
(y)} = E{Φ
i
(y
j
(y)} E{Φ
i
(y)}E{Φ
j
(y)}
Temos que E{Φ
i
(y)} e E{Φ
j
(y)} a foram calculadas e ao mostradas
na proposi¸ao (5.1), basta calcular E{Φ
i
(y
j
(y)}.
Defina a
L
= a(L, α, β, δ), E
L
[y] e V
L
[y] como esperan¸ca e variˆancia na
distribui¸ao de y, para y GHD(L, α, β, δ).
E{Φ
1
(y)
2
} = E{ϑ
2
} = α
2
E{δ
2
+ (y µ)
2
} = α
2
{δ
2
+ E[(y µ)
2
]}
= α
2
δ
2
+ V AR(y) +
βδ
2
ρ
R
1
(ρ)
2
= α
2
δ
2
+ δ
2
R
λ
(ρ)
ρ
+
β
2
δ
2
S
1
(ρ)
ρ
2
+
βδ
2
ρ
R
1
(ρ)
2
= α
2
δ
2
1 +
R
1
(ρ)
ρ
+
β
2
δ
2
ρ
S
1
(ρ) +
β
2
δ
2
ρ
2
R
2
1
(ρ)
Utilizando propriedade 7 do apˆendice A obtemos V (ϑ).
E{Φ
1
(y
2
(y)} = E{ϑy} = α
−∞
a
1
e
β(yµ)
{δ
2
+ (y µ)
2
}
(20.5)/2
K
0.5
(ϑ)dy
Pela propriedade 2 apˆendice A temos que K
0.5
(ϑ) = K
20.5
(ϑ)
1
ϑ
K
10.5
(ϑ). Enao:
E{Φ
1
(y
2
(y)} = α
−∞
a
1
e
β(yµ)
{δ
2
+ (y µ)
2
}
(20.5)/2
K
20.5
(ϑ)dy
−∞
a
1
e
β(yµ)
{δ
2
+ (y µ)
2
}
(10.5)/2
K
10.5
(ϑ)dy
71
= α
a
1
a
2
E
2
[y] E
1
[y]
= α
2
δ
2
βδ
2
ρ
2
K
3
(ρ)
K
1
(ρ)
+
µ
ρ
R
1
(ρ)
E[y]
Utilizando defini¸ao 2 do apˆendice A e equa¸oes de verossimilhan¸ca
obtemos COV (ϑ, y).
E{Φ
1
(y
3
(y)} = E
ϑ
1
ϑ
= 1
Utilizando propriedade 7 do apˆendice A e equa¸oes de verossimilhan¸ca
obtemos COV
ϑ,
1
ϑ
.
E{Φ
1
(y
4
(y)} = E
ϑ
(y µ)
ϑ
= E[y] µ =
βδ
2
ρ
R
1
(ρ)
Utilizando equa¸oes de verossimilhan¸ca obtemos COV
ϑ,
yµ
ϑ
.
V {Φ
2
(y)} ´e definida em (1.7).
E{Φ
2
(y
3
(y)} = E
y
ϑ
=
1
α
−∞
ya
1
e
β(yµ)
{δ
2
+ (y µ)
2
}
(0.5)/2
K
0.5
(ϑ)dy
Pela propriedade 1 apˆendice A temos que K
0.5
(ϑ) = K
0.5
(ϑ). Enao:
E{Φ
2
(y
3
(y)} =
1
α
−∞
ya
1
e
β(yµ)
{δ
2
+ (y µ)
2
}
(0.5)/2
K
0.5
(ϑ)dy
=
1
α
a
1
a
0
E
0
[y]
=
β
α
+
µρ
α
2
δ
2
R
1
(ρ)
2
ρ
72
Utilizando propriedade 7 do apˆendice A e equa¸oes de verossimilhan¸ca
obtemos COV
y,
1
ϑ
.
E{Φ
2
(y
4
(y)} = E
y
2
µy
ϑ
=
=
1
α
−∞
(y
2
µy)a
1
e
β(yµ)
{δ
2
+ (y µ)
2
}
(0.5)/2
K
0.5
(ϑ)dy
Pela propriedade 1 apˆendice A temos que K
0.5
(ϑ) = K
0.5
(ϑ). Enao:
E{Φ
2
(y
4
(y)} =
1
α
−∞
(y
2
µy)a
1
e
β(yµ)
{δ
2
+ (y µ)
2
}
(0.5)/2
K
0.5
(ϑ)dy
=
1
α
a
1
a
0
(E
0
[y
2
] µE
0
[y]) =
1
α
a
1
a
0
(V
0
[y
2
] + E
2
0
[y] µE
0
[y])
=
1
α
2
1 +
β
2
δ
2
ρ
R
1
(ρ) + βµ
Utilizando equa¸oes de verossimilhan¸ca obtemos COV
y,
yµ
ϑ
.
E{Φ
2
3
(y)} = E
1
ϑ
2
= e
y
0
Utilizando equa¸oes de verossimilhan¸ca obtemos V
1
ϑ
, que depende
de e
y
0
.
E{Φ
3
(y
4
(y)} = E
y µ
ϑ
2
= e
y
1
µe
y
0
Utilizando equa¸oes de verossimilhan¸ca obtemos COV
1
ϑ
,
yµ
ϑ
, que
depende de e
y
0
e e
y
1
.
73
E{Φ
2
4
(y)} = E
(y µ)
2
ϑ
2
= e
y
2
2µe
y
1
+ µ
2
e
y
0
Utilizando equa¸oes de verossimilhan¸ca obtemos V
yµ
ϑ
, que depende
de e
y
0
, e
y
1
e e
y
2
.
O gr´afico (5.2) mostra como fica a distribui¸ao condicional completa
para os dados citados anteriormente quando utilizamos a priori de Jeffreys.
Figura 5.2: Curvas de contorno da distribui¸ao condicional completa de α e
δ para o modelo H(2,0,1,2).
74
5.2 Aplica¸c˜ao a dados simulados
Nesta se¸ao, a priori de Jeffreys desenvolvida ´e utilizado para inferir em
dados gerados artificialmente. Diferentemente do cap´ıtulo 3, aqui utilizamos
apenas alguns conjuntos de dados para estima¸ao e ao replicamos o processo
arias vezes. Foram gerados conjuntos de dados para os seguintes cen´arios:
N=30,100, θ = (2, 0, 1, 2). A figura (5.3) mostra um conjunto de dados de
tamanho 500 para θ = (2, 0, 1, 2).
Figura 5.3: Dados gerados artificialmente da DH(2,0,1,2).
As amostras a posteriori de θ foram obtidas usando o m´etodo de MCMC.
A amostragem foi feita em blocos: (α, δ) e (β, µ), pois ´e a combina¸ao de
maior correla¸ao dentro de cada bloco e menor correla¸ao entre blocos. Por´em
as distribui¸oes propostas utilizadas ao independentes:
µ
(prop)
N(µ
(k)
, d
2
1
) e β
(prop)
NT RUN
(α
(k)
(k)
)
(β
(k)
, d
2
2
).
75
α
(prop)
NT RUN
(|β
(k+1)
|,)
(α
(k)
, d
2
3
) e log(δ
(prop)
) N(log(δ
(k)
, d
2
4
).
As probabilidades de aceita¸ao ao mostradas no apˆendice. Foram ge-
radas cadeias de tamanho 20000 (N=30) e tamanho 10000 (N=100). A figura
(5.4) mostra a m´edia erg´odica das cadeias geradas ao longo das itera¸oes.
A convergˆencia da cadeia foi verificada utilizando o crit´erio de Geweke.
Para N=30, a amostra a posteriori foi obtida usando um burn-in de 5000
itera¸oes e tomou-se observoes de 15 em 15. Para N=100, a amostra a
posteriori foi obtida usando um burn-in de 4000 itera¸oes e tomou-se ob-
servoes de 1 em 1. Para cada cen´ario (N, θ) foram calculadas estimativas
para: a m´edia a posteriori (E[θ|y]), o desvio padr˜ao a posteriori (SD[θ|y]), a
mediana a posteriori (MD[θ|y]) e os quantis 0.025 e 0.975 a posteriori. Al´em
disso, obteve-se tamem o estimador de axima verossimilhan¸ca (
ˆ
θ). Este foi
obtido por maximiza¸ao num´erica utilizando trˆes m´etodos: o m´etodo Quasi-
Newton (Q-N), uma implementa¸ao do m´etodo desenvolvido por Nelder e
Mead (N-M) e o etodo de Newton Raphson (N). As tabelas (5.2) e (5.3)
conem o sum´ario dos resultados.
θ E[θ|y] SD[θ|y] MD[θ|y] q0.025 q0.975 N Q-N N-M
2 3.3365 0.8504 3.2712 1.9101 5.1896 176009.189 169.280 101.728
0 -1.1007 1.2496 -1.167 -3.4824 1.5104 -176006.251 -166.372 -98.710
1 0.7122 0.5392 0.5884 0.0466 1.9705 0.014 0.438 0.596
2 2.277 0.4684 2.4118 1.1588 2.9349 4.540 4.447 4.495
Tabela 5.2: Estat´ısticas descritivas das amostras a posteriori e estimadores
de axima verossimilhan¸ca para o Modelo H(2,0,1,2) e N=30.
Podemos notar que, para esses conjuntos de dados, os estimadores de
axima verossimilhan¸ca tˆem um comportamento anormal. a as estat´ısticas
76
(a) edia erg´odica da cadeia gerada para N=30.
(b) edia erg´odica da cadeia gerada para N=100.
Figura 5.4: edia erg´odica para cadeias geradas com tamanho 10000 uti-
lizando dados da DH(2,0,1,2) com tamanho N.
obtidas da amostra a posteriori do parˆametro θ indicam que a priori utilizada
soluciona o problema encontrado na verossimilhan¸ca. Todos os intervalos de
credibilidade conem o valor verdadeiro dos parˆametros e a edia e mediana
77
θ E[θ|y] SD[θ|y] MD[θ|y] q0.025 q0.975 N Q-N N-M
2 2.65 0.7068 2.5359 1.5189 4.1612 27.466 21.175 27.461
0 -0.2112 0.628 -0.1038 -1.6818 0.7574 -0.491 -13.443 0.194
1 1.8094 0.8131 1.7006 0.5284 3.7329 25.684 9.037 25.686
2 2.1994 0.564 2.1119 1.3081 3.4569 2.475 9.514 1.832
Tabela 5.3: Estat´ısticas descritivas das amostras a posteriori e estimadores
de axima verossimilhan¸ca para o Modelo H(2,0,1,2) e N=100.
est˜ao sempre bastante pr´oximas do valor ”verdadeiro”do parˆametro.
5.3 Aplica¸c˜ao a dados reais
O conjunto de dados utilizado diz respeito ao tamanho de pequenas pedras
do Rio Mamquam, British Columbia, Canad´a. Existem 16 classes de tama-
nhos das pedras. O tamanho ´e determinado passando o material atrav´es de
um medidor. Isso a o intervalo no qual cada pedra est´a. Tamanhos em
mil´ımetros ao ent˜ao convertidos em unidades de psi tomando o log na base
2 do tamanho. O ponto edio do intervalo ´e especificado em unidades de psi
e contagens ao dadas para cada intervalo. As classes ao de tamanho 0.5
unidades de psi. Tem-se 3574 observoes. Os dados ao obtidos em Rice e
Church (1996).
As estimativas de axima verossimilhan¸ca para os parˆametros do mod-
elo utilizando os etodos de Quasi-Newton, Nelder e Mead e Newton Raph-
son ao mostradas na tabela (5.4).
Note que as estimativas obtidas pelos trˆes m´etodos ao bem parecidas.
Por´em, o conjunto de dados ´e muito grande. Uma quest˜ao importante ´e o
78
Figura 5.5: Histograma da amostra a posteriori dos parˆametros dos modelo
H(2,0,1,2) para N=30 e reta vertical no valor ”verdadeiro”do parˆametro.
que aconteceria com esses m´etodos se a amostra fosse pequena. Para res-
ponder essa pergunta tomou-se um subconjunto do conjunto de dados (5.7).
Enao compara-se as estimativas obtidas por axima verossimilhan¸ca e as
estat´ısticas obtidas da amostra a posteriori da distribui¸ao dos parˆametros.
A subamostra ´e obtida utilizando a mesma frequˆencia relativa e tamanho
N=200 para o subconjunto. Para obter a amostra a posteriori utilizou-se uma
cadeia de tamanho 20000, um burn-in de 10000 observoes e observoes
79
Figura 5.6: Histograma da amostra a posteriori dos parˆametros dos modelo
H(2,0,1,2) para N=100 e reta vertical no valor ”verdadeiro”do parˆametro.
foram tomadas de 100 em 100, resultando numa amostra a posteriori de
tamanho 100. A convergˆencia foi verificada atrav´es do crit´erio de Geweke.
Na tabela (5.5) ao mostrados os resultados obtidos.
Observamos que os resultados obtidos da amostra a posteriori dos
parˆametros ao muito bons. A edia a posteriori obtida para um sub-
conjunto de dados de tamanho 200 est´a muito pr´oxima dos valores esti-
80
(a) Dados de tamanho 3574. (b) Dados de tamanho 200.
Figura 5.7: Tamanho de pequenas pedras no Rio Mamquam.
θ Newton Q-Newton Nelder-Mead
α 5.619 5.402 5.618
β -3.908 -3.706 -3.907
δ 2.340 2.325 2.340
µ 7.754 7.682 7.754
Tabela 5.4: Estimativas de axima verossimilhan¸ca para paraˆametros do
modelo H(α, β, δ, µ) para dados do Rio Mamquam.
mados por axima verossimilhan¸ca para um conjunto de dados de tamanho
3574, como pode ser visto na figura (5.8). Por outro lado, os estimadores de
axima verossimilhan¸ca utilizando dados de tamanho 200 foram muito ruins.
Com esse exemplo mostramos que a priori proposta permite a estima¸ao dos
parˆametros do modelo hiperb´olico mesmo para conjuntos de dados pequenos.
Isso pode ser ´util quando, por exemplo, for custoso de alguma forma coletar
dados.
81
θ E[θ|y] SD[θ|y] M D[θ|y] q0.025 q0.975 N Q-N N-M
α 4.0143 1.3364 3.7802 1.9358 6.7346 31446.898 44.691 63.980
β -2.6072 1.126 -2.4233 -5.0103 -1.0207 -31445.088 -42.916 -62.186
δ 1.917 0.8305 1.7831 0.8251 3.8229 0.048 1.201 1.032
µ 7.1863 0.5989 7.1576 6.2404 8.5026 10.071 9.694 9.827
Tabela 5.5: Estat´ısticas descritivas das amostras a posteriori e estimadores
de axima verossimilhan¸ca para o Modelo H(α, β, δ, µ ) para um subconjunto
de tamanho 200 dos dados do Rio Mamquam.
82
(a) Amostra a posteriori de α. (b) Amostra a posteriori de β.
(c) Amostra a posteriori de δ. (d) Amostra a posteriori de µ.
Figura 5.8: Histogramas da amostra a posteriori utilizando dados de tamanho
200. Retas verticais dos valores estimados por axima verossimilhan¸ca pelo
m´etodo de Quasi-Newton (reta amarela), Nelder-Mead (reta verde) e Newton
(reta vermelha) para dados de tamanho 3574. Obs: a reta referente ao
m´etodo de Nelder-Mead praticamente coincide com a reta do m´etodo de
Newton.
83
Cap´ıtulo 6
O caso geral
Um grande problema na inferˆencia sobre o modelo hiperb´olico generalizado
´e a estima¸ao do parˆametro de sub classe λ. Os problemas encontrados ao
tanto num´ericos como te´oricos. Prause (1999) sugere com um estudo de sim-
ula¸ao que somente para tamanhos de amostra grande a estimativa desse
parˆametro ´e razo´avel. Desses resultados ele conclui que pelo menos 250 ob-
servoes ao necess´arias para obten¸ao de um ajuste adequado. Uma outra
solu¸ao para esse problema seria considerar esse parˆametro fixo e utilizar al-
gum crit´erio de compara¸ao de modelos para escolher o mais adequado, pois
com a subclasse previamente escolhida os problemas num´ericos se reduzem
bastante. Neste cap´ıtulo propomos uma solu¸ao para o modelo geral que
produza resultados coerentes independente do tamanho da amostra e sem
que seja necess´ario fixar o parˆametro de subclasse.
84
6.1 A priori de Jeffreys
Sejam Y
1
, ..., Y
n
n replica¸oes independentes de uma vari´avel aleat´oria com
fun¸ao de densidade (??).
A fun¸ao de log-verossimilhan¸ca (2.2) e as equa¸oes de verossimilhan¸ca
foram definidas no cap´ıtulo 2 na proposi¸ao (2.1).
Para o modelo geral a um n´umero bastante grande de modelos limites,
tais como o Normal, t-Student e GIG. Isso implica que a verossimilhan¸ca
tende para uma constante para certas combina¸oes dos parˆametros dificul-
tando a estima¸ao utilizando maximiza¸ao da fun¸ao de verossimilhan¸ca.
Uma solu¸ao seria considerar subclasses e casos particulares e utilizar al-
gum crit´erio de compara¸ao para selecionar um dos modelos. Propomos a
utiliza¸ao da priori de Jeffreys para esse modelo. Para isso obtemos a ma-
triz de informa¸ao de Fisher utilizando E
θ
i
l(θ; y)
θ
j
l(θ; y)
T
, para
i, j = 1, 2, ..., 5 e θ = (λ, α, β, δ, µ).
Proposi¸ao 6.1 Defina ϑ = α
δ
2
+ (y µ)
2
e as seguintes vari´aveis: φ
1
=
φ
1
(y) =
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ ln(ϑ), φ
2
= φ
2
(y) = ϑR
λ0.5
, φ
3
= φ
3
(y) = y, φ
4
=
φ
4
(y) =
1
ϑ
1
R
λ1.5
(ϑ)
e φ
5
= φ
5
(y) =
yµ
ϑ
1
R
λ1.5
(ϑ)
. A matriz de informa¸ao
de Fisher (M) ´e dada por:
V (φ
1
) . . . .
1
α
C0V (φ
1
, φ
2
)
1
α
2
V (φ
2
) . . .
COV (φ
1
, φ
3
)
1
α
COV (φ
2
, φ
3
) V (φ
3
) . .
α
2
δCOV (φ
1
, φ
4
) αδCOV (φ
2
, φ
4
) α
2
δCOV (φ
3
, φ
4
) α
4
δ
2
V (φ
4
) .
α
2
COV (φ
1
, φ
5
) αCOV (φ
2
, φ
5
) α
2
COV (φ
3
, φ
5
) α
4
δCOV (φ
4
, φ
5
) α
4
V (φ
5
)
85
Prova:
θ
i
L = c
i
{Φ
i
(y) E
i
(y)]}, para i = 1, 2, 3, 4, 5.
c
1
= 1, c
2
=
1
α
, c
3
= 1, c
4
= δα
2
e c
5
= α
2
Enao, tomando a esperan¸ca obtemos:
E

θ
i
L
θ
j
L

= c
i
c
j
E {
i
(y) E
i
(y)])(Φ
j
(y) E
j
(y)])}
= c
i
c
j
COV {Φ
i
(y), Φ
j
(y)},
para i, j = 1, 2, 3, 4, 5
Da´ı, M ´e dada por variˆancias e covariˆancias.
Proposi¸ao 6.2 A priori de Jeffreys associada ao modelo hiperb´olico ge-
neralizado ´e dada por:
p(θ) | M|
1/2
, (6.1)
onde θ = (λ, α, β, δ, µ). As componentes da matriz M ao mostradas a seguir.
Denote b
k
L
= E
y
[y
k
ϑR
λ0.5
(ϑ)], c
k
L
= E
y
[y
k
1
ϑR
λ1.5
(ϑ)
] e d
kq
L
= E
y
y
k
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
q
,
para y GHD(L, α, β, δ, µ), k = 0, 1, 2 e q = 1, 2.
V
1
) = d
02
λ
k
λ
(ρ)
K
λ
(ρ)
ln(ρ) + 2ln(αδ)
2
COV
1
, Φ
2
) = α
2
δ
2
R
λ
(ρ)
ρ
d
01
λ+1
k
λ
(ρ)
K
λ
(ρ)
ln(ρ) + 2ln(αδ)
α
2
δ
2
R
λ
(ρ)
ρ
1
COV
1
, Φ
3
) =
βδ
2
ρ
k
λ+1
(ρ)
K
λ
(ρ)
k
λ
(ρ)K
λ+1
(ρ)
[K
λ
(ρ)]
2
COV
1
, Φ
4
) =
1
α
2
δ
2
ρ
R
λ1
(ρ)
d
01
λ1
+
k
λ
(ρ)
K
λ
(ρ)
ln(ρ) + 2ln(αδ)
1
α
2
δ
2
ρ
R
λ1
(ρ)
COV
1
, Φ
5
) =
1
α
2
δ
2
ρ
R
λ1
(ρ)
(d
11
λ1
µ d
01
λ1
)+
k
λ
(ρ)
K
λ
(ρ)
ln(ρ) + 2ln(αδ)
β
α
2
V
2
) = α
2
δ
2
R
λ
(ρ)
ρ
b
0
λ+1
α
2
δ
2
R
λ
(ρ)
ρ
86
COV
2
, Φ
3
) =
α
2
βδ
4
ρ
2
S
λ
(ρ)
COV
2
, Φ
4
) =
1
α
2
δ
2
ρ
R
λ1
(ρ)
b
0
λ1
α
2
δ
2
R
λ
(ρ)
ρ
COV
2
, Φ
5
) =
1
α
2
δ
2
ρ
R
λ1
(ρ)
(b
1
λ1
µb
0
λ1
) + βδ
2
R
λ
(ρ)
ρ
V
3
) = V (y) = δ
2
R
λ
(ρ)
ρ
+
β
2
δ
2
ρ
2
K
λ+2
(ρ)
K
λ
(ρ)
R
λ
(ρ)
2

COV
3
, Φ
4
) =
β
α
2
S
λ
(ρ)
2
ρ
R
λ
(ρ)
COV
3
, Φ
5
) =
1
α
2
V
4
) =
1
α
2
δ
2
ρ
R
λ1
(ρ)
c
0
λ1
1
α
2
δ
2
ρ
R
λ1
(ρ)
COV
4
, Φ
5
) =
1
α
2
δ
2
ρ
R
λ1
(ρ)
(c
1
λ1
µc
0
λ1
)
β
α
2
V
5
) =
1
α
2
δ
2
ρ
R
λ1
(ρ)
(c
2
λ1
2µc
1
λ1
+ µ
2
c
0
λ1
)
β
2
α
4
Note que a priori depende de b
k
L
, c
k
L
e d
kq
L
que ao esperan¸cas calculadas
numericamente. Al´em disso, d
kq
L
depende da derivada primeira da fun¸ao de
Bessel com rela¸ao ao ´ındice, k
L
(x), que ´e definida no Apˆendice A (derivada
8). Essa derivada depende de senos, cossenos e da derivada da fun¸ao I
L
(x),
que ´e a fun¸ao modificada de Bessel de 1
a
ordem e ´ındice L. Para cada
integral um intervalo que cont´em massa de densidade igual a um (segundo
uma tolerˆancia) ´e calculado. Esse intervalo depende de θ e da tolerˆancia
desejada. Isso ´e necess´ario pois ao ´e poss´ıvel fixar um ´unico intervalo para
todas as varia¸oes poss´ıveis de ocorrerem no algoritmo de Metr´opolis e a
varia¸ao desse intervalo de acordo com θ ´e muito grande. Um exeplo disso ´e
mostrado na figura (6.1), onde para α = 0.01 o intervalo ´e aproximadamente
(-500,500) enquanto para α = 3 o intervalo ´e aproximadamente (-2,6).
87
(a) Densidade para α = 0.01. (b) Densidade para α = 3.
Figura 6.1: Fun¸ao de densidade para y GHD(1 , α, 0, 1, 2).
Prova:
As componentes de M ao calculadas por:
COV {Φ
i
(y), Φ
j
(y)} = E{Φ
i
(y
j
(y)} E{Φ
i
(y)}E{Φ
j
(y)}
Temos que E{Φ
i
(y)} e E{Φ
j
(y)} ao obtidas das equa¸oes de verossi-
milhan¸ca e ao mostradas na proposi¸ao (??), basta calcular E{Φ
i
(y
j
(y)}.
Exceto para COV
1
(y), Φ
3
(y)), onde utilizou-se e
2
λ∂β
l
pois
2
λ∂β
l ´e
constante igual a
βδ
2
ρ
k
λ+1
(ρ)
K
λ
(ρ)
k
λ
(ρ)K
λ+1
(ρ)
[K
λ
(ρ)]
2
.
Denote a
λ
= a(λ, α, β, δ).
E{Φ
1
(y)
2
} =
−∞
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
2
f( y|λ, α, β, δ, µ)dy
=
−∞
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
a
λ
e
β(yµ)
ϑ
α
λ0.5
K
λ0.5
(ϑ)dy
= d
02
λ+1
Com as equa¸oes de verossimilhan¸ca obtemos V
1
).
88
E{Φ
1
(y
2
(y)} =
−∞
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
ϑR
λ0.5
(ϑ)f(y|λ, α, β, δ, µ)dy
=
−∞
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
ϑR
λ0.5
(ϑ)a
λ
e
β(yµ)
ϑ
α
λ0.5
K
λ0.5
(ϑ)dy
= α
−∞
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
a
λ
e
β(yµ)
ϑ
α
λ+10.5
K
λ+10.5
(ϑ)dy
= α
a
λ
a
λ+1
−∞
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
a
λ+1
e
β(yµ)
ϑ
α
λ+10.5
K
λ+10.5
(ϑ)dy
= α
2
δ
2
R
λ
(ρ)
ρ
d
01
λ+1
Com as equa¸oes de verossimilhan¸ca obtemos COV
1
, Φ
2
).
E{Φ
1
(y
4
(y)} =
−∞
1
ϑR
λ1.5
(ϑ)
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
f(y|λ, α, β, δ, µ)dy
=
1
α
−∞
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
a
λ
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
a
λ
a
λ1
−∞
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
a
λ1
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
2
δ
2
ρ
R
λ1
(ρ)
d
01
λ1
Com as equa¸oes de verossimilhan¸ca obtemos COV
1
, Φ
4
).
E{Φ
1
(y
5
(y)} =
−∞
(y µ)
ϑR
λ1.5
(ϑ)
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
f(y|λ, α, β, δ, µ)dy
=
1
α
−∞
(y µ)
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
a
λ
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
a
λ
a
λ1
−∞
(y µ)
k
λ0.5
(ϑ)
K
λ0.5
(ϑ)
+ log(ϑ)
a
λ1
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
2
δ
2
ρ
R
λ1
(ρ)
(d
11
λ1
µ d
01
λ1
)
Com as equa¸oes de verossimilhan¸ca obtemos COV
1
, Φ
5
).
E{Φ
2
(y)
2
} =
−∞
ϑ
2
R
2
λ0.5
(ϑ)f(y|λ, α, β, δ, µ)dy
89
=
−∞
ϑ
2
R
2
λ0.5
(ϑ)a
λ
e
β(yµ)
ϑ
α
λ0.5
K
λ0.5
(ϑ)dy
= α
−∞
ϑR
λ0.5
a
λ
e
β(yµ)
ϑ
α
λ+10.5
K
λ+10.5
(ϑ)dy
= α
a
λ
a
λ+1
−∞
ϑR
λ0.5
a
λ+1
e
β(yµ)
ϑ
α
λ+10.5
K
λ+10.5
(ϑ)dy
= α
2
δ
2
R
λ
(ρ)
ρ
b
0
λ+1
Com as equa¸oes de verossimilhan¸ca obtemos V
2
).
E{Φ
2
(y
3
(y)} =
−∞
yϑR
λ0.5
(ϑ)f(y|λ, α, β, δ, µ)dy
= α
−∞
ya
λ
e
β(yµ)
ϑ
α
λ+10.5
K
λ+10.5
(ϑ)dy
= α
a
λ
a
λ+1
−∞
ya
λ+1
e
β(yµ)
ϑ
α
λ+10.5
K
λ+10.5
(ϑ)dy
=
α
2
δ
2
ρ
R
λ
(ρ) E
y
[y], y GHD(λ + 1, α, β, δ, µ)
=
α
2
δ
2
ρ
βδ
2
ρ
K
λ+2
(ρ)
K
λ
(ρ)
+ µR
λ
(ρ)
Com as equa¸oes de verossimilhan¸ca obtemos COV
2
, Φ
3
).
E{Φ
2
(y
4
(y)} =
−∞
1
ϑR
λ1.5
(ϑ)
ϑR
λ0.5
(ϑ)f(y|λ, α, β, δ, µ)dy
=
1
α
−∞
ϑR
λ0.5
a
λ
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
a
λ
a
λ1
−∞
ϑR
λ0.5
a
λ1
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
2
δ
2
ρ
R
λ1
(ρ)
b
0
λ1
Com as equa¸oes de verossimilhan¸ca obtemos COV
2
, Φ
4
).
E{Φ
2
(y
5
(y)} =
−∞
y µ
ϑR
λ1.5
(ϑ)
ϑR
λ0.5
(ϑ)f( y|λ, α, β, δ, µ)dy
90
=
1
α
−∞
(y µ)ϑR
λ0.5
a
λ
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
a
λ
a
λ1
−∞
(y µ)ϑR
λ0.5
a
λ1
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
2
δ
2
ρ
R
λ1
(ρ)
(b
1
λ1
µb
0
λ1
)
Com as equa¸oes de verossimilhan¸ca obtemos COV
2
, Φ
5
).
E{Φ
3
(y
4
(y)} =
−∞
y
1
ϑR
λ1.5
(ϑ)
f( y|λ, α, β, δ, µ)dy
=
1
α
−∞
y a
λ
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
a
λ
a
λ1
−∞
y a
λ1
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
2
δ
2
ρ
R
λ1
(ρ)
E
y
[y], y GHD(λ 1, α, β, δ, µ)
=
1
α
2
β +
µρR
λ
(ρ)
δ
2
2µλ
δ
2
Com as equa¸oes de verossimilhan¸ca obtemos COV
3
, Φ
4
).
E{Φ
3
(y
5
(y)} =
−∞
y
(y µ)
ϑR
λ1.5
(ϑ)
f(y|λ, α, β, δ, µ)dy
=
1
α
−∞
(y
2
µy) a
λ
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
a
λ
a
λ1
−∞
(y
2
µy) a
λ1
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
2
δ
2
ρ
R
λ1
(ρ)
(E
y
[y
2
] µE
y
[y], y GHD(λ 1, α, β, δ, µ)
=
1
α
2
1 + β
2
δ
2
R
λ
(ρ)
ρ
βµ
Com as equa¸oes de verossimilhan¸ca obtemos COV
3
, Φ
5
).
E{Φ
4
(y)
2
} =
−∞
1
ϑR
2
λ1.5
(ϑ)
f(y|λ, α, β, δ, µ)dy
91
=
1
α
−∞
1
ϑR
λ1.5
(ϑ)
a
λ
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
a
λ
a
λ1
−∞
1
ϑR
λ1.5
(ϑ)
a
λ1
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
2
δ
2
ρ
R
λ1
(ρ)
c
0
λ1
Com as equa¸oes de verossimilhan¸ca obtemos V
4
).
E{Φ
4
(y
5
(y)} =
−∞
(y µ)
ϑR
2
λ1.5
(ϑ)
f(y|λ, α, β, δ, µ)dy
=
1
α
−∞
(y µ)
ϑR
λ1.5
(ϑ)
a
λ
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
a
λ
a
λ1
−∞
(y µ)
ϑR
λ1.5
(ϑ)
a
λ1
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
2
δ
2
ρ
R
λ1
(ρ)
(c
1
λ1
µc
0
λ1
)
Com as equa¸oes de verossimilhan¸ca obtemos COV
4
, Φ
5
).
E{Φ
5
(y)
2
} =
−∞
(y µ)
2
ϑR
2
λ1.5
(ϑ)
f(y|λ, α, β, δ, µ)dy
=
1
α
−∞
(y µ)
2
ϑR
λ1.5
(ϑ)
a
λ
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
a
λ
a
λ1
−∞
(y µ)
2
ϑR
λ1.5
(ϑ)
a
λ1
e
β(yµ)
ϑ
α
λ10.5
K
λ10.5
(ϑ)dy
=
1
α
2
δ
2
ρ
R
λ1
(ρ)
(c
2
λ1
2µc
1
λ1
+ µ
2
c
0
λ1
)
Com as equa¸oes de verossimilhan¸ca obtemos V
5
).
Ap´os alguns alculos obtemos as express˜oes na defini¸ao (6.1).
92
6.2 Aplica¸c˜ao a dados simulados
Neste cap´ıtulo, ao foi poss´ıvel fazer um estudo das propriedades frequen-
tistas dos estimadores Bayesianos devido a dificuldade de repetir o processo
de estima¸ao um n´umero razo´avel de vezes. Nesta se¸ao, ao apresentados
resultados do estudo de simula¸ao utilizando a priori de Jeffreys aqui desen-
volvida. Os dados utilizados para estima¸ao ao os mesmos do cap´ıtulo 4, ou
seja, N = 30, 100 e θ = (λ = 1, α = 2, β = 0, δ = 1, µ = 2).
As amostras a posteriori de θ foram obtidas usando o m´etodo de MCMC.
A amostragem foi feita em blocos: (λ,α, δ) e ( β, µ), pois ´e a combina¸ao de
maior correla¸ao dentro de cada bloco e menor correla¸ao entre blocos. Por´em
as distribui¸oes propostas utilizadas ao independentes:
µ
(prop)
N(µ
(k)
, c
2
1
) e β
(prop)
NT RUN
(α
(k)
(k)
)
(β
(k)
, c
2
2
).
λ
(prop)
N(λ
(k)
, c3
2
), α
(prop)
NT RUN
(|β
(k+1)
|,)
(α
(k)
, c
2
4
) e log(δ
(prop)
)
N(log(δ
(k)
, c
2
5
).
As probabilidades de aceita¸ao ao mostradas no apˆendice D. Foram ge-
radas cadeias de tamanho 10000 (N=30) e tamanho 50000 (N=100). A figura
(6.2) mostra a m´edia erg´odica das cadeias geradas ao longo das itera¸oes.
A convergˆencia da cadeia foi verificada utilizando o crit´erio de Geweke.
Para N=30, amostra a posteriori foi obtida usando um burn-in de 6000 it-
era¸oes e tomando observoes a cada 2 resultando numa amostra de tamanho
2000. Para N=100, amostra a posteriori foi obtida usando um burn-in de
40000 itera¸oes e tomando observoes a cada 2 resultando numa amostra
de tamanho 1000. Para cada cen´ario (N, θ) foram calculadas estimativas
para: a m´edia a posteriori (E[θ|y]), o desvio padr˜ao a posteriori (SD[θ|y]),
93
(a) edia erg´odica da cadeia gerada para N=30.
(b) edia erg´odica da cadeia gerada para N=100.
Figura 6.2: edia erg´odica para cadeias geradas com tamanho 10000 uti-
lizando dados da GHD(λ, α, β, δ, µ) com tamanho N, onde λ = 1, α = 2,
β = 0, δ = 1 e µ = 2.
a mediana a posteriori (MD[θ|y]) e os quantis 0.025 e 0.975 a posteriori. As
tabelas (6.1) e (6.2) cont´em o sum´ario dos resultados.
As estat´ısticas obtidas da amostra a posteriori do parˆametro θ indicam
que a priori utilizada soluciona o problema encontrado na verossimilhan¸ca.
94
θ E[θ|y] SD[θ|y] MD[θ|y] q0.025 q0.975
1 -0.6984 1.1367 -0.78 -3.0919 1.4582
2 0.9616 0.6842 0.7528 0.1701 2.609
0 0.3 0.493 0.1924 -0.5129 1.3596
1 0.9024 0.4492 0.8632 0.2618 1.8591
2 1.6306 0.3224 1.6679 1.0102 2.2077
Tabela 6.1: Estat´ısticas descritivas das amostras a posteriori para o Modelo
GHD(1,2,0,1,2) e N=30.
θ E[θ|y] SD[θ|y] MD[θ|y] q0.025 q0.975
1 1.2224 2.5851 0.954 -2.6862 6.3552
2 2.5011 1.3383 2.3928 0.2685 5.3269
0 -0.5632 0.9235 -0.3745 -2.8091 0.9459
1 1.3812 0.7959 1.3411 0.1229 3.0946
2 2.4556 0.6842 2.3797 1.2053 3.9014
Tabela 6.2: Estat´ısticas descritivas das amostras a posteriori para o Modelo
GHD(1,2,0,1,2) e N=100.
Para N=30 as estimativas da edia e mediana para λ e α ao est˜ao ao
pr´oximas do valor ”verdadeiro”quanto para N=100. Todos os intervalos de
credibilidade cont´em o valor ”verdadeiro”dos parˆametros.
95
Figura 6.3: Histograma da amostra a posteriori dos parˆametros dos modelo
GHD(1,2,0,1,2) para N=30 e reta vertical no valor ”verdadeiro”do parˆametro.
96
Figura 6.4: Histograma da amostra a posteriori dos parˆametros dos mod-
elo GHD(1,2,0,1,2) para N=100 e reta vertical no valor ”verdadeiro”do
parˆametro.
97
Cap´ıtulo 7
Conclus˜oes e trabalhos futuros
A verossimilhan¸ca para os modelos presentes nesta disserta¸ao apresentam
problemas te´oricos e num´ericos que dificultam a estima¸ao dos parˆametros
utilizando axima verossimilhan¸ca. A abordagem Bayesiana proporciona
uma maneira de penalizar a verossimilhan¸ca e dessa forma solucionar alguns
dos problemas encontrados. A priori de Jeffreys se mostrou bastante ´util
nesse problema.
A priori proposta para os graus de liberdade do modelo t-Student com
loca¸ao 0 e escala 1 ´e pr´opria. Os estimadores pontuais Bayesianos tem um
desempenho melhor que o estimador de axima verossimilhan¸ca, como foi
observado atraes de um estudo simulado onde buscou-se analisar as pro-
priedades frequentistas dos estimadores.
A priori de Jeffreys proposta para os parˆametros do modelo de regress˜ao
t-Student tem um desempenho melhor que a proposta de Geweke (1993),
al´em da vantagem da priori ao depender de nenhum hiperparˆametro. A
priori de Jeffreys obtida ´e similar a proposta de Fernadez e Steel (1999).
98
Por´em, eles utilizam uma priori para os graus de liberdade com edia 10,
enquanto a priori de Jeffreys ´e totalmente ao informativa. Um problema ´e
constatado por Fernandez e Steel para a verossimilhan¸ca quando os graus de
liberdade tendem pra zero. Esse aspecto ao foi abordado nessa disserta¸ao,
mas ser´a num trabalho futuro. Uma outra extens˜ao seria considerar modelos
auto-regressivos.
No cap´ıtulo 5, as estimativas para os parˆametros do modelo hiperb´olico
ao melhores que as estimativas de axima verossimilhan¸ca encontradas pe-
los etodos implementados na biblioteca HyperbolicDist do pacote R. As
estimativas Bayesianas ao boas mesmo para N pequeno.
No cap´ıtulo 6, a inferˆencia para o modelo hiperb´olico generalizado ´e
bastante satisfat´oria. Principalmente porque a verossimilhan¸ca tem muitos
problemas associados e toda literatura reporta que apenas para uma amostra
bastante grande consegue-se estimar razoavelmente bem o parˆametro de sub-
classe. Neste trabalho, o parˆametro de subclasse ´e satisfatoriamente esti-
mado para N=100. Podemos notar nos gr´aficos de convergˆencia que ainda
seria necess´ario um n´umero maior de itera¸oes para obter uma melhor con-
vergˆencia.
Um pr´oximo passo ´e verificar se as prioris obtidas ao pr´oprias e se
forem provar isso analiticamente.
99
Referˆencias Bibliogr´aficas
[1] Abramowitz, M. e Stegun, I. A. (1968). Handbook of mathematical func-
tions. Dover Publ., New York.
[2] Barndorff-Nielsen, O. (1977). Exponentially decreasing distributions for
the logarithm of particles size. Proc. Roy. Soc. London A 353, 401-419.
[3] Barndorff-Nielsen, O. (1978). Hiperbolic distributions and distributions
on hyperbolae. Scandinavian Journal of Statistics 5, 151-157.
[4] Barndorff-Nielsen, O. e Blæsild, P.(1981). Hyperbolic distributions and
ramifications: contributions to theory and application. Em Statistical
distributions in scientif work, volume 4, 19-44, Dordrecht: Reidel.
[5] Barndorff-Nielsen, O. (1982). The Hiperbolic distributions in Statistical
Physics. Scandinavian Journal of Statistics 9, 43-46.
[6] Barndorff-Nielsen, O. (1997). Normal Inverse Gaussian Distributions
and Stocastic Volatility Modelling. Scandinavian Journal of Statistics
24, 1-13.
[7] Beckman, R. J. e Johnson, M. E. (1987). Fitting Student-t distribution
to grouped data, with applications to a particle scattering experiment.
Technometrics 29, 17-22.
100
[8] Bibby, B. M. e Sørensen (1997). A hyperbolic diffusion model for stock
prices. Finance ε Stochastics 1, 25-41.
[9] Blæsild, P. (1981). The two dimensional hyperbolic distribution and
related distributions, with an application to Johannsen’s bean data.
Biometrika 68, 251-263.
[10] Blæsild, P. e M. Sørensen (1992). Hyp a computer Program for Analysing
Data by mean of the Hyperbolic Distributions. Department of Theorical
Statistics,
˚
Arhus University Research Report, 248.
[11] Blæsild, P. e M. Sørensen (1996). Extensions of Blæsild, P. e M. Sørensen
(1992). In preparation.
[12] Branco, M., Bolfarine, H. e Iglesias, P. (1998). Bayesian calibration un-
der a Student-t model. Computational Statistics 13, 319-338.
[13] Brent, R. (1973). Algorithms for Minimization without Derivatives. En-
glewood Cliffs N.J.: Prentice-Hall.
[14] Cheng, R. C. e Iles, T. C. (1987). Corrected maximum likelihood in non
regular problems. J. R. Statist. Soc. B 49, 95-101.
[15] Doornik, J. A. (2002). Object-Oriented Matrix Programming Using
Ox, 3rd ed. London: Timberlake Consultants Press and Oxford:
www.nuff.ox.ac.uk/Users/Doornik.
[16] Eberllin, E. e Keller, U. (1995). Hyperbolic Distributions in Finance.
Bernoulli 1, 281-299.
[17] Fajardo, J. e Farias, A. (2002). Generalized Hyperbolic Distributions
and Brasilian Data. Banco Central do Brasil, Working Paper.
101
[18] Fernandez, C. e Steel, M. F. J. (1999). Multivariate Student-t regression
models: Pitfalls and inference. Biometrika 86, 1,153-167
[19] Frisch, V. (1995). Turbulence. Cambrige: Cambrige University Press.
[20] Gelman, A. e Rubin, D. R. (1992). A single series from the Gibbs Sam-
pler provides a false sense of security. Bayesian Statistics 4, 625-631.
Oxford: University Press.
[21] Gamerman, D. (1997). Markov Chain Monte Carlo: Stochastic Simul-
tion for Bayesian Inference. London: Chapman & Hall.
[22] Geweke, J. (1992). Evaluating the accuracy of sampling-based ap-
proaches to calculating posterior moments. Em J. Bernado, J. Berger,
A. Dawid e A. Smith (Editores), Bayesian Statistics 4, Oxford, 169-193,
University Press.
[23] Geweke, J. (1993). Bayesian treatment of the indep endent Student-t
linear model. Journal of Appl. Econometrics 8, 519-540.
[24] Hanselman, D. C. e Littlefield, B. (2001). Mastering matlab6 - A com-
prehensive tutorial and refence. Prentice Hall.
[25] Jaschke, S. R. (1997). A note on stochastic volatility, Garch models, and
hyperbolic distributions. Working Paper, SFB 373, Humboldt, Univer-
sitat Berlin.
[26] Jørgensen, B. (1982). Statistical properties of the generalized inverse
Gaussian distribution. Volume 9 de Lectures Notes in Statistics. Hei-
delberg: Springer.
[27] Lehmann, E. L. (1983). Theory of point estimation. New York: Jonh
Wiley.
102
[28] Migon, H. S. e Gamerman, D. (1999). Statistical Inference: an Integrated
Approach.
[29] Nelson, C.R. e Plosser, C.I. (1982). Trends and Random Walks in
Macroeconomic Time Series. Journal of Monetary Economics 10, 139-
162.
[30] Osiewalski, J. e Steel, M. F. J. (1993). Robust Bayesian inference in
elliptical regressions models. J. Econom. 57, 345-363.
[31] Prause, K. (1999). The Generalized Hyperbolic Mo del: Estimation., Fi-
nancial Derivatives and Risk Mensures. University of Freiburg, Doctoral
Thesis.
[32] Raimble, S. (2000). evi processes in finance: theory, Numerics, and
empirical facts. Universit of Freiburg, Doctoral Thesis.
[33] Rice, Stephen e Church, M. (1996). Sampling surficial gravels: the preci-
sions of size distribution percentile estimates. J. of Sedimentery Research
66, 654-665.
[34] Singh, R. S. (1988). Estimation of error variance in linear regression
models with erros having multivariate Student-t distributions with un-
known degrees of freedon. Economics Letters 27, 47-53.
[35] Wilks, S (1963). Mathematical Statistics , 2
a
Ed., J. Wiley.
[36] Zellner, A. (1976). Bayesian and Non-Bayesian analysis of the regression
model with multivariate Student-t error term. J. Amer. Statist. 71, 400-
405.
103
Apˆendice
Apˆendice A
Propriedades da fun¸ao de Bessel.
Mostramos algumas propriedades da fun¸ao de Bessel modificada de 3
a
ordem. Para maiores detalhes veja Abramowitz e Stegun, (1968).
Defini¸oes
1. R
λ
(z) :=
K
λ+1
(z)
K
λ
(z)
2. S
λ
(z) :=
K
λ+2
(z)
K
λ
(z)
R
λ
(z)
2
Propriedades asicas
1. K
λ
(z) = K
λ
(z)
2. K
λ+1
(z) =
2λ
z
K
λ
(z) + K
λ1
(z)
3. K
0.5
(z) = K
0.5
(z) =
π
2
z
0.5
e
z
4. R
λ
(z) =
2λ
z
+
1
R
λ1
(z)
5. R
0.5
(z) = 1 +
1
z
6. R
0.5
(z) = 1
104
7. K
λ
(z) =
π
2 sen(πλ)
(I
λ
(z) I
λ
(z)), onde I
λ
(z) ´e a fun¸ao de Bessel
modificada de 1
o
tipo.
7. S
λ
(z) =
2(λ+1)
z
R
λ
(z) + 1 R
2
λ
(z)
8. ψ
(k)
(z) =
d
k
d z
k
log(Γ(z))
Derivadas
4. K
λ
(z) = 0.5[K
λ+1
(z) + K
λ1
(z)] =
λ
z
K
λ
(z) K
λ1
(z)
5. (log K
λ
(z))
=
λ
z
R
λ
(z)
6. (log K
λ
(z))

= S
λ
(z)
R
λ
(z)
z
λ
z
2
7. R
λ
(z) =
R
λ
(z)
z
S
λ
(z)
8.
λ
K
λ
(z) =
π
2 sen(πλ)
(
λ
I
λ
(z)
λ
I
λ
(z)) π
cos(πλ)
sen(πλ)
K
λ
(z), para λ =
0, ±1, ±2, . . .
λ
K
λ
(z) =
λ!(z/2)
λ
2
λ1
k=0
(z/2)
k
K
k
(z)
(λk)k!
, para λ = 1, 2, . . .
λ
K
λ
(z) = 0, para λ = 0
9.
λ
I
λ
(z) = I
λ
(z)log(z/2) (z/2)
λ
k=0
ψ
(1)
(λ+k+1)
Γ(λ+k+1)
(z/2)
2k
k!
, para λ =
1, 2, . . .
Apˆendice B
Algumas rela¸oes importantes:
1. E[(y µ)
2
] = V [y] +
βδ
2
ρ
R
1
(ρ)
2
Prova
E[(y µ)
2
] = E
y µ
βδ
2
ρ
R
1
(ρ) +
βδ
2
ρ
R
1
(ρ)
2
105
= E
y E[y] +
βδ
2
ρ
R
1
(ρ)
2
= V [y] +
βδ
2
ρ
R
1
(ρ)
2
Apˆendice C
Probabilidades de aceita¸ao utilizadas pelo algoritmo de MCMC na inferˆencia
para o modelo de regress˜ao t-student.
Defina θ
(p)
= (η
(p)
, σ
(p)
, β
(p)
) o valor proposto para o vetor θ e θ
(k)
=
(η
(k)
, σ
(k)
, β
(k)
) o valor na itera¸ao k para o vetor θ.
Amostrando β
β
(p)
N
p
(β
(k)
, d
2
1
) onde p ´e o n´umero de regressores.
Probabilidade de aceita¸ao de β:
min
1,
L(η
(k)
(k)
(p)
;y)
L(η
(k)
(k)
(k)
;y)
×
p(η
(k)
(k)
(p)
)
p(η
(k)
(k)
(k)
)
Mas p(η, σ, β) p(η, σ) enao, a probabilidade de aceita¸ao ´e dada por:
min
1,
L(η
(k)
(k)
(p)
;y)
L(η
(k)
(k)
(k)
;y)
Amostrando (η
(p)
, σ
(p)
)
log(η
(p)
) N(log(η
(k)
, d
2
2
).
log(σ
(p)
) N(log(σ
(k)
, d
2
3
).
Probabilidade de aceita¸ao de (α
(p)
, δ
(p)
):
min
1,
L(η
(p)
(p)
(k+1)
;y)
L(η
(k)
(k)
(k+1)
;y)
×
p(η
(p)
(k)
(k+1)
)
p(η
(k)
(k)
(k+1)
)
×
η
(p)
η
(k)
×
δ
(p)
δ
(k)
106
Apˆendice D
Probabilidades de aceita¸ao utilizadas pelo algoritmo de MCMC na inferˆencia
para o modelo hiperb´olico.
Defina θ
(p)
= (α
(p)
, β
(p)
, δ
(p)
, µ
(p)
) o valor proposto para o vetor θ e
θ
(k)
= (α
(k)
, β
(k)
, δ
(k)
, µ
(k)
) o valor na itera¸ao k para o vetor θ.
Amostrando (β, µ)
µ
(p)
N(µ
(k)
, d
2
1
)
β
(p)
NT RUN
(α
(k)
(k)
)
(β
(k)
, d
2
2
).
Probabilidade de aceita¸ao de (β
(p)
, µ
(p)
):
min
1,
L(α
(k)
(p)
(k)
(p)
;y)
L(α
(k)
(k)
(k)
(k)
;y)
×
p(α
(k)
(p)
(k)
(p)
)
p(α
(k)
(k)
(k)
(k)
)
×
Φ
α
(k)
β
(k)
d2
Φ
α
(k)
β
(k)
d2
Φ
α
(k)
β
(p)
d2
Φ
α
(k)
β
(p)
d2
Amostrando (α, δ)
α
(p)
NT RUN
(|β
(k+1)
|,)
(α
(k)
, d
2
3
)
log(δ
(p)
) N(log(δ
(k)
), d
2
4
).
Probabilidade de aceita¸ao de (α
(p)
, δ
(p)
):
min
1,
L(α
(p)
(k+1)
(p)
(k+1)
;y)
L(α
(k)
(k+1)
(k)
(k+1)
;y)
×
p(α
(p)
(k+1)
(p)
(k+1)
)
p(α
(k)
(k+1)
(k)
(k+1)
)
×
δ
(p)
δ
(k)
×
1Φ
|β
(k+1)
|−α
(k)
d3
1Φ
−|β
(k+1)
|−α
(p)
d3
Apˆendice D
Probabilidades de aceita¸ao utilizadas pelo algoritmo de MCMC na inferˆencia
para o modelo hiperb´olico generalizado.
107
Defina θ
(p)
= (λ
(p)
, α
(p)
, β
(p)
, δ
(p)
, µ
(p)
) o valor proposto para o vetor θ e
θ
(k)
= (λ
(k)
, α
(k)
, β
(k)
, δ
(k)
, µ
(k)
) o valor na itera¸ao k para o vetor θ.
Amostrando (β, µ)
µ
(p)
N(µ
(k)
, d
2
1
)
β
(p)
NT RUN
(α
(k)
(k)
)
(β
(k)
, d
2
2
).
Probabilidade de aceita¸ao de (β
(p)
, µ
(p)
):
min
1,
L(λ
(k)
(k)
(p)
(k)
(p)
;y)
L(λ
(k)
(k)
(k)
(k)
(k)
;y)
×
p(λ
(k)
(k)
(p)
(k)
(p)
)
p(λ
(k)
(k)
(k)
(k)
(k)
)
×
Φ
α
(k)
β
(k)
d2
Φ
α
(k)
β
(k)
d2
Φ
α
(k)
β
(p)
d2
Φ
α
(k)
β
(p)
d2
Amostrando (λ, α, δ)
α
(p)
NT RUN
(|β
(k+1)
|,)
(α
(k)
, d
2
3
)
log(δ
(p)
) N(log(δ
(k)
), d
2
4
).
λ
(p)
N(λ
(k)
, d
2
5
).
Probabilidade de aceita¸ao de (α
(p)
, δ
(p)
):
min
1,
L(λ
(p)
(p)
(k+1)
(p)
(k+1)
;y)
L(λ
(k)
(k)
(k+1)
(k)
(k+1)
;y)
×
p(λ
(p)
(p)
(k+1)
(p)
(k+1)
)
p(λ
(p)
(k)
(k+1)
(k)
(k+1)
)
×
δ
(p)
δ
(k)
×
1Φ
|β
(k+1)
|−α
(k)
d3
1Φ
−|β
(k+1)
|−α
(p)
d3
108
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo