Download PDF
ads:
Magda Carvalho Pires
An
´
alise Bayesiana Emp
´
ırica de Dados Dicot
ˆ
omicos
com Erros e Classificac¸
˜
oes Repetidas
Disserta¸ao apresentada ao Departamento de
Estat´ıstica do Instituto de Ciˆencias Exatas
da Universidade Fede ral de Minas Gerais
como requisito parcial `a obten¸ao do t´ıtulo
de Mestre em Estat´ıstica.
Orientador: Prof. Roberto da Costa Quinino
Belo Horizonte, 01 de marc¸o 2006
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Agradecimentos
Agradecimento maior ao meu orientador Roberto Quinino pelo projeto proposto, a
confian¸c a depositada, a aten¸ao dispensada, o acompanhamento cont´ınuo, as noites
sem dormir analisando cada detalhe desse trabalho.
Agradecimentos ao Anderson La´ecio pela disponibilidade e presteza, pelo aux´ılio
inestim´avel no programa desenvolvido e na editora¸ao do texto. Aos Profs. Em´ılio
Suyama, Cibele Queiroz e Marta Afonso Freitas pelas ´otimas sugest˜oes e corre¸oes
apresentadas durante o estudo, e pela aten¸ao dispensada na avalia¸ao dessa dis-
serta¸ao.
Aos meus pais, pelo amor e apoio incondicionais durante esses anos de estudo.
`
A
minha irm˜a Erika, amiga e iniciadora nas artes da Estat´ıstica. Ao grande irm˜ao
Magno pela amizade e descontra¸ao nas horas de stress. Ao pequeno irm˜ao Douglas
pelo carinho e do¸cura inspiradores.
Ao Vitor, pelo amor e companheirismo em todas as horas, compreens˜ao nos mo-
mentos de ausˆencia e incentivo renovador.
Agradecimentos a todos os amigos e familiares que acreditaram nes sa conquista, e
principalmente a Deus, por proporcionar-me vencer mais esta jornada, crescendo
espiritual e intelectualmente com sa´ude e na presen¸ca de tantas pessoas especiais
em minha vida.
i
ads:
An´alise bayesiana emp´ırica de dados dicotˆomicos com
erros e classifica¸oes repetidas
Magda Carvalho Pires Roberto da Costa Quinino
Orientador
Departamento de Estat´ıstica - ICEx - UFMG
31270-901 - Belo Horizonte - MG - Brazil
Mar¸co - 2006
Resumo
Considera-se o problema da es tima¸ao bayesiana de uma propor¸ao p de interesse
onde a classifica¸ao das unidades est´a sujeita a erros de diagn´ostico. Na abordagem
Bayesiana, a utiliza¸ao de distribui¸oes a priori Uniforme com parˆametros zero e
um para os erros de classifica¸ao e para propor¸ao de interesse geram uma m´edia
a posteriori para propor¸ao igual 0,50 independentemente do resultado amostral,
al´em de grande variabilidade.
´
E necess´ario, portanto, que a distribui¸ao a priori seja
informativa, o que nem sempre ´e poss´ıvel. Neste trabalho, utiliza-se classifica¸oes
repetidas e distribui¸ao a priori emp´ırica para apresentar uma solu¸ao ao problema.
Resultados de simula¸ao indicam que a metodologia desenvolvida apresenta uma boa
estimativa da propor¸ao de interesse quando o n´umero de classifica¸oes repetidas ´e
igual ou superior a trˆes.
Palavras-Chave: An´alise Bayesiana, Erros de Classifica¸ao, Classifica¸oes Repetidas,
M´etodo Bayes Emp´ırico, Distribui¸ao Binomial
1
1 Introdu¸ao
Na implementa¸ao do controle de qualidade de atributos, a eficiˆencia do sistema que
classifica os itens manufaturados como conforme ou ao-conforme precisa ser considerada.
Dois tipos de erros podem ocorrer durante a inspao: o primeiro, conhecido como tipo I,
ocorre quando um item conforme ´e classificado como ao-conforme; e o segundo, denotado
por tipo II, quando um item ´e dito conforme quando ´e, na verdade, ao-conforme.
Pioneiramente, Bross (1954) mostrou que, na presen¸ca de erros de classifica¸c ˜ao, os
estimadores obtidos por uma abordagem estat´ıstica cl´assica ao extremamente viciados.
Outros autores, como Johnson e Kotz (1988), Johnson et al. (1991), Evans et al. (1996),
Viana (1994), Gustafson (2003) enfatizaram que os erros de classifica¸ao, quando ignorados,
podem comprometer todo o processo de inferˆencia e, conseq¨uentemente, o controle de
qualidade.
Suponha que, numa amostra aleat´oria de n unidades, um n´umero X de itens conformes
´e observado. Essa vari´avel aleat´oria X tem distribui¸ao binomial com parˆametros (n, p),
ou seja, X Bin(n, p). Contudo, a presen¸ca de erros de classifica¸ao no sistema implica
numa modifica¸ao dessa fun¸ao de probabilidade. Seja e
1
a probabilidade de que um item
conforme seja erroneamente classificado como ao-conforme, e seja e
2
a probabilidade de
que um item ao-conforme seja classificado como conforme. Enao, a probabilidade de
que um item seja classificado como conforme ´e q = p(1 e
1
) + (1 p)e
2
, definindo uma
vari´avel aleat´oria X que tem distribui¸ao binomial com parˆametro q ao inv´es de p.
A dificuldade de an´alise pode ser melhor compreendida atraes da determina¸ao do
estimador de axima verossimilhan¸ca. A fun¸ao de verossimilhan¸ca para o caso com erros
de classifica¸ao pode ser expressa como L(x|n, q) = q
x
(1 q)
nx
. Esta ´e maximizada para
todos os pontos (p, e
1
, e
2
) tais que p(1 e
1
) + (1 p)e
2
= x/n (GAB A; WINKLER, 1992).
Portanto, o estimador de axima verossimilhan¸ca ao ´e ´unico.
Para resolver essa quest˜ao, muitos etodos cl´assicos foram sugeridos e uma revis˜ao
pode se r encontrada em Johnson et al. (1991). Em geral, os m´etodos propostos utilizam-
2
se de planos amostrais alternativos para estima¸ao preliminar dos erros de classifica¸ao.
Numa ´otica bayesiana, Gaba e Winkler (1992) consideraram uma abordagem que requer a
utiliza¸ao de uma distribui¸ao a priori informativa. Isto pode ser uma restri¸ao consider´avel,
pois em muitos casos essa informa¸ao ao e st´a dispon´ıvel. Constataram que a utiliza¸ao
de distribui¸oes a priori ao informativas independentes e uniformes entre zero e um para
os parˆametros (p, e
1
, e
2
) gera uma edia a posteriori de p igual a
1
2
, independentemente do
resultado amostral e, al´em dis so, todos os pontos (p, e
1
, e
2
) tais que p(1 e
1
)+(1p)e
2
=
x/n eram modas a posteriori.
Em trabalhos sobre tamanho amostral bayesiano para dados dicotˆomicos na presen¸ca
de erros de classifica¸ao, Dendukuri et al. (2004) e Rahme et al. (2000) tamem observaram
a necessidade primordial de uma distribui¸ao a priori informativa.
Neste artigo, prop˜oe-se um modelo em que o processo de inferˆencia Bayesiana para
propor¸ao na presen¸ca de erros de classifica¸ao incorpora a realiza¸ao de classifica¸oes
repetidas tanto para elicitar uma distribui¸ao a priori emp´ırica como para minimizar o
impacto desses erros. A classifica¸ao final de um item ser´a aquela que apresentar maioria
nas classifica¸oes repetidas. Em termos pr´aticos, considera-se que realizar classifica¸oes
repetidas pode ser mais acil e operacional do que obter distribui¸oes a priori informativas.
A se¸ao 2 apresenta um esquema para incorporar classifica¸oes repetidas com respectiva
determina¸c ˜ao da fun¸ao de verossimilhan¸ca. Na se¸ao 3 uma an´alise Bayesiana emp´ırica
para a propor¸ao de interesse ´e apresentada, com exemplos num´ericos descritos na se¸ao
4. Conclus˜oes ao apresentadas na se¸ao 5.
2 Fun¸ao de verossimilhan¸ca
Suponha que cada item de uma amostra aleat´oria de tamanho n seja classificado m vezes,
m ´ımpar, independentemente como conforme ou ao-conforme. Seja C
ij
(i = 1, 2, . . . , n;
j = 1, 2, . . . , m) uma vari´avel aleat´oria Bernoulli correspondente `a j-´esima classifica¸ao
do i-´esimo item. Assim, C
2,3
= 1 significa que o segundo item foi classificado como
3
conforme na terceira classifica¸ao. Seja F
i
uma vari´avel aleat´oria Bernoulli que denota a
classifica¸ao final do i-´esimo item ap´os as m classifica¸oes. Considere que F
i
= 1 se, e
somente se,
m
j=1
C
ij
> 0, 5m. A Tabela 1 apresenta a descri¸ao desse procedimento de
classifica¸ao.
Seja ainda E
i
outra vari´avel aleat´oria Bernoulli, que denota o estado real da i-´esima
pca, de tal forma que o interesse seja estimar P (E
i
= 1) = p. Desta forma, temos que
e
1
= P (C
ij
= 0 | E
i
= 1) e e
2
= P (C
ij
= 1 | E
i
= 0). Ent˜ao, a probabilidade de que uma
pca seja classificada como conforme ´e dada por
P (F
i
= 1) = pBin (m; e
1
; 0, 5m) + (1 p) [1 Bin (m; e
2
; 0, 5m)] (1)
em que Bin (m; e
k
; 0, 5m) denota a fun¸ao de distribui¸ao acumulada Binominal definida
no ponto 0, 5m. Observe que se m e as probabilidades associadas aos erros de
classifica¸ao forem menores do que 0,5 ent˜ao (1) converge para p, corroborando o benef´ıcio
da utiliza¸ao de classifica¸oes repetidas.
Supondo agora uma amostra aleat´oria de n itens com r deles considerados c onformes,
a fun¸ao de verossimilhan¸ca pode ser expressa por
Tabela 1: Classifica¸oes repetidas de n itens m vezes cada
Classifica¸oes (C
ij
) Classifica¸ao
Item 1 3 5 · · · m Final
1 C
11
C
13
C
15
· · · C
1m
F
1
2 C
21
C
23
C
25
· · · C
2m
F
2
3 C
31
C
33
C
35
· · · C
3m
F
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n C
n1
C
n2
C
n3
· · · C
nm
F
n
4
L(r|n, m, p, e
1
, e
2
) = {pBin (m; e
1
; 0, 5m) + (1 p) [1 Bin (m; e
2
; 0, 5m)]}
r
×
{1 [pBin (m; e
1
; 0, 5m) + (1 p) [1 Bin (m; e
2
; 0, 5m)]]}
nr
(2)
que pode ser reescrita como
L(r|n, m, p, e
1
, e
2
) =
r
j=0
nr
t=0
r
j

n r
t
p
njt
(1 p)
j+t
×
[Bin(m; e
1
; 0, 5m)]
rj
[1 Bin(m; e
1
; 0, 5m)]
nrt
×
[Bin(m; e
2
; 0, 5m)]
t
[1 Bin(m; e
2
; 0, 5m)]
j
(3)
Note que se m = 1, ent˜ao (2) ´e igual a
L [r|n, p, e
1
, e
2
] = [p(1 e
1
) + (1 p)e
2
]
r
[pe
1
+ (1 p)(1 e
2
)]
nr
(4)
A express˜ao (4) ´e exatamente a fun¸ao de verossimilhan¸ca utilizada por Gaba e
Winkler (1992) e Viana et al. (1993), indicando que a express˜ao (3) ´e uma generaliza¸ao
destes modelos obtida atrav´es da introdu¸ao de classifica¸oes repetidas.
3 An´alise Bayesiana Emp´ırica
Considere uma distribui¸ao a priori conjunta de (p, e
1
, e
2
) dada por:
f(p, e
1
, e
2
) = f
β
(p|α, β)f
β
(e
1
|α
1
, β
1
)f
β
(e
2
|α
2
, β
2
) (5)
em que f
β
(a | b, c) ´e fun¸ao densidade de uma distribui¸ao Beta para vari´avel aleat´oria
a com parˆametros b e c. Distribui¸oes Beta ao amplamente utilizadas em modelos
Bayesianos para descrever informa¸oes sobre propor¸oes (GUPTA; NADARAJAH, 2004).
5
Neste artigo, considera-se que as vari´aveis aleat´orias (p, e
1
, e
2
) ao mutuamente independentes
a priori.
A dens idade conjunta a posteriori de (p, e
1
, e
2
) ´e obtida multiplicando-se a distribui¸ao
a priori (5) pela verossimilhan¸ca (3) e normalizando como requerido pelo teorema de Bayes
(WINKLER, 2003). Integrando-se em rela¸ao a e
1
e e
2
, obt´em-se a fun¸ao densidade
marginal a posteriori de p, que pode ser expressa como:
f(p|r, n, m) =
r
j=0
nr
t=0
w
jt
f
β
(p|α
, β
) (6)
em que w
jt
=
a
jt
P
r
j=0
P
nr
t=0
a
jt
, com a
jt
=
r
j

nr
t
B (α
, β
) k
1
(j, t) k
2
(j, t) e
k
1
(j, t) =
1
0
e
α
1
1
1
(1 e
1
)
β
1
1
[Bin (m; e
1
; 0, 5m)]
rj
[1 Bin (m; e
1
; 0, 5m)]
nrt
de
1
;
k
2
(j, t) =
1
0
e
α
2
1
2
(1 e
2
)
β
2
1
[Bin (m; e
2
; 0, 5m)]
t
[1 Bin (m; e
2
; 0, 5m)]
j
de
2
;
e B (α
, β
) o valor da fun¸ao Beta calculada no ponto (α
, β
) com α
= α + n j t e
β
= β + j + t.
A ausˆencia de informa¸oes suficientes para definir distribui¸oes a priori informativas
para os erros de classifica¸ao implica, por exemplo, na utiliza¸ao de distribui¸oes U(0, 1),
caso particular da distribui¸ao Beta, para os parˆametros (p, e
1
, e
2
). Conseq¨uentemente,
a distribui¸ao marginal a posteriori para p pode ser multi-modal e/ou apresentar grande
variabilidade. A realiza¸ao de classifica¸oes repetidas ao ´e garantia de minimiza¸ao deste
problema, e a situa¸ao ´e ainda mais grave quando apenas uma classifica¸ao ´e realizada,
gerando uma edia a posteriori de p igual a 0,5 independentemente do resultado amostral
(GABA; WINKLER, 1992).
6
Assim, a distribui¸ao a posteriori obtida pode ser de pouca utilidade para gerar
informa¸oes necess´arias sobre a propor¸ao de interesse, ficando evidente a necessidade
de obten¸ao de uma informa¸ao adicional sobre os erros de classifica¸ao.
Uma alternativa para minimizar esse problema ´e utilizar os resultados das classifica¸oes
repetidas (m > 1) para estimar os hiperparˆametros (α
1
, β
1
) e (α
2
, β
2
) da distribui¸ao a
priori Beta dos erros de classifica¸ao e continuar utilizando a distribui¸ao U(0, 1) para
p. E ste procedimento pode ser descrito como um processo de estima¸ao Bayes emp´ırico
param´etrico como apresentado por Carlin e Louis (1996), Gupta e Nadarajah (2004),
Morris (1983) e Gelman (2004).
A estima¸ao dos hiperparˆametros (α
1
, β
1
) e (α
2
, β
2
) foi realizada pelo etodo dos
momentos. Primeiramente, a amostra aleat´oria de tamanho n foi dividida em duas sub-
amostras: uma constitu´ıda pelos itens com classifica¸c ˜ao final conforme (F
i
= 1) e a
outra com itens com classifica¸ao final ao-conforme (F
i
= 0). Para cada unidade da
primeira sub-amostra foi calculada a propor¸ao de classifica¸oes repetidas ao-conformes,
sendo que a m´edia e a variˆancia destas propor¸oes estimam, respectivamente, a m´edia e
a variˆancia da distribui¸ao a priori Beta de e
1
. Na segunda sub-amostra, calculou-se a
propor¸ao de classifica¸oes conforme para cada unidade. A edia e a variˆancia destas
propor¸oes estimam, respectivamente, a e dia e a variˆancia da distribui¸ao a priori Beta
de e
2
. Finalmente, atrav´es das formas fechadas da edia e da variˆancia da distribui¸ao
Beta, foi poss´ıvel estimar (α
1
, β
1
) e (α
2
, β
2
) resolvendo sistemas de duas equa¸oes e duas
inc´ognitas. As estimativas para (α
1
, β
1
) e (α
2
, β
2
) podem ser expressas, respectivamente,
por:
ˆα
1
= k
3
(k
2
4
+ k
2
3
k
3
)/k
2
4
(7)
ˆ
β
1
= (k
2
4
+ k
2
3
k
3
)(k
3
1)/k
2
4
(8)
7
ˆα
2
= k
5
(k
2
6
+ k
2
5
k
5
)/k
2
6
(9)
ˆ
β
1
= (k
2
6
+ k
2
5
k
5
)(k
5
1)/k
2
6
(10)
em que
k
3
=
n
i=1
m
j=1
(1 C
ij
) I
{F
i
=1}
m
n
s=1
I
{F
s
=1}
; k
4
= k
3
(1 k
3
)
n
i=1
I
{F
i
=1}
;
k
5
=
n
i=1
m
j=1
(1 C
ij
) I
{F
i
=0}
m
n
s=1
I
{F
s
=0}
; k
6
= k
5
(1 k
5
)
n
i=1
I
{F
i
=0}
.
A utiliza¸ao da distribui¸ao a priori emp´ırica para m = 1 ao ´e vi´avel atraes do
m´etodo proposto, haja visto a impossibilidade de estimar (α
1
, β
1
) e (α
2
, β
2
) atraes
das propor¸oes de classifica¸oes equivocadas. Quando em uma sub-amostra todas as
classifica¸oes repetidas gerarem resultados idˆenticos, ser´a necess´ario aumentar n ou m de
tal forma a captar o efeito dos erros de classifica¸ao e tornar poss´ıvel estimar (α
1
, β
1
) e
(α
2
, β
2
) pelo m´etodo dos momentos.
4 Exemplo num´erico e discuss˜oes
A avalia¸ao do desempenho num´erico da metodologia proposta neste artigo foi realizada
atrav´es de uma simula¸ao considerando todas as combina¸oes decorrentes dos seguintes
valores de parˆametros: p =0,55; 0,75 ou 0,9; e
1
=0,05 ou 0,15; e
2
=0,05 ou 0,15; n=250 ou
500. Al´em disso, foram utilizadas distribui¸oes a priori emp´ırica e U(0, 1) para os erros,
considerando tamb´em a possibilidade de at´e sete classifica¸oes repetidas. A distribui¸ao
a priori de p foi U(0, 1) em todos os casos simulados. Foi desenvolvido um programa no
software Matlab de tal forma a calcular (6) e gerar graficamente a distribui¸ao a posteriori
8
de p com respectiva edia, moda, mediana e intervalo de credibilidade. O programa e os
resultados de todas as simula¸oes podem ser obtidos em www.est.ufmg.br/roberto.
As Figuras de 1 a 7 foram simuladas com os parˆametros p = 0, 55; e
1
= 0, 15; e
2
=
0, 15; n = 500, correspondendo `as sete classifica¸oes repetidas e ao representativas dos
resultados obtidos em todo o pro cess o de simula¸ao.
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
média = 0,5000
2
s = 0,0698
mediana = 0,5000
moda = 0,4225
f(p|r,n,m)
p
n = 500; r = 275; m = 1
a priori U(0,1): e e e
1 2
Figura 1: Distribui¸ao a posteriori de p
com n=500, m=1 e distribui¸ao a priori
U(0, 1) para e
1
e e
2
.
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
0,4
0,6
0,8
1,2
1,4
1,6
1,8
2,0
média = 0,5000
2
s = 0,0680
mediana = 0,5000
moda = 0,5587
f(p|r,n,m)
p
n = 500; r = 279; m = 3
0,2
0,0
a priori U(0,1): e e e
1 2
Figura 2: Distribui¸ao a posteriori de p
com n=500, m=3 e distribui¸ao a priori
U(0, 1) para e
1
e e
2
.
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
média = 0,5161
2
s = 0,0241
mediana = 0,5545
moda = 0,5589
f(p|r,n,m)
p
n = 500; r = 279; m = 3
3
4
5
6
7
8
9
10
2
1
0
a priori empírica: e e e
1 2
Figura 3: Distribui¸ao a posteriori de p
com n=500, m=3 e distribui¸ao a priori
emp´ırica para e
1
e e
2
.
De maneira geral, o aumento das classifica¸oes repetidas reduziu o n´umero de pontos
extremos na fun¸ao densidade a posteriori de p quando utiliza-se tanto a distribui¸ao a
priori U (0, 1) (Figuras 1, 2, 4, 6) quanto a distribui¸ao a priori emp´ırica (Figuras 3, 5,
7). Observa-se tamb´em que, considerando o mesmo n´umero de classifica¸oes repe tidas, as
distribui¸oes a posteriori de p obtidas atrav´es de priori emp´ırica para os erros apresentam
menor variabilidade e um n´umero de pontos extremos menor ou igual ao das distribui¸oes
9
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
0,4
0,6
0,8
1,2
1,4
1,6
1,8
2,0
média = 0,5000
2
s = 0,0680
mediana = 0,5000
moda = 0,5587
f(p|r,n,m)
p
n = 500; r = 277; m = 5
0,2
0,0
a priori U(0,1): e e e
1 2
Figura 4: Distribui¸ao a posteriori de p
com n=500, m=5 e distribui¸ao a priori
U(0, 1) para e
1
e e
2
.
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
2
3
4
5
6
7
8
9
média = 0,4994
2
s = 0,0255
mediana = 0,5468
moda = 0,5549
f(p|r,n,m)
p
n = 500; r = 277; m = 5
1
0
a priori empírica: e e e
1 2
Figura 5: Distribui¸ao a posteriori de p
com n=500, m=5 e distribui¸ao a priori
emp´ırica para e
1
e e
2
.
0,0
0,5
1,0
1,5
2,0
2,5
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
média = 0,5000
2
s = 0,0944
mediana = 0,5000
moda = 0,8994
f(p|r,n,m)
p
n = 500; r = 272; m = 7
a priori U(0,1): e e e
1 2
Figura 6: Distribui¸ao a posteriori de p
com n=500, m=7 e distribui¸ao a priori
U(0, 1) para e
1
e e
2
.
0,0
0,5
1,0
1,5
2,0
2,5
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
média = 0,4883
2
s = 0,0247
mediana = 0,5342
moda = 0,5431
f(p|r,n,m)
p
n = 500; r = 272; m = 7
a priori empírica: e e e
1 2
Figura 7: Distribui¸ao a posteriori de p
com n=500, m=7 e distribui¸ao a priori
emp´ırica para e
1
e e
2
.
10
obtidas com distribui¸ao a priori U(0, 1).
As Tabelas 2 e 3 apresentam o v´ıcio edio (em percentual relativo ao valor real do
parˆametro) para as combina¸oes de erros simuladas e amostras de 500 e 250 elementos
respectivamente. A utiliza¸ao da distribui¸ao a priori emp´ırica demonstra um melhor
desempenho, pois gera v´ıcios, em odulo, menores do que a utiliza¸ao da distribui¸ao a
priori uniforme. A edia a posteriori apresenta os maiores v´ıcios m´edios, ao sendo esta,
portanto, uma boa escolha para estimar p. a a mediana e a moda, quando n=500 e 250,
apresentam valores de v´ıcios m´edios absolutos inferiores a 5% para 3, 5 ou 7 classifica¸oes
repetidas, tendo a moda um desempenho ligeiramente melhor.
As Tabelas 4 e 5 apresentam os v´ıcios aximos obtidos para as combina¸oes de erros
simulados nas amostras de 500 e 250 elementos. Considerando 3, 5 ou 7 classifica¸oes
repetidas, observa-se que a mediana apresenta um melhor desempenho, com valores
de v´ıcios aximos (em odulo) inferiores a 7,2%, enquanto a moda apresenta valores
inferiores a 9,0%.
Quando a distribui¸ao a priori emp´ırica ou U(0, 1) ´e utilizada para os erros, perce be-
se freq¨uentemente a ocorrˆencia de v´ıcios negativos, ou seja, a propor¸ao p de interesse
est´a sendo subestimada. Isso pode ocorrer devido ao crit´erio de decis˜ao para classifica¸ao
final em conforme (F
i
= 1) ou ao-conforme (F
i
= 0). Como nos exemplos simulados
p > 0, 5 ent˜ao em m´edia a quantidade de itens realmente conformes ´e maior implicando
que o n´umero de ocorrˆencias em que classifica-se um item como ao-conforme quando ´e
conforme ´e maior do que os casos onde classifica-se um item como conforme quando ´e na
verdade ao-conforme. Conseq¨uentemente a propor¸ao tende a ficar sub-estimada. Caso
p < 0, 5 existir´a uma tendˆencia de super-estima¸ao da propor¸ao.
11
Tabela 2: V´ıcio m´edio de estimativas a posteriori de p com n=500
Distribui¸ao a priori Emp´ırica Distribui¸ao a priori Uniforme
m p M´edia Mediana Moda M´edia Mediana Moda
0,55 - - - -9,10% -9,10% 12,70%
1 0,75 - - - -33,30% -33,30% 19,20%
0,90 - - - -44,40% -44,40% -71,00%
0,55 -5,20% 0,00% 0,80% -9,10% -9,10% 18,20%
3 0,75 -2,80% -1,80% -1,20% -33,30% -33,30% -61,10%
0,90 -9,80% -3,70% -2,50% -44,40% -44,50% -60,60%
0,55 -6,80% -1,00% 3,90% -9,10% -9,10% -62,00%
5 0,75 -1,80% -1,10% -0,80% -33,30% -33,30% -65,90%
0,90 -7,40% -1,40% -0,70% -44,40% -44,50% -72,50%
0,55 -5,70% -1,00% -0,30% -9,10% -9,10% -79,90%
7 0,75 -2,00% -0,80% -1,20% -33,30% -33,30% -42,10%
0,90 -2,30% -0,40% -0,40% -44,50% -44,40% -44,40%
Tabela 3: V´ıcio m´edio de estimativas a posteriori de p com n=250
Distribui¸ao a priori Emp´ırica Distribui¸ao a priori Uniforme
m p M´edia Mediana Moda edia Mediana Moda
0,55 - - - -9,10% -9,10% 14,30%
1 0,75 - - - -33,30% -33,30% 8,10%
0,90 - - - -44,40% -44,50% 1,00%
0,55 -4,50% -0,30% 0,70% -9,10% -9,10% 25,60%
3 0,75 -3,50% -2,50% -2,00% -33,30% -33,30% -36,80%
0,90 -10,10% -4,70% -3,60% -44,40% -44,50% -94,20%
0,55 -7,20% -2,20% - 1,00% -9,10% -9,10% 8,20%
5 0,75 -2,10% -1,20% -1,40% -33,30% -33,30% -19,30%
0,90 -7,60% -2,80% - 2,20% -44,40% -44,50% -69,50%
0,55 -5,10% -0,90% - 0,40% -9,10% -9,10% -5,60%
7 0,75 -2,80% -1,30% -1,70% -33,30% -33,30% -33,30%
0,90 -2,60% -1,30% - 1,40% -44,50% -44,40% 9,10%
12
Tabela 4: V´ıcio aximo de estimativas a posteriori de p com n=500
Distribui¸ao a priori Emp´ırica Distribui¸ao a priori Uniforme
m p M´edia Mediana Moda edia Mediana Moda
0,55 - - - -9,10% -9,10% 81,80%
1 0,75 - - - -33,30% -33,30% 33,30%
0,90 - - - -44,40% -44,50% -93,00%
0,55 -6,50% 4,20% 6,00% -9,10% -9,10% 81,80%
3 0,75 -6,40% -4,30% -4,30% -33,30% -33,30% -91,00%
0,90 -15,40% -7,20% -5,70% -44,40% -44,50% -82,30%
0,55 -12,90% -2,10% 8,60% -9,10% -9,10% -79,30%
5 0,75 -5,10% -3,10% -2,50% -33,30% -33,30% -77,00%
0,90 -15,10% -3,60% -2,20% -44,40% -44,50% -100,00%
0,55 -11,20% -2,90% -1,50% -9,10% -9,10% -82,30%
7 0,75 -2,90% -1,60% -2,70% -33,30% -33,30% -76,00%
0,90 -3,50% -1,20% - 1,40% -44,50% -44,50% -100,00%
Tabela 5: V´ıcio aximo de estimativas a posteriori de p com n=250
Distribui¸ao a priori Emp´ırica Distribui¸ao a priori Uniforme
m p M´edia Mediana Moda edia Mediana Moda
0,55 - - - -9,10% -9,10% 81,80%
1 0,75 - - - -33,30% -33,30% 54,20%
0,90 - - - -44,40% -44,50% 11,50%
0,55 -9,70% -6,50% 8,90% -9,10% -9,10% 81,80%
3 0,75 -7,20% -6,10% -6,20% -33,30% -33,30% -91,60%
0,90 -14,90% -8,10% -6,60% -44,40% -44,50% -100,00%
0,55 -14,70% -4,20% -2,70% -9,10% -9,10% 54,70%
5 0,75 -5,10% -3,00% -3,50% -33,30% -33,30% -65,80%
0,90 -10,40% -5,20% -4,70% -44,40% -44,50% -100,00%
0,55 -9,40% -3,40% - 2,40% -9,10% -9,10% -9,10%
7 0,75 -4,50% -3,00% -3,90% -33,30% -33,30% -33,30%
0,90 -3,30% -2,20% - 2,80% -44,50% -44,40% 10,20%
13
Observa-se tamem que o v´ıcio ´e assintoticamente nulo com o crescimento das classifica¸oes
repetidas. A Figura 9 ilustra esta situa¸ao atraes da determina¸ao da distribui¸ao a
posteriori de p com as respectivas edia, mediana e moda obtidas de uma simula¸ao
em que n = 500, p = 0, 75, m = 99 e distribui¸ao a priori emp´ırica para os erros.
Neste cen´ario, o v´ıcio aximo est´a em torno de -0,1% decorrente da edia a posteriori.
O gr´afico tamb´em indica que quando m cresce a moda a posteriori tende a apresentar
menores v´ıcios.
0
5
10
15
20
25
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
média = 0,7490
2
s = 0,0004
mediana = 0,7493
moda = 0,7500
f(p|r,n,m)
p
n = 500; r = 375; m = 99
a priori empírica: e e e
1 2
Figura 8: Distribui¸ao a posteriori de
p com n =500, m=99 e distribui¸ao a
priori emp´ırica para e
1
e e
2
.
0
5
10
15
20
25
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
média = 0,7490
2
s = 0,0004
mediana = 0,7493
moda = 0,7500
f(p|r,n,m)
p
n = 500; r = 375; m = 99
a priori empírica: e e e
1 2
Figura 9: Distribui¸ao a posteriori de
p com n =500, m=99 e distribui¸ao a
priori emp´ırica para e
1
e e
2
.
5 Conclus˜ao
Este trabalho apresenta uma metodologia bayesiana emp´ırica para estimar uma propor¸ao
quando as avalia¸oes est˜ao sujeitas a erros de classifica¸ao e informa¸oes a priori sobre
tais erros ao est˜ao dispon´ıveis. A proposta ´e realizar classifica¸oes repetidas e, atraes
destas, elicitar distribui¸oes a priori emp´ıricas para os erros de classifica¸ao.
Um estudo de simula¸ao demonstrou que a metodologia apresenta desempenho satisfat´orio,
pois a utiliza¸ao da distribui¸ao a priori emp´ırica, quando comparada com a distribui¸ao
a priori U(0, 1), gera estimativas a posteriori com v´ıcios absolutos menores e distribui¸oes
a posteriori com menor variabilidade.
Como estimativa a posteriori da propor¸ao de interesse, considerando-se uma postura
conservadora do pior caso, recomenda-se a mediana como melhor alternativa. Decidindo-
14
se por uma abordagem de v´ıcio m´edio, a melhor estimativa ´e fornecida pela moda. Em
ambos os casos, recomenda-se pelo menos trˆes classifica¸oes repetidas de tal forma a
garantir um n´umero menor de p ontos extremos e um v´ıcio que ao comprometa o processo
de decis˜ao.
Referˆencias
BROSS, I. Misclassification in 2×2 tables. Biometrics, v. 10, p. 478–486, 1954.
CARLIN, B. P.; LOUIS, T. A. Bayes and Empirical Bayes Methods for Data Analysis.
London: Chapman & Hall, 1996.
DENDUKURI, N. et al. Bayesian sample size determination for prevalence and diagnostic
test studies in the absense of a gold standard test. Biometrics, v. 60, p. 388–397, 2004.
EVANS, M. et al. Bayesian analysis of binary data subject to misclassification. In:
BERRY, D.; CHALONER, K.; GEWEKE, J. (Ed.). Bayesian Analysis In Statistics and
Econometrics: Essays In Honor Of Arnold Zellner. New York: North Holland, 1996. p.
66–77.
GABA, A.; WINKLER, R. L. Implications of e rrors in survey data: A bayesian model.
Management Science, v. 38, n. 7, p. 913–925, 1992.
GELMAN, A. Bayesian Data Analysis. 2. ed. London: Chapman & Hall, 2004.
GUPTA, A. K.; NADARAJAH, S. Handbook of Beta Distribution and Its Applications.
New York: Marcel Dekker, 2004.
GUSTAFSON, P. Measurement Error and Misclassification in Statistics and
Epidemiology: Impacts and Bayesian Adjustments. New York: Chapman & Hall, 2003.
JOHNSON, N. L.; KOTZ, S. Estimation from binomial data with classifiers of known
and unknown imperfections. Naval Research Logistics, v. 35, p. 147–156, 1988.
15
JOHNSON, N. L.; KOTZ, S.; WU, X. Inspection Errors for Attributes in Quality
Control. London: Chapman & Hall, 1991.
MORRIS, C. N. Parametric empirical bayes inference: theory and applications. Journal
of the American Statistical Association, v. 78, p. 47–65, 1983.
RAHME, E .; JOSEPH, L.; GYORKOS, T. W. Bayesian sample size de termination for
estimating binomial parameters from data subject to misclassification. Applied Statistics,
v. 49, n. 1, p. 119–128, 2000.
VIANA, M. A. G. Bayesian small-sample estimation of misclassification multinomial
data. Biometrics, v. 50, p. 237–243, 1994.
VIANA, M. A. G.; RAMAKRISHNAN, V.; LEVY, P. S. Bayesian analysis of prevalence
from the results of small screening samples. Communications in statistics - V theory and
methods, v. 22, n. 2, p. 575–85, 1993.
WINKLER, R. L. Bayesian Inference and Decisions. 2. ed. London: Probabilistic
Publishing, 2003. 384 p.
16
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo