Download PDF
ads:
ALINE VISCONTI RODRIGUES
ÁRVORES DE REGRESSÃO COM DADOS
AMOSTRAIS COMPLEXOS
DISSERTAÇÃO DE MESTRADO
Escola Nacional de Ciências Estatísticas – ENCE
Instituto Brasileiro de Geografia e Estatística - IBGE
Rio de Janeiro, 02 de fevereiro de 2006
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ads:
ALINE VISCONTI RODRIGUES
Árvores de Regressão com dados amostrais complexos
Dissertação apresentada à Escola Nacional de
Ciências Estatísticas como parte dos requisitos para
obtenção do título de Mestre em Estudos
Populacionais e Pesquisa Social.
Orientador: Prof. Dr. Djalma Galvão Carneiro Pessoa.
Escola Nacional de Ciências Estatísticas – ENCE
Instituto Brasileiro de Geografia e Estatística - IBGE
Rio de Janeiro, 02 de fevereiro de 2006
Aos meus queridos pais
Agradecimentos
Ao meu orientador Djalma Pessoa, pela grande ajuda, pelo ensinamento, pela
incansável assistência e principalmente pela paciência que teve comigo. Djalma se
tornou para mim, além de um grande mestre, um amigo.
Sou grata à Mariana Rebouças pelo incentivo e por ter dado condições
necessárias para que este trabalho fosse realizado.
Especiais agradecimentos à Wasmália pelas sugestões, valiosos comentários,
dicas, além de todo incentivo para a iniciação do Mestrado.
Às minhas amigas Roberta Busse, Andrea Leonel e Ana Paula Mesquita pelo
companheirismo, pelo socorro nas horas que precisei de ajuda. Aos meus amigos
Marcos Paulo e André Wallace por terem sido atenciosos e prestativos em todos os
momentos.
Ao Frederico, pelo entendimento de meus momentos desesperados e de
ansiedade. Obrigada pelo apoio.
E principalmente aos meus pais, pelo esforço e incentivo ao estudo. Sou grata
eternamente a eles.
E a todos aqueles que participaram de alguma forma nesta etapa da minha
vida.
Sumário
1 – Introdução............................................................................................................................... 1
2 – Dados não declarados............................................................................................................ 4
3 – Incorporação do plano amostral no método de regressão .................................................... 6
3.1 – Introdução...................................................................................................................... 6
3.2 – Planos Amostrais Informativos...................................................................................... 7
4 – Regressão não-paramétrica por suavização: estudo de simulação....................................... 9
4.1 – Introdução Geral............................................................................................................. 9
4.1.1 – Estimadores de Kernel....................................................................................... 10
4.1.2 – Distribuição amostral vs distribuição populacional.............................................. 12
4.2
– Informação disponível na amostra e na população..................................................... 14
4.2.1 – Cenários............................................................................................................ 14
4.2.2 – Descrição das Simulações................................................................................. 19
4.2.3 - Resultados das Simulações................................................................................ 23
5 – Técnica da Árvore de Regressão........................................................................................... 28
5.1 – Regressão não-paramétrica......................................................................................... 28
5.2 – Estrutura da Árvore de Regressão................................................................................ 28
5.2.1 – Desenvolvimento da árvore................................................................................ 28
5.2.2 – Parada de crescimento de árvore........................................................................ 33
5.2.3 – Preditores da variável de resposta....................................................................... 35
5.3 - Exemplo de árvore.......................................................................................................... 36
5.4 – Simulações realizadas pela técnica de Árvore de Regressão...................................... 37
5.4.1 – Introdução........................................................................................................... 37
5.4.2 – Populações simuladas........................................................................................ 37
5.4.3 – Árvores de regressão utilizadas na simulação.................................................... 38
5.4.4 – Resultados........................................................................................................... 40
5.4.5 – Conclusões e trabalhos futuros.......................................................................... 53
6 – Referências Bibliográficas ...................................................................................................... 55
7 – Anexos ................................................................................................................................... 57
Lista de figuras e gráficos
Figura 4.1 - Representação esquemática da modelagem de superpopulação
9
Figura 4.2 - Gráfico de dispersão de
Y
contra
X
para os dados de primeira população gerada
com N=1000, com a curva de regressão
)(xg
U
superposta
20
Figura 4.3 - Gráfico de dispersão de
Y
contra
X
para os dados de segunda população
gerada com N=1000, com a curva de regressão
)(xg
U
superposta
22
Gráfico 4.1 – Efeito da interação entre método de estimação e tipo de amostragem no vício -
primeira população
23
Gráfico 4.2 – Efeito da interação entre largura da banda e tipo de amostragem no vício -
primeira população
24
Gráfico 4.3 – Efeito da interação entre método de estimação e tipo de amostragem na REMQ -
primeira população
24
Gráfico 4.4 – Efeito da interação entre largura da banda e tipo de amostragem na REMQ -
primeira população
25
Gráfico 4.5 – Efeito da interação entre método de estimação e tipo de amostragem no vício -
segunda população
25
Gráfico 4.6 – Efeito da interação entre largura da banda e tipo de amostragem no vício -
segunda população
26
Gráfico 4.7 – Efeito da interação entre método de estimação e tipo de amostragem na REMQ -
segunda população
26
Gráfico 4.8 – Efeito da interação entre largura da banda e tipo de amostragem na REMQ -
segunda população
27
Figura 5.1 - Estrutura de uma árvore de regressão 29
Figura 5.2 - Partições determinadas pelo método da árvore de regressão na região delimitada
entre a e b
30
Figura 5.3 - Gráfico da superfície de resposta da regressão 30
Gráfico 5 – Comportamento da medida de complexidade (cp) x Número de partições na árvore
de regressão
35
Figura 5.4 - Árvore de regressão baseada em exemplo de Pessoa, Moreira e Santos (2003)
36
Gráfico 5.1 – Efeito da interação INF X PESO no vício – primeira população 40
Gráfico 5.2 – Efeito da interação INF X ARVPESO no vício – primeira população 41
Gráfico 5.3 – Efeito da interação INF X CONT no vício – primeira população 41
Gráfico 5.4 – Efeito da interação INF X REG no vício – primeira população 42
Gráfico 5.5 – Efeito da interação INF X PESO na REMQ – primeira população
42
Gráfico 5.6 – Efeito da interação INF X ARVPESO na REMQ – primeira população 43
Gráfico 5.7 – Efeito da interação INF X CONT na REMQ – primeira população 43
Gráfico 5.8 – Efeito da interação INF X REG na REMQ – primeira população
44
Gráfico 5.9 – Efeito da interação INF X PESO no vício – segunda população 44
Gráfico 5.10 – Efeito da interação INF X ARVPESO no vício – segunda população 45
Gráfico 5.11 – Efeito da interação INF X CONT no vício – segunda população 45
Gráfico 5.12 – Efeito da interação INF X REG no vício – segunda população
46
Gráfico 5.13 – Efeito da interação INF X PESO na REMQ – segunda população 46
Gráfico 5.14 – Efeito da interação INF X ARVPESO na REMQ – segunda população 47
Gráfico 5.15 – Efeito da interação INF X CONT na REMQ – segunda população 47
Gráfico 5.16 – Efeito da interação INF X REG na REMQ – segunda população 48
Gráfico 5.17 – Efeito da interação INF X PESO no vício – terceira população 48
Gráfico 5.18 – Efeito da interação INF X ARVPESO no vício – terceira população 49
Gráfico 5.19 – Efeito da interação INF X CONT no vício – terceira população 49
Gráfico 5.20 – Efeito da interação INF X REG no vício – terceira população 50
Gráfico 5.21 – Efeito da interação INF X PESO na REMQ – terceira população 50
Gráfico 5.22 – Efeito da interação INF X ARVPESO na REMQ – terceira população 51
Gráfico 5.23 – Efeito da interação INF X CONT na REMQ – terceira população 51
Gráfico 5.24 – Efeito da interação INF X CONT na REMQ – terceira população 52
RESUMO
O objetivo desta dissertação é avaliar o impacto de ignorar o plano amostral
nas estimativas ao ajustarem-se Árvores de Regressão.
A não-resposta é um dos erros não-amostrais mais comuns em uma pesquisa.
Ela pode resultar da impossibilidade de se contactar o informante, da recusa deste
de participar da pesquisa, ou de sua dificuldade de responder o questionário. A não-
resposta é mais freqüente quando o questionário contém informação considerada
confidencial ou estratégica pelo informante, como renda ou despesas de empresas.
Há muitas formas diferentes de se lidar com a não-resposta, sendo
procedimentos baseados em imputação uma das mais comuns. Como exemplo,
citamos a imputação da renda no Censo Demográfico de 2000. Nele foi constatado
que a taxa de não-resposta era maior para pessoas com rendas mais altas. Para
lidar com esse problema, foi desenvolvido um método de imputação baseado em
Árvores de Regressão, que foi usado nos dados da população e da amostra, a
mesma metodologia tendo sido adotada em ambos os casos.
A pergunta natural que surgiu quando o método estava sendo usado no Censo
Demográfico de 2000 foi se deveria ser considerado o plano amostral ao se
ajustarem as Árvores de Regressão aos dados do questionário da amostra. É
bastante conhecido que o plano amostral tem influência na inferência analítica
quando se ajustam modelos de regressão e modelos lineares generalizados em
dados produzidos por pesquisas amostrais.
Nesta dissertação, são sugeridas correções simples do método usual de
Árvores de Regressão para reduzir o impacto do plano amostral nas estimativas
obtidas, principalmente no caso de amostragem informativa.
ABSTRACT
The aim of this dissertation is to assess the impact of neglecting the sampling
design on the estimates when fitting Regression Trees.
Nonresponse is one of the most common errors among nonsampling errors in
a survey. It may result from the impossibility of contacting the respondent, from his
refusal to take part in the survey, or from his difficulties in filling in the questionnaire.
Nonresponse is more frequent when the questionnaire contains sensitive questions,
considered confidential or strategic by the respondent, such as personal income or
enterprise expenditure.
There are many different ways of dealing with nonresponse, imputation-based
procedures being one of the most common of them. As an example, we mention the
income imputation in the 2000 Brazilian Demographic Census. It was found then that
the rate of nonresponse was higher among people with higher incomes. To deal with
this problem, an imputation method based on Regression Trees was developed and
used in the population and in the sample data, the same methodology being adopted
in both cases.
The natural question that came up as this method was being used in the 2000
Demographic Census was whether one should take into account the sample design
when fitting the Regression Trees for the sample questionnaire data. It is well known
that the sampling design has an influence on the analytic inference when fitting
regression and generalized linear models for data produced by sample surveys.
In this dissertation, we suggest simple corrections to the usual Regression
Trees methods to reduce the sample design impact on the estimates.
1
1 - Introdução
No processo de avaliação da qualidade dos resultados de uma pesquisa
estatística por amostragem probabilística podem ocorrer dois tipos de erros. São eles
os erros amostrais e os erros alheios à amostragem. O primeiro deriva do fato de que
quando se faz uma amostra, ou seja, uma parte da população é investigada, os
resultados se referem às estimativas desta população.
Quanto aos erros não-amostrais, que também ocorrem nas pesquisas de
levantamento exaustivo da população alvo, inúmeras são as fontes de sua
ocorrência. Entre elas, a não-resposta é mais comum, pois sempre acontecem casos
em que o dado desejado não é obtido para algumas unidades da amostra
selecionada, seja por recusa em participar da pesquisa, seja por dificuldades de
estabelecer contato durante o período possível da coleta, ou seja por dificuldades do
informante em fornecer as informações solicitadas. Estas dificuldades são mais
aparentes nos casos em que o questionário contém perguntas relativas a questões
consideradas pelos informantes como estratégicas ou confidenciais, o rendimento
das pessoas, gastos ocorridos nas empresas e, portanto, ficam mais sujeitas a não-
resposta, mesmo quando o restante da entrevista foi concluída com sucesso.
Há alternativas para tratar a não-resposta: uma delas seria a utilização de
métodos de imputação (substituir valores não declarados por valores estimados
individualmente). Podemos citar o exemplo do Censo Demográfico 2000, onde houve
evidências de que a taxa de não-resposta da renda é maior para os indivíduos que
apresentavam maior renda. Pessoa e Santos (2003) trabalharam esses dados do
Censo 2000, empregando a técnica de Árvores de Regressão (Breiman et all, 1984).
Esse estudo foi feito para os dois tipos de questionários do Censo 2000, um
referente ao universo e outro à amostra, sendo utilizada essencialmente a mesma
metodologia nos dois casos.
Uma pergunta natural que surgiu na utilização dessa técnica no Censo 2000
foi: será que na aplicação feita nos dados da amostra, teria sido importante
considerar o plano amostral ao utilizar Árvores de Regressão? A influência do plano
amostral na inferência analítica no ajuste de modelos de regressão e de modelos
lineares generalizados é bastante conhecida, quando se utiliza dados provenientes
2
de pesquisas por amostragem. Para o caso de modelos não-paramétricos de
regressão o impacto de não se considerar o plano amostral é menos conhecido. Em
particular, não foi possível encontrar referência sobre o assunto para a técnica de
Árvores de Regressão.
Pesquisas por amostragem, como as realizadas pelo IBGE – Instituto
Brasileiro de Geografia e Estatística - são baseadas em planos amostrais complexos
com uso de estratificação e conglomeração das unidades de análise, seleção das
unidades amostrais em vários estágios e com probabilidades distintas. É comum
ignorar estes planos amostrais quando se ajustam modelos aos dados de amostras
complexas.
O propósito deste trabalho é avaliar a existência de algum impacto nas
estimativas ao não utilizar informações do desenho amostral quando se usa a técnica
de Árvore de Regressão. A importância do tema deriva do fato de ter-se cogitado de
utilizar a técnica em outras pesquisas do IBGE, em particular na Pesquisa Mensal de
Emprego (PME).
Além da introdução já feita, esta dissertação está organizada nos capítulos
descritos a seguir:
O Capítulo 2 se refere ao problema constante em todas as pesquisas do
IBGE, a não-resposta para algumas variáveis contidas nos questionários da
instituição e os possíveis tratamentos.
O Capítulo 3 apresenta a necessidade de se corrigir o método de regressão
de modo a considerar o plano amostral.
O Capítulo 4 é uma síntese do artigo de Chambers, Dorfman e Sverchkov
(2003) sobre o problema de regressão não-paramétrica com dados amostrais
complexos, apresentado no Capítulo 11 do livro editado por Chambers e Skinner
(2003). Esta referência trata de análise de dados de pesquisas amostrais, e é
considerada básica sobre o assunto.
O Capítulo 5 contém uma breve descrição da técnica da Árvore de Regressão,
as simulações desenvolvidas e seus resultados.
As tabelas e deduções de fórmulas foram transferidas para anexos no final da
dissertação. O Anexo1, apresenta de forma resumida a dedução de algumas
fórmulas fundamentais para a compreensão do Capitulo 4. No Anexo 2 estão
3
reproduzidas algumas tabelas do exercício de simulação apresentado em Chambers,
Dorfman e Sverchkov (2003). Finalmente, no Anexo 3 estão as tabelas referentes às
simulações descritas no Capítulo 5.
4
2 - Dados não declarados
Um problema bastante comum em pesquisas por amostragem, especialmente
naquelas de grande porte, é a ocorrência de falhas na obtenção da informação que
deveria ser coletada para as unidades selecionadas para compor a amostra, que
decorrem: da recusa em participar da pesquisa, das dificuldades de estabelecer
contato durante o período da coleta, das dificuldades do respondente em fornecer as
informações necessárias. Este problema, conhecido como não-resposta, é um tipo
de erro não amostral, que pode afetar ou invalidar as inferências estatísticas
desejadas na pesquisa.
Podemos classificar a não-resposta em dois tipos: completa e parcial. A não-
resposta é dita completa quando não se consegue obter nenhuma informação sobre
uma unidade identificada e selecionada para participar da pesquisa, e parcial quando
se obtém parte das informações desejadas.
Quando a não-resposta ocorre totalmente ao acaso (não informativa ou não
diferencial), seu único efeito na estimação é aumentar a variância devido à redução
do tamanho de amostra (veja Little e Rubin, 1987, p.15), resultando em estimativas
menos precisas. Porém, quando não podemos afirmar que a falta de dados é
aleatória, ou seja, quando a não-resposta é informativa ou diferencial, o impacto se
observa na forma de vícios, que crescem com a taxa de não-resposta e também com
a diferença nos valores da variável de interesse entre os informantes e não-
informantes.
Entre as alternativas usadas para lidar o problema de não-resposta estão:
i. Alternativa mais simples que seria descartar os dados perdidos. Uma opção em
alguns pacotes estatísticos é eliminar registros incompletos do conjunto de
dados, e trabalhar somente com os registros completos. No caso de um banco
de dados no qual são excluídos registros com dados faltantes em mais de uma
variável, estaria ocorrendo uma grande perda de informações. Além disso, isto
pode gerar análises tendenciosas, já que os registros incompletos podem ser
sistematicamente diferentes dos completos. A conseqüência é a obtenção de
resultados não representativos da população de interesse e sim da população
dos que responderam.
5
ii. Ponderação - esses métodos são geralmente utilizados em dados obtidos
através de pesquisas amostrais, e ajusta os pesos iniciais do plano amostral da
pesquisa para os registros completos para compensar a falta dos registros
incompletos. Se a ponderação depende da variável não declarada, pode haver
compensação distinta para diferentes variáveis. Nesse caso, não seria possível
obter um único conjunto de pesos.
iii. Imputação – é um método que substitui os valores não declarados por valores
“estimados” para cada caso individualmente. A imputação, entre outras formas,
pode ser feita por média calculada com base nos valores observados, ou por
regressão, em que os valores faltantes de uma variável “resposta”, são
estimados por valores preditos a partir de uma regressão desta variável sobre
os valores observados de variáveis preditoras.
As agências de estatísticas oficiais, em geral, preferem utilizar métodos de
imputação para compensar a não resposta parcial. Isso se deve à maior simplicidade
no processamento posterior dos dados, ainda mais quando estes são publicados na
forma de arquivos de microdados, contendo registros individuais. No IBGE, esses
métodos são mais utilizados em pesquisas domiciliares.
Como mencionado na Introdução, o tema dessa dissertação foi motivado por
indagações que surgiram quando da aplicação de técnicas de Árvores de Regressão
para imputar a variável renda no Censo 2000. Nas seções a seguir, contudo, o
problema de imputação será deixado de lado, passando-se a tratar tão somente de
questões relacionadas à regressão não-paramétrica.
A utilidade das árvores de regressão vai muito além dos usos citados, referentes à
imputação de dados faltantes da renda no Censo Demográfico brasileiro do ano
2000. A técnica de árvore de regressão tem sido utilizada em várias pesquisas como
um método geral de definição de classes de imputação, ver Chambers, Hentges e
Zhao (2004).
6
3 - Incorporação do plano amostral no método de regressão
3.1 – Introdução
As pesquisas do IBGE, e da maior parte das agências produtoras de
informações estatísticas, utilizam desenhos amostrais complexos e selecionam
unidades de análise com probabilidades distintas, podendo conter estratificação,
conglomeração e também podendo ainda, utilizar ajustes para compensar não-
resposta. Os dados resultantes dessas pesquisas são comumente usados em
análises descritivas, envolvendo o cálculo de estimativas de totais, proporções,
médias e razões, nas quais, normalmente, são devidamente considerados os pesos
distintos das observações e o planejamento da amostra que lhes deu origem.
É comum a utilização de dados de pesquisas realizadas pelo IBGE para a
construção e ajuste de modelos em análises secundárias usando, por exemplo,
modelos de regressão. Tais análises, em geral feitas por analistas que muitas vezes
não possuem acesso às variáveis que definem o plano amostral da pesquisa,
geralmente utilizam para a construção dos modelos pacotes estatísticos que adotam
hipóteses válidas somente quando os dados são obtidos através de amostras
aleatórias simples com reposição (observações independentes e identicamente
distribuídas – i.i.d).
A incorporação dos pesos na estimação de medidas descritivas, tais como
totais, médias, taxas, proporções e razões populacionais, pode ser feita com
simplicidade, empregando-se as opções de ponderação disponíveis nos pacotes e
sistemas estatísticos padrão, tais como SAS, SPSS, SPLUS, STATA, R e muitos
outros. Além disso, a maioria dos pacotes citados possui ferramentas especiais para
analisar os dados incorporando informações relativas ao plano amostral. No caso do
R, além da biblioteca “survey”, disponível para download no site http://cran.br.r-
project.org/ , tem sido utilizada principalmente por alunos da ENCE (Escola Nacional
de Ciências Estatísticas) e técnicos do IBGE, uma outra biblioteca chamada ADAC,
desenvolvida por Pessoa e Guimarães (2002).
As estimativas pontuais de parâmetros da população são influenciadas por
pesos distintos das observações. Além disso, as estimativas de variância e desvio
7
padrão podem ser influenciadas pela estratificação, conglomeração e pesos. Se
ignorarmos tais influências, as técnicas e sistemas de análise tradicionais podem
levar a conclusões falsas, comprometendo a qualidade do ajuste de modelos e a
interpretação dos resultados obtidos.
Recentemente este assunto tem sido bastante discutido na literatura e já se
apresentam várias maneiras de obter análises que incorporam informações relativas
ao desenho amostral complexo. Podemos citar como referências: Chambers,
Dorfman e Sverchkov (2003), Pessoa e Nascimento Silva (1998), Skinner, Holt e
Smith (1999) e Chambers e Skinner (2003).
3.2 – Planos amostrais informativos
As distribuições de probabilidade da variável de interesse na amostra e na
população podem ser distintas quando se usa um plano amostral complexo, podendo
levar a conclusões falsas no processo de inferência, se não considerarmos o plano
amostral na análise dessa variável.
Ao fazermos inferência com dados de pesquisas por amostras complexas, é
necessário distinguir duas situações que precisam de um tratamento diferenciado. A
primeira acontece quando o plano amostral utilizado na coleta é informativo, ou seja,
quando a seleção da amostra pode depender diretamente dos valores das variáveis
de interesse na análise. O mecanismo de seleção da amostra também pode ser
informativo quando as probabilidades de seleção dos elementos da população
dependem de variáveis que são correlacionadas com as variáveis de interesse na
análise. Exemplos deste tipo de amostragem são encontrados em estudos de saúde,
onde as unidades são selecionadas com probabilidades proporcionais aos seus
valores, estudos de caso-controle, onde a amostra depende da ausência ou da
presença da doença; ou também em casos de amostras estratificadas, onde se tem
unidades da amostra final selecionadas com probabilidades desproporcionais, sendo
que essas probabilidades estão correlacionadas com a variável de resposta.
Logo, modelos alternativos com hipóteses mais complexas, ou estimadores
especiais são necessários para tentar representar melhor a estrutura da população
8
ou do plano amostral. Neste processo, geralmente variáveis auxiliares estão
disponíveis, e mesmo as que não foram utilizadas na especificação do plano
amostral podem ser aproveitadas na estimação dos parâmetros, quando se trata de
um modelo paramétrico e na própria formulação do modelo (paramétrico ou não -
paramétrico). Chambers, Dorfman e Sverchkov (2003, Cap.11, pág.154,155) e
Pessoa e Nascimento Silva (1998) apresentam maiores detalhes.
Nosso objetivo é avaliar o impacto do plano amostral complexo na qualidade
das estimativas quando utilizamos a técnica de regressão não-paramétrica de
Árvores de Regressão, e introduzir correções que possam diminuí-lo.
9
4 – Regressão não-paramétrica por suavização: estudo de simulação
4.1 – Introdução geral
O estudo de simulação apresentado em Chambers, Dorfman e Sverchkov
(2003) é relativo a modelos de regressão não-paramétrica por suavização para
dados obtidos através de desenhos amostrais complexos. Vamos considerar uma
população contendo N unidades, e sejam
Y
e
X
variáveis nela definidas.
Suponhamos que dessa população seja extraída uma amostra probabilística de n
unidades e sejam observados os valores de
Y
e
X
. O objetivo é usar os dados da
amostra para ajustar uma regressão de
Y
em
X
na população. Seja (x)g
U
a função
de regressão na população, isto é,
(
)
xXYE(x)g
UU
=
=
| , onde
U
E é a esperança com
respeito à distribuição definida pelo modelo populacional e
()
|
U
EYX x= é o valor
esperado de
Y
dado xX = .
Figura 4.1- Representação esquemática da modelagem de superpopulação
Plano Amostral
Modelo
)(x
U
g
N
yy ,...,
1
)(sp
Dados Amostrais
n
yy ,...,
1
)(x
s
g
N
xx ,...,
1
n
xx ,...,
1
População Finita
),( yf x
10
Na Figura 4.1 utilizamos a seguinte notação:
N
,...,yy
1
e
N
,...,xx
1
valores das variáveis de interesse
X
e
Y
na população
finita, considerados como realizações das variáveis aleatórias
N
,...,XX
1
e
N
,...,YY
1
,
supostas i.i.d com distribuição ),( yf x ;
(, )
f
yx - função de densidade conjunta de x e y ;
U
g( )x - é a função de regressão de y em x na população;
p(s)- Probabilidade de seleção da amostra s definida pelo plano amostral;
n1
x,...,x e
n1
y,...,y - valores selecionados na amostra utilizando o plano amostral
definido por p(s);
s
g( )x - é a função de regressão de y em x na amostra;
Se existir uma especificação paramétrica, o problema de estimar
(
)
x
U
g reduz-
se a estimar os valores dos parâmetros contidos na especificação do modelo. Neste
trabalho, estamos interessados em estimar diretamente )(g
U
x para cada valor de
x
.
A seguir, quando estimamos
(
)
x
U
g , os pesos utilizados para as unidades
amostrais são inversamente proporcionais às probabilidades de inclusão destas
unidades na amostra. Em particular, se um procedimento de estimação para
(
)
xg
U
for definido a partir de valores de
Y
e
X
na população, sua estimativa baseada na
amostra será obtida simplesmente substituindo todas as quantidades (não
conhecidas) da população por estimadores ponderados baseados nos dados
amostrais.
4.1.1 – Estimadores de Kernel
Estimação de densidades e regressão não-paramétrica para observações
i.i.d., são duas áreas bem estabelecidas da metodologia estatística. Para mais
detalhes veja, por exemplo, Silverman(1986) e Härdle(1990). Comumente, tanto na
estimação de densidades como na de regressão não paramétrica, são utilizados
métodos baseados em estimadores de Kernel. Esses estimadores são bastante
conhecidos e foram originalmente desenvolvidos para amostras aleatórias simples. A
11
implementação computacional desses métodos encontra-se disponível nos principais
softwares de Estatística.
Dada uma população que contém N observações independentes e
identicamente distribuídas
N
,...,y,yy
21
de uma distribuição populacional com
densidade (y)f
U
, o estimador de Kernel do valor da densidade de Y na população no
ponto y é dado por:
=
=
N
t
t
U
h
yy
K
hN
(y)f
1
1
ˆ
(4.1)
onde
K
é uma função de Kernel, usualmente definida como uma função de
densidade unimodal, simétrica em torno de zero, e
h >0 é a medida de largura da
janela que serve para controlar a suavidade da estimativa. Essa medida h é o fator
mais importante para determinar a eficiência da estimativa (y)f
U
ˆ
. Em geral, quando
h aumenta o viés da estimativa aumenta e sua variância diminui.
O estimador em (4.1) baseia-se em todas as observações da população.
Como só conhecemos as observações na amostra, podemos introduzir os pesos
amostrais e obter um estimador baseado somente na amostra:
=
s
t
ts
h
yy
Kw
hN
(y)f
ˆ
1
ˆ
(4.2)
onde
t
w é o peso amostral associado a unidade amostrada
t
.
A adaptação do método de estimação por função Kernel para estimar a função
de regressão não-paramétrica é direta. O estimador de Kernel da função de
regressão baseado nas observações na população, é dado por:
=
=
p
k
k
kxU
xb(x)g
0
ˆ
(4.3)
onde os coeficientes }{
kx
b são obtidos quando estimamos os parâmetros de
regressões polinomiais locais. As estimativas são obtidas através da solução do
sistema de equações normais:
12
=
=
=
∑∑
∑∑
==
==
==
0
0
0
10
10
01
N
t
p
k
k
tkxt
t
p
t
N
t
p
k
k
tkxt
t
t
p
k
k
tkxt
N
t
t
xby
h
xx
Kx
xby
h
xx
Kx
xby
h
xx
K
M
M
(4.4)
O método estima (x)g
U
por um ajuste de mínimos quadrados ponderados de
uma função de regressão polinomial de ordem
p
aos dados populacionais, com o
peso para a unidade
t
da população determinado pela sua distância
))((
1
xxhK
t
de seu valor
t
x
do ponto
x
. É usual tomar
1
=
p
, e neste caso a solução de (4.4) é
chamada de regressão linear local de
Y
em
X
.
Para dados amostrais com pesos distintos, os estimadores nas fórmulas (4.3)
e (4.4) em função dos valores observados na amostra são dados por:
=
=
p
k
k
kxss
xb(x)g
0
ˆ
(4.5)
e
=
=
=
∑∑
∑∑
=
=
=
0
0
0
0
s
p
k
k
tkxst
t
p
tt
s
p
k
k
tkxst
t
tt
p
k
k
tkxst
s
t
t
xby
h
xx
Kxw
xby
h
xx
Kxw
xby
h
xx
Kw
M
M
(4.6)
4.1.2 – Distribuição amostral vs. distribuição populacional
Em Chambers, Dorfman e Sverchkov (2003) a abordagem adotada para
analisar dados amostrais baseia-se diretamente na distribuição dos dados da
13
amostra. Outro enfoque bastante utilizado, ver Pessoa e Nascimento Silva (1998), é
a modelagem de superpopulação, que consiste em modelar a distribuição dos dados
na população, obtendo-se estimativas para os parâmetros destes modelos que
dependem dos dados na população. Como só são observadas as unidades na
amostra, utilizam-se estes valores para estimar as grandezas populacionais obtidas
no primeiro passo do procedimento. Um exemplo conhecido desta última abordagem
é a derivação de estimadores de máxima verossimilhança de parâmetros da
distribuição do modelo na população. Neste caso, estimam-se as equações de
verossimilhança, introduzindo-se os pesos amostrais e obtêm-se as equações de
Pseudo-Verossimilhança. As soluções destas equações fornecem os estimadores de
Máxima Pseudo-Verossimilhança, ver Pessoa e Nascimento Silva (1998, pág. 88).
Os métodos adotados nesta dissertação utilizam estimadores derivados a
partir da distribuição dos dados na amostra. Se designarmos por
U
f a função de
densidade dos dados da população, a partir das informações sobre o plano amostral,
estabelecemos uma relação entre
U
f e
s
f , função de densidade dos dados na
amostra. A partir da inferência sobre
s
f obtemos resultados para
U
f .
Suponhamos que os valores populacionais de
Y
sejam observações
independentes e identicamente distribuídas de uma distribuição com densidade
(y)f
U
. Essa função de densidade pode ser ou não-paramétrica. Seja
I
uma variável
indicadora de inclusão na amostra de uma unidade populacional genérica. Para um
pequeno intervalo
y
em torno de y , temos:
)1(Pr
)(Pr)1(Pr
)1(Pr
=
=
==
I
YYI
IY
yy
y
(4.7)
Tomando o comprimento do intervalo
y
cada vez menor, obtemos no limite a
função de densidade amostral (y)f
s
:
)(I
(y)y)fY(I
)(I
Y)Y(I
(y)f
U
yy
y
s
1Pr
1Pr
1Pr
)Pr(1Pr
lim
0
=
==
=
=
=
=
(4.8)
14
Quando as variáveis aleatórias
I
e
Y
são independentes, a função de
densidade da população e da amostra são iguais, ou seja:
(y)f
)(I
(y))f(I
(y)f
U
U
s
=
=
=
=
1Pr
1Pr
(4.9)
Em geral, as duas variáveis aleatórias
I
e
Y
não são independentes, e a
inferência necessita usar informações relativas ao desenho amostral.
Quando consideramos a distribuição condicional de Y dado xX = , a equação
(4.8) pode ser expressa como:
)xX(I
)x(y)fxy,XY(I
)x(yf
U
s
==
===
=
1Pr
1Pr
(4.10)
onde )x(yf
U
denota o valor de densidade de Y dado xX
=
no ponto y. Como
),(),1( xXyYExXyYIP
Ur
==Π==== , a equação (4.10) pode ser escrita da
seguinte forma:
)xX(ΠE
)x(y)fxy,XY(ΠE
)x(yf
U
UU
s
=
==
=
(4.11)
onde
Π
é uma variável aleatória definida na população, cujo valor para cada
unidade da população é a probabilidade desta ser incluída na amostra.
4.2 – Informação disponível na amostra e na população
4.2.1 – Cenários
Suponhamos que as duas variáveis aleatórias
Y
e
X
são definidas numa
população alvo U de tamanho N e uma amostra foi extraída dessa população. O
nosso interesse é estimar, como dito anteriormente, uma função suave )(xg
U
igual
ao valor esperado de
Y
dado xX
=
para
x
na população alvo U . Denotamos por
π
a probabilidade de inclusão na amostra de uma unidade genérica.
15
Supomos que o processo de seleção amostral pode ser caracterizado pelos
valores amostrais de uma variável multivariada chamada
Z
. Esta pode conter
medidas de tamanho, indicadores de estratos ou conglomerados. Quando o plano
amostral é ignorável,
π
é determinado por valores de
Z
. De acordo com Chambers,
Dorfman e Sverchkov (2003), para maior generalidade, vamos supor que
π
depende
dos valores populacionais de
Y
,
X
e
Z
, sendo então o valor de
π
uma variável
aleatória, denotada por
Π
. Definimos
Ι
como indicador de inclusão na amostra, o
qual para cada unidade U assume o valor 1 se aquela unidade está contida na
amostra e zero caso contrário. A distribuição de
Ι
para qualquer unidade da
população é especificada exclusivamente pelo valor de
Π
, logo:
ππ)|Π(Iπ)z,Πx,Zy,X|Y(I =
=
=
=
=
=
=
== 1Pr1Pr
(4.12)
Em muitas situações é possível supor que os valores populacionais de
()
ZXY ,, são conjuntamente independentes e identicamente distribuídos. O mesmo
não é verdade para valores amostrais destas variáveis. No que se segue, vamos
supor que os valores populacionais do vetor
(
)
Π
,,,, IZXY são i.i.d.
Em Chambers, Dorfman e Sverchkov (2003) são considerados 3 cenários,
traçados de acordo com a quantidade de informações disponíveis. No primeiro deles,
dispomos de valores amostrais de
Y
,
X
e
Π
. Este é o cenário básico, no qual
dispomos do mínimo de informações possível. No segundo, além das informações
disponíveis no cenário anterior, dispomos de alguma informação extra sobre como as
unidades foram selecionadas, definida em termos de um vetor
Z
de variáveis
auxiliares. No terceiro cenário dispomos de todas as variáveis do segundo e também
os valores de
Z
e Π para toda a população.
Chambers, Dorfman e Sverchkov (2003) ressaltam no estudo a situação em
que o plano amostral é informativo, isto é, um plano amostral em que as distribuições
dos valores amostrais e populacionais da variável
Y
são diferentes. Como exemplo,
temos uma amostra selecionada com probabilidades desiguais e as probabilidades
de inclusão são proporcionais ao tamanho de uma variável
Z
. Se
Y
e
Z
são
positivamente correlacionadas, a distribuição de
Y
na amostra será diferente de sua
distribuição na população.
16
É importante lembrar que, em alguns casos, uma amostra informativa pode se
tornar não informativa quando usamos informação adicional. Por exemplo, dados
coletados através de um plano amostral estratificado com alocação desproporcional
terão uma distribuição distinta dos dados da população. Essa diferença será maior
quanto maior for a relação entre as variáveis de interesse e as variáveis indicadoras
de estrato. Porém, dentro de cada estrato, não há diferença entre a distribuição na
população e na amostra. A diferença é completamente explicada pela variável
indicadora do estrato. Sendo assim
Ι
e
Y
são independentes dentro de cada estrato,
logo, esse plano amostral é dito ignorável, dada uma variável
Z
. (que contenha os
indicadores de pertinência aos estratos).
Em Chambers, Dorfman e Sverchkov (2003) são fornecidas várias formas
alternativas de re-expressar a função de regressão da população )(xg
U
, e as
identidades mencionadas a seguir fundamentam os métodos de estimação propostos
naquele artigo. A derivação de algumas destas fórmulas é apresentada no Anexo 1
desta dissertação.
Denotamos por (w)f
U
o valor da densidade da variável W em um valor w na
população e por (w)f
s
o valor correspondente da densidade na amostra. A
densidade amostral de W é definida como a densidade condicional da variável
W dado 1=
I
, ou seja: )Iw(f(w)f
Us
1== .
Denotemos por )(WE
U
a esperança de W na população e por )(WE
s
sua
esperança na amostra. Podemos escrever:
)( wYEw)WY(E(w)g
UUU
=== e )( wYEw)WY(E(w)g
sss
===
As duas identidades apresentadas a seguir são usadas em Chambers,
Dorfman e Sverchkov (2003) para relacionar a função de regressão na população e
na amostra. A demonstração delas encontra-se no Anexo 1:
π)w(fπ)w(f
Us
=
(4.13)
e
))./1( /()(/)()() ΠEfΠEf(πf
ssUsU
π
π
π
π
=
=
(4.14)
Consequentemente:
17
][
d )(f )(f
)(f
1
ss
1
Π
=
s
U
E
w
w
ππππ
(4.15)
então:
][
)]([
)(
1
1
=
ΠE
ΠWEΠE
WE
s
ss
U
(4.16)
Relembrando que (x)g
U
é o valor esperado de Y dado xX = , segue-se por
uma aplicação do Teorema de Bayes que:
)]Π(Π[
),Π( )([
1
1
xfE
xgΠxfΠE
(x)g
ss
sss
U
=
(4.17)
.
Abordaremos apenas alguns dos métodos apresentados em Chambers,
Dorfman e Sverchkov (2003), sintetizando os resultados obtidos para estimadores
baseados em (4.17), para os três cenários de informações disponíveis.
Iniciando pelo cenário mais simples, o primeiro, onde são conhecidos apenas
os valores amostrais de
Y
,
X
e
Π
, O estimador de
(
)
xg
U
proposto nessa situação,
denotado por )M(P , é dado abaixo:
)|(
ˆ
),(
ˆ
)|(
ˆ
)(
ˆ
1
1
t
s
st
tst
s
st
U
xf
xgxf
xg
ππ
πππ
=
(4.18)
onde )|(
ˆ
π
xf
s
denota o valor em
x
de uma estimativa não-paramétrica da densidade
condicional dos valores amostrais de
X
dado
π
=
Π ; ),(
ˆ
π
xg
s
o valor em ),(
π
x da
suavização (função de regressão) não-paramétrica dos valores amostrais de
Y
contra
os valores amostrais de
X
e
Π
. Como foi mencionado anteriormente no início do
capítulo, estas estimações são baseadas na função de Kernel.
Ainda foram descritos mais dois estimadores para o primeiro cenário. Um
estimador denotado por Elin )(P é obtido pela parametrização linear local de (x)g
U
:
(x)xb(x)a(x)g
U
ˆ
ˆˆ
+=
(4.19)
O segundo, no qual se parte de um estimador consistente não-paramétrico
18
usual, (x)g
s
ˆ
, sem peso, e introduz-se uma correção dada por um estimador do tipo
(4.18) da regressão dos resíduos )(
ˆ
tstt
xgyr
=
contra
X
. Utilizando a expressão
(4.17) temos o estimador de denominado Elin+ Elin )(P abaixo:
)(
ˆ
),(
ˆ
)(
ˆ
)(
ˆ
)(
ˆ
1
1
t
s
st
tsRt
s
st
sU
xf
xgxf
xgxg
ππ
πππ
+=
(4.20)
onde
sR
g
ˆ
denota um estimador simples de regressão não-paramétrica dos resíduos
t
r
contra
X
e .Π
No segundo cenário, temos uma informação extra, os valores amostrais da
variável auxiliar
Z
. Nessa situação, o estimador proposto denominado )M(ZP tem a
seguinte expressão:
)(
ˆ
),(
ˆ
)(
ˆ
)(
ˆ
1
1
t
s
st
tst
s
st
U
zxf
zxgzxf
xg
=
π
π
(4.21)
onde )|(
ˆ
zxf
s
denota o valor em
x
de uma estimativa não-paramétrica da densidade
condicional dos valores amostrais de
X
dado z
Z
=
.
Já no último cenário, as variáveis
Z
e
π
são conhecidas para toda a
população, onde temos o estimador )M(Z :
=
=
=
N
t
ts
N
t
tsts
U
zxf
zxgzxf
xg
1
1
)(
ˆ
),(
ˆ
)(
ˆ
)(
ˆ
(4.22)
No caso temos uma amostra estratificada em
Z
, temos )M(Z
str
:
∑∑
∑∑
=
h
t
ht
sh
h
tsht
ht
sh
U
zxf
zxgzxf
xg
)(
ˆ
),(
ˆ
)(
ˆ
)(
ˆ
(4.23)
19
4.2.2 – Descrição das Simulações
Em Chambers, Dorfman e Sverchkov (2003) foram feitas simulações a partir
de dois tipos de populações, ambas com tamanho 1000N
=
. Para cada população
foram considerados dois métodos de amostragem, um não-informativo e outro
informativo. Para ambos os métodos foram extraídas amostras de tamanho 100
=
n .
Cada população foi simulada independentemente 200 vezes e para cada população
simulada foram extraídas duas amostras independentemente usando método de
amostragem informativo (
PPZ ) e não-informativo (PPX ), com base na aplicação de
procedimentos descritos em Rao, Hartley and Cochran (1962).
A primeira população simulada foi definida pelas equações:
γ
ε
+
+
+
=
XZX1Y
(4.24)
χ
ε
+
+
=
Z5.04X
(4.25)
Z
ε
24Z
+
=
(4.26)
onde,
χ
ε
Z
ε
,
γ
ε
são independentes com distribuição normal padrão.
Inicialmente vamos obter )(xg
U
, a regressão de
Y
em
X
na população. No
caso, isto é possível, pois as distribuições das variáveis são conhecidas na
população. Para tal, precisamos calcular )|(E
U
xXY
=
. A seguir indicamos alguns
passos para sua obtenção.
Dado que
Z
εZ 24 += , substituindo na equação (4.25) temos que:
χZ
ε6
+
+
=
ε
X
Podemos escrever
XZ
εε X
+
+
= 6 e
Z
εZ 24
+
=
na forma matricial:
=
X
Z
1
0
1
2
6
4
ε
ε
X
Z
A matriz de covariância do vetor é dada por:
=
=
2
2
2
4
1
1
0
2
1
0
0
1
1
0
1
2
X
Z
Cov
20
Vamos calcular
()
xXZE
=
| utilizando resultado (4.6) em Johnson e Wichern
(2002, pág. 160). Substituindo os valores obtemos:
2)6-(x
2
2
4)|( =+== xxXZE
U
Logo temos que:
2
1)|(1)|()( xxxZxExxXYExg
UU
=++===
Figura 4.2 – Gráfico de dispersão de
Y
contra
X
para os dados de primeira
população gerada com N=1000, com a curva de regressão )(xg
U
superposta.
Os dois procedimentos que foram utilizados para extração das amostras
baseiam-se em probabilidades proporcionais aos valores populacionais de
Z
(PPZ :
amostra informativa) e de
X
(PP
X
:amostra não-informativa). Essas probabilidades
foram definidas por:
=
++
+
+
=
N
u
Uu
Ut
t
zz
zz
PPZ
1
)1.0)(min(
)1.0)(min(100
:
π
(4.27)
e
21
=
++
+
+
=
N
u
Uu
Ut
t
Xx
Xx
PPX
1
)1.0)(min(
)1.0)(min(100
:
π
(4.28)
As probabilidades de inclusão em (4.28) definem um método de amostragem
não-informativo no problema de regressão quando X é a variável explicativa, pois
estas probabilidades só dependem de X. Logo podemos escrever:
)|(),|( xXExXyYE
UU
=
Π
=
=
=
Π
e usando (4.11) segue que:
)(f)(f
Us
xyxy =
O mesmo não ocorre para o método de amostragem com PPZ, que é
informativo.
A segunda população considerada na população reflete a heterogeneidade
que é típica de muitas populações reais e é definida pelas equações:
γ
ε
XZXXY 30005.030
2
+++=
(4.29)
X
X
η
10020
+
=
(4.30)
onde
Y
ε
tem distribuição normal padrão e
X
η
tem distribuição Gamma(2),
independente de
γ
ε
, e
Z
é uma variável binária que assume valores 0 e 1 com
probabilidades 0.4 e 0.6 respectivamente, independentemente de
γ
ε
e
X
η
.
Para a segunda população temos:
)(3 )( 0005.030)|E(
2
γ
ε
ExxZExxXY +++==
Onde 0)E( e 4.0)E( ==
γ
ε
Z . Substituindo esses valores, obtemos:
).4.0( 0.0005 30)|E(
2
xxxXY ++==
e
2
0002.030)|()( xxxXYExg
UU
++===
22
Figura 4.3 - Gráfico de dispersão de
Y
contra
X
para os dados de segunda
população gerada com N=1000, com a curva de regressão )(xg
U
superposta.
Como na primeira população, foram usadas para a segunda população
probabilidades de inclusão proporcionais a
Z
(PPZ : amostragem informativa)
e proporcionais a
X
(PP
X
: amostragem não-informativa). As probabilidades
de inclusão na amostra são definidas por:
=
+
+
=
N
u
u
t
t
z
z
PPZ
1
)5.0(
)5.0(100
:
π
(4.31)
e
=
=
N
u
u
t
t
x
x
PPX
1
100
:
π
(4.32)
Uma observação deve ser feita: o esquema de seleção PPZ acima
corresponde a uma forma de amostragem estratificada, em que todas as unidades
populacionais com 1=
Z
têm probabilidade de inclusão 3 vezes maior que as
unidades que possuem 0=Z .
Duas medidas de desempenho são utilizadas para avaliar a qualidade dos
ajustes nos resultados apresentados: o erro médio, ou seja, a média das diferenças
23
entre os valores estimados, )(
ˆ
xg
U
da regressão e os valores de )(xg
U
, e a raiz do
erro médio quadrático, ou seja, a raiz quadrada da média dessas diferenças ao
quadrado (REMQ). Essas medidas são calculadas para valores de
x
correspondentes aos percentis 5, 6°,...,95 da distribuição populacional de
X
.
4.2.3 - Resultados das Simulações
A seguir apresentamos, para as duas populações consideradas, um resumo
dos resultados das simulações contidas em Chambers, Dorfman e Sverchkov (2003).
Os resultados são apresentados em forma de tabelas de dupla entrada no Anexo 2.
Para sintetizar, organizamos na forma de gráficos onde são mostradas as interações
entre tipo de amostragem (informativa ou não-informativa - INF), valores de h, (como
já foi mencionado, controla o grau de suavização no ajuste – largura da banda) e os
métodos utilizados (METODO).
Gráfico 4.1 – Efeito da interação entre método de estimação e tipo de
amostragem no vício - primeira população
Em relação à amostragem informativa, quando utilizamos os métodos )M(P ou
)M(Z , os valores do vício são próximos de zero, e no caso de amostragem não-
informativa o menor valor resulta do método )M(P . Podemos notar que o pior caso é
na amostragem informativa quando utilizamos )M(ZP .
24
Gráfico 4.2 – Efeito da interação entre largura da banda e tipo de amostragem
no vício - primeira população
Podemos observar que nos dois tipos de amostragem, a largura da banda
igual a 2, aparece como a melhor opção.
Gráfico 4.3 – Efeito da interação entre método de estimação e tipo de
amostragem na REMQ - primeira população
Com relação à REMQ, os melhores métodos são Elin )(P e Elin Elin )(P , sob os
dois tipos de amostragem.
25
Gráfico 4.4 – Efeito da interação entre largura da banda e tipo de amostragem
na REMQ - primeira população
Assim como para a média do vício, o menor valor para a média de REMQ foi
observado para a largura da banda igual a 2.
Gráfico 4.5 – Efeito da interação entre método de estimação e tipo de
amostragem no vício - segunda população
Notamos que para amostragem informativa, os métodos: )M(P , )M(Z e
Elin )(P apresentam os valores mais próximos de zero. E no caso de amostragem
não-informativa, os menores valores são resultantes dos métodos )M(P e Elin Elin )(P
26
Gráfico 4.6 – Efeito da interação entre largura da banda e tipo de amostragem
no vício - segunda população
Podemos observar que no caso da amostragem informativa, os menores
valores se concentram nas larguras da banda com valores 0.5, 1 e 2. O pior
resultado, ainda na amostragem informativa, é para o valor igual a 4. Já para
amostragem não-informativa, os valores são bem próximos, exceto para a largura da
banda igual a 0.5.
Gráfico 4.7 – Efeito da interação entre método de estimação e tipo de
amostragem na REMQ - segunda população
Notamos que o maior valor para média de REMQ resulta do método )M(ZP ,
enquanto os valores para os outros métodos são bem próximos, sendo que o método
)M(Zs apresenta menor valor para os dois tipos de amostragem.
27
Gráfico 4.8 – Efeito da interação entre largura da banda e tipo de amostragem
na REMQ - segunda população
Tanto para amostragem informativa quanto para não-informativa, os valores
da média da REMQ decrescem conforme aumentamos os valores de largura da
banda.
De acordo com os dados apresentados nos gráficos acima, podemos notar
que os menores valores das estimativas dos vícios médios se apresentam quando
tratamos de amostragem não-informativa, podendo isto ser observado para os dois
tipos de população. Na segunda população temos duas exceções: a estimativa da
média do vício, quando utilizamos o menor grau da largura da banda (0.5) e a
estimativa da média da REMQ quando usamos o método )M(ZP .
A partir das simulações feitas neste trabalho e em Chambers, Dorfman e
Sverchkov (2003), não foi possível recomendar um só método de ajuste que seja
melhor para todas as situações consideradas.
28
5 - Técnica da Árvore de Regressão
Este capítulo tem por objetivo descrever a metodologia da técnica da árvore
de regressão, supondo que as observações são i.i.d., bem como as simulações
utilizando essa técnica. A Seção 5.1 apresenta uma breve descrição de regressão
não-paramétrica. A Seção 5.2 descreve a estrutura da árvore de regressão, ou seja,
o desenvolvimento e o critério de parada da árvore. A Seção 5.3 ilustra um exemplo
de utilização da árvore. Finalmente a Seção 5.4 apresenta resultados de simulações
obtidas por uso dessa técnica e suas considerações.
5.1 – Regressão não-paramétrica
Podemos dizer que os modelos de regressão não-paramétrica são menos
restritivos para estimar uma regressão, pois não pressupõem uma forma funcional
para a curva de regressão, permitindo assim uma maior flexibilidade.
A função de regressão desconhecida é estimada através de uma regressão
local, na qual as observações mais próximas do ponto onde se deseja estimar a
curva recebem peso maior e as mais afastadas, peso menor, sendo definidas médias
locais.
Na regressão não-paramétrica, a partir da amostra, estimamos para cada
ponto )(
21 m
,...,x,xxx = o valor de função )/(
2211 mm
x,...,Xx,XxXYEf(x) =
=
=
=
onde
Y
é
a variável de resposta e
m
,...,X,XX
21
são variáveis explicativas.
5.2 - Estrutura da Árvore de Regressão
5.2.1 – Desenvolvimento da árvore
Como qualquer técnica de regressão, essa metodologia pretende calcular
médias em subgrupos (estratos) definidos por variáveis explicativas (covariáveis),
obtendo um preditor mais preciso da variável de resposta do que o obtido caso não
fossem usadas informações sobre as covariáveis.
29
Na técnica de Árvore de Regressão, partimos de uma amostra de treinamento
em que são conhecidas as variáveis explicativas e a variável de resposta, e a partir
dessa amostra exploramos a relação entre esta última e as primeiras. Com base
nessa amostra fazemos recursivamente uma seqüência de perguntas, que definem
partições binárias dos elementos da amostra. Para definir a construção da Árvore de
Regressão é necessário:
1. Escolher em cada estágio qual a próxima partição a ser executada, ou
seja um nó e a melhor partição dele;
2. Estabelecer uma regra de parada das partições dos nós (maiores
detalhes na Seção 5.2.2);
3. Depois de obtida a árvore, definir o preditor da variável de resposta a
partir das variáveis explicativas (veja Seção 5.2.3).
Esse processo pode ser representado por uma árvore binária. As figuras
abaixo representam a estrutura de uma árvore:
Figura 5.1 - Estrutura de uma árvore de regressão
t
t
t
7
1
t
2
t
3
t
4 5
t
6
t
8
t
9
partição 1
partição 2
partição 3
partição 4
y ( t )
4
y ( t )
8
y ( t )
9
y ( t )
5
y ( t )
6
30
Onde cada partição i é feita de acordo com o item 1. acima,
i
t designa o i-
ésimo nó terminal e )(
i
ty o valor do preditor no i-ésimo nó teminal.
Figura 5.2 – Regiões determinadas no espaço das variáveis explicativas pelo
método da árvore de regressão.
Onde o índice de
i
p corresponde a ordem das partições feitas entre ao retângulo
com lados
ax
1
0 e bx
2
0 ; e
i
t representa os nós terminais.
Figura 5.3 – Gráfico da superfície de resposta da regressão
Sendo )(xd o preditor constante sobre cada região correspondente ao nó
terminal. A árvore pode ser representada como um histograma de superfície de
regressão:
t
9
t
8
t
6
t
4
t
5
x
1
x
2
P1
P2
P3
P4
a
b
t
9
t
8
t
6
t
4
t
5
x
1
x
2
P1
P2
P3
P4
a
b
31
Observamos que o gráfico possui três dimensões, onde )(xd , variável
resposta, é constante nas partições determinada pela árvore construída.
Através de uma pergunta binária, se produziu a primeira partição, formando
dois subgrupos ou estratos que chamamos de nós, t , sendo
L
t o nó descendente
esquerdo e
R
t nó descendente direito, e assim sucessivamente até obter nós
terminais
T
~
. A junção desse conjunto de partições usadas com a ordem em que
cada uma foi feita determina uma árvore binária
T
. Cada partição depende do valor
de apenas uma variável, podendo esta ser categórica ou numérica.
Iremos sintetizar a partir de agora o procedimento de construção de uma
árvore de regressão:
1. Na amostra de treinamento, fazemos todas as perguntas possíveis sobre cada
uma das variáveis explicativas. Para cada partição definida por cada pergunta
calculamos seguinte critério numérico que chamaremos de soma dos desvios
quadráticos:
=
t
2
))(()(
n
x
n
tyytD
(5.1)
y ( t )
6
y ( t )
8
y ( t )
9
y ( t )
5
y ( t )
4
t
9
t
8
t
6
t
4
t
5
d (x)
x
1
x
2
32
onde )(ty é a média da variável resposta no estrato (nó terminal ),
n
y é o valor da
variável de resposta observado para o elemento n pertencente ao estrato t .
Para considerarmos o peso amostral na construção da árvore, devemos inclui-
lo no critério numérico descrito acima, logo:
=
t
2
))(()(
n
x
nt
tyywtD
(5.2)
Então, somando em todos os estratos Tt
~
, obtemos a soma total dos desvios
quadráticos, e dividindo por N (número total de casos) geramos a média. Logo
temos:
==
∑∑
=
T
~
T
~
t
2
)()())((
1
)(
tt
x
n
tRTRtyy
N
TR
n
(5.3)
onde:
=
t
2
))((
1
)(
n
x
n
tyy
N
tR
(5.4)
Dado qualquer conjunto de divisões S de um nó terminal t em
T
~
, temos por
definição (Breiman et all,1983,pág.231) que a melhor partição *s de t é a divisão em
S que maximiza o decréscimo em )(TR , isto é, para qualquer divisão s de t em
L
t e
R
t , temos:
)t( - )()(),(
R
RtRtRtsR
L
=
(5.5)
Logo, a melhor partição *s será a divisão que:
),(max)*,(
S
tsRtsR
s
=
(5.6)
Esse procedimento é aplicado em cada um dois subgrupos obtidos, gerando
sucessivamente partições binárias no grupo de casos (observações) da amostra de
treinamento. Mas se faz necessário definir um critério de parada para o processo de
partições, e é o que veremos a seguir.
33
5.2.2 – Parada no crescimento da árvore
Podemos citar dois critérios de parada do crescimento de uma árvore, um
deles limita o número mínimo de observações dentro de cada nó e o outro, proposto
por Breiman et all (1983), usa o fato de uma nova partição implicar em pouca
melhoria, em termos do critério adotado. Uma medida de custo-complexidade é
definida por:
TTRTR
~
)()(
α
α
+=
(5.7)
O objetivo agora é minimizar
(
)
TR
α
, cujo valor depende de duas parcelas,
uma que decresce quando aumenta o tamanho da árvore
)(TR e outra que diminui.
A escolha da árvore ótima é feita para cada valor de
α
. Para uma seqüência de
valores crescentes de
α
, obtém-se uma seqüência decrescente de árvores,
}{...
121
tTT fff , com
max1
TT p , sendo
max
T a maior árvore possível, correspondentes
a uma seqüência crescente de valores
α
de modo que para
K1
T ,
+
KK
α
α
α
é a
menor sub-árvore de
max
T que minimiza )(TR
α
.
Breiman et all (1983) usam o método de validação-cruzada para obter uma
estimativa não-tendenciosa de )(TR , pelo fato de a mesma amostra ser usada para
construir a árvore e para calcular o erro quadrático. No método de validação-
cruzada, imaginamos uma amostra de treinamento l , divida em subamostras
1
l ,...,
v
l ,...,
V
l que têm, na medida do possível, o mesmo número de observações,
()()
NVVN /1
1
= . Suponha que a
ν
-ésima amostra de treinamento seja
v
v
lll = e
que todo processo de construção da árvore e seu corte de tamanho seja feito usando
v
l . A estimativa do erro quadrático da estimativa é feita, então, utilizando-se
somente a parte
ν
l da amostra l que foi excluída em
v
l . Isto é feito para cada
ν
,
sendo a estimativa final obtida pela média das estimativas obtidas nas subamostras.
O procedimento está descrito detalhadamente em Breiman et all (1983, p.234).
34
Para cada v , se produz árvores )(
)(
α
v
T que são árvores de custo-
complexidade mínimo para o valor
α
do parâmetro, ou seja, para cada v temos uma
árvore gerada.
Fazendo os processos de construção da árvore para toda a amostra l , temos
as seqüências }T {
K
e }{
K
α
. Defina
1
'
+
=
kkk
ααα
. Seja )(
)(
xd
v
k
o preditor
correspondente à árvore )'(
)(
k
v
T
α
. As estimativas de validação-cruzada, )(
K
CV
TR e
)(
K
CV
TRE , podem ser definidas como:
∑∑
=
=
V
V
yx
n
v
knK
CV
vnn
xdy
N
TR
1
),(
2)(
))((
1
)(
l
(5.8)
e
)(
)(
)(
yR
TR
TRE
K
CV
K
CV
=
(5.9)
Então, o
K
T selecionado é a menor árvore que satisfaça:
DPTRTR
K
CV
K
CV
+ )()(
0
(5.10)
onde
)(min)(
0
K
CV
K
CV
TTR =
(5.11)
e D
P
a estimativa do erro padrão para )(
0
K
CV
TR .
O gráfico a seguir apresenta um exemplo do comportamento da medida de
custo-complexidade (cp) com o aumento do número de partições na árvore de
regressão. Conforme podemos notar no exemplo, há uma queda acentuada no valor
do cp ao particionar o grupo inicial em dois estratos, com as partições seguintes
trazendo ”melhoras” cada vez menores na obtenção de estratos mais homogêneos
em relação à variável de resposta.
35
Gráfico 5 – Comportamento da medida de complexidade (cp) x Número de
partições na árvore de regressão
5.2.3 – Preditores da variável de resposta
Quando obtemos a “melhor” árvore
T
, podemos então definir preditores da
variável de resposta a partir das variáveis explicativas. Nesta dissertação,
utilizaremos dois tipos de preditores: o primeiro é a média ponderada da variável
resposta em cada nó terminal, e o segundo o valor predito pela regressão da variável
resposta nas variáveis explicativas, também em cada nó terminal.
5.3 - Exemplo de árvore
A fim de ilustrar o procedimento da construção de uma árvore, um exemplo
extraído de Pessoa, Moreira e Santos (2003) é reproduzido abaixo, onde temos uma
amostra de treinamento fictícia e para cada unidade foram observadas as seguintes
variáveis: renda (variável de resposta); sexo, idade, anos de estudo (variáveis
explicativas).
36
Figura 5.4 – Exemplo de árvore de regressão
Os principais aspectos a destacar sobre a Figura 5.4 são:
A primeira partição é de indivíduos com menos de 9,5 anos de estudo e com 9,5
anos de estudo ou mais.
A segunda partição é feita dentro do grupo de indivíduos com menos de 9,5 anos
de estudo, separando-se os que têm menos de 5,5 anos de estudo dos demais
indivíduos do estrato.
As partições são feitas sucessivamente até a condição de parada ser atingida, o
que para este exemplo foi um limite inferior para o contingente no nó terminal, no
caso, a existência de um mínimo de 2 indivíduos por nó terminal da árvore.
Notamos que além das variáveis anos de estudo e idade, também temos
disponível a variável sexo, mas ela não foi utilizada na construção da árvore. Isso
ilustra o fato de que na técnica de Árvores de Regressão nem todas as
covariáveis observadas na amostra de treinamento são utilizadas. A técnica tem,
por si só, a capacidade de selecionar as variáveis explicativas mais “poderosas”
no sentido de explicar a variável de resposta.
anos de estudo<9,5
anos de estudo<5,5
idade<28,5 idade<28
idade<49
3
43
24
4
S
N
S
N
S
N
S
N
S
N
Números de
indivíduos no
subgrupo (nó
terminal da árvore)
37
5.4 - Simulações realizadas pela técnica de Árvore de Regressão
5.4.1 – Introdução
O propósito dessa seção é apresentar resultados de simulações que visam
avaliar a influência do plano amostral na qualidade das estimativas obtidas através
do ajuste de árvores de regressão. O estudo de simulação que descrevemos para a
técnica de árvores de regressão segue os passos do estudo apresentado em
Chambers, Dorfman e Sverchkov (2003) para regressão por suavização. Além das
situações descritas nesta referência, incluímos uma terceira população onde são
observadas duas variáveis explicativas. O objetivo foi explorar o potencial da técnica
da árvore de regressão de tirar proveito das interações entre as variáveis explicativas
na regressão.
5.4.2 – Populações Simuladas
Além das simulações descritas no capítulo anterior, também foi feita uma
terceira simulação de um modelo contendo duas variáveis explicativas:
Y
ε
+
+
+
+
+
+= ZXZXXXXX1Y
212121
(5.12)
1
Z5.04X
1 X
ε
+
+
=
(5.13)
22
Z4X
X
ε
+
+
=
(5.14)
Z
ε
24Z
+
=
(5.15)
onde,
Y
ε
,
Z
ε
,
1
X
ε
,
2
X
ε
são normais padrão independentes.
Nesta simulação foram utilizadas as mesmas probabilidades de inclusão na
amostra da primeira população.
Substituindo
Z
ε
24Z += na equação (5.14) temos que:
38
2
1
χZ2
χZ1
ε28
ε6
++=
+
+
=
ε
ε
X
X
Podemos escrever na forma matricial:
1
0
0
0
1
0
2
1
2
8
6
4
2
2
1
1
=
X
X
Z
X
X
Z
ε
ε
ε
Para obter
()
21
, xxg
U
, vamos calcular
(
)
2211
,| xXxXZE
U
=
=
utilizando
resultado (4.6) em Johnson e Wichern (2002, pág. 160). Substituindo pelos valores
obtemos:
3
)102(
6
)2042(
)4442(
6
1
4),(
2121
212211
+
=
+
=++===
xxxx
xxxXxXZE
U
Logo temos que:
+
+++++=
+
===
==+==++++=
3
)102(
)(1)(
:Portanto .
3
)102(
),( :
,(),(1)(
21
212121
21
2211
2
2112221112121
xx
xxxxxxxg
xx
xXxXZEonde
xXxXZExxXxXZExxxxxxg
U
U
5.4.3 – Árvores de regressão utilizadas na simulação
Nas simulações apresentadas a seguir, são comparados vários métodos de
estimar a função de regressão
(
)
U
gx. Todos eles utilizam a técnica de árvores de
regressão. As diferenças entre eles decorrem dos seguintes fatores: 1. usar ou não
pesos na construção da árvore; 2. usar ou não ajuste de regressão na estimativa da
resposta em cada nó terminal; 3. usar ou não pesos na estimativa da resposta em
cada nó terminal. Finalmente, foram consideradas árvores com diferentes limites
inferiores para os contingentes nos nós terminais da árvore.
39
Para cada situação, foram estimados o vício e a raiz do erro médio quadrático
para as três populações e os métodos de amostragem informativo e não-informativo.
Resumindo, os fatores considerados nas comparações foram:
1. Método de amostragem (INF) com dois níveis: informativo, não-informativo;
2. Usar pesos na construção da árvore (ARVPESO): sim, não;
3. Ajustar regressão para estimar resposta em cada nó terminal (REG): sim, não;
4. Usar pesos
1
para estimar resposta em cada nó terminal (PESO): sim, não;
5. Limites inferiores dos contingentes dos nós terminais (CONT): 5, 7, 10, 15 e
melhor árvore
2
.
6. Um estimador baseado na expressão (5.16) abaixo, análoga à equação (4.18),
adequado para o cenário mais simples descrito em Chambers, Dorfman e
Sverchkov (2003), que denotaremos por M(Pa). A demonstração da
expressão (5.16) é apresentada no Anexo 1:
][
x]X[
1
1
xE
YE
(x)g
s
s
U
=
=
π
π
(5.16)
Na fórmula acima, foram obtidas estimativas separadas por meio de árvores
de regressão para o numerador e denominador. O desempenho das estimativas
obtidas através deste estimador, de uma forma geral, não foi bom quando
comparado ao de outros estimadores. Por esse motivo, as medidas de
desempenho para esse estimador só estão apresentadas nas tabelas no Anexo
3, não sendo incluídas nos resumos gráficos que apresentaremos a seguir.
1
Onde o preditor é a média ponderada dentro de cada nó terminal.
2
A melhor árvore já foi definida anteriormente, se refere à equação (5.10).
40
5.4.4 – Resultados
Uma questão básica a ser respondida a partir dos resultados da simulação é
se as correções que sugerimos no método usual de Árvores de Regressão têm o
efeito de diminuir o impacto do plano amostral na qualidade das estimativas. Em
particular, é importante comparar esses efeitos quando o plano amostral é
informativo e não-informativo. Com esta finalidade, apresentamos gráficos de
interações de cada um dos fatores especificados na Seção 5.4.3 com o fator INF,
para as três populações. As interações representadas nos gráficos são médias de
efeitos correspondentes aos níveis fixados dos dois fatores considerados.
Resultados mais detalhados desse estudo simulação são apresentados nas tabelas
do Anexo 3.
Gráfico 5.1 – Efeito da interação INF X PESO no vício – primeira população
Quando observamos a interação entre utilização de peso amostral na
estimativa e método de amostragem, notamos que a tendência do vício é diminuir
quando se introduz o peso, sendo a queda maior quando a amostragem é
informativa.
41
Gráfico 5.2 – Efeito da interação INF X ARVPESO no vício – primeira população
Podemos observar que quando construímos a árvore com a introdução do
peso amostral, no caso da amostragem informativa, há uma redução do vício, o que
não acontece sob amostragem não-informativa.
Gráfico 5.3 – Efeito da interação INF X CONT no vício – primeira população
Notamos que o comportamento para os diferentes limites inferiores para os
contigentes nos nós terminais, é parecido nos dois tipos de amostragem. O pior
resultado (maior vício) aparece quando utilizamos um maior número de observações
dentro de cada nó terminal.
42
Gráfico 5.4 – Efeito da interação INF X REG no vício – primeira população
Quando ajustamos uma regressão para estimar a resposta em cada nó
terminal, verificamos que há uma melhora no caso da amostragem não-informativa e
um aumento na média do vício quando se trata de amostragem informativa.
Gráfico 5.5 – Efeito da interação INF X PESO na REMQ – primeira população
A utilização do peso amostral no caso de amostragem informativa diminui a
média da REMQ, o que não se repete para amostragem não-informativa.
43
Gráfico 5.6 – Efeito da interação INF X ARVPESO na REMQ – primeira
população
O gráfico 5.6 mostra que tanto na amostragem informativa quanto na
amostragem não-informativa, quando se introduz o peso amostral na construção da
árvore há melhoria, sendo esta mais relevante quando se trata de amostragem
informativa.
Gráfico 5.7 – Efeito da interação INF X CONT na REMQ – primeira
população
Observamos que há uma melhora no comportamento da REMQ quando
utilizamos 7ou 10 como limites inferiores para os contigentes nos nós terminais nos
dois tipos de amostragem.
44
Gráfico 5.8 – Efeito da interação INF X REG na REMQ – primeira
população
Notamos que, quando estamos utilizando um método de regressão para
prever nos nós terminais, a REMQ diminui bastante para os dois tipos de
amostragem. Podemos observar também que, em termos de redução da média da
REMQ, o efeito de ajuste regressão para estimar a resposta em cada nó terminal
parece ser o mais importante.
Gráfico 5.9 – Efeito da interação INF X PESO no vício – segunda população
Podemos afirmar o mesmo comportamento mencionado para a primeira
população, ou seja, que a média do vício diminui quando se introduz o peso, sendo a
redução maior quando se trata de amostragem informativa.
45
Gráfico 5.10 – Efeito da interação INF X ARVPESO no vício – segunda
população
Diferentemente da primeira população, o efeito da introdução do peso
amostral na construção da árvore diminui a média do vício, tanto na amostragem
informativa quanto na não-informativa.
Gráfico 5.11 – Efeito da interação INF X CONT no vício – segunda população
Notamos que o comportamento para os diferentes limites inferiores dos
contigentes nos nós terminais, também é parecido nos dois tipos de amostragem.
Podemos destacar o limite inferior contendo no mínimo 5 observações nos nós
terminais ao melhor resultado e os nós que possuem no mínimo 15 observações, o
pior resultado.
46
Gráfico 5.12 – Efeito da interação INF X REG no vício – segunda população
Notamos que quando se ajusta regressão para estimar a resposta em cada nó
terminal, ocorre melhora sob os dois tipos de amostragem, sendo esta maior, quando
amostragem é informativa.
Gráfico 5.13 – Efeito da interação INF X PESO na REMQ – segunda população
A utilização do peso amostral introduz melhoria, tanto no caso de amostragem
informativa quanto no caso de amostragem não-informativa.
47
Gráfico 5.14 – Efeito da interação INF X ARVPESO na REMQ – segunda
população
O gráfico 5.14 mostra que tanto na amostragem informativa quanto na
amostragem não-informativa, quando se introduz o peso amostral na construção da
árvore, a média de REMQ decresce, sendo que sob amostragem não-informativa a
variação é maior.
Gráfico 5.15 – Efeito da interação INF X CONT na REMQ – segunda população
Podemos verificar que, também como no vício, o destaque é o limite inferior
contendo 5 observações nos nós terminais, pois possui o melhor resultado.
48
Gráfico 5.16 – Efeito da interação INF X REG na REMQ – segunda população
Notamos que quando utilizamos um método de regressão, a média da REMQ
diminui muito para os dois tipos de amostragem. E em termos de melhoria da média
da REMQ, o efeito de ajuste regressão para estimar a resposta em cada nó terminal
parece ser o melhor, como também verificamos para a primeira população.
Gráfico 5.17 – Efeito da interação INF X PESO no vício – terceira população
O mesmo comportamento que apresentaram as duas populações anteriores
se repete na terceira. A média do vício diminui quando se introduz o peso para
estimar resposta em cada nó terminal, sendo maior a variação sob amostragem
informativa.
49
Gráfico 5.18 – Efeito da interação INF X ARVPESO no vício – terceira população
Como verificado na segunda população, o efeito do uso de peso na
construção da árvore influencia melhorando a média do vício.
Gráfico 5.19 – Efeito da interação INF X CONT no vício – terceira população
O limite inferior do contigente no nó terminal de 5 observações fornece o
melhor resultado na estimativa da média do vício e o limite inferior de 15
observações, o pior resultado.
50
Gráfico 5.20 – Efeito da interação INF X REG no vício – terceira população
Quando usamos ajuste de regressão para estimar a resposta em cada nó
terminal, há grande melhoria sob os dois tipos de amostragem.
Gráfico 5.21 – Efeito da interação INF X PESO na REMQ – terceira população
Quando introduzimos o peso amostral no método de estimação, há diminuição
da média da REMQ nos dois tipos de amostragens.
51
Gráfico 5.22 – Efeito da interação INF X ARVPESO na REMQ – terceira
população
O gráfico acima mostra que tanto na amostragem informativa quanto na
amostragem não-informativa, quando se introduz o peso amostral na construção de
árvore, a média da REMQ decresce, sendo que sob amostragem informativa, a
variação é maior.
Gráfico 5.23 – Efeito da interação INF X CONT na REMQ – terceira população
Podemos verificar que os limites inferiores de contigentes de 5 ou 7
observações nos nós terminais apresentam os melhores resultados.
52
Gráfico 5.24 – Efeito da interação INF X CONT na REMQ – terceira população
Em termos de melhoria da média da REMQ, o efeito de ajuste de regressão
para estimar a resposta em cada nó terminal tende a ser o melhor, como verificamos
para a primeira e a segunda população.
De acordo com os dados apresentados nos gráficos 5.1 a 5.24, temos os
seguintes comentários:
1. Tanto a média do vício quanto a média de REMQ apresentam valores
menores para a primeira e segunda populações quando tratamos de
amostragem não-informativa. Já para a terceira população, isso só ocorre com
a média do vício e não com a media da REMQ, cujos valores são maiores
para a amostragem não-informativa.
2. Com relação ao vício, podemos notar que, em geral, a introdução do peso
amostral, seja no método ou na construção da árvore, introduz melhoria, ainda
mais quando tratamos de amostragem informativa.
3. Em relação à média da REMQ, o fator mais importante para diminuir essa
medida é ajustar uma regressão para estimar a resposta em cada nó terminal.
53
5.4.5 – Conclusões e trabalhos futuros
Apesar de o estudo de simulação descrito ser limitado, serviu para nos
mostrar que incorporar as informações do desenho amostral na análise pode trazer
melhorias no desempenho dos estimadores. Quando incorporamos o peso amostral
na estimação feita pela técnica de regressão não-paramétrica de Árvores de
Regressão, na construção da árvore ou na predição da variável de resposta em cada
nó terminal, notamos ganhos significativos na qualidade do ajuste, com relação ao
método usual de ajuste sem a utilização do peso.
Em geral, tanto nos resultados encontrados em Chambers, Dorfman e
Sverchkov (2003) quanto nos descritos no Capítulo 5, as estimativas dos vícios
médios e das REMQ médias sob amostragem informativa apresentam valores
maiores do que os apresentados sob amostragem não-informativa, sendo maior o
impacto na qualidade das estimativas neste tipo de amostragem. As correções
introduzidas nas estimativas usuais acarretam ganhos maiores para amostragem
informativa quando comparados àqueles para amostragem não-informativa. Como
não há uma maneira simples de verificar se a amostragem é informativa ou não,
devemos introduzir correções que possam diminuir o impacto do plano amostral na
inferência quando fazemos inferência analítica de dados provenientes de amostras
complexas, .
As correções sugeridas nesta dissertação levam somente em consideração os
pesos amostrais do desenho. Seria de interesse estudar o efeito das correções
sugeridas na técnica usual de Árvores de Regressão para dados reais, como os
produzidos pelas pesquisas do IBGE, através de planos amostrais complexos. Nesta
situação, seria preciso levar em consideração as variáveis que definem o plano
amostral. Em alguns cenários descritos em Chambers, Dorfman e Sverchkov (2003)
as informações dadas pelas variáveis que definem o plano amostral são
incorporadas no estimador proposto, na tentativa de melhor a qualidade das
estimativas. Nesta dissertação trabalhamos somente dentro do cenário mais simples,
ou seja, no qual dispomos de valores amostrais de
Y
,
X
e Π descrito em
Chambers, Dorfman e Sverchkov (2003). A ênfase foi em avaliar se as correções
introduzidas conduziam a uma melhoria no caso de planos amostrais informativos.
54
A maior parte do estudo de simulação contido nesta dissertação se referiu a
regressões com somente uma variável explicativa. Ajustes de regressão não-
paramétrica pelo método de suavização são adequados exatamente para essa
situação. O método de Árvores de Regressão, diferentemente, tem melhor
desempenho para o caso de várias variáveis explicativas, quando procura explorar
as interações locais entre tais variáveis. Considerando o grau de dificuldade em um
estudo de simulação para o caso de várias variáveis, apresentamos somente um
exemplo com duas variáveis explicativas, o qual é uma extensão direta dos exemplos
para uma só variável. Seria então de interesse aprofundar este estudo, analisando o
desempenho da técnica e das correções propostas para o caso de várias variáveis
explicativas.
55
6 – Referências Bibliográficas
BREIMAN, L. et all. Classification and Regression Trees. Monterey: Wadsworth
and Brooks/Cole, 1984.
CHAMBERS,R.L., DORFMAN,A.H., Sverchkov,M.Yu. Nonparametric Regression
with Complex Survey Data. In: CHAMBERS,R.L, SKINNER,C.J. Analysis of Survey
Data. 2003, p. 151-173.
Härdle, W. Applied Nonparametric Regression Analysis. Cambridge: Cambridge
University Press.
JOHNSON, R.A. & WICHERN, D.W. Applied multivariate statistical analysis. 5th
ed. New York: Prentice Hall, 2002.
LITTLE, R. J. A & RUBIN, D.B. Statistical Analysis with Missing Data, Wiley,1987.
PESSOA, D.G.C., NASCIMENTO SILVA, P.L. Análise de Dados Amostrais
Complexos. São Paulo: Associação Brasileira de Estatística,1998, 187p.
PESSOA, D.G.C., SANTOS, A. R. Imputação de Renda dos Responsáveis por
Domicílios : Conjunto Universo do Censo Demográfico 2000, 2003.
PESSOA, D.G.C., MOREIRA, G.G., SANTOS, A .R. Imputação de rendimentos no
questionário da amostra do Censo Demográfico 2000, 2003.
RAO, J.N,K., HARTLEY, H.O.,COCHRAN, W. G. On a simple procedure of
unequal probability sampling without replacement. Journal of the Royal Statistical
Society, Series B, 24, 1962, p.482-91.
SILVERMAN, B. W. Density Estimation and Data Analysis. London: Chapman and
Hall, 1986.
56
METODOLOGIA do Censo Demográfico de 2000. Rio de Janeiro: IBGE, 1983. 574p.
(Série Relatórios Metodológicos, v.25).
R Development Core Team (2005). R: A language and environment for
statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN
3-900051-07-0, URL http://www.R-project.org
CHAMBERS, R., A. HENTGES e X. ZHAO (2004). Robust automatic methods for
outlier na error detection, Journal of the Royal Statistical Society, 167, Part2, 323-
339
57
ANEXOS
57
Anexo1 - Derivação de formas alternativas de re-expressar a função de regressão
da população )(xg
U
. Consideramos a seguinte notação:
(w)f
U
- valor da densidade da variável W em um valor w na população.
(w)f
s
- foi definido em 4.8 e corresponde a densidade da distribuição condicional
de W dado 1=
I
)Iw(f(w)f
Us
1==
Notação:
v)w(fv)Vw(f ==
)( wYEw)WY(E(w)g
UUU
===
)( wYEw)WY(E(w)g
sss
===
Demonstrações:
1. Equação (4.13): )()(
ππ
wfwf
Us
=
Pelas igualdades (4.10) e (4.12), temos:
)(f
)(f
)1(
)(f),1(
)(
U
UU
π
π
ππ
π
ππ
π
w
w
IP
wwWIP
wf
s
==
=Π=
=Π==
=
2. Equação (4.14): ))/1( /()(f/)()(f)(f
ss
Π
=
Π
=
sUU
EE
π
π
π
π
π
Por (4.8) temos que:
)(
)(f
)1(
)(f )1(
)(f
U
U
Π
=
=
=Π=
=
U
s
EIP
IP
ππ
ππ
π
Logo:
π
π
π
/)()(f)(f
s
Π
=
UU
E
e
58
)(
1
d
)(
)(f
1
d )(f
1
)/1(
U
s
Π
=
Π
==Π
UU
s
EE
E
π
π
π
π
ππ
π
pois 1) =
dπ(πf
U
.
Então:
))/1( /()(f)(f
s
Π
=
sU
E
π
π
π
Consequentemente, o valor de densidade populacional de uma variável W em
um valor w na população será (4.15):
Π
==
][
d )(f )(f
d )(f )(f)(f
1
ss
1
UU
s
U
E
w
ww
ππππ
πππ
por (4.13) e (4.14).
3. Equação (4.16):
][
)]([
1
1
Π
ΠΠ
=
s
ss
U
E
WEE
WE
)(
Como
=
πππ
d )(f )(f)(f
UU
ww
U
Π
==
][
d d )(f )(f
d )(f )(
1
ss
1
U
s
U
E
www
wwwWE
ππππ
,
][
)()(
][
)()(
1
1
1
1
Π
Π
=
Π
=
s
s
s
U
E
WE
E
www
WE
πππππππ
d fd f d f
)(
sss
,
][
)]([
1
1
Π
ΠΠ
=
s
ss
U
E
WEE
WE
)( .
4. Equação (4.17):
)](f[
),( )(f[
s
1
ss
1
ΠΠ
ΠΠΠ
=
xE
xgxE
(x)g
s
s
U
Pela notação dita acima, temos:
x)XY(E(x)g
UU
==
Π
∫∫
==
][
d d )(f ),(f
d )(f
1
ss
1
U
xE
yxxyy
yxyy(x)g
s
U
ππππ
59
=
π
ππ
π
ππ
ππ
π
d
)(f
)(f)(f
d ),(g
)(f
)(f)(f
s
ss
1
s
s
ss
1
x
x
x
x
x
(x)g
U
=
ππππ
πππππ
d)(f )(f
d )(f ),(g)(f
ss
1
sss
1
x
xx
(x)g
U
)](f[
)],( )(f[
s
1
ss
1
π
ππ
xE
xgxE
(x)g
s
s
U
Π
Π
=
5. Equação (5.16):
][
[
1
1
xE
YE
(x)g
s
s
U
Π
=Π
=
x]X
Por definição:
= yxyyxg
U
d )(f )(
U
.
Usando:
=
)(
d )(f ),(f
)(
11
ss
1
xf
xxy
xyf
U
ππ
ππππ
Temos:
=
)(
dy d )(f ),(f
)(
11
ss
1
xf
xxyy
xg
U
ππ
ππππ
Pelo Teorema de Bayes:
),(f
)(f
),,(f
)(f
),(f
),(f
),,(f
)(f),(f
s
s
s
s
s
s
s
ss
xy
x
xy
x
x
x
x
xy
xxy
π
π
π
π
π
ππ
===
Logo,
=
)(
ddy ),(fy
)(
11
s
1
xf
xy
xg
U
ππ
πππ
][
)[
1
1
xE
YE
(x)g
s
s
U
Π
=Π
=
x]X
60
Anexo 2 – Tabelas referentes aos resultados de simulação em Chambers, Dorfman
e Sverchkov (2003)
Tabela 4.1 - Resultados de simulação para a primeira população sob
amostragem não-informativa (PPX)
Largura da banda
Método 0.5 1 2 3 4 5 6 7
Média do vício
)M(P
0,01 0,04 0,05 -2,25 0,05 0,10 0,18 0,25
)M(ZP
-0,17 0,29 0,31 0,44 0,53 0,57 0,58 0,56
)M(Z
-1,13 -1,19 -1,24 -0,95 -0,52 -0,12 0,14 0,26
Elin )(P
0,09 0,14 0,36 0,62 0,82 0,92 0,93 0,89
Elin + Elin )(P
0,05 0,06 0,11 0,18 0,26 0,35 0,43 0,50
Média da raiz do erro médio quadrático
)M(P
3,79 2,93 1,92 4,34 1,41 1,37 1,44 1,55
)M(ZP
12,71 5,47 2,26 1,69 1,60 1,61 1,66 1,74
)M(Z
4,05 2,49 2,59 3,81 4,98 5,77 6,21 6,42
Elin )(P
2,46 1,92 1,47 1,38 1,42 1,49 1,57 1,64
Elin + Elin )(P
2,96 2,29 1,70 1,45 1,33 1,27 1,27 1,32
Tabela 4.2 – Resultados de simulação para a primeira população sob
amostragem informativa (PPZ)
Largura da banda
Método 0.5 1 2 3 4 5 6 7
Média do vício
)M(P
0,20 -0,09 -0,31 -0,35 -0,17 0,09 0,29 0,39
)M(ZP
1,51 1,79 2,09 2,23 2,33 2,39 2,43 2,44
)M(Z
0,22 0,02 -0,36 -0,38 -0,18 0,08 0,26 0,35
Elin
)(P
0,28 0,24 1,40 0,64 0,84 0,93 0,95 0,91
Elin + Elin )(P
0,27 0,17 0,13 0,17 0,25 0,36 0,45 0,52
Média da raiz do erro médio quadrático
)M(P
3,80 2,48 2,21 3,54 4,81 5,66 6,13 6,36
)M(ZP
14,08 5,03 2,93 2,65 2,65 2,71 2,77 2,83
)M(Z
3,36 2,28 2,16 3,54 4,79 5,60 6,03 6,24
Elin )(P
2,50 1,94 1,48 1,40 1,43 1,48 1,54 1,61
Elin + Elin )(P
3,30 2,77 2,36 2,26 2,67 2,32 2,40 2,48
61
Tabela 4.3 - Resultados de simulação para a segunda população sob
amostragem não-informativa
Largura da banda
Método 0.5 1 2 3 4 5 6 7
Média do vício
M(P)
0,09 0,07 0,03 -0,09 -0,11 -0,09 -0,13 -0,19
M(ZP)
16,62 0,58 0,50 0,51 0,51 0,59 0,59 0,54
)M(Z
-0,09 0,46 0,66 0,71 0,77 0,70 0,60 0,34
)M(Zs
0,31 0,42 0,66 0,74 0,76 0,71 0,56 0,29
Elin )(P
0,27 0,49 0,83 1,06 1,19 1,27 1,32 1,37
Elin + Elin
)(P
-0,43 -0,37 -0,32 -0,18 -0,02 0,08 0,18 0,31
Média da raiz do erro médio quadrático
M(P)
20,38 14,44 10,03 8,26 7,37 7,01 6,97 7,10
M(ZP)
217,7 29,72 12,04 10,13 9,43 8,94 8,74 8,79
)M(Z
15,94 10,23 7,88 7,01 6,62 6,52 6,66 6,99
)M(Zs
11,92 9,47 7,70 6,97 6,71 6,75 6,96 7,26
Elin )(P
12,79 9,90 7,82 7,08 6,69 6,49 6,42 6,44
Elin + Elin )(P
15,76 12,49 9,52 8,40 7,61 7,08 6,75 6,58
Tabela 4.4 - Resultados de simulação para a segunda população sob
amostragem informativa
Largura da banda
Método 0.5 1 2 3 4 5 6 7
Média do vício
M(P)
1,25 1,01 1,05 1,17 1,35 1,45 1,48 1,52
M(ZP)
7,90 9,49 8,97 9,05 9,40 9,74 10,11 10,46
)M(Z
1,12 0,95 0,99 1,11 1,29 1,39 1,42 1,45
)M(Zs
1,67 1,06 1,06 1,25 1,35 1,39 1,37 1,33
Elin
)(P
1,52 1,29 1,44 1,58 1,70 1,80 1,86 1,93
Elin + Elin
)(P
-5,28 -5,57 -5,58 -5,99 -1,07 -6,02 -5,93 -5,81
Média da raiz do erro médio quadrático
M(P)
28,19 17,11 10,40 8,98 8,18 7,68 7,44 7,38
M(ZP)
75,21 41,54 23,44 16,65 15,03 14,92 15,21 15,79
)M(Z
28,47 17,51 10,34 8,90 8,07 7,55 7,27 7,20
)M(Zs
15,75 12,12 9,56 8,54 8,07 7,79 7,61 7,52
Elin
)(P
15,41 12,77 10,58 9,49 8,87 8,54 8,39 8,41
Elin + Elin
)(P
17,60 14,86 12,38 11,43 10,82 10,40 10,13 9,90
62
Anexo 3 – Tabelas referentes aos resultados de simulação do Capítulo 5
Tabela 5.1a – Resultados de simulação para a primeira população sob
amostragem não-informativa (PPX) sem a utilização do peso amostral na
escolha da árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV 0,05 0,08 0,08 -0,04 -0,26
ARVPESO 0,05 0,08 0,08 -0,04 -0,26
REG 0,02 0,02 0.03 0,02 0,02
REGPESO
0,02 0,02 0,02 0,01 0,00
M(Pa) 0,34 0,02 0,11 0,17 0,34
Média da raiz do erro médio quadrático
ARV 5,43 4,41 4,38 4,73 5,63
ARVPESO 5,48 4,46 4,43 4,74 5,56
REG 3,13 3,97 3,76 3,46 2,81
REGPESO 3,12 3,96 3,75 3,45 2,80
M(Pa) 5,67 4,74 4,27 4,11 4,40
Tabela 5.1b – Resultados de simulação para a primeira população sob amostra
não-informativa (PPX) com a utilização do peso amostral na escolha da árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -0,36 -0,05 -0,09 -0,37 -0,90
ARVPESO 0,14 0,12 0,12 -0,04 -0,28
REG 0,05 0,02 0,03 0,03 0,02
REGPESO 0,04 0,02 0,03 0,02 0,01
M(Pa) 0,34 0,02 0,11 0,17 0,34
Média da raiz do erro médio quadrático
ARV 4,80 4,34 4,36 4,64 5,51
ARVPESO 4,80 4,34 4,36 4,64 5,51
REG 3,53 4,04 3,84 3,52 2,86
REGPESO 3,52 4,03 3,84 3,51 2,85
M(Pa) 4,94 4,89 4,53 4,35 4,49
63
Tabela 5.2a – Resultados de simulação para a primeira população sob
amostragem informativa (PPZ) sem a utilização do peso amostral na escolha da
árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -1,93 -1,72 -1,83 -2,02 -2,49
ARVPESO -0,11 -0,21 -0,26 -0,32 -0,55
REG -1,69 -1,68 -1,68 -1,68 -1,72
REGPESO -0,12 -0,27 -0,24 -0,19 -0,13
M(Pa) 0,22 0,40 0,39 0,37 0,42
Média da raiz do erro médio quadrático
ARV 5,92 4,57 4,67 5,09 6,16
ARVPESO 5,67 4,33 4,38 4,74 5,67
REG 3,42 4,26 4,09 3,79 3,17
REGPESO 3,14 4,81 3,90 3,55 2,80
M(Pa) 5,26 4,35 4,25 4,26 4,85
Tabela 5.2b – Resultados de simulação para a primeira população sob
amostragem informativa (PPZ) com a utilização do peso amostral na escolha da
árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -0,31 -0,29 -0,32 -0,34 -0,56
ARVPESO -0,31 -0,29 -0,32 -0,34 -0,56
REG -1,68 -1,70 -1,68 -1,68 -1,74
REGPESO -0,20 -0,31 -0,26 -0,19 -0,15
M(Pa) 2,23 1,11 1,24 1,37 1,64
Média da raiz do erro médio quadrático
ARV 4,93 4,38 4,43 4,75 5,64
ARVPESO 4,93 4,38 4,43 4,75 5,64
REG 3,75 4,22 4,06 3,74 3,17
REGPESO 3,62 4,13 3,97 3,60 2,88
M(Pa) 5,40 4,71 4,66 4,74 5,27
64
Tabela 5.3a – Resultados de simulação para a segunda população sob
amostragem não-informativa (PPX) sem a utilização do peso amostral na
escolha da árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -14,02 -4,74 -5,49 -8,52 -16,27
ARVPESO 1,47 0,66 0,09 -1,59 -3,30
REG -0,46 -0,64 -0,49 -0,32 -0,32
REGPESO -0,21 -0,48 -0,37 -0,25 -0,26
M(Pa) -15,00 -7,40 -7,25 -7,08 -8,41
Média da raiz do erro médio quadrático
ARV 58,92 38,54 40,27 45,86 59,19
ARVPESO 56,28 38,47 39,64 43,55 54,60
REG 16,10 20,94 20,48 19,31 15,41
REGPESO 15,67 20,69 20,22 18,94 14,95
M(Pa) 67,48 46,11 45,87 47,14 51,83
Tabela 5.3b – Resultados de simulação para a segunda população sob
amostragem não-informativa (PPX) com a utilização do peso amostral na
escolha da árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -0,06 0,36 0,04 -1,12 -4,21
ARVPESO -0,06 0,36 0,04 -1,12 -4,21
REG -0,24 -0,30 -0,16 -0,19 -0,38
REGPESO -0,19 -0,27 -0,14 -0,13 -0,34
M(Pa) 0,97 -1,21 -0,41 0,99 2,68
Média da raiz do erro médio quadrático
ARV 39,84 33,64 34,98 40,19 53,19
ARVPESO 39,84 33,64 34,98 40,19 53,19
REG 19,76 22,31 21,68 19,66 15,66
REGPESO 19,61 22,22 21,56 19,43 15,13
M(Pa) 64,58 51,45 51,83 53,77 55,21
65
Tabela 5.4a – Resultados de simulação para a segunda população sob
amostragem informativa (PPZ) sem a utilização do peso amostral na escolha da
árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -10,34 -9,13 -11,53 -15,48 -17,03
ARVPESO -4,50 -3,72 -5,50 -8,77 -9,76
REG -6,43 -6,39 -6,36 -6,42 -6,58
REGPESO -0,27 -1,01 -0,71 -0,29 0,05
M(Pa) -2,21 -9,27 -9,37 -10,07 -10,3
Média da raiz do erro médio quadrático
ARV 60,34 44,94 49,51 55,34 62,82
ARVPESO 56,46 41,56 44,54 49,17 56,61
REG 20,39 25,02 23,85 21,24 18,31
REGPESO 19,19 24,62 23,31 19,90 16,35
M(Pa) 80,40 64,50 61,60 59,03 59,71
Tabela 5.4b – Resultados de simulação para a a segunda população sob
amostragem informativa (PPZ) com a utilização do peso amostral na escolha da
árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -4,93 -3,76 -5,86 -9,17 -10,25
ARVPESO -4,93 -3,76 -5,86 -9,17 -10,25
REG -6,41 -6,38 -6,44 -6,51 -6,73
REGPESO -0,44 -1,00 -0,77 -0,44 -0,12
M(Pa) 12,16 -12,94 -8,06 -3,92 -1,10
Média da raiz do erro médio quadrático
ARV 50,37 41,34 44,83 49,60 58,00
ARVPESO 50,37 41,34 44,83 49,60 58,00
REG 21,56 24,45 23,55 21,38 18,38
REGPESO 21,73 25,31 23,93 21,15 16,86
M(Pa) 61,70 79,61 68,00 55,88 55,26
66
Tabela 5.5a – Resultados de simulação para a terceira população sob
amostragem não-informativa (PPX) sem a utilização do peso amostral na
escolha da árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -7,88 -6,43 -7,36 -7,97 -9,76
ARVPESO -4,76 -4,61 -5,23 -4,92 -4,95
REG 0,03 -0,02 -0,03 0,10 0,16
REGPESO 0,06 0,04 0,02 0,12 0,10
M(Pa) 2,27 2,47 2,30 2,28 1,88
Média da raiz do erro médio quadrático
ARV 33,02 29,36 30,77 32,46 35,88
ARVPESO 32,49 29,00 30,19 31,67 34,55
REG 7,87 10,16 8,89 7,25 6,12
REGPESO 7,94 10,19 8,89 7,26 6,18
M(Pa) 21,79 17,91 18,29 19,66 23,20
Tabela 5.5b – Resultados de simulação para a terceira população sob
amostragem não-informativa (PPX) com a utilização do peso amostral na
escolha da árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -4,26 -4,21 -4,36 -4,34 -4,55
ARVPESO -4,26 -4,21 -4,36 -4,34 -4,55
REG -0,02 -0,05 -0,07 0,05 0,08
REGPESO 0,03 0,00 -0,02 0,10 0,05
M(Pa) 3,02 2,14 2,17 2,76 2,57
Média da raiz do erro médio quadrático
ARV 30,36 28,53 29,62 31,26 34,15
ARVPESO 30,36 28,53 29,62 31,26 34,15
REG 8,39 10,01 8,89 7,27 6,04
REGPESO 8,39 10,02 8,88 7,32 6,11
M(Pa) 21,05 19,00 19.72 21,08 24.46
67
Tabela 5.6a – Resultados de simulação para a terceira população sob
amostragem informativa (PPZ) sem a utilização do peso amostral na escolha da
árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -7,77 -6,53 -7,06 -8,48 -10,04
ARVPESO -4,72 -4,43 -4,76 -5,29 -5,52
REG -1,44 -1,51 -1,40 -1,36 -1,37
REGPESO -0,23 -0,46 -0,30 -0,15 -0,08
M(Pa) -0,78 -2,26 -2,47 -2,38 -2,46
Média da raiz do erro médio quadrático
ARV 32,23 28,65 29,59 32,36 35,65
ARVPESO 32,00 28,45 29,33 31,85 34,82
REG 7,17 9,46 8,52 7,19 6,22
REGPESO 7,20 9,48 8,57 7,20 6,17
M(Pa) 25,98 20,19 20,95 23,07 26,60
Tabela 5.6b – Resultados de simulação para a terceira população sob
amostragem informativa (PPZ) com a utilização do peso amostral na escolha da
árvore
Número de observações dentro dos nós terminais
Método
Melhor
árvore 5 7 10 15
Média do vício
ARV -4,40 -4,16 -4,40 -4,66 -4,98
ARVPESO -4,40 -4,16 -4,40 -4,66 -4,98
REG -1,42 -1,52 -1,40 -1,35 -1,42
REGPESO -0,28 -0,52 -0,30 -0,15 -0,11
M(Pa) 4,39 1,60 1,71 2,50 3,73
Média da raiz do erro médio quadrático
ARV 29,69 28,03 28,97 31,32 34,69
ARVPESO 29,69 28,03 28,97 31,32 34,69
REG 8,00 9,33 8,38 7,25 6,09
REGPESO 8,03 9,40 8,44 7,28 6,04
M(Pa) 25,33 21,52 22,16 24,27 27,54
68
Anexo 4 – Programa utilizado para a geração das simulações
#Cálculo do valor predito para o vetor novodado
rpart.loc<-function (object, newdata = list())
{
#object-objeto de classe rpart
#newdata-data.frame contendo as variaveis usadas para
#construir a arvore
if (!inherits(object, "rpart"))
stop("Not legitimate tree")
if (missing(newdata))
where <- object$where
else {
if (is.null(attr(newdata, "terms"))) {
Terms <- delete.response(object$terms)
act <- (object$call)$na.action
if (is.null(act))
act <- na.rpart
newdata <- model.frame(Terms, newdata, na.action = act,
xlev = attr(object, "xlevels"))
}
where <- pred.rpart(object, rpart.matrix(newdata))
where
}
}
#Simulações
set.seed(123)
69
#Geração da primeira população. 200 repetições de tamanho 1000
pop.array2<-array(0,dim=c(1000,5,200))
for (i in 1:200)
{
Z2<-4+2*rnorm(1000)
X2<-4+0.5*Z2+rnorm(1000)
Y2<-1+X2+X2*Z2+rnorm(1000)
pi12<-100*(Z2-min(Z2)+0.1)/sum(Z2-min(Z2)+0.1)
pi22<-100*(X2-min(X2)+0.1)/sum(X2-min(X2)+0.1)
pop.array2[,,i]<-cbind(Z2,X2,Y2,pi12,pi22)
}
#Geração das amostras: Uma amostra PPX e uma PPZ de cada população
ind1.array2<-matrix(0,100,200)
ind2.array2<-matrix(0,100,200)
for(i in 1:200)
{
ind1.array2[,i]<-sample(1:1000,100,prob=pop.array2[,,i][,4])
ind2.array2[,i]<-sample(1:1000,100,prob=pop.array2[,,i][,5])
}
amost1.array2<-array(0,dim=c(100,4,200))
amost2.array2<-array(0,dim=c(100,4,200))
for(i in 1:200)
70
{
amost1.array2[,,i]<-pop.array2[ind1.array2[,i],1:4,i]
amost2.array2[,,i]<-pop.array2[ind2.array2[,i],c(1:3,5),i]
}
#Percentis da variável X na primeira população valores da regressão na população:
valores<-seq(.05,.95,by=.01)
x.val<-qnorm(valores,mean=6,sd=sqrt(2))
novodado<-data.frame(x=x.val)
gux<-1-x.val+x.val^2
#Árvores de regressão para diferentes métodos, diferentes nºs
# de nós terminais, incluindo ou não pesos amostrais na construção da árvore.
#1. Amostragem informativa sem peso na construção da árvore:
#Para melhor árvore
mat.result1.2<-matrix(0,200,11)
best.tree1.2<-for(i in 1:200)
{
datai<-as.data.frame(amost1.array2[,,i])
names(datai)<-c("z","x","y","pi")
arv0<-rpart(y~x,data=datai)
cp<-arv0$cptable
r<-cp[,4]+cp[,5]
rmin<-min(seq(along=r)[cp[,4]<min(r)])
cp0<-cp[rmin,1]
saida<-prune(arv0,cp=1.01*cp0)
val.pred<-predict((saida),newdata=novodado)
71
arv5<-rpart(y/pi~x,data=datai)
cp<-arv5$cptable
r<-cp[,4]+cp[,5]
rmin<-min(seq(along=r)[cp[,4]<min(r)])
cp5<-cp[rmin,1]
saida5<-prune(arv5,cp=1.01*cp5)
val.pred5<-predict((saida5),newdata=novodado)
arv1<-rpart(1/pi~x,data=datai)
cp<-arv1$cptable
r<-cp[,4]+cp[,5]
rmin<-min(seq(along=r)[cp[,4]<min(r)])
cp1<-cp[rmin,1]
saida1<-prune(arv1,cp=1.01*cp1)
val.pred0<-predict((saida1),newdata=novodado)
val.pred4<-val.pred5/val.pred0
loc.novodado<-rpart.loc(saida,newdata=novodado)
n<-length(loc.novodado)
val.pred1<-val.pred2<-val.pred3<-numeric(n)
for(j in 1:n){
indi<-(1:100)[saida$where==loc.novodado[j]]
y<-datai[indi,"y"]
peso<-1/datai[indi,"pi"]
val.pred1[j]<-sum(y*peso)/sum(peso)
x<-datai[indi,"x"]
coe1<-lsfit(x,y)$coef
val.pred2[j]<-coe1[1]+coe1[2]*novodado[j,]
coe2<-lsfit(x,y,wt=peso)$coef
val.pred3[j]<-coe2[1]+coe2[2]*novodado[j,]
}
mat.result1.2[i,]<-c(i,mean(gux-val.pred),sqrt(mean((gux-val.pred)^2)),
mean(gux-val.pred1),sqrt(mean((gux-val.pred1)^2)),
mean(gux-val.pred2),sqrt(mean((gux-val.pred2)^2)),
72
mean(gux-val.pred3),sqrt(mean((gux-val.pred3)^2)),
mean(gux-val.pred4),sqrt(mean((gux-val.pred4)^2))
)
}
#Para árvore com o limite inferior de 5 observações dentro de cada nó terminal
t5.mat.result1.2<-matrix(0,200,11)
best.tree1.2<-for(i in 1:200)
{
datai<-as.data.frame(amost1.array2[,,i])
names(datai)<-c("z","x","y","pi")
saida<-rpart(y~x,data=datai,minbucket=5)
val.pred<-predict((saida),newdata=novodado)
saida5<-rpart(y/pi~x,data=datai,minbucket=5)
val.pred5<-predict((saida5),newdata=novodado)
saida1<-rpart(1/pi~x,data=datai,minbucket=5)
val.pred0<-predict((saida1),newdata=novodado)
val.pred4<-val.pred5/val.pred0
loc.novodado<-rpart.loc(saida,newdata=novodado)
n<-length(loc.novodado)
val.pred1<-val.pred2<-val.pred3<-numeric(n)
for(j in 1:n){
indi<-(1:100)[saida$where==loc.novodado[j]]
y<-datai[indi,"y"]
peso<-1/datai[indi,"pi"]
val.pred1[j]<-sum(y*peso)/sum(peso)
x<-datai[indi,"x"]
coe1<-lsfit(x,y)$coef
val.pred2[j]<-coe1[1]+coe1[2]*novodado[j,]
73
coe2<-lsfit(x,y,wt=peso)$coef
val.pred3[j]<-coe2[1]+coe2[2]*novodado[j,]
}
t5.mat.result1.2[i,]<-c(i,mean(gux-val.pred),sqrt(mean((gux-val.pred)^2)),
mean(gux-val.pred1),sqrt(mean((gux-val.pred1)^2)),
mean(gux-val.pred2),sqrt(mean((gux-val.pred2)^2)),
mean(gux-val.pred3),sqrt(mean((gux-val.pred3)^2)),
mean(gux-val.pred4),sqrt(mean((gux-val.pred4)^2))
)
}
#Para árvore com o limite inferior de 7 observações dentro de cada nó terminal
t.mat.result1.2<-matrix(0,200,11)
best.tree1.2<-for(i in 1:200)
{
datai<-as.data.frame(amost1.array2[,,i])
names(datai)<-c("z","x","y","pi")
saida<-rpart(y~x,data=datai)
val.pred<-predict((saida),newdata=novodado)
saida5<-rpart(y/pi~x,data=datai)
val.pred5<-predict((saida5),newdata=novodado)
saida1<-rpart(1/pi~x,data=datai)
val.pred0<-predict((saida1),newdata=novodado)
val.pred4<-val.pred5/val.pred0
loc.novodado<-rpart.loc(saida,newdata=novodado)
n<-length(loc.novodado)
val.pred1<-val.pred2<-val.pred3<-numeric(n)
for(j in 1:n){
74
indi<-(1:100)[saida$where==loc.novodado[j]]
y<-datai[indi,"y"]
peso<-1/datai[indi,"pi"]
val.pred1[j]<-sum(y*peso)/sum(peso)
x<-datai[indi,"x"]
coe1<-lsfit(x,y)$coef
val.pred2[j]<-coe1[1]+coe1[2]*novodado[j,]
coe2<-lsfit(x,y,wt=peso)$coef
val.pred3[j]<-coe2[1]+coe2[2]*novodado[j,]
}
t.mat.result1.2[i,]<-c(i,mean(gux-val.pred),sqrt(mean((gux-val.pred)^2)),
mean(gux-val.pred1),sqrt(mean((gux-val.pred1)^2)),
mean(gux-val.pred2),sqrt(mean((gux-val.pred2)^2)),
mean(gux-val.pred3),sqrt(mean((gux-val.pred3)^2)),
mean(gux-val.pred4),sqrt(mean((gux-val.pred4)^2))
)
}
#Para árvore com o limite inferior de 10 observações dentro de cada nó terminal
t10.mat.result1.2<-matrix(0,200,11)
best.tree1.2<-for(i in 1:200)
{
datai<-as.data.frame(amost1.array2[,,i])
names(datai)<-c("z","x","y","pi")
saida<-rpart(y~x,data=datai,minbucket=10)
val.pred<-predict((saida),newdata=novodado)
saida5<-rpart(y/pi~x,data=datai,minbucket=10)
val.pred5<-predict((saida5),newdata=novodado)
saida1<-rpart(1/pi~x,data=datai,minbucket=10)
75
val.pred0<-predict((saida1),newdata=novodado)
val.pred4<-val.pred5/val.pred0
loc.novodado<-rpart.loc(saida,newdata=novodado)
n<-length(loc.novodado)
val.pred1<-val.pred2<-val.pred3<-numeric(n)
for(j in 1:n){
indi<-(1:100)[saida$where==loc.novodado[j]]
y<-datai[indi,"y"]
peso<-1/datai[indi,"pi"]
val.pred1[j]<-sum(y*peso)/sum(peso)
x<-datai[indi,"x"]
coe1<-lsfit(x,y)$coef
val.pred2[j]<-coe1[1]+coe1[2]*novodado[j,]
coe2<-lsfit(x,y,wt=peso)$coef
val.pred3[j]<-coe2[1]+coe2[2]*novodado[j,]
}
t10.mat.result1.2[i,]<-c(i,mean(gux-val.pred),sqrt(mean((gux-val.pred)^2)),
mean(gux-val.pred1),sqrt(mean((gux-val.pred1)^2)),
mean(gux-val.pred2),sqrt(mean((gux-val.pred2)^2)),
mean(gux-val.pred3),sqrt(mean((gux-val.pred3)^2)),
mean(gux-val.pred4),sqrt(mean((gux-val.pred4)^2))
)
}
#Para árvore com o limite inferior de 15 observações dentro de cada nó terminal
t15.mat.result1.2<-matrix(0,200,11)
best.tree1.2<-for(i in 1:200)
{
datai<-as.data.frame(amost1.array2[,,i])
76
names(datai)<-c("z","x","y","pi")
saida<-rpart(y~x,data=datai,minbucket=15)
val.pred<-predict((saida),newdata=novodado)
saida5<-rpart(y/pi~x,data=datai,minbucket=15)
val.pred5<-predict((saida5),newdata=novodado)
saida1<-rpart(1/pi~x,data=datai,minbucket=15)
val.pred0<-predict((saida1),newdata=novodado)
val.pred4<-val.pred5/val.pred0
loc.novodado<-rpart.loc(saida,newdata=novodado)
n<-length(loc.novodado)
val.pred1<-val.pred2<-val.pred3<-numeric(n)
for(j in 1:n){
indi<-(1:100)[saida$where==loc.novodado[j]]
y<-datai[indi,"y"]
peso<-1/datai[indi,"pi"]
val.pred1[j]<-sum(y*peso)/sum(peso)
x<-datai[indi,"x"]
coe1<-lsfit(x,y)$coef
val.pred2[j]<-coe1[1]+coe1[2]*novodado[j,]
coe2<-lsfit(x,y,wt=peso)$coef
val.pred3[j]<-coe2[1]+coe2[2]*novodado[j,]
}
t15.mat.result1.2[i,]<-c(i,mean(gux-val.pred),sqrt(mean((gux-val.pred)^2)),
mean(gux-val.pred1),sqrt(mean((gux-val.pred1)^2)),
mean(gux-val.pred2),sqrt(mean((gux-val.pred2)^2)),
mean(gux-val.pred3),sqrt(mean((gux-val.pred3)^2)),
mean(gux-val.pred4),sqrt(mean((gux-val.pred4)^2))
)
}
77
#Saídas das medidas utilizadas
#Média do vício
erropop2am1<-
c(mean(mat.result1.2[,2]),mean(t5.mat.result1.2[,2]),mean(t.mat.result1.2[,2]),
mean(t10.mat.result1.2[,2]),mean(t15.mat.result1.2[,2]))
erro1pop2am1<-
c(mean(mat.result1.2[,4]),mean(t5.mat.result1.2[,4]),mean(t.mat.result1.2[,4]),
mean(t10.mat.result1.2[,4]),mean(t15.mat.result1.2[,4]))
erro2pop2am1<-
c(mean(mat.result1.2[,6]),mean(t5.mat.result1.2[,6]),mean(t.mat.result1.2[,6]),
mean(t10.mat.result1.2[,6]),mean(t15.mat.result1.2[,6]))
erro3pop2am1<-
c(mean(mat.result1.2[,8]),mean(t5.mat.result1.2[,8]),mean(t.mat.result1.2[,8]),
mean(t10.mat.result1.2[,8]),mean(t15.mat.result1.2[,8]))
erro4pop2am1<-
c(mean(mat.result1.2[,10]),mean(t5.mat.result1.2[,10]),mean(t.mat.result1.2[,10]),
mean(t10.mat.result1.2[,10]),mean(t15.mat.result1.2[,10]))
#Média da REMQ
erroqpop2am1<-
c(mean(mat.result1.2[,3]),mean(t5.mat.result1.2[,3]),mean(t.mat.result1.2[,3]),
mean(t10.mat.result1.2[,3]),mean(t15.mat.result1.2[,3]))
erroq1pop2am1<-
c(mean(mat.result1.2[,5]),mean(t5.mat.result1.2[,5]),mean(t.mat.result1.2[,5]),
mean(t10.mat.result1.2[,5]),mean(t15.mat.result1.2[,5]))
erroq2pop2am1<-
c(mean(mat.result1.2[,7]),mean(t5.mat.result1.2[,7]),mean(t.mat.result1.2[,7]),
mean(t10.mat.result1.2[,7]),mean(t15.mat.result1.2[,7]))
78
erroq3pop2am1<-
c(mean(mat.result1.2[,9]),mean(t5.mat.result1.2[,9]),mean(t.mat.result1.2[,9]),
mean(t10.mat.result1.2[,9]),mean(t15.mat.result1.2[,9]))
erroq4pop2am1<-
c(mean(mat.result1.2[,11]),mean(t5.mat.result1.2[,11]),mean(t.mat.result1.2[,11]),
mean(t10.mat.result1.2[,11]),mean(t15.mat.result1.2[,11]))
#Esse roteiro é feito também incluindo pesos amostrais na construção da árvore,
#para amostragem não-informativa. O mesmo procedimento é feito para a segunda e
#terceira população.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo