Download PDF
ads:
LUIZ HENRIQUE GAMA DORE DE ARAÚJO
AGRUPAMENTO EM ANÁLISE ESTATÍSTICA DE FORMAS
RECIFE-PE FEVEREIRO/2008.
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO
PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO
PROGRAMA DE PÓS-GRADUÃO EM BIOMETRIA E ESTATÍSTICA APLICADA
AGRUPAMENTO EM ANÁLISE ESTATÍSTICA DE FORMAS
Dissertação apresentada ao
Programa de Pós-Graduação em
Biometria e Estatística Aplicada como
exigência parcial à obtenção do título de
Mestre.
Área de Concentração: Modelagem
Etatística Computacional (com ênfase nas
áreas agrárias, biológicas e humanas)
Orientador(a): Prof. Dr. Borko D. Stosic
Co-orientador(a): Prof. Dr. Getúlio Amaral
Co-orientador(a): Profa. Dra. Rosângela Lessa
RECIFE-PE FEVEREIRO/2008.
ads:
FICHA CATALOGRÁFICA
CDD 574. 018 2
1. Análise estatística
2. Agrupamento
3. K - médias
I. Stosic, Borko D.
II. Título
A663 l Araújo, Luiz Henrique Gama Dore de
Agrupamento em análise estatística de formas / Luiz Henrique
Gama Dore de Araújo. -- 2008.
38 f. : il.
Orientador : Borko D. Stosic
Dissertação (Mestrado em Biometria e Estatística Aplicada)
Universidade Federal Rural de Pernambuco. Departamento de Es -
tatística e Informática.
Inclui apêndice bibliografia.
iii
Resumo
Neste trabalho, o algoritmo k-médias proposto por Hartigan e Wong foi adaptado para o
caso no qual se tem observações de um elemento aleatório sobre um espaço métrico arbi-
trário. Resultados de simulações indicam que o desempenho do algoritmo, no caso em que
o espaço métrico é o espaço das formas de configurações planas, é invariante com relação
às três tricas de forma usuais a saber, as distâncias de Procrustes completa e parcial
e a distância de Procrustes. Além disso, a versão modificada do algoritmo, quando apli-
cada no espaço d as formas com qualquer uma destas três métricas, apresenta o mesmo
desempenho do algoritmo o riginal aplicado às coordenadas de Procrustes tangentes par-
ciais. Um problema na identificação das espécies de peixes-agulhas Hemiramphus balao
e Hemiramphus brasiliensis motivou este estudo. Atualmente, os parâmetros de identifica-
ção utilizados apresentam alguns problemas operacionais os quais permitem, em muitos
casos, que peixes-agulha de uma espécie sejam classificados como da outra. O algoritmo
foi utilizado para agrupar uma amostra das formas de configurações destes peixes e dois
grupos com padrões de forma estatisticamente distintos foram encontrados. Estes gru-
pos apresentaram uma diferença marcante na posição da cabeça com relação ao resto do
corpo: no grupo 1 a cabeça é levemente inclinada para cima enquanto que no grupo 2 a
cabeça é levemente inclinada para baixo. A observação destas características em fotos
de peixes-agulha nas quais as duas espécies foram corretamente identificadas, permitiu
constatar que o grupo 1 corresponde à espécie Hemirapmphus balao e o grupo 2 à es-
pécie Hemiramphus brasiliensis. Dessa maneira, a posição da cabeça com relação ao
resto do corpo (a qual é uma informação totalmente baseada na forma do peixe), pode ser
utilizada como um parâmetro bastante robusto para identificação de sua espécie.
iv
Abstract
In this work, the k-means algorithm proposed by Hartigan and Wong is adapted to the
case of random element observations in general metric space. Simulation results show that
the performance of the algorithm in the case when the metric space is the shape space of
the plane configurations, is independent on the choice of the usual sha pe metrics, more pre-
cisely the regular, complete and partial Procrustes distance. Besides, this modified version
of the algorithm, applied to the shape space with any of the three metrics, exhibits the same
performance as the original algorithm applied to the partial tangent Procrustes coordinates.
The current study was motivated by the problem of identification of species of half-beak fish
Hemiramphus balao and Hemiramphus brasiliensis.Currently, the parameters used for iden-
tification of these species are subject to certain operational difficulties, which often result in
erroneous classification of the specimens. The algorithm was used to perform clustering of
shape configuration samples, and two groups with statistically distinct shapes have been
identified. These groups exhibit a pronounced difference regarding position of the head
in relation to the body: for one group the he ad is slightly inclined upwards, while for the
other group the head is slightly inclined downwards. Observation of these characteristics
on the photos of fish specimens on which the two species were correctly classified, leads
to identification of group 1 as Hemirapmphus balao and group 2 as species Hemiramphus
brasiliensis. Therefore, head position with relation to body (which represents information
entirely on the specimen shape ) represents a rather robust parameter for identification of
species.
v
Lista de Figuras
1.1 Parâmetros utilizados na identificação das espécies de peixes-agulha He-
miramphus Balao e Hemiramphus Brasilientsis. 1-margem anterior da
fossa nasal, 2-início da nadadeira peitoral, 3-fim da nadadeira peitoral,
4-lobo caudal superior. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 8
3.1 Ajuste parcial de µ
1
(vermelho) sobre µ
1
(preto). . . . . . . . . . . . . . . p. 23
3.2 Ajuste parcial de µ
2
(vermelho) sobre µ
2
(preto). . . . . . . . . . . . . . . p. 23
3.3 Exemplos do primeiro e do terceiro tipo de amostra gerada. . . . . . . . . p. 24
3.4 Coordenadas de Procrustes da amostra contendo os dois casos (esqu i-
zofrênicos e não-esquizofrênicos) (a e b), das amostras de cada caso
(vermelho-esquizofrênico e preto-não-esquizofrênico) (c) e dos grupo s ob-
tidos pelo k-médias (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27
3.5 Coordenadas de Procrustes da amostra de configurações contendo go-
rilas do s dois sexos (a e b), das amostras de cada sexo (macho-preto e
fêma-vermelho) (c) e dos grupos obtidos pelo k-médias (d). . . . . . . . . p. 28
3.6 Espécimem Hemiramphus brasiliensis com os marcos selecionados. . . . p. 29
3.7 Coordenadas de Procrustes das configurações de Hemiramphus Balao
(preto) Hemiramphus Brasiliensis (vermelho). . . . . . . . . . . . . . . . . p. 30
3.8 Coordenadas de Procrustes das configurações dos grupos obtidos pelo
k-médias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31
3.9 Foto de um espécimem Hemiramphus brasiliensis. . . . . . . . . . . . . . p. 31
3.10 Foto de um espécimem Hemiramphus balao. . . . . . . . . . . . . . . . . p. 32
vi
Lista de Tabelas
1.1 Características utilizadas na identificação de Hemiramphus balao e Hemi-
ramphus brasiliensis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 8
3.1 Médias das taxas de alocação e a média das k-variâncias (entre parênte-
ses) dos agrupamentos das amostras de Mo nte Carlo correspondentes a
µ
1
(n = 30) e µ
1
(n = 30). . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25
3.2 Médias das taxas de alocação e a média das k-variâncias (entre parênte-
ses) dos agrupamentos das amostras de Mo nte Carlo correspondentes a
µ
1
(n = 30) e µ
1
(n = 15). . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25
3.3 Médias das taxas de alocação e a média das k-variâncias (entre parênte-
ses) dos agrupamentos das amostras de Mo nte Carlo correspondentes a
µ
2
(n = 30) e µ
2
(n = 30). . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25
3.4 Agrupamento da amostra de con figurações de esq ui-
zofrênicos e não-esquizofrênicos. Taxa de alocação e as respectivas k-
variâncias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 26
3.5 Estatísticas dos testes de Hotelling e de Goodall para igualdade entre as
formas méd ias de esquizofrênicos e não-esquizofrênicaos e entre as for-
mas médias dos grupos de pacientes obtidos pelo k-médias. Entre parên-
teses os p-valores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 26
3.6 Agrupamento da amostra de configurações de g orilas machos e fêmeas.
Taxas de alocação e as respectivas k-variâncias. . . . . . . . . . . . . . . p. 28
3.7 Estatísticas dos testes de Hotelling e de Goodall para igualdade entre as
formas médias de gorilas macho e fêmea e entre as formas médias dos
grupos de gorilas obtidos pelo k-médias. Entre parênteses os p-valores. . p. 29
3.8 Estatísticas dos testes de Hotelling e de Goodall para igualdade entre as
formas médias de peixes-agulha das espécies Hemiramphus Balao He-
miramphus Brasiliensis e entre as formas médias dos grupos de peixes-
agulha obtidos pelo k-médias. Entre parênteses os p-valores. . . . . . . . p. 29
vii
Sumário
1 Introdução p. 8
2 Metodologia utilizada para análise de formas p. 11
2.1 Formas, Distâncias entre Formas, Coordenadas de Forma e o espaço das
Formas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11
2.2 Formas médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 15
2.3 Testes para comparação de formas médias . . . . . . . . . . . . . . . . . p. 17
2.4 k-médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 19
3 Resultados e Discussão p. 22
3.1 Avaliação da performance do agrupamento de formas em dados simulados p. 22
3.2 Configurações sobre imagens do cérebro de esquizofrênicos e não-esquizofrênicos p. 26
3.3 Configurações sobre crânios de gorilas macho e fêmea . . . . . . . . . . p. 27
3.4 Aplicação do k-médias na identificação de peixes-agulha das espécies
Hemirmaphus balao e Hemiramphus brasiliensis . . . . . . . . . . . . . . p. 29
4 Conclusão p. 33
Referências p. 34
Apêndice A -- Algoritmos p. 35
8
1 Introdução
A discriminação entre espécies de peixes (em particular espécies semelhantes) re-
presenta um fator de alto impacto no manejo e exploração de estoques pesqueiros. Por
outro lado, esta atividade pode apresentar diversas dificuldades, e sua efetiva implemen-
tação exige investigações de novas metodologias, no se ntido de oferecer procedimentos
cada vez mais simples e mais con fiáveis.
Em particular, a identificação das espécies de peixes-agulha Hemiramphus balao e He-
miramphus brasiliensis tem sido feita com base em algumas caracetrísticas destes peixes
descritas por (COLLETTE, 1965), as quais pode m ser vizualizadas na tabela 1 e na figura
1.1.
Tabela 1.1: Características utilizadas na iden tificação de Hemiramphus balao e Hemi-
ramphus brasiliensis
Hemiramphus balao Hemiramphus brasiliensis
Seu tamanho é maior que Seu tamanho é menor que
a distância da base do a distância da base do
Nadadeira Peitoral
raio peitoral à margem raio peitoral à margem
anterior da fossa nasal anterior da fossa nasal
Cor do Lobo Cauda l Superior Apresenta uma cor azul- Apresenta uma cor laranja-
violáceo em vida avermelhado em vida
Figura 1.1: Parâmetros utilizados na identificação das espécies de peixes-agulha Hemi-
ramphus Balao e Hemiramphus Brasilientsis. 1-margem anterior da fossa nasal, 2-início
da nadadeira peitoral, 3-fim da nadadeira peitoral, 4-lobo caudal superior.
9
Estes critérios apresentam alguns problemas operacionais que podem diminuir as
chances d e sucesso na identificação. As variações entre as dua s espécies nos comprimen-
tos do maior raio das nadadeiras peitorais são bastante pequenas, tornando difícil a iden-
tificação das espécies por este critério. Também é bastante comum que estas nadadeiras
apresentem danos ocorridos durante a pesca ou no armazenamento dos peixes, o que
torna a discriminação por meio deste critério impossível. A cor do lobo superior da na-
dadeira cauda l, característica de cada espécie, é observável apenas no espécimem vivo.
Pouco tempo após sua morta, sua cauda perde esta coloração.
A morfometria geométrica representa uma área de pesquisa relativamente nova, com-
putacionalmente intensiva, cujo desenvolvimento e aplicação tem crescido significativa-
mente nos últimos anos. Ela é baseada no fato de que organismos com diferentes caracte-
rísticas biológicas geralmente apresentam formas diferentes. Conseqüentemente, devido
às incertezas sobre a identificação das espécies de peixes-agulha Hemiramphus balao e
Hemiramphus brasiliensis, o presente trabalho foi motivado pela suposição de que as duas
espécies apresentam certa variabilidade de forma, e que a análise de formas pode ser
utilizada para identificação destas espécies. Mais precisamente, o objetivo geral é de iden-
tificar numa amostra de peixes-agulha, dois grupos que tenham padrõe s de forma distintos,
e verificar se estes grupos correspondem às duas espécies.
Análise de formas em geral baseia-se em métodos de agrupamento, onde varias técni-
cas se encontram estabelecidas na literatura. Também, como estes métodos por sua vez
baseiam-se no conceito de distância entre pontos num espaço multidimensional, diversas
opções existem para escolha de própria definição de distância. Atualmente não é claro na
literatura científica quais são as vantagens e desvantagens destas escolhas diferentes, e
conseqüentemente neste trabalho é feita uma comparação entre elas, usa ndo dados sinté-
ticos controlados, dados de forma estudados na literatura, e dados de forma de espécies
de peixes-agulha.
Um método de agrupamento bastante utilizado na prática é o método das k-médias
(LEMBER, 2003). O método das k-médias consiste na divisão de um conjunto de observa-
ções de um elemento aleatório sobre um espaço métrico em k grupos, de maneira que a
soma dos quadrados das distâncias entre cada observação e a média do grupo ao qual ela
pertence seja a mínima possível. Esta divisão é, em geral, obtida por meio de algor it mos
iterativos. Hartigan e Wong (1979) propõem um algoritmo que garante que o agrupamento
obtido produz uma soma de quadrados localmente mínima, no sentido de que ela não pode
ser diminuida movendo-se uma observação de um grupo para o outro. No entanto, este
algoritmo está escrito para dados euclidianos. Assim, uma versão adaptada para espaços
10
métricos gerais é desenvolvida neste trabalho.
O espaço das formas de configurações planas (como espaço de formas dos peixes
Hemiramphus), é um espaço metrizável e sua distância natural é a distância de Procrustes
(KENDALL, 1984). No entanto, duas outras distâncias entre formas podem ser utilizadas: a
distância de Procrustes completa e a distância de Procrustes parcial. Também, pode-se
utilizar a distância euclidiana entre duas pré-formas projetadas sobre o espaço tangente
ao espaço de pré-formas sobre a forma média.
Neste trabalho, inicialmente o algor itmo de Hartigan e Wong modificado é aplicado a
dados simulados com o intuito de comparar o desempenho do algoritmo quando utilizado
com a distância de Procrustes completa, a distância de Procrustes parcial e a distância de
Procrustes. O algoritmo original também é aplicado aos mesmos dados simulados projeta-
dos no plano tangente e seu desempenho é comparado com o desempenho de sua versão
modificada. Em seguida, o algoritmo é aplicado a dois conjuntos de dados conhecidos
na literatura. Cada conjunto de dados é uma amostra contendo configurações provini-
entes de populações com características biológicas distintas. A eficácia do agrupamento
em identificar tais populações é avaliada. Por fim, é feito o agrupamento da amostra de
peixes-agulha. Os peixes-agulha serão previamente classificados de acordo com os cri-
tério de Collette (1965). Os grupos obtidos pelo algoritmo serão cruzados com os grupos
obtidos pelo critério de Collette para identificar que grupo representa qual espécie.
11
2 Metodologia utilizada para análise
de formas
Neste capitulo serão descritos os conceitos e as técnicas utilizadas para analise de
formas. Pr imeiro são definidos conceitos básicos: configurações, formas, distâncias entre
formas, coordenadas de forma e o espaço das formas. Em seguida são definidas formas
médias e são discutidos dois testes para comparação de formas médias, os quais serão
utilizados na validação dos agrupamentos. Finalmente, é discutido o método k-medias, o
qual será utilizado para o agrupamento de formas.
2.1 Formas, Distâncias entre Formas, Coordenadas de Forma
e o espaço das Formas
Uma configuração de um determinado objeto é um conjunto ordenado de pontos loca-
lizados sobre este objeto. Uma configuração de um objeto plano é dita ser uma configu-
ração plana. Os elementos de uma configuração plana são pontos no plano e, portanto,
uma configuração plana pode pode ser considerada um vetor complexo. Se x denotar uma
configuração plana contendo p pontos e (x
1j
, x
2j
) for seu j-ésimo ponto, então pode-se
escrever
x = (x
11
+ ix
21
, · · · , x
1p
+ ix
2p
).
Uma configuração plana representa uma figura geométrica plana. Kendall (1984), de
maneira informal, define a forma de uma figura como sendo o que resta da figura quando
as informações sobre posição, orientação e tamanho são desconsideradas. Isto significa
que duas configurações, x
1
e x
2
, têm a mesma forma se γ C, β R
+
e θ (0, 2π)
tais que
x
2
= T
(γ)
(x
1
) = γ1
p
+ βe
x
1
,
onde, 1
T
p
= (1, · · · , 1) é um vetor p-dimensional.
12
x
1
+ γ1
p
é a translação de x
1
pelo vetor determinado por γ, βx
1
é a dilatação de x
1
pelo fator β e e
x
1
é a rotação de x
1
por um ângulo θ. Estas três transformações são res-
ponsáveis por mudanças na posição, no tamanho e na orientação de x
1
, respectivamente,
e T
(γ)
(x
1
) é dito ser uma transformação de similaridade de x
1
(DRYDEN; MARDIA, 1998).
Diz-se que uma configuração plana está centrada quando a soma de seus pontos é
igual a zero. Denotando por < x, y > o produto interno hermitiano canônico entre dois
vetores complexos p-dimensionais x e y, o qual é dado por y
x =
p
j=1
¯y
j
x
j
, tem-se que uma
configuração plana x contendo p marcos está centrada quando < 1
p
, x >= 0.
Para comparar as formas de x
1
e x
2
, é necessário estabelecer uma medida de dissimi-
laridade entre formas. Por definição, T
(γ)
(x
1
) e x
1
têm a mesma forma. Por tan to, uma
medida de dissimilaridade entre as formas de x
1
e x
2
pode ser obtida encontrando-se uma
transformação de similaridade T
(γ)
que torne T
(γ)
(x
1
) o mais próximo possível de x
2
.
Como T
(γ)
(x
1
) e x
1
têm a mesma forma, a diferença entre T
(γ)
(x
1
) e x
2
indicará a
magnitude da diferença entre as formas de x
1
e x
2
. Considerando o modelo
x
2
= T
(γ)
(x
1
) + ǫ,
tem-se que esta medida de dissimilaridade entre formas é obtida calculando-se os valores
de γ, β e θ que minimizam o comprimento do vetor ǫ = x
2
T
(γ)
(x
1
). Ou seja, deve-se
encontrar ˆγ,
ˆ
β e
ˆ
θ tais que
||ˆǫ|| = ||x
2
T
(ˆγ,
ˆ
β,
ˆ
θ)
(x
1
)|| = inf
γ
||x
2
T
(γ)
(x
1
)||. (2.1)
Se x
1
e x
2
são centradas, então ˆγ = 0,
ˆ
β =
|<x
1
,x
2
>|
<x
1
,x
1
>
e
ˆ
θ = arg(< x
1
, x
2
>) e
||ˆǫ|| =
< x
2
, x
2
>
< x
1
, x
2
>< x
2
, x
1
>
< x
1
, x
1
>
(DRYDEN; MARDIA, 1998). (2.2)
||ˆǫ|| dado por (2.2) é a medida de dissimlaridade procurada. Supondo-se ||x|| = ||y|| =
1, tem-se que
||ˆǫ|| =
1 < x
1
, x
2
>< x
2
, x
1
>. (2.3)
(2.3) é chamada distância de Procrustes completa entre as formas de x
1
e x
2
, e é
denotada por d
C
(x
1
, x
2
).
T
(ˆγ,
ˆ
β,
ˆ
θ)
(x
1
), denotada por x
C
1
, é dada por
x
C
1
= T
(ˆγ,
ˆ
β,
ˆ
θ)
(x
1
) =< x
2
, x
1
> x
1
(DRYDEN; MARDIA, 1998).
13
x
C
1
é chamada ajuste de Procrustes completo de x
1
sobre x
2
. As coordenadas de x
C
1
são chamadas coordenadas de Procrustes completas de x
1
.
Diz-se que uma função D : C
p
C
p
retorna coordenadas de forma de configurações
planas contendo p pontos se
x e y C
p
, D(x) = D(y) x e y têm a mesma forma.
Nota-se que as coordenadas de Procrustes completas são coordenadas de forma.
No cálculo da distância de Procrustes completa (2.3), admitiu-se que as configura-
ções envolvidas no cálculo eram centradas e normalizadas. Para tornar uma configuração
centrada, basta subtrair seus pontos pelo seu centróide en quan to que a normalização é
feita dividindo-se seus pontos pela sua norma. Assim, se x
1
e x
2
não são centradas nem
normalizadas, z
1
e z
2
, dados por
z
1
=
x
1
c
1
1
p
||x
1
c
1
1
p
||
e z
2
=
x
2
c
2
1
p
||x
2
c
2
1
p
||
onde c
1
=
1
p
p
j=1
x
1j
e c
2
=
1
p
p
j=1
x
2j
, respectivamente, os são.
Kent (199 4) sugere que uma configuração plana seja centrada pré-multiplicando-a pela
sub-matriz de Helmert, a qual é a matriz de Helmert (LANCASTER, 1965) sem a primeira
linha . A sub-matriz de Helmert, denotada por H, é uma matriz (k 1) × k, cuja j-ésima
linha é dada po r
(h
j
, · · · , jh
j
, 0, · · · , 0), h
j
= [j(j + 1)]
1/2
,
onde o número de elementos nulos nesta linha é k j 1 e j = 1, · · · , k 1.
Assim, z
1
e z
2
dadas por
z
1
=
Hx
1
||Hx
1
||
e z
2
=
Hx
2
||Hx
2
||
(2.4)
são configurações centradas e normalizadas. O procedimento adotado para o cálculo das
pré-formas é o dado por 2.4.
Se x
1
e x
2
têm a mesma forma, então z
1
e z
2
diferem apenas em or ien tação . Isto
significa que θ (0, 2π); z
2
= e
z
1
. Kendall (198 4) nomeou z
1
e z
2
de pré-formas
de x
1
e x
2
, respectivamente, pois das três informações contidas na configuração que são
indesejáveis à análise de formas, a pré-forma contém apenas a orientantação.
As operações utilizadas no cálculo de z
1
e z
2
são translações e dilatações. Portanto, z
1
e z
2
têm a mesma forma de x
1
e x
2
, respectivamente, e, logo, não faz diferença utilizar z
1
14
e z
2
ou x
1
e x
2
. Portanto, o estudo das formas de configurações planas pode ser reduzido
ao estudo das formas de suas pré-formas.
Como as pré-formas são vetores complexos unitários, o espaço das pré-formas de
configurações planas contendo p pontos é uma esfera complexa unitária de dimensão p1,
a qual é de notada por CS
p1
.
Seja z a pré-forma de uma configuração x contendo p pontos. O conjunto de todas as
pré-formas que têm a mesma forma de x, denotado por [x], é dado por
[x] = {y; y = e
z, θ (0, 2π)}.
[x] é dito ser uma fibra de CS
p1
.
O fato de que o espaço de pré-formas é uma esfera complexa unitária permite o uso
de duas ou tras medidas de distância entre formas: a distância de Procrustes parcial e a
distância de Procrustes.
A distância de Procrustes parcial e ntre x
1
e x
2
, denotada por d
P
(x
1
, x
2
), é a distância
euclidiana entre x
2
e o elemento de [x
1
] mais próximo de x
2
, segundo a distância euclidi-
ana.
Logo, d
P
(x
1
, x
2
) é dada po r
d
P
(x
1
, x
2
) = ||z
2
e
i
ˆ
θ
z
1
|| = inf
θ
||z
2
e
z
1
||. (2.5)
Pode-se notar que o problema de minimizar (2.5) é idêntico ao (2.1), exceto pelo fato
de que em (2.5), o parâmetro correspondente à dilatação não é considerado (isto justifica
o uso dos termos completa e parcial). Como os valores críticos d os parâmetros em (2.1)
são calculados independentemente uns dos outros,
ˆ
θ em (2.5) é o mesmo que
ˆ
θ em (2.1).
A pré-forma x
P
1
= e
i
ˆ
θ
z
1
é chamada ajuste de Procrustes parcial de x
1
sobre x
2
. Pode-
se verificar que as coordenadas de x
P
são coordenadas de forma.
Utilizando-se algumas relações trigonométricas, pode-se mostrar que o ângulo entre
x
P
1
e x
2
é dado por
2 arcsen
1
2
d
P
(x
1
, x
2
)
= 2 arcsen
1
2
2(1 < x
1
, x
2
>)
.
Este ângulo é a distância de Procrustes entre x
1
e x
2
, a qual é denotada por d(x
1
, x
2
).
O ângulo entre as pré-formas z
1
e e
z
2
é dado por 2 arcsen
1
2
||z
1
e
z
2
||
. Ou seja,
15
o ângulo entre z
1
e e
z
2
é uma função monótona de θ. Logo, pode -se concluir q ue
inf
θ
2 arcsen
1
2
||z
1
e
z
2
||
= 2 arcsen
1
2
inf
θ
||z
1
e
z
2
||
= 2 arcsen
1
2
d
P
(x
1
, x
2
)
= d(x, y).
Portanto, x
P
1
é o elemento de [x
1
] cujo ângulo formado com x
2
é o menor p ossível e a
medida deste ângulo é d(x
1
, x
2
).
Todos o s elementos de uma fibra têm a mesma forma e elementos pertencentes a
fibras distintas tem formas distintas. Assim, a própria fib ra pode ser considerada uma
forma.
Nota-se que as fibras são classes de equivalência defindas pela relação de equivalên-
cia que associa duas pré-formas z
1
e z
2
se θ (0, 2π); z
2
= e
z
1
. Assim, cada fibra
no espaço de pré-formas é um ponto no espaço quociente
Σ
p
2
= CS
p1
/ .
Σ
p
2
com a topologia quociente, a qual considera A Σ
p
2
aberto se
[x]A
[x] CS
p1
é aberto, é chamado espaço das formas das configurações planas contendo p pontos
(KENDALL, 1984).
Kendall (1984) mostra que Σ
p
2
é uma variedade riemmanniana compacta cuja distância
riemanniana é a distância distância de Procrustes.
2.2 Formas médias
Seja (M, ρ) um espaço métrico, X um elemento aleatório em M com distribuição F
e S = {X
1
, · · · , X
n
} uma amostra de X. (ZIEZOLD, 1994) A média de Fréchet de X é
qualquer ponto µ que satisfaça
M
ρ
2
(x, µ )dF (x) = inf
yM
M
ρ
2
(x, y)dF(x), (2.6)
e a média de Fréchet de S é qualquer ponto ˆµ que satisfaça
n
i=1
ρ
2
(x, ˆµ) = inf
yM
n
i=1
ρ
2
(x, y). (2.7)
16
Como o cálculo da média num espaço métrico geral é um problema de minimzação, a
existência e unicidade da média não são garantidas. Também as equações a cima podem
não ter forma fechada.
No caso em que M = Σ
p
2
e ρ é qualquer uma das três distâncias entre formas
mencionadas, a existência é garantida, pois estes espaços métricos são compactos (KEN-
DALL, 1984). Resta apenas saber como proceder com o cáculo para cada uma d as três
distâncias entre formas.
Se M é uma variedade riemanniana, ρ é a distância gerada pela métrica riemmani-
ana em M e S está contida numa região fortemente convexa de M, o algoritmo A3 (ver
apêndice), proposto po r Pennec (1994), pode ser utilizado no cálculo da média.
Como Σ
k
2
é uma variedade riemmaniana e a distância de procrustes é a distância
gerada pela métrica riemmaniana em Σ
k
2
(KENDALL, 1984), a média gerada pela distância
de procrustes pode ser calculada utilizando-se o algoritmo de Pennec.
No caso em que a distância entre formas é a distância de Procrustes completa, Kent
(1994) mo stra que a média é única e é dada pelo autovetor correspondente ao maior
autovalor da matriz P =
n
i=1
z
i
z
i
, onde z
i
é a pré-forma de X
i
.
A forma média definida pela distância de Procrustes parcial é chamada forma média
parcial. O cálculo da forma média parcial pode ser feito utilizando-se o algoritmo A4 (ver
apêndice) proposto por Ziezold (1994). Este algoritmo baseia-se na seguinte proposição:
Proposição 1. Se [ˆµ] é uma forma média parcial de S, então ˆµ =
n
j=1
T
ˆµ
(X
j
), na qual,
T
ˆµ
(X
j
) denota o ajuste de Procrustes parcial de X
i
sobre ˆµ. Além disso, se ˆµ
1
=
1
n
n
j=1
T
ˆµ
0
(X
i
),
tem-se que
ˆµ
1
= ˆµ
0
[ˆµ
1
] = [ˆµ
0
] e
n
j=1
d
2
P
(X
j
, ˆµ
1
) <
n
j=1
d
2
P
(X
j
, ˆµ
0
). (2.8)
Assim, se ˆµ
0
denotar uma aproximação inicial para ˆµ, o algoritmo fornece como nova
aproximação de ˆµ a média aritimética dos ajustes de Procrustes parciais de das configura-
ções de S sobre ˆµ
0
. Denotanto esta nova aproximação por ˆµ
1
, o algoritmo fornece como
outra aproximação a média aritimética dos ajustes de Procrustes parciais das configura-
ções de S sobre ˆµ
1
. Se depois de m repetições deste processo, ˆµ
m
for sufucientemente
próxima de ˆµ
m1
, considera-se que houve convergência do algoritmo e é assumido que
ˆµ = ˆµ
m
.
Em geral, pode-se garantir apenas que
n
j=1
d
2
P
(X
j
, ˆµ), com ˆµ tendo sido obtido pelo
algoritmo A3, é um mínimo local. Como uma tentativa de contornar este problema, Ziezold
17
(1994) sugere que várias formas médias parciais, correspondentes a várias estimativas
iniciais, sejam calculadas e que ˆµ seja escolhida como sendo aquela que produzir o menor
valor da soma de quadrados.
2.3 Testes para comparação de formas médias
Teste de Hotelling - Sejam X e Y variáveis aleatótias reais p-dimensionais tais que
X N(µ
1
, Σ) e Y N(µ
2
, Σ). Sejam S
1
= {X
1
, · · · , X
n
1
} e S
2
= {Y
1
, · · · , Y
n
2
} amostras
aleatórias de X e Y , respectivamente, tais que Cov(X
i
, X
j
) = Cov(Y
i
, Y
j
) = 0, i = j, e
Cov(X
i
, Y
j
) = 0.
Denote as médias amostrais de S
1
e S
2
por
¯
X e
¯
Y , respectivamente. A distância de
Mahalanobis entre
¯
X e
¯
Y é dada por
D(
¯
X,
¯
Y ) =
(
¯
X
¯
Y )
T
ˆ
Σ
1
(
¯
X
¯
Y )
onde
ˆ
Σ =
n
1
ˆ
Σ
1
+n
1
ˆ
Σ
2
n
1
+n
2
2
e
ˆ
Σ
i
é matriz de covariância amostral de S
i
, i = 1, 2.
Deseja-se testar a hipótese H
0
: µ
1
= µ
2
contra H
1
: µ
1
= µ
2
.
(HOTELLING, 1931) Sob H
0
, tem-se que
T =
n
1
n
2
(m
1
+ n
2
p 1)
(n
1
+ n
2
)(n
1
+ n
2
2)p
· D
2
(
¯
X,
¯
Y ) F
(p,n
1
+n
2
p1)
.
O teste definido por T é conhecido como teste de Hotelling. Ao nível 100 · α% de
significância, H
0
é rejeitada se P (F
(p,n
X
1+n
2
p1)
T ) α.
Na análise estatística da forma, o teste de Hotelling é aplicado às coordenadas de
Procrustes tangentes parciais. Se os ajustes de Procrustes parciais de uma amostra de
configurações constituem um conjunto de dados concentrados, as médias amostrais das
coordenadas de Procrustes tangentes parciais de dois grupos deste conjunto de dados são
aproximadente as formas médias destes grupos. Portanto, se as coordenadas de Procrus-
tes tangentes parciais satisfazem as suposições impostas pelo teste de Hotelling, este teste
pode ser utilizado para testar a igualdade entre as formas médias de duas populações.
Se as configurações são compostas por p marcos em 2 dimensões, tem-se que
T =
n
1
n
2
(m
1
+ n
2
M 1)
(n
1
+ n
2
)(n
1
+ n
2
2)M
· D
2
(¯v, ¯w)
onde M = 2(k 2) e ¯v e ¯w são as médias das coordenadas tangentes das duas amostras,
18
respectivamente.
Teste de Goodall - Sejam e
1
, · · · , e
n
1
e e
1
, · · · , e
n
2
vetores complexos k-dimensionais
cujas partes reais e imaginárias de suas coordenadas são observações de uma variá-
vel aleatória normalmente distribuída com média 0 e variância σ
2
. Sejam X
1
, · · · , X
n
1
e
Y
1
, · · · , Y
n
2
trasnformações de similaridade de e
1
, · · · , e
n
1
e e
1
, · · · , e
n
2
, respectivamente,
tais que
X
i
= β
i
e
i
(µ
1
+ e
i
) + γ
i
1
T
k
e Y
j
= β
j
e
j
(µ
2
+ e
j
) + γ
j
1
T
k
.
Seja ˆµ
0
a forma média de Procrustes completa de {X
1
, · · · , X
n
1
, Y
1
, · · · , Y
n
2
}.
Deseja-se testar a hipótese H
0
: µ
1
= µ
2
contra H
1
: µ
1
= µ
2
.
(GOODALL, 1991) Sob H
0
, com σ pequeno, as quantidades T
1
, T
2
e T
3
definidas abaixo
distribuem-se, aproximadamente, como
T
1
=
n
1
i=1
d
2
F
(X
i
, ˆµ
1
) τ
0
χ
2
(n
1
1)M
,
T
2
=
n
2
i=1
d
2
F
(Y
i
, ˆµ
2
) τ
0
χ
2
(n
2
1)M
,
T
3
= d
2
F
(ˆµ
1
, ˆµ
2
) τ
0
(
1
n
1
+
1
n
2
)χ
2
M
,
nas quais τ
0
=
σ
δ
0
, δ
0
= S(ˆµ
0
) = ||H
T
ˆµ
0
||, H é a submatriz de Helmert de ordem k, ˆµ
1
é a
forma média de Procrustes completa de {X
1
, · · · , X
n
1
} e ˆµ
2
é a forma média d e Procrustes
completa de {Y
1
, · · · , Y
n
2
}. Além disso, T
1
e T
2
são independentes e, T
i
e T
3
, i = 1, 2, são
aproximadamente independentes. Portanto, sob H
0
tem-se
T =
n
1
+ n
2
2
1
n
1
+
1
n
2
T
3
T
1
+ T
2
F
[M,(n
1
+n
2
2)M]
O teste definido pela estatística T é conhecido como teste de Goodall. Ao nível de
100 · α% de significância, H
0
é rejeitada se P (F
[M,(n
1
+n
2
2)M]
T ) α.
Pode-se mostrar que o teste de Goodall é idêntico ao teste de Hotelling sob a su-
posição de isotropia da distribuição de X e Y (DRYDEN; MARDIA, 1998). Assim, qua ndo
as suposições do teste de Goodall são válidas, este teste se torna mais poderoso que o
teste de Hotelling pois menos graus de liberdade são utilizados na estimação da matriz de
covariância (DRYDEN; MARDIA, 1998).
19
2.4 k-médias
Seja (M, ρ) um espaço métrico, X um elemento aleatório em M e S = {X
1
, · · · , X
n
}
uma amostra de X.
Uma k-partição de S é uma classe de subconjuntos de S, P (k) = {C
1
, · · · , C
k
}, tal
que
n
i=1
C
i
= S e
C
i
C
j
= .
Seja P
k
o conjunto de todas as k-partições de S. O método k-médias consiste em
encontrar P
0
(k) = {C
01
, · · · , C
0k
} P
k
tal que
V
k
(S) = SQ[P
0
(k)] = inf
P (k)P
k
SQ[P(k)], (2.9)
na qual SQ[P (k)] =
n
i=1
k
j=1
I
(x
i
C
j
)
ρ
2
(x
i
, ˆµ
j
), I
(xC)
= 1 se x C, I
(xC)
= 0 se x ∈ C e
ˆµ
i
é a média de Fréchet amostral de C
i
(2.7). P
0
(k) é dito ser uma k -partição globalmente
ótima de S e V
k
(S) é chamada de k-variância amostral de S.
Para que se tenha certeza de que uma k-partição seja globalmente ótima, é nece ssário
que o valor de SQ avaliado nesta k-partição seja menor ou igual ao valor de SQ avaliado
em todas as outras k-partições em P
k
. No entanto, o número muito grande de k-partições
em P
k
torna esta comparação impraticável. Ao invés de se buscar uma k-partição global-
mente ótima, algoritmos iterativos são utilizados para encontrar uma k-partição localmente
ótima.
Define-se uma vizinhança de k-partições para cad a k-partição. Começando de uma k-
partição inicial, a k-partição localmente ótima é encontrada movendo-se de uma k-partição
para outra em sua vizinhança, de acordo com alguma regra de movimentação, até que
a movimentação seja ence rrada, segundo algum critério de parada. O ponto no qual a
movimentação é encerrada é considerado uma k-partição localmente ótima. As regras de
movimentação e de parada são determinadas pelos algoritmos iterativos.
Hartigan e Wong (1979) propõem um algoritmo, para o caso no qual M = R
p
e
ρ(x, y) = ||x y||, que tem o objetivo de encontrar uma k-partição cuja soma de qua-
drados não pode ser reduzida transferindo-se um elemento de um grupo para outro. Este
algoritmo considera que a vizinhaça de P (k) é o conjunto das k-partições que podem ser
obtidas movendo-se um elemento de um grupo de P (k) para outro grupo. Deve-se mo-
20
ver de uma k-partição P
1
(k) para uma k-par tição P
2
(k) se SQ(P
1
(k)) < SQ(P
2
(k)) e o
movimento é encerrado quando se atinge uma k-partição a qual, dentre as suas vizinhas,
apresenta a menor soma de quadrados. O algoritmo de Hartigan e Wong encontra-se
descrito no apêndice 1 (algoritmo A1).
Para elaborar uma versão do algoritmo A1 para espaços métricos gerais, deve-se fazer
algumas observações sobre as quantiades R1 e R2 neste algoritmo.
Sejam C
1
e C
2
grupos numa k-partição P (K) e C
1
e C
′′
2
os grupos obtidos transferindo-
se uma obsevação X no grupo C
1
para o grupo C
2
. Ou seja,
C
1
= C
1
{X} e C
′′
1
= C
2
{X}.
denotando por
¯
C a média do grupo C, tem-se que
||X
¯
C
1
||
2
= ||X
SC
1
N
C
1
||
2
=
1
N
2
C
1
||N
C
1
X SC
1
||
2
=
1
N
2
C
1
||N
C
1
X X (SC
1
X)||
2
=
1
N
2
C
1
||X(N
C
1
1) SC
1
||
2
=
(N
C
1
1)
2
N
2
C
1
||X
SC
1
(N
C
1
1)
||
2
=
(N
C
1
1)
2
N
2
C
1
||X
¯
C
1
||
2
,
e
||X
¯
C
2
||
2
= ||X
SC
2
N
C
2
||
2
=
1
N
2
C
2
||N
C
2
X SC
2
||
2
=
1
N
2
C
2
||N
C
2
X + X (SC
2
+ X)||
2
=
1
N
2
C
2
||X(N
C
2
+ 1) SC
′′
2
||
2
=
(N
C
2
+ 1)
2
N
2
C
2
||X
SC
′′
2
(N
C
2
+ 1)
||
2
=
(N
C
2
+ 1)
2
N
2
C
2
||X
¯
C
′′
2
||
2
,
21
nas quais SC =
n
i=1
I
(x
i
C)
x
i
. Logo, ||X
¯
C
1
||
2
e ||X
¯
C
′′
2
||
2
são dados por
N
2
C
1
(N
C
1
1)
2
||X
¯
C
1
||
2
e
N
2
C
2
(N
C
2
+ 1)
2
||X
¯
C
2
||
2
,
respectivamente.
As quantidades R1 e R2 no algoritmo A1 são, portanto,
R1 = ||X
¯
C
1
|| · ||X
¯
C
1
|| e R2 = ||X
¯
C
′′
2
|| · ||X
¯
C
2
||.
No ca so geral, tem-se
R1 = ρ(X,
¯
C
1
) · ρ(X,
¯
C
1
) e R2 = ρ(X,
¯
C
′′
2
) · ρ(X,
¯
C
2
), (2.10)
na qual ρ é a métrica adotada.
Para que o algoritmo A1 possa ser aplicado em espaços métricos gerais, o cálculo de
R1 e R2 deve ser feito seguindo-se os passos abaixo:
1. Transfira uma observação do seu grupo atual para o grupo desejado;
2. Atualize as médias dos dois grupos;
3. Calcule R1 e R2 de acordo com (2.10).
O algoritmo A2 no apêndice 1 corresponde à versão do algortimo A1 para espaços
métricos arbitrários.
22
3 Resultados e Discussão
Neste capítulo encotram-se apresentados os resultados da análise de formas, apli-
cando o algoritmo de Hartigan e Wong, modificado neste trabalho para espaços métricos
gerais.
A Comparação da performance para diversas escolhas da métrica de forma é feita pri-
mero usando dados sintéticos controlados, em seguida d ois conjuntos de dados de forma
estudados na literatura, e finalmente dados de forma de espécies de peixes-agulha.
3.1 Avaliação da performance do agrupamento de formas
em dados simulados
Foram con sideradas nas simulações dois tipos de configurações plan as: um quadrado,
denotado por µ
1
, e um octógono, denotado por µ
2
. Duas ou tras configurações, denotadas
por µ
1
e µ
2
, foram contruídas pertubando-se o segundo vértice de µ
1
e µ
2
, respectiva-
mente. As figuras 3.1 e 3.2 exibem as coordenadas de Procrustes parciais de µ
1
com
relação à µ
1
e µ
2
com relação à µ
2
, respectivamente.
Amostras de Monte Carlo foram geradas segundo o modelo X(µ) = µ + e, no qual µ é
uma configuração e e = (e
1
, · · · , e
p
) com e
j
= e
1j
+ ie
2j
e e
ij
N(0, σ
2
).
Foram gerados três tipos de amostras: uma contendo 30 observações de X(µ
1
) e 30
observações de X(µ
1
), uma contendo 30 observações d e X(µ
1
) e 15 observações de
X(µ
1
), e uma contendo 30 observações de X(µ
2
) e X(µ
2
). Três valores de σ
2
diferentes
foram utilizados: 0, 01, 0, 1 e 0, 5, nos casos em que µ = µ
1
e µ = µ
1
, e 0, 001, 0, 005 e
0, 01 nos casos em que µ = µ
2
e µ = µ
2
.
Na figura 3.3 encontra-se uma amostra simulada correspondente a cada um dos casos
descritos acima para cada caso citado acima.
23
−1.0 −0.5 0.0 0.5 1.0
−1.0 −0.5 0.0 0.5 1.0
x
y
Figura 3.1: Ajuste parcial de µ
1
(vermelho) sobre µ
1
(preto).
−1.0 −0.5 0.0 0.5 1.0
−1.0 −0.5 0.0 0.5 1.0
x
y
Figura 3.2: Ajuste parcial de µ
2
(vermelho) sobre µ
2
(preto).
24
−1.0 −0.5 0.0 0.5 1.0
−1.0 −0.5 0.0 0.5 1.0
a
x
y
−1.0 −0.5 0.0 0.5 1.0
−1.0 −0.5 0.0 0.5 1.0
b
x
y
−1.0 −0.5 0.0 0.5 1.0
−1.0 −0.5 0.0 0.5 1.0
c
x
y
−1.0 −0.5 0.0 0.5 1.0
−1.0 −0.5 0.0 0.5 1.0
d
x
y
−1.0 −0.5 0.0 0.5 1.0
−1.0 −0.5 0.0 0.5 1.0
e
x
y
−1.0 −0.5 0.0 0.5 1.0
−1.0 −0.5 0.0 0.5 1.0
f
x
y
Figura 3.3: Exemplos do p rimeiro e do terceiro tipo de amostra gerada.
Para cada um destes três tipos, e para cada valor de σ, 1.000 amostras de Monte Carlo
foram geradas.
O algoritmo A2 com cada uma das três distâncias de Procrustes e o algoritmo A1
foram a plicado s a cada amostra para cada um destes casos. As médias das taxas de
alocação e das k-variâncias sobre cada cada conjunto de 1.000 amostras foram calculadas
e encontram-se nas tabelas 3.1, 3.2 e 3 .3.
As k-variâncias foram calculadas, em todos os casos, utilizando-se a distância de Pro-
crustes, para que a performance dos agrupa mentos podessem ser comparadas. Em todos
os casos, tanto as k-variâncias como as taxas de alocação são praticamente as mesmas
para as três distâncias e para o agrupamento sobre as coordenadas tangentes. As taxas
de alocação decae m enquanto as k-variâncias aumentam com o aumento de σ . A homo-
geneidade na performance nas quatro diferentes maneiras de se realizar o agrupamento
25
de formas não parece depender da variabilidade dos dados e nem do número de marcos
nas configurações consideradas. Também parece que esta homogeneidade não é afetada
pelo fato de uma amostra não ser balanceada, isto é, conter mais observações de um
grupo do que de outro.
Tabela 3.1: Méd ias das taxas de alocação e a média das k-variâncias (entre parênteses)
dos agrupamentos das amostras de Monte Carlo correspondentes a µ
1
(n = 30) e µ
1
(n =
30).
Completa Procrustes Parcial Tangente
0,8897 0,8896 0,8898 0,8896
σ = 0, 01
(0,3870) (0,3869) (0,3869) (0,3869)
0,6014 0,6013 0,6014 0,6
σ = 0, 1
(3,2830) (3,2832) (3,2833) (3,2826)
0,5617 0,5617 0,5619 0,5606
σ = 0, 5
(13,1085) (13,1123) (13,1090) (13,1189)
Tabela 3.2: Méd ias das taxas de alocação e a média das k-variâncias (entre parênteses)
dos agrupamentos das amostras de Monte Carlo correspondentes a µ
1
(n = 30) e µ
1
(n =
15).
Completa Procrustes Parcial Tangente
0,8498 0,8497 0,8497 0,8498
σ = 0, 01
(0,2966) (0,2967) (0,2967) (0,2967)
0,594 0,5934 0,5935 0,592
σ = 0, 1
(2,4777) (2,478) (2,4777) (2,4764)
0,5637 0,564 0,5646 0,5645
σ = 0, 5
(9,8116) (9,8292) (9,8271) (9,8319)
26
Tabela 3.3: Méd ias das taxas de alocação e a média das k-variâncias (entre parênteses)
dos agrupamentos das amostras de Monte Carlo correspondentes a µ
2
(n = 30) e µ
2
(n =
30).
Completa Procrustes Parcial Tangente
0,74 0,74 0,74 0,739
σ = 0, 001
(0,661) (0,661) (0,661) (0,661)
0,59 0,589 0,589 0,59
σ = 0, 005
(3,065) (3,064) (3,064) (3,065)
0,566 0,566 0,567 0,568
σ = 0, 01
(5,970) (5,901) (5,9) (5,899)
Como o uso da distância Euclidiana permite simplificações consideráveis no algoritmo
A2, tornando o algoritmo mais rápido, pode-se concluir que a melhor alternativa dentre
as quatro mencionadas para execução do agrupamento de formas utilizando-se o método
k-médias é a aplicação do algoritmo A1 sobre as coordenadas tangentes.
3.2 Configurações sobre imagens do cérebro de esquizo-
frênicos e não-esquizofrênicos
O conjunto de dados corresponde a uma amostra de 28 configurações contendo 13
marcos anatômicos extraídos de imagens de ressonância magnética de cérebros de 14
indivíduos com esquizofrenia e 14 indivíduos saudáveis. Estes dados foram coletados e
analisados com o objetivo de identificar diferenças na estrutura cerebral de esquizofrênicos
e não-esquizofrênicos (DEQUARDO; BOOKSTEIN, 1996) (BOOKSTEIN, 1996). A figura 3.4a
exibe os marcos anatômicos selecionados.
O resultado dos agupamentos podem se r vistos na tabela 3.4.Pode-se observar que
os agrupamentos obtidos utilizando-se o algoritmo A2 com cada uma das três métricas
de forma e utilizando-se o algoritmo A1 sobre as coordenadas tangentes são iguais. Este
resultado, portanto, concorda com os resultados obtidos na simulação. O valor da taxa de
alocação foi relativamente baixo, 57, 14%.
27
−1.0 −0.5 0.0 0.5 1.0
−0.4 0.0 0.2 0.4
a
x
y
−1.0 −0.5 0.0 0.5 1.0
−0.4 0.0 0.2 0.4
b
x
y
−1.0 −0.5 0.0 0.5 1.0
−0.4 0.0 0.2 0.4
c
x
y
−1.0 −0.5 0.0 0.5 1.0
−0.4 0.0 0.2 0.4
d
x
y
Figura 3.4: Coordenadas de Procrustes da amostra contendo os dois casos (esquizofrêni-
cos e não-esquizofrênicos) (a e b), das amostras de cada caso (vermelho-esquizofrênico e
preto-não-esquizofrênico) (c) e dos grupos obtidos pelo k -médias (d).
Tabela 3.4: Agrupamento da amostra de configurações de esqui-
zofrênicos e não-esquizofrênicos. Taxa de alocação e as respectivas k-variâncias.
Completa Procrustes Parcial Tangente
taxa 0,5714 0,5714 0,5714 0,5714
ssq
0,1254 0,1254 0,1254 0,1254
Tabela 3.5: Estatísticas dos testes de Hotelling e de Goodall para iguald ade entre as formas
médias de esquizofrênicos e não-esquizofrênicaos e entre as formas médias dos grupos
de pacientes obtidos pelo k-médias. Entre parênteses os p-valores.
Hotelling Goodall
Esquizofrênicos e não esquizofrênicos 0,834 (0,6579) 1,9036 (0,008)
Grupo vermelho e grupo preto
3,4727 (0,0854) 3,2942 (0)
28
3.3 Configurações sobre cr ânios de gorilas macho e fê-
mea
Amostra é composta por 59 configurações contendo 8 marcos anatômicos situad os
nos crânios de 29 gorilas machos e 30 gorilas fêmeas de acordo com a figura 3.5. A
análise das formas destas configurações teve como objetivo detectar e descrever possível
dimorfismo sexual entre gorilas (O’HIGGINS; DRYDEN, 1993).
−1.0 −0.5 0.0 0.5 1.0
−0.4 0.0 0.2 0.4
a
x
y
−1.0 −0.5 0.0 0.5 1.0
−0.4 0.0 0.2 0.4
b
x
y
−1.0 −0.5 0.0 0.5 1.0
−0.4 0.0 0.2 0.4
c
x
y
−1.0 −0.5 0.0 0.5 1.0
−0.4 0.0 0.2 0.4
d
x
y
Figura 3.5 : Coordenadas de Procrustes da amostra de configurações contendo gorilas dos
dois sexos (a e b), das amostras de cada sexo (macho-preto e fêma-vermelho) (c) e dos
grupos obtidos pelo k-médias (d).
O resultado do agupamento destes dados encontra-se na tabela 3.6. Os agrupamentos
resultantes das três distâncias entre formas são idênticos entre si e quando comparados
com o agrupamento das coordenadas tangentes parciais. A taxa de alocação neste agru-
pamento foi alta, 91.53%, o que é reflexo da diferença siginificativa entre as formas médias
29
dos machos e das fê meas, co nforme indicam os resultados dos testes de Hotelling e de
Goodall na tabela 3.7 .
Tabela 3.6: Agrupamento da amostra de configurações de gorilas machos e fêmeas. Taxas
de alocação e as respectivas k-variâncias.
Completa Procrustes Parcial Tangente
taxa 0,9153 0,9153 0,9153 0,9153
V
k
0,1247 0,1247 0,1247 0,1247
Tabela 3.7: Estatísticas dos testes de Hotelling e de Goodall para iguald ade entre as formas
médias de gorilas macho e fêmea e entre as formas médias dos grupos de gorilas obtidos
pelo k-médias. Entre parênteses os p-valores.
Hotelling Goodall
Machos e fêmeas 26,4704 (0) 22,29 (0)
Grupo vermelho e grupo preto
14.11986 (0) 25.5099 (0)
3.4 Aplicação do k-médias na identificação de peixes-agulha
das espécies Hemirmaphus balao e Hemiramphus bra-
siliensis
A amostra consiste de 49 observações das quais 11 são da espécie Hemiramphus
balao e 38 da espécie Hemiramphus brasiliensis. Os espé cimens foram fotografados e
as coordenadas de 11 marcos foram extraídas das fotografias digitalizadas utilizando-se o
programa tpsDig (colocar referência). Estes 11 marcos encontram-se na figura 3.6.
Figura 3.6: Espécimem Hemiramphus brasiliensis com os marcos selecionados.
Os resultados das aplicações dos testes de Hotelling e Goodall para avaliar a igualdade
entre as formas médias das espécies Hemiramphus Balao e Hemiramphus Brasiliensis,
identificadas de acordo com as características descritas na tabela 1, encontram-se na
tabela 3.8.
30
Tabela 3.8: Estatísticas dos testes de Hotelling e de Goodall para iguald ade entre as formas
médias de peixes-agulha das espécies Hemiramphus Balao Hemiramphus Brasiliensis e
entre as formas médias dos grupos de peixes-agulha obtidos pelo k-médias. Entre parên-
teses os p-valores.
Hotelling Goodall
Hemiramphus balao e Hemiramphus brasiliensis 1,3626 (0,2208) 6,6273 (0)
Grupos vermelho e preto
6,4673 (0) 37.6159 (0)
De acordo com o teste de Hotelling, as formas médias destas duas espécies podem
ser concideradas iguais enquanto pelo teste de Goodall, pode-se concluir que a hipótese
de igualdade entre as formas médias destas espécies deve ser rejeitada.
A figura 3.7 contém os ajustes de Procrustes parciais de cada espécie, enquanto a
figura 3.8 contém os ajustes de Procrustes parciais dos grupos obtidos pelo k-médias.
Os espécimens no grupo preto apresentam a cabeça, com relação ao corpo, levemente
inclinada para cima, enquanto os do grupo vermelho apresentam a cabeça, com relação
ao corpo, levemente inclinada para baixo. Esta diferença na posição das cabeças pode
ser observada, com menos nitidez, na figura 3.7, na qual os grupos correspondentes às
espécies Hemiramphus balao e Hemiramphus brasiliensis assumem os papéis dos grupos
preto e vermelho na figura 3.8, respectivamente. Esta perda de nitidez na vizualização
destas diferenças pode ser atribuída a possíveis erros de classificação das espé cies.
31
−1.0 −0.5 0.0 0.5 1.0
−0.4 −0.2 0.0 0.2 0.4
x
y
Figura 3.7: Coordenadas de Procrustes das configurações de Hemiramphus Balao (preto)
Hemiramphus Brasiliensis (vermelho).
−1.0 −0.5 0.0 0.5 1.0
−0.4 −0.2 0.0 0.2 0.4
x
y
Figura 3.8: Coordenadas de Procrustes das configurações dos grupos obtidos pelo k-
médias.
As diferenças exibidas pelos dois grupos na figura 3.8 também são aparentes nas fi-
32
guras 3.9 e 3.10, as quais são imagens de espécimens de Hemiramphus brasiliensis e
Hemiramphus balao, respectivamente. Nota-se que o peixe-agulha Hemiramphus brasili-
ensis exibe características, com relação à posição da cabeça, semelhantes às do grupo
vermelho enquanto o peixe-agulha da espécie Hemiramphus balao se assemelha mais aos
do grupo preto. Isto evidencia o fato de que o grupo preto corresponde à espécie Hemi-
ramphus balao e o grupo vermelho à espécie Hemiramphus brasiliensis e que, portanto, a
posição da cabeça d o peixe-agulha com relação ao corpo pode ser vir como parâmetro de
identificação destas duas espécies.
Figura 3.9: Foto de um espécimem Hemiramphus brasiliensis.
Figura 3.10: Foto de um espécimem Hemiramphus balao.
33
4 Conclusão
A adaptação do algoritmo de Hartigan e Wong que foi feita neste trabalho lida com
o caso no qual se tem observações de um elemento aleatório sobre um espaço métrico
arbitrário, e os resultados das simulaçõe s ind icam que o desempenho d o algoritmo, no
caso em que o espaço métrico é o espaço das formas de configurações planas, é inva-
riante com relação às três distâncias de Procrustes. Além disso, a versão modificada do
algoritmo, quando aplicada no espaço das formas com qualquer uma destas três métri-
cas, apresenta o mesmo desempenho do algoritmo original aplicado às coordenadas de
Procrustes tangentes parciais.
O problema na identificação das espécies de p eixes-agulhas Hemiramphus balao e
Hemiramphus brasiliensis que motivou este estudo foi solucionado utilizando o algoritmo
proposto para agrupar uma amostra das formas de configurações destes peixes em dois
grupos com padrões de forma estatisticamente d istintos. Estes grupos apresentaram uma
diferença marcante na posição da cabeça com relação ao resto do corpo: no primeiro
grupo a cabeça é levemente inclinada para cima enquanto que no segundo grupo a cabeça
é levemente inclinada para baixo. Foi constatado que o primeiro grupo corresponde à
espécie Hemirapmphus balao e o segundo grupo à espécie Hemiramphus brasiliensis.
Dessa maneira, a posição da cabeça com relação ao resto do corpo pode ser utilizada
como um parâmetro identificação de sua espécie.
34
Referências
BOOKSTEIN, F. L. Biometrics, biomathematics and the morphometric sythesis. Bulletin of
Mathematical Biology, v. 58, p. 313–365, 1996.
COLLETTE, B. B. Hemiramphidae (pisces, synentognathi) from tropical west africa.
Atlantide Reports, v. 8, p. 217–235, 1965.
DEQUARDO, J. R.; BOOKSTEIN, F. L. Spatial relationships of neuroanatomic landmarks
in schizophrenia. Psychiatry Reaserch: N e uroimagi ng., v. 67, p. 81–95, 1996.
DRYDEN, I.; MARDIA, K. Statistical Shape Analysis. [S.l.: s.n.], 1998.
GOODALL, C. R. Procrustes methods in the statistical analysis of shape. Journal of the
Royal Statistical Society, Series B., v. 53, p. 285–339, 1991.
HARTIGAN, J. A.; WONG, M. A. Algorithm, as136: A k-means clustering algorithm.
Applied statistics, England, v. 28, p. 100–108, 19 79.
HOTELLING, H. The generalization of student’s ratio. The Annals of Mathematical
Statistics., v. 2, p. 360–378, 1931.
KENDALL, D. G. Shape manifolds, procrustean metrics and complex projective spaces.
Bull. of London Math. Soc., v. 16, p. 81–121, 1984.
KENT, J. T. The complex bingham distribution and shape analysis. Journal of the Royal
Statistical Society Series B, v. 56, p. 285–299, 1994.
LANCASTER, H. O. The helmert matr ices. American Mathematical Monthly, v. 72, n. 1,
p. 4–12, 1965.
LEMBER, J. On minimizing sequences of k-centres. Journal of Approx. Theory, v. 120,
p. 20–35, 2003.
O’HIGGINS, P.; DRYDEN, I. L. Sexual dimorphism in hominoids: further studies of
craniofacial shape differences in pan, gorilla and pongo. Journal of Human Evolution.,
v. 24, p. 183–205, 1993.
PENNEC, X. Probabilities a nd statistics on riemannian manifolds: basic tools for geometric
measurements. IEEE Workshop on Nonlinear Signal and Image Processing., 1994.
ZIEZOLD, H. Mean figures and mean shapes applied to biological figure and shape
distributions in the plane. Biomatrical Journal, v. 36, n. 4, p. 491–510, 1994.
35
APÊNDICE A -- Algoritmos
ALGORITMO A1
Considere um conjunto de dados contendo M observações e o número de grupos é
K.
Seja NC(L) o número de elementos no grupo L e D(I, L) a distância entre a obser-
vação I e a média do grupo L.
Forneça um conjunto de K vetores n-dimensionais como valores iniciais para as K-
médias.
Passo 1. Para cada I(I = 1, · · · , M), encontre a sua média mais próxima e sua
segunda média mais próxima, IC1(I) e IC1(I), respectivamente. Atribua o ponto I ao
grupo IC1(I).
Passo 2. Atualize as médias dos grupos para serem as médias dos pontos contidos
dentro deles.
Passo 3. Inicialmente, todos os grupos pertencem ao conjunto ativo.
Passo 4.(Optimal transfer stage): Considere cada ponto I(I = 1, · · · , M). Se o grupo
L(L = 1, · · · , M) foi atualizado no passo 6, então ele pertence ao conjunto ativo. Caso
contrário, em cada passo, ele não está no conjunto ativo se ele não foi atualizado nos
últimos M passos do passo 4. Seja L1 o grupo do ponto I. Se L1 está no conjunto ativo,
para o passo 4a. Casso contrário, vá para o passo 4b.
Passo 4a. Calcule o mínimo da quantidade R2 =
NC(L)D(I,L)
2
NC(L)+1
, sobre todos os grupos
L(L = L1, L = 1, · · · , K). Seja L2 o grupo com menor R2. Se este valor é maior
que ou igual a
NC(L1)D(I,L)
2
NC(L1)1
, realocação não é necessária e L2 é o novo IC2(I). (Note
que
NC(L1)D(I,L)
2
NC(L1)1
é relembrado e permanecerá o mesmo para o ponto I até que L1 seja
atualizado)
Caso contrário, o ponto I é alocado ao grupo L2 e L1 é o novo IC2(I). As médias dos
grupos são atualizadas para serem as médias dos pontos atribuídos a eles se realocação
36
tem ocorrido. Os dois pontos envolvidos na trasnferência do ponto I neste passo estão
agora no conjunto ativo.
Passo 4b. Este passo é idêntico ao 4a, exceto que o mínimo de R2 é calculado
somente sobre os grupos no conjunto ativo.
Passo 5. Pare se o conjunto ativo estiver vazio. Caso con trário, para o passo 6.
Passo 6.(Quick transfer stage): Considere cada ponto I(I = 1, · · · , M). Faça L1 =
IC1(I) e L2 = IC2(I). Não é necessário checar o ponto I se ambos os grupos L1 e
L2 não mudaram nos últimos M passos. Calcule os valores R1 =
NC(L1)D(I,L)
2
NC(L1)1
e R2 =
NC(L)D(I,L)
2
NC(L)+1
. (como notado anteriormente, R1 é relembrado e permanecerá o mesmo até
que L1 seja atua lizado).
Se R1 é menor que R2, o ponto I permanece no grupo L1. Caso contrário, troque
IC1(I) com IC2(I) e atualize as médias dos grupos L1 e L2. Os dois grupos são também
notados por seu envolvimento numa transferência neste passo.
Passo 7. Se nos últimos M passos nenhuma transferência foi realizada, para o
passo 4. Caso contrário, vá para o passo 6.
ALGORITMO A2
Considere um conjunto de dados contendo M observações sobre um espaço métrico
arbitrário e o número de grupos é K.
Denote por L
I
o grupo L sem a observação I, supondo que esta obervação pertence
ao grupo L, e por L
+
I
o grupo L com a observação I, supondo que esta observação não
pertence ao grupo L. Isto é. L
I
= L {I} e L
+
I
= L {I}.
Seja NC(L) o número de elementos no grupo L e D(I, L) a distância entre a obser-
vação I e a média do grupo L.
Forneça um conjunto de K vetores n-dimensionais como valores iniciais para as K-
médias.
Passo 1. Para cada I(I = 1, · · · , M), encontre a sua média mais próxima e sua
segunda média mais próxima, IC1(I) e IC1(I), respectivamente. Atribua o ponto I ao
grupo IC1(I).
Passo 2. Atualize as médias dos grupos para serem as médias dos pontos contidos
dentro deles.
37
Passo 3. Inicialmente, todos os grupos pertencem ao conjunto ativo.
Passo 4.(Optimal transfer stage): Considere cada ponto I(I = 1, · · · , M). Se o grupo
L(L = 1, · · · , M) foi atualizado no passo 6, então ele pertence ao conjunto ativo. Caso
contrário, em cada passo, ele não está no conjunto ativo se ele não foi atualizado nos
últimos M passos do passo 4. Seja L1 o grupo do ponto I. Se L1 está no conjunto ativo,
para o passo 4a. Casso contrário, vá para o passo 4b.
Passo 4a.Calcule o mínimo da quantidade R2 = D(I, L
+
I
) · D(I, L
I
) sobre todos os
grupos L(L = L1, L = 1, · · · , K). Seja L2 o grupo com menor R2. Se este valor é
maior que ou igu al a R1 = D(I, L1
I
) · D(I, L1
I
), realocação não é necessária e L2 é o
novo IC2(I). (Note que D(I, L1
I
) é relembrado e permanecerá o mesmo para o ponto
I até que L1 seja atualizado) Caso contrário, o ponto I é alocado ao grupo L2 e L1 é o
novo IC2(I). As médias dos grupos são atualizadas para serem as médias dos pontos
atribuídos a eles se realocação tem ocorrido. Os dois pontos envolvidos na trasnferência
do ponto I neste passo estão agora no conjunto ativo.
Passo 4b. Este passo é idêntico ao 4a, exceto que o mínimo de R2 é calculado
somente sobre os grupos no conjunto ativo.
Passo 5. Pare se o conjunto ativo estiver vazio. Caso con trário, para o passo 6.
Passo 6.(Quick transfer stage): Considere cada ponto I(I = 1, · · · , M). Faça L1 =
IC1(I) e L2 = IC2(I). Não é necessário checar o ponto I se ambos os grupos L1 e L2
não mudaram nos últimos M passos. Calcule os valores
R1 = D(I, L1
I
) · D(I, L1
I
) e R2 = D(I, L2
+
I
) · D(I, L2
I
). (A.1)
(como notado anteriormente, R1 é relembrado e permanecerá o mesmo até que L1
seja atualizado.) Se R1 é menor que R2, o ponto I permanece no grupo L1. Caso contrá-
rio, troque IC1(I) com IC2(I) e atualize as médias dos grupos L1 e L2. Os dois grupos
são também notados por seu envolvimento numa transferência neste passo.
Passo 7. Se nos últimos M passos nenhuma transferência foi realizada, para o
passo 4. Caso contrário, vá para o passo 6.
ALGORITMO A3
y
0
: valor inicial para a média;
{x
1
, · · · , x
n
}: amostra de configurações centradas e normalizadas;
38
e: erro na aproximação da forma média.
Passo 1 Atribua a y a configuração inicial y
0
.
Passo 2 Atribua a y o vetor
1
n
n
i=1
Log
y
0
(x
i
).
Passo 3 Atribua a y o vetor
1
n
n
i=1
Exp
y
0
(∆y).
Passo 4 Se ||y|| < e pare. caso contrário, atribua a y
0
o vetor y e repita os passos 2,
3 e 4.
ALGORITMO A4
y
0
: valor inicial para a média;
{x
1
, · · · , x
n
}: amostra de configurações centradas e normalizadas;
e: erro na aproximação da forma média.
Passo 1 Atribua a y a configuração inicial y
0
.
Passo 2: De i=1 até n faça:
Se < y, x
i
>= 0, então u
i
(y) =
<y,x
i
>
|<y,x
i
>|
. Caso contrário, u
i
(y) = 1.
Passo 3: Atribua a T (y) o vetor
1
n
n
i=1
u
i
(y)x
i
.
Passo 4 Se ||yy
0
|| < e, pare. Caso contrário, atribua a y
0
o vetor y e repita os passos
2, 3 e 4.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo