Download PDF
ads:
UNIVERSIDADE ESTADUAL PAULISTA “JULIO DE MESQUITA FILHO
FACULDADE DE CIÊNCIAS AGRONÔMICAS
CÂMPUS DE BOTUCATU
CLASSIFICAÇÃO DE COBERTURA DO SOLO UTILIZANDO
ÁRVORES DE DECISÃO E SENSORIAMENTO REMOTO
TATIANA MONTES CELINSKI
Tese apresentada à Faculdade de Ciências
Agronômicas da Unesp - Câmpus de Botucatu,
para obtenção do título de Doutor em
Agronomia (Energia na Agricultura)
BOTUCATU - SP
Dezembro - 2008
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
UNIVERSIDADE ESTADUAL PAULISTA “JULIO DE MESQUITA FILHO
FACULDADE DE CIÊNCIAS AGRONÔMICAS
CÂMPUS DE BOTUCATU
CLASSIFICAÇÃO DE COBERTURA DO SOLO UTILIZANDO
ÁRVORES DE DECISÃO E SENSORIAMENTO REMOTO
TATIANA MONTES CELINSKI
Orientadora: Profª. Drª. Célia Regina Lopes Zimback
Tese apresentada à Faculdade de Ciências
Agronômicas da Unesp - Câmpus de Botucatu,
para obtenção do título de Doutor em
Agronomia (Energia na Agricultura)
BOTUCATU - SP
Dezembro – 2008
ads:
III
AGRADECIMENTOS
À força divina, fonte de inspiração e esperança em minha vida.
Aos meus preciosos filhos Camila, Giovana e Diogo, e ao meu querido
esposo Victor, pela compreensão, estímulo e amor incondicionais dedicados.
Aos meus pais David e Maria Estela, e aos meus sogros Vitoldo e
Savina, os pilares e o esteio de minha família, pela ajuda oferecida para a realização deste
trabalho.
Aos meus caros irmãos Josué, Tamara e Cassiano, que deram a sua
contribuição durante a realização deste trabalho.
À Marisa Martins, pelo apoio e pela dedicação à minha família.
À minha orientadora Profª. Drª. Célia Regina Lopes Zimback pela
confiança, apoio e compreensão dedicados, e pela amizade compartilhada.
Ao Prof. Dr. Ivo Mário Mathias, pelo incentivo e apoio que permitiram
a minha participação no Projeto de Qualificação Interinstitucional FCA/UNESP/UEPG.
Ao amigo e colega Marcelo Ferrasa, pela amizade e companheirismo
vivenciados durante a realização de nossos trabalhos.
Aos colegas e amigos do Departamento de Informática da
Universidade Estadual de Ponta Grossa, em especial a Alaine Margarete Guimarães, Leila Issa
Rickli, Ariangelo Hauer Dias e Frederico Guilherme de Paula Ferreira Ielo, pelo incentivo e
apoio.
Aos professores da Faculdade de Ciências Agronômicas de Botucatu
que tive a honra de conhecer como aluna, pelo apoio e contribuição para realização deste
trabalho.
Aos professores membros da banca examinadora desta tese de
doutorado, pelo aceite em participar da mesma e pelas suas contribuições ao trabalho.
Aos funcionários dos departamentos de Recursos Naturais e Ciência do
Solo e de Gestão e Tecnologia Agroindustrial, da Faculdade de Ciências Agronômicas de
Botucatu, em especial a Mario Eduardo Bianconi, pela atenção dispensada.
IV
Aos coordenadores do Programa de Qualificação Interinstitucional
FCA/UNESP/UEPG, professores Dr. Ângelo Catâneo e Dr. Jorim Souza das Virgens Filho,
pelo empenho na condução do programa.
À equipe da Pró-reitoria de Pesquisa e Pós-graduação da UEPG, em
especial à Márcia Belinski, pelo apoio e pela atenção.
À equipe da secretaria da pós-graduação da FCA/UNESP, Marilena do
Carmo Santos, Jaqueline de Moura Gonçalves, Marlene Rezende Freitas, Taynan Ribeiro
Moraes da Silva e Kátia Otomo Duarte, pela atenção e gentileza.
À Universidade Estadual de Ponta Grossa, pela oportunidade e apoio
para a realização deste trabalho.
À CAPES pelo apoio e ajuda financeira, fundamentais para a
realização deste trabalho.
AGRADEÇO.
V
SUMÁRIO
Página
LISTA DE FIGURAS ............................................................................................................. VIII
LISTA DE TABELAS ................................................................................................................ X
LISTA DE ABREVIATURAS .................................................................................................. XI
1 RESUMO ................................................................................................................................ 1
2 SUMMARY ............................................................................................................................ 3
3 INTRODUÇÃO ....................................................................................................................... 5
4 REVISÃO BIBLIOGRÁFICA ................................................................................................ 8
4.1 Geoprocessamento ........................................................................................................... 8
4.1.1 Definição ................................................................................................................ 8
4.1.2 Sistemas de informações geográficas .................................................................... 8
4.1.3 Aplicações na agricultura ....................................................................................... 9
4.2 Sensoriamento remoto ................................................................................................... 11
4.2.1 Definição .............................................................................................................. 11
4.2.2 Radiação eletromagnética .................................................................................... 13
4.2.3 Interações da energia com a atmosfera ................................................................ 17
4.2.4 Interações da energia com a superfície terrestre e sua resposta espectral ............ 18
4.2.5 Sistemas sensores ................................................................................................. 22
4.2.6 Câmeras imageadoras dos satélites CBERS-2 e CBERS-2B .............................. 26
4.3 Processamento de imagens digitais em sensoriamento remoto ..................................... 29
4.3.1 Correção geométrica ............................................................................................ 30
4.3.2 Correção radiométrica .......................................................................................... 31
4.3.3 Eliminação de ruído ............................................................................................. 32
4.3.4 Manipulação de contraste .................................................................................... 33
4.3.5 Filtragem espacial ................................................................................................ 34
4.3.6 Razão espectral .................................................................................................... 35
4.3.7 Processamento da cor ........................................................................................... 36
4.3.8 Transformação por componentes principais ........................................................ 37
4.3.9 Índices de vegetação ............................................................................................ 38
VI
4.3.10 Modelo linear de mistura espectral .................................................................... 40
4.3.11 Transformação espectral tasseled-cap ............................................................... 41
4.4 Classificação de imagens digitais .................................................................................. 42
4.4.1 Classificação multiespectral ................................................................................ 42
4.4.2 Treinamento ......................................................................................................... 44
4.4.3 Algoritmos para classificação .............................................................................. 45
4.4.4 Avaliação da classificação ................................................................................... 47
4.5 Comparação entre métodos de classificação .................................................................. 51
4.6 Árvores de decisão ......................................................................................................... 53
4.6.1 Descoberta de conhecimento em bancos de dados .............................................. 53
4.6.2 Aprendizagem em árvores de decisão .................................................................. 54
4.6.3 Algoritmos de aprendizagem em árvores de decisão ........................................... 56
4.6.4 Extração de regras de classificação a partir de árvores de decisão ...................... 62
5 MATERIAL E MÉTODOS ................................................................................................... 64
5.1 Área de estudo................................................................................................................ 64
5.2 Materiais ........................................................................................................................ 66
5.2.1 Equipamentos ...................................................................................................... 66
5.2.2 Programas computacionais .................................................................................. 66
5.2.3 Dados de sensoriamento remoto .......................................................................... 66
5.3 Métodos ......................................................................................................................... 67
5.3.1 Aquisição e registro das imagens ......................................................................... 68
5.3.2 Processamento das imagens ................................................................................. 71
5.3.3 Coleta de dados de verdade terrestre ................................................................... 72
5.3.4 Determinação das classes de cobertura do solo ................................................... 73
5.3.5 Classificação das imagens e mapeamento ........................................................... 73
5.3.6 Avaliação ............................................................................................................. 74
6 RESULTADOS E DISCUSSÃO ........................................................................................... 75
6.1 Determinação das amostras de treinamento ................................................................... 75
6.2 Discriminação da cena 157/128 ..................................................................................... 76
6.2.1 Classificação pelo algoritmo MAXVER ............................................................. 76
VII
6.2.2 Classificação pelo algoritmo Árvore de Decisão ................................................. 79
6.3 Discriminação da cena 158/27 ....................................................................................... 83
6.3.1 Classificação pelo algoritmo MAXVER ............................................................. 83
6.3.2 Classificação pelo algoritmo Árvore de Decisão ................................................. 85
6.4 Considerações finais ...................................................................................................... 89
7 CONCLUSÕES ..................................................................................................................... 91
8 REFERÊNCIAS BIBLIOGRÁFICAS ................................................................................... 92
APÊNDICE ............................................................................................................................. 101
APÊNDICE 1 – Rotina de conversão de DN para reflectância aparente ................................ 102
APÊNDICE 2 – Rotina de correção atmosférica ..................................................................... 103
APÊNDICE 3 – Rotina de determinação do CTVI ................................................................. 104
APÊNDICE 4 – Rotina de determinação do GEMI ................................................................ 105
APÊNDICE 5 – Rotina de determinação do SAVI ................................................................. 106
APÊNDICE 6 – Rotina de determinação do TVI .................................................................... 107
APÊNDICE 7 – Rotina de classificação por árvore de decisão (cena 157/128) ..................... 108
APÊNDICE 8 – Rotina de classificação por árvore de decisão (cena 158/127) ..................... 109
APÊNDICE 9 – Rotina de geração do mapa temático (cena 157/128) ................................... 111
APÊNDICE 10 – Rotina de geração do mapa temático (cena 158/127) ................................. 112
VIII
LISTA DE FIGURAS
Página
Figura 1 – Processo de aquisição de dados de sensoriamento remoto....................................... 12
Figura 2 – Esquema de propagação de uma onda eletromagnética ........................................... 14
Figura 3 – Espectro eletromagnético ......................................................................................... 14
Figura 4 – Curvas de reflectância espectral típicas para vegetação, solo e água ....................... 19
Figura 5 – Curva de reflectância espectral da vegetação verde e sadia ..................................... 21
Figura 6 – As três coordenadas de uma imagem multiespectral ................................................ 43
Figura 7 – Árvore de decisão para o problema Jogar Tênis ...................................................... 55
Figura 8 – Algoritmo básico para indução de árvore de decisão ............................................... 57
Figura 9 – Conjunto de regras extraídas da árvore de decisão da Figura 7 ............................... 62
Figura 10 – Localização da área de estudo ................................................................................ 65
Figura 11 – Grade de cenas do satélite CBERS-2, Estado do Paraná ....................................... 67
Figura 12 Fluxograma metodológico do processo utilizado para discriminação de classes de
uso do solo em imagens do satélite CBERS-2 ..................................................... 68
Figura 13 Composição colorida R3G4B2 da cena 157/128 do sensor CCD/CBERS-2, de
07/03/2007 ............................................................................................................ 69
Figura 14 Composição colorida R3G4B2 da cena 158/127 do sensor CCD/CBERS-2, de
02/09/2007 ............................................................................................................ 70
Figura 15 Recorte monocromático da cena 157/128 relativo ao conjunto de amostras de
treinamento localizadas na Fazenda Capão da Onça, pertencente à Universidade
Estadual de Ponta Grossa ..................................................................................... 76
Figura 16 – Mapa temático resultante da classificação MAXVER, relativo à cena 157/128 .... 78
Figura 17 – Árvore decisão obtida a partir das amostras de treinamento, relativa à cena
157/128 ................................................................................................................. 82
Figura 18 Mapa temático resultante da classificação por árvore de decisão, relativo à cena
157/128 ................................................................................................................. 83
Figura 19 – Mapa temático resultante da classificação MAXVER, relativo à cena 158/127 .... 85
Figura 20 Árvore de Decisão obtida a partir das amostras de treinamento, relativa à cena
158/127 ................................................................................................................. 87
IX
Figura 21 Mapa temático resultante da classificação por árvore de decisão, relativo à cena
158/127 ................................................................................................................. 88
X
LISTA DE TABELAS
Página
Tabela 1 – Bandas espectrais do sensor WFI (CBERS-2 e CBERS-2B) .................................. 27
Tabela 2 – Bandas espectrais do sensor CCD (CBERS-2 e CBERS-2B) ................................. 28
Tabela 3 – Bandas espectrais do sensor IRMSS (CBERS-2) .................................................... 28
Tabela 4 – Banda espectral do sensor HRC (CBERS-2B) ........................................................ 29
Tabela 5 – Matriz de erros genérica .......................................................................................... 48
Tabela 6 – Classificação qualitativa quanto ao valor do coeficiente kappa .............................. 50
Tabela 7 Matriz de erros de classificação relativa ao Classificador MAXVER, cena 157/128
................................................................................................................................ 77
Tabela 8 Matriz de erros de classificação relativa ao Classificador Árvore de Decisão, cena
157/128 ................................................................................................................... 80
Tabela 9 Emprego dos atributos selecionados na construção da árvore de decisão, relativo à
cena 157/128 ........................................................................................................... 81
Tabela 10 – Matriz de erros de classificação relativa ao Classificador MAXVER, cena 158/127
................................................................................................................................ 84
Tabela 11 Matriz de erros de classificação relativa ao Classificador Árvore de Decisão, cena
158/127 ................................................................................................................... 86
Tabela 12 Emprego dos atributos selecionados na construção da árvore de decisão, relativo à
cena 158/127 ........................................................................................................... 88
Tabela 13 – Resultados obtidos (MAXVER X árvore de decisão) ........................................... 89
XI
LISTA DE ABREVIATURAS
CBERS China-Brazil Earth Resources Satellite (Satélite Sino-Brasileiro de
Recursos Terrestres)
CCD Charge-coupled Device (Câmera Imageadora de Alta Resolução)
CP1 Primeira Componente Principal
CP2 Segunda Componente Principal
CTVI Corrected Transformed Vegetation Index ndice de Vegetação
Transformado Corrigido)
DN Digital Number (Número Digital)
DVI Difference Vegetation Index (Índice de Vegetação pela Diferença)
ETM Enhanced Thematic Mapper
GEMI Global Environment Monitoring Indexndice Global de Monitoramento
Ambiental)
GPS Global Positioning System (Sistema de Posicionamento Global)
HRC High Resolution Camera (Câmera Pancromática de Alta Resolução)
IFOV Instantaneous Field of View (Campo de Instantâneo de Visada)
IHS Intensity-Hue-Saturation (Intensidade-Matiz-Saturação)
INPE Instituto Nacional de Pesquisas Espaciais
IRMSS Infrared Multispectral Scanner (Imageador por Varredura de Média
Resolução)
KDD Knowledge Discovery in Databases (Descoberta de Conhecimento em
Bancos de Dados)
LEGAL Linguagem Espacial de Geoprocessamento Algébrico
MAXVER Máxima Verossimilhança
MLC Maximum Likelihood Classifier
MME_água Imagem Fração Sombra/água do Modelo Linear de Mistura Espectral
MME_solo Imagem Fração Solo do Modelo Linear de Mistura Espectral
MME_vegetação Imagem Fração Vegetação do Modelo Linear de Mistura Espectral
XII
NDVI Normalized Difference Vegetation Index ndice de Vegetação da
Diferença Normalizada)
RGB Red-Green-Blue
SAD-69 South American Datum 1969
SAVI Soil Adjusted Vegetation Index (Índice de Vegetação Ajustado para o
Solo)
SIG Sistema de Informações Geográficas
SPRING Sistema para Processamento de Informações Georreferenciadas
SR Simple Ratio (Razão Simples)
TM Thematic Mapper
TVI Transformed Vegetation Indexndice de Vegetação Transformado)
UTM Universal Transverse Mercator (Universal Transversa de Mercator)
WFI Wide Field Imager (Imageador de Amplo Campo de Visada)
1
1 RESUMO
Este trabalho teve por objetivo a discriminação de classes de cobertura
do solo em imagens de sensoriamento remoto do satélite CBERS-2 por meio do Classificador
Árvore de Decisão. O estudo incluiu a avaliação de combinações de atributos da imagem para
melhor discriminação entre classes e a verificação da acurácia da metodologia proposta
comparativamente ao Classificador Máxima Verossimilhança (MAXVER). A área de estudo
está localizada na região dos Campos Gerais, no Estado do Paraná, que apresenta diversidade
quanto aos tipos de vegetação: culturas de inverno e de verão, áreas de reflorestamento, mata
natural e pastagens. Foi utilizado um conjunto de dezesseis (16) atributos a partir das imagens,
composto por: bandas do sensor CCD (1, 2, 3, 4), índices de vegetação (CTVI, DVI, GEMI,
NDVI, SR, SAVI, TVI), componentes de mistura (solo, sombra, vegetação) e os dois primeiros
componentes principais. A acurácia da classificação foi avaliada por meio da matriz de erros
de classificação e do coeficiente kappa. A coleta de amostras de verdade terrestre foi realizada
utilizando-se um aparelho GPS de navegação para o processo de georreferenciamento, para
serem usadas na fase de treinamento dos classificadores e também na verificação da acurácia.
O processamento das imagens e a geração dos mapas temáticos foram realizados por meio do
Sistema de Informações Geográficas SPRING, sendo as rotinas desenvolvidas na linguagem
de programação LEGAL. Para a geração do Classificador Árvore de Decisão foi utilizada a
ferramenta See5. Na definição das classes, buscou-se um alto nível discriminatório a fim de
permitir a separação dos diferentes tipos de culturas presentes na região nas épocas de inverno
2
e de verão. A classificação por árvore de decisão apresentou uma acurácia total de 94,5% e
coeficiente kappa igual a 0,9389, para a cena 157/128; para a cena 158/127, apresentou os
valores 88% e 0,8667, respectivamente. Os resultados demonstraram que o desempenho do
Classificador Árvore de Decisão foi superior ao do MAXVER, especialmente para as classes
relativas às culturas. A utilização de dados de sensoriamento remoto CBERS-2, juntamente
com os sistemas SPRING e See5, proveu uma metodologia simples para o nível de
discriminação vegetal pretendido.
1
Palavras-chave: classificação de imagens, reconhecimento de padrões, mapeamento da
vegetação, exatidão do mapeamento, CBERS.
3
LAND COVER CLASSIFICATION USING DECISION TREES AND REMOTE SENSING.
Botucatu, 2008. 112 p. Tese (Doutorado em Agronomia/Energia na Agricultura)
Faculdade de Ciências Agronômicas, Universidade Estadual Paulista.
Author: TATIANA MONTES CELINSKI
Adviser: CÉLIA REGINA LOPES ZIMBACK
2 SUMMARY
This work aimed to discriminate classes of land cover in remote
sensing images of the satellite CBERS-2, using the Decision Tree Classifier. The study
includes the evaluation of combinations of attributes of the image to a better discrimination
between classes and the verification of the accuracy of the proposed methodology,
comparatively to the Maximum Likelihood Classifier (MLC). The geographical area used is
situated in the region of the “Campos Gerais”, in the Paraná State, which presents diversities
concerning the different kinds of vegetations: summer and winter crops, reforestation areas,
natural forests and pastures. It was used a set of sixteen (16) attributes from images, composed
by bands of the sensor CCD (1, 2, 3, 4), vegetation indices (CTVI, DVI, GEMI, NDVI, SR,
SAVI, TVI), mixture components (soil, shadow, vegetation) and the two first principal
components. The accuracy of the classifications was evaluated using the classification error
matrix and the kappa coefficient. The collect of the samples of ground truth was performed
using a navigation device GPS to the georeference process to be used in the training stage of
the classifiers and in the verification of the accuracy, as well. The processing of the images and
the generation of the thematic maps were made using the Geographic Information System
SPRING, and the routines were developed in the programming language LEGAL. The
generation of the Decision Tree Classifier was made using the tool See5. A high
discriminatory level was aimed during the definition of the classes in order to allow the
separation of the different kinds of winter and summer crops. The classification accuracy by
4
decision tree was 94.5% and kappa coefficient was 0.9389 to the scene 157/128; to the scene
158/127, it presented the values 88% and 0.8667, respectively. Results showed that the
performance of the Decision Tree Classifier was better than the MLC, especially to the classes
related to the crops. The utilization of remotely sensed data CBERS-2 processed with the
systems SPRING and See5 provided a simple methodology by using free access software to
discrimination of vegetation.
2
Keywords: digital image classification, pattern recognition, vegetation mapping, mapping
accuracy, CBERS.
5
3 INTRODUÇÃO
O sensoriamento remoto juntamente com os sistemas de informações
geográficas (SIG’s) constituem-se em ferramentas essenciais para o monitoramento da
vegetação, a tomada de decisões, a gestão ambiental e também como subsídio para a definição
de políticas públicas. Na agricultura são muitas as aplicações, dentre as quais se destacam a
identificação e o mapeamento de culturas. A identificação de um determinado tipo de cultura é
a base para cálculos de quantificação da biomassa, determinação da área plantada, previsão de
safras, dentre outras aplicações.
A utilização de imagens de sensoriamento remoto tem se mostrado
uma forma viável para tais fins devido à rapidez na aquisição e à periodicidade em que são
ofertadas, bem como à possibilidade de aplicações tanto em escalas locais quanto globais.
Imagens dos satélites brasileiros da família CBERS lançado o primeiro em 1999 são
disponibilizadas gratuitamente pelo Instituto Nacional de Pesquisas Espaciais (INPE, 2007), o
que tem contribuído para seu uso e disseminação. Além disso, as características dos sensores
presentes nas plataformas CBERS permitem atender a múltiplos requisitos de aplicações.
Os SIG’s, desenvolvidos com base em técnicas matemáticas e
computacionais, permitem inserir e integrar, numa única base de dados, informações espaciais
provenientes de diversas fontes, como dados de sensoriamento remoto, mapas, dados
cadastrais, entre outros. Outra característica dos SIG’s é permitir a manipulação dessas
informações por meio de algoritmos de processamento de imagens, além de outras
6
funcionalidades, como a consulta, a recuperação, a visualização e a impressão do conteúdo da
base de dados.
O sistema de informações geográficas SPRING (Sistema para
Processamento de Informações Georreferenciadas), desenvolvido pelo INPE (INPE, 2007), é
um software de acesso livre, distribuído gratuitamente e voltado ao geoprocessamento e ao
processamento de imagens. Está em constante desenvolvimento, apresentando um conjunto de
algoritmos e procedimentos inovadores. Dentre as suas funcionalidades, apresenta um grande
número de técnicas de processamento de imagens digitais abrangendo as diversas etapas do
processamento de imagens, desde o pré-processamento até a classificação.
Em aplicações voltadas à identificação e ao mapeamento de culturas,
na etapa de classificação busca-se rotular cada pixel ou elemento da imagem segundo a
ocupação do solo, obtendo-se um mapa de classes temáticas. A categorização é feita por meio
de algoritmos de reconhecimento de padrões que utilizam os valores espectrais assim como,
outros parâmetros obtidos a partir da assinatura espectral. A classificação, portanto, requer o
uso de algoritmos complexos e de técnicas de seleção e extração de características.
O desenvolvimento da área de reconhecimento de padrões,
intensificado nas últimas décadas, juntamente com a disponibilidade de grande quantidade de
informação, incluindo dados de sensoriamento remoto, tem permitido o uso de algoritmos de
diferentes abordagens para a classificação. Dentre essas abordagens, destacam-se os
algoritmos estatísticos, as redes neurais e as árvores de decisão.
Os algoritmos estatísticos, em especial o algoritmo MAXVER
(Máxima Verossimilhança), têm sido bastante usados no mapeamento do uso da terra, com
resultados satisfatórios quando se considera um conjunto de classes abrangente. Entretanto,
considerando-se áreas de variada e intensa atividade agrícola, a necessidade de uma
distinção entre subclasses correspondendo a diferentes culturas.
Algoritmos de árvores de decisão, embora menos usados em aplicações
voltadas ao sensoriamento remoto, têm se mostrado uma referência no desenvolvimento e
análise de novas propostas para classificação da cobertura da terra. Este fato decorre de
características importantes das árvores de decisão, como boa acurácia na classificação, rapidez
no treinamento e na execução. Acrescenta-se o fato de que não fazem suposições estatísticas
7
sobre os dados e habilidade para manipular dados de diferentes escalas de medidas e
relacionamentos não-lineares entre características e classes, o que permite a utilização de um
conjunto característico amplo e variado.
Diante dessas considerações, o presente trabalho teve por objetivo
avaliar a acurácia da classificação de imagens de sensoriamento remoto do satélite CBERS-2
utilizando árvores de decisão, comparativamente ao classificador MAXVER. O trabalho visou
também avaliar a utilização de um amplo conjunto de atributos de imagem a fim de prover
informação para separar classes de uma região constituída de paisagem heterogênea devido à
diversidade de culturas e reflorestamento.
8
4 REVISÃO BIBLIOGRÁFICA
4.1 Geoprocessamento
4.1.1 Definição
O termo geoprocessamento, de acordo com Câmara e Medeiros (1998),
denota uma disciplina que utiliza técnicas matemáticas e computacionais para o tratamento de
informações geográficas. As ferramentas computacionais do geoprocessamento, chamados de
SIG’s, permitem a realização de análises complexas ao integrar dados de diversas fontes e ao
criar bancos de dados georreferenciados, além de automatizar a produção de documentos
cartográficos.
Para Câmara e Monteiro (2001), as questões básicas do
geoprocessamento envolvem a representação e a manipulação computacional de fenômenos do
mundo real (mapas, cadastros, dados topográficos, imagens) por meio de estruturas de dados e
algoritmos.
4.1.2 Sistemas de informações geográficas
De acordo com Davis e Câmara (2001), SIG’s são sistemas
computacionais que tratam de dados geográficos e recuperam informações não apenas com
9
base em suas características alfanuméricas, mas também por meio de sua localização espacial.
As principais características dos SIG’s podem ser resumidas em: i) inserir e integrar, numa
única base de dados, informações espaciais provenientes de dados cartográficos, dados
censitários e cadastro urbano e rural, imagens de satélite, redes e modelos numéricos de
terreno; ii) oferecer mecanismos para combinar as várias informações, por meio de algoritmos
de manipulação e análise, bem como para consultar, recuperar, visualizar e plotar o conteúdo
da base de dados georreferenciados.
Os SIG’s atualmente disponíveis no mercado apresentam um conjunto
de funcionalidades que permitem seu uso de forma ampla. No entanto, apresentam
especificidades relacionadas à modelagem do banco de dados, ao ambiente computacional em
que podem ser executados, ao tipo de dados que suportam (vetorial e/ou matricial), aos
procedimentos que oferecem, ao custo de aquisição, entre outras características.
O SIG SPRING (CÂMARA et al., 1996), desenvolvido pelo INPE,
possui como características: suporte a dados matriciais e vetoriais permitindo integração entre
ambos, modelagem do banco de dados relacional e possibilidade de ser executado em
ambiente operacional Windows ou UNIX, mono ou multiusuário. Além dessas características,
o SPRING é um software de livre acesso, distribuído gratuitamente pelo INPE (INPE, 2007).
4.1.3 Aplicações na agricultura
Em aplicações na agricultura, dados de sensoriamento remoto e SIG
têm sido extensivamente usados em conjunto. Este fato se justifica pela quantidade de imagens
de diferentes sensores que vêm sendo disponibilizadas periodicamente na atualidade. Por meio
do SIG, é possível extrair informações importantes das imagens de sensoriamento remoto, que
são utilizadas na identificação e mapeamento de culturas, no mapeamento do uso da terra, na
estimativa da produtividade safras agrícolas, além de outras aplicações.
Venturieri e Santos (1998) apresentaram os métodos de classificação
digital de imagens, cujos resultados geram um grande número de informações temáticas que
podem ser aplicadas diretamente à agricultura. Neste contexto, demonstraram a importância
dos produtos de sensoriamento remoto orbital não na aquisição primária de informações
10
como no inventário e gerenciamento da paisagem agroflorestal em países de dimensões
continentais, como o Brasil.
De acordo com Câmara e Medeiros (1998), o geoprocessamento tem
influenciado diversas áreas de maneira crescente e apresenta um enorme potencial para a
tomada de decisões sobre problemas urbanos e ambientais. Assad e Sano (1998), em seu livro,
parte II, publicaram uma série de experiências de diversos autores, abrangendo os mais
variados contextos de aplicações dos SIG’s à agricultura.
A partir do lançamento do Programa CBERS Satélite Sino-Brasileiro
de Recursos Terrestres em 1999, as pesquisas utilizando imagens da família CBERS têm se
intensificado. Este fato se deve às características dos sensores, que possuem potencial para
atender a múltiplos requisitos de aplicações. Além disso, as imagens são disponibilizadas
gratuitamente pelo sítio do INPE na internet (INPE, 2007), o que contribui para sua maior
disseminação e uso.
Atualmente, a literatura apresenta um grande número de trabalhos
envolvendo a aplicação do geoprocessamento na agricultura. Alguns dos trabalhos realizados
recentemente são descritos brevemente a seguir, nos quais se utilizaram como ferramentas de
geoprocessamento o SIG SPRING (CÂMARA et al., 1996) e dados de sensoriamento remoto
do satélite CBERS-2.
Arce et al. (2005) elaboraram um mapa de uso da terra para agricultura
e estimaram áreas plantadas da safra 2003/04 em 14 municípios da região administrativa de
Limeira (SP) a partir de dados dos sensores TM/Landsat, CCD e IRMSS/CBERS-2. Por meio
do SIG SPRING, foi realizada a segmentação por crescimento de regiões e a classificação
ISOSEG. Trabalho de campo confirmou que as imagens foram úteis na identificação das
culturas de cana-de-açúcar, pastagem, floresta e área de reflorestamento. Entretanto, foi
observada uma confusão entre as classes de café e citrus.
Servello et al. (2007) elaboraram um mapa de uso da terra de uma
parte da região centro-sul do Paraná utilizando dados do sensor CCD do satélite CBERS-2 e o
SIG SPRING. Foram consideradas as classes solo arenoso, solo avermelhado, área de
pastagem, pastagem suja, agricultura, floresta em estágio secundário de sucessão, floresta em
estágio avançado de sucessão e corpos d’água. A abordagem metodológica utilizada pelos
11
autores compreendeu segmentação por crescimento de regiões e classificação supervisionada
Battacharya, a partir da imagem fração sombra. O valor de kappa para a classificação final foi
de 0,6675, demonstrando a possibilidade de uso da metodologia como ferramenta de
diagnóstico e modelagem do meio físico.
Trabalho semelhante foi realizado por Tambosi et al. (2007), que
fizeram uma análise comparativa de classificações a partir de imagens ETM+/Landsat e
CCD/CBERS-2 para fins de mapeamento do uso e cobertura da terra, utilizando o classificador
MAXVER e as bandas dos sensores. Nas classificações, foram consideradas as classes mata
eucalipto, cana-de-açúcar, laranja, campos, corpos d’água, solo exposto, nuvens e sombra. Os
coeficientes kappa obtidos ficaram próximos a 0,50 e as matrizes de confusão indicaram
confusão entre determinadas classes. Pelos resultados semelhantes obtidos para os dois
sensores, os autores sugerem uso das imagens CBERS como alternativa às imagens Landsat
para esse fim.
4.2 Sensoriamento remoto
4.2.1 Definição
Sensoriamento remoto, de acordo com Lillesand e Kiefer (1994), é a
ciência e a arte de se obter informações sobre um alvo (objeto, área ou fenômeno) por meio da
análise de dados adquiridos por meio de um dispositivo que não esteja em contato com o alvo
sob investigação.
De acordo com Novo (1992), os dispositivos de aquisição são sensores
ou equipamentos capazes de coletar a energia eletromagnética proveniente do alvo, convertê-la
em sinal passível de ser registrado e apresentá-lo em forma adequada à extração de
informações.
A Figura 1 ilustra o processo de aquisição de dados de sensoriamento
remoto e os elementos envolvidos, que incluem a fonte de energia, a propagação da energia
através da atmosfera, as interações da energia com as características da superfície terrestre, a
retransmissão da energia através da atmosfera e os sensores transportados por via aérea e/ou
12
satélites. Como resultado do processo de aquisição, tem-se os dados na forma de imagem e/ou
digital.
Neste processo, a fonte, representada pelo Sol, emite energia através da
atmosfera. Esta energia atinge o alvo, representado pelas diferentes coberturas da superfície
terrestre, como vegetação, água, solo, etc., sendo que o alvo reflete e/ou absorve a energia. A
energia refletida é transmitida através da atmosfera e registrada por um sensor remoto, que
pode estar acoplado em aeronaves ou satélites. As informações registradas pelo sensor são
processadas para posterior análise.
Figura 1 – Processo de aquisição de dados de sensoriamento remoto
O processo de análise dos dados envolve o exame dos dados usando
vários recursos para interpretação e visualização no caso de imagens e/ou um computador para
análise digital dos dados. Dados adicionais, como mapas de solo, estatísticas de safras ou
dados obtidos em campo, entre outros, são usados no processo de análise a fim de extrair
informação sobre a localização, o tipo, a extensão e as condições relativas ao objeto de estudo.
Do processo de análise resultam mapas, tabelas e arquivos que podem ser combinados com
13
outras camadas de informação em um SIG que são utilizados pelos usuários em processos de
tomada de decisão (LILLESAND; KIEFER, 1994).
4.2.2 Radiação eletromagnética
De acordo com Moreira (2001), a energia eletromagnética apresenta-se
sob diversas formas, como luz visível, radiação infravermelha, ondas de rádio, radiação
ultravioleta, raios-X, microondas, radiação gama, entre outras. O comportamento destas
formas de energia é similar e está baseado na teoria ondulatória.
Segundo esta teoria, a aceleração de uma carga elétrica provoca
perturbações no campo elétrico e magnético, que se propagam repetitivamente no vácuo. Estas
perturbações são chamadas ondas eletromagnéticas. Assim, uma onda eletromagnética é uma
oscilação do campo elétrico e magnético segundo um padrão harmônico de ondas. As ondas
eletromagnéticas obedecem à equação geral:
λ
=
fc (1)
onde c é a velocidade de propagação da onda eletromagnética, f é a freqüência de onda e λ é o
comprimento de onda (NOVO, 1992).
A velocidade de propagação da onda eletromagnética no vácuo é a
velocidade da luz (3x10
8
m/s). A freqüência de onda é diretamente proporcional à velocidade
de propagação da radiação, mas a velocidade de propagação num dado meio é constante, pois é
a velocidade da luz. A freqüência f e o comprimento de onda λ para uma dada onda são
inversamente proporcionais e cada qual pode ser usado para caracterizar uma onda de uma
forma particular (LILLESAND; KIEFER, 1994; NOVO, 1992).
A Figura 2 representa esquematicamente uma onda eletromagnética,
com os campos elétrico e magnético perpendiculares entre si e oscilando perpendicularmente à
direção de propagação da onda. A distância entre um pico de onda e o próximo é o
comprimento de onda (λ) e o número de picos passando por um ponto fixo por unidade de
tempo é a freqüência (f) (LILLESAND; KIEFER, 1994).
14
Fonte: Lillesand e Kiefer (1994)
Figura 2 – Esquema de propagação de uma onda eletromagnética
Em sensoriamento remoto, é muito comum caracterizar as ondas
eletromagnéticas pela localização de seu comprimento de onda dentro do espectro
eletromagnético (Figura 3). Conforme Moreira (2001), o espectro eletromagnético exibe o
conjunto de todas as radiações de forma ordenada, em função do comprimento de onda.
Fonte: Moreira (2001)
Figura 3 – Espectro eletromagnético
Embora muitas características da radiação eletromagnética sejam mais
facilmente descritas pela teoria ondulatória, outra teoria oferece o entendimento sobre como a
energia eletromagnética interage com a matéria. Esta teoria – a teoria corpuscular – sugere que
15
a radiação eletromagnética é composta por muitas partículas discretas chamadas fótons ou
quanta. A energia emitida por um quantum é dada pela Equação 2:
fhQ .
=
(2)
onde Q é a energia de um quantum, h é a constante de Planck, igual a 6,626x10
-34
Js e f é a
freqüência (MOREIRA, 2001; NOVO, 1992).
Ao relacionar os modelos quântico e ondulatório do comportamento da
radiação eletromagnética, substituindo f a partir da Equação 2, tem-se:
λ
hc
Q = (3)
donde se conclui que a energia de um quantum é inversamente proporcional ao comprimento
de onda (LILLESAND; KIEFER, 1994; NOVO, 1992).
De acordo com esta teoria, a energia eletromagnética pode ser
absorvida pela matéria em função de suas propriedades físico-químicas. Quando um elétron
absorve energia, salta de um nível de energia para outro mais afastado do núcleo, tornando-se
instável. Para retornar à estabilidade, o elétron emite a energia absorvida. Esta energia
absorvida ou emitida pelo elétron é chamada de fóton (MOREIRA, 2001; NOVO, 1992).
A quantidade de energia que um objeto irradia é, entre outras coisas,
uma função da temperatura superfície do objeto, sendo expressa pela Lei de Stefan-
Boltzmann:
4
TM
σ
= (4)
onde M é a radiação total emitida de um material em Wm
-2
, σ é a constante de Stefan-
Boltzmann (5,6697x10
-8
Wm
-2
K
-4
), e T é a temperatura absoluta (K) do material
(LILLESAND; KIEFER, 1994).
16
O fenômeno de emissão dos corpos, inclusive do Sol, é explicado por
meio do modelo do corpo negro. Um corpo negro é um radiador ideal hipotético que absorve
totalmente e re-emite toda energia incidente sobre ele. Objetos reais, entretanto, somente se
aproximam deste ideal, pois como a energia total emitida de um objeto varia com a
temperatura, a distribuição espectral da energia emitida também varia (LILLESAND;
KIEFER, 1994).
A Lei de Wien, expressa pela Equação 5, relaciona o comprimento de
onda em que a curva de radiação de um corpo negro alcança um máximo e sua temperatura:
T
A
m
=
λ
(5)
onde λ
m
é o comprimento de onda de máxima emitância espectral (µm), A é a constante de
Wien igual a 2898 µmK, e T a temperatura (K) (LILLESAND; KIEFER, 1994; MOREIRA,
2001).
Conforme Novo (1992), em sensoriamento remoto o Sol é a principal
fonte de radiação eletromagnética. Entretanto, como toda matéria a uma temperatura absoluta
acima de zero (-273
0
C ou 0 K) emite continuamente radiação eletromagnética, a superfície
terrestre também é fonte de radiação, embora em magnitude e composição espectral diferentes
da do Sol.
A emissão de energia do Sol é comparada à de um corpo negro cuja
temperatura está em torno de 6000 K, enquanto que a temperatura do ambiente terrestre está
em torno de 300 K. O pico de emissão de energia eletromagnética do Sol está entre 0,4 e 0,7
µm, enquanto que o da Terra está em torno de 9 µm, o que pode ser demonstrado pela Lei de
Wien (Equação 5) (NOVO, 1992).
Desta forma, segundo Novo (1992), o Sol e a Terra são duas
importantes fontes naturais e contínuas de radiação eletromagnética para o sensoriamento
remoto, considerando que os sensores adquirem dados relativos à energia refletida pelos
diversos objetos da superfície terrestre. Entretanto, outros tipos de sensores podem ser usados
17
em sensoriamento remoto, os quais possuem sua própria fonte de radiação que interage com a
superfície terrestre.
4.2.3 Interações da energia com a atmosfera
De acordo com Lillesand e Kiefer (1994), toda radiação detectada por
sensores remotos, independentemente de sua origem, atravessa a atmosfera, desde a sua
origem até o sensor. O comprimento do caminho percorrido pela energia em sua jornada desde
a origem até o sensor varia muito com o sistema sensor usado, constituindo em um fator que
afeta a intensidade e a composição espectral da radiação avaliada por um determinado sistema
sensor.
Segundo Moreira (2001), isto ocorre devido à natureza complexa da
atmosfera, constituindo-se de várias zonas ou camadas, com diversos gases em sua
composição. Há também na atmosfera a presença de partículas dispersas como poeira, gotas de
chuva, nuvens, entre outras. Os mecanismos atmosféricos que ocorrem devido a estes fatores
são denominados espalhamento e absorção.
O espalhamento atmosférico é um processo físico que resulta da
obstrução das ondas eletromagnéticas por partículas existentes nas suas trajetórias. Essa
obstrução pode ocorrer tanto em relação à energia incidente quanto à energia refletida. A
intensidade e a direção do espalhamento dependem fortemente da razão entre os diâmetros das
partículas presentes na atmosfera e do comprimento de onda da energia eletromagnética
incidente ou refletida (MOREIRA, 2001).
São manifestações do espalhamento atmosférico: o céu azul, os tons do
laranja e do vermelho ao nascer e ao pôr-do-sol, a aparência branca das nuvens e também a
aparência esbranquiçada do céu quando grande concentração de aerossóis (MOREIRA,
2001).
Segundo Lillesand e Kiefer (1994), em contraste com o espalhamento,
a absorção atmosférica resulta em efetiva perda de energia para os elementos atmosféricos. Os
principais elementos responsáveis pela absorção da radiação são o vapor d’água, o dióxido de
carbono e o ozônio, entre outros. As regiões do espectro eletromagnético para as quais a
18
atmosfera não absorve ou pouco absorve a radiação são denominadas “janelas atmosféricas”.
Desta forma, a aquisição de dados de sensoriamento remoto está limitada a essas regiões
espectrais não bloqueadas para a radiação eletromagnética.
4.2.4 Interações da energia com a superfície terrestre e sua resposta espectral
Quando a energia eletromagnética incide sobre a superfície terrestre,
ocorrem diferentes interações dependendo das características dos alvos. A energia incidente
sobre os alvos pode ser refletida, absorvida e/ou transmitida, e a relação entre estas interações
é expressa pela Equação 6, baseada no princípio da conservação de energia:
)()()()(
λλλλ
TARI
EEEE ++= (6)
onde E
I
é a energia incidente, E
R
é a energia refletida, E
A
é a energia absorvida, E
T
é a energia
transmitida, estando todas em função do comprimento de onda λ (LILLESAND; KIEFER,
1994).
Como as proporções de energia refletida, absorvida e transmitida
variam de acordo com as características da superfície, é possível a distinção entre diferentes
características presentes em uma imagem. A maioria dos sistemas de sensoriamento remoto
opera em regiões do espectro eletromagnético nas quais predomina a energia refletida. Desta
forma, o conhecimento das propriedades de reflectância dos objetos presentes na superfície
terrestre é fundamental (LILLESAND; KIEFER, 1994).
Segundo Lillesand e Kiefer (1994), a reflectância dos alvos da
superfície terrestre pode ser quantificada por meio da medida da porção de energia incidente
que é refletida. Esta medida, denominada reflectância espectral ρ
λ
, é uma função do
comprimento de onda e matematicamente definida como:
100
)(
)(
×=
λ
λ
ρ
λ
I
R
E
E
(7)
19
onde E
R
(λ) é a energia de comprimento de onda λ refletida do objeto, e E
I
(λ) é a energia de
comprimento de onda λ incidente no objeto.
Conforme Lillesand e Kiefer (1994), o gráfico que mostra a resposta
espectral de determinado objeto para os diferentes comprimentos de onda do espectro
eletromagnético é denominado curva espectral. Esse gráfico é de fundamental importância
para a escolha da região do espectro sobre a qual se pretende adquirir os dados de
sensoriamento remoto para uma determinada aplicação.
A Figura 4 apresenta as curvas de reflectância espectral de três objetos
típicos da superfície terrestre: vegetação verde saudável, solo exposto seco e água límpida. As
linhas representam as curvas de reflectância média calculada a partir de uma grande
amostragem de características (LILLESAND; KIEFER, 1994).
Fonte: Lillesand e Kiefer (1994)
Figura 4 – Curvas de reflectância espectral típicas para vegetação, solo e água
Conforme mostra a Figura 4, a água límpida em seu estado líquido
apresenta baixa reflectância entre 0,38 e 0,7 µm em torno de 5% absorvendo toda a
radiação acima de 0,7 µm. De acordo com Moreira (2001), a presença de material suspenso na
água provoca mudanças nos seus valores de reflectância. A presença de material orgânico, por
20
exemplo, diminui a reflectância na região do visível. Outras características, como pH, presença
de sais, partículas suspensas resultantes de erosão, entre outras, podem ser correlacionadas
com a reflectância observada. A água na forma gasosa apresenta reflectância elevada em
torno de 70% – e, na forma de neve, ainda maior.
Considerando a reflectância espectral do solo, esta apresenta uma
variação que vai de 20 a pouco mais de 55%, com alguns picos e vales em certas faixas
espectrais. Conforme Lillesand e Kiefer (1994), alguns dos atores que afetam a reflectância do
solo são a composição, a umidade, a textura, a rugosidade, a presença de óxido de ferro e de
matéria orgânica. Esses fatores são complexos, variáveis e inter-relacionados. Segundo
Moreira (2001), muitos estudos têm mostrado correlações existentes entre certas características
do solo e sua reflectância, o que demonstra o potencial do sensoriamento remoto como
ferramenta para o levantamento e reconhecimento dos solos.
A curva de reflectância espectral da vegetação verde saudável
manifesta-se em picos e vales. Os principais fatores que influenciam a reflectância da
vegetação são os pigmentos, o conteúdo de água e as estruturas celulares presentes nas folhas.
A reflectância de uma folha de vegetação verde e sadia, considerando os fatores de influência
anteriormente citados, é mostrada na Figura 5. A faixa do espectro eletromagnético considera
os comprimentos de onda compreendidos ente 0,4 e 3,0 µm, denominado espectro reflectivo
(MOREIRA, 2001).
Na faixa do visível, de acordo com Lillesand e Kiefer (1994), ocorre a
absorção pela clorofila em pontos em torno de 0,45 e 0,67 µm. A absorção é alta nas bandas
azul e vermelho, enquanto que a reflexão é alta no verde, fazendo com que nossos olhos
percebam a vegetação sadia como verde. Na porção do infravermelho médio do espectro
eletromagnético, a energia incidente na vegetação é essencialmente absorvida ou refletida,
quase não havendo transmissão. Considerando a Figura 5, os vales ocorrem nos pontos 1,4, 1,9
e 2,5 µm devido à presença de água nas folhas, que propicia a absorção destes comprimentos
de onda.
21
Fonte: Moreira (2001)
Figura 5 – Curva de reflectância espectral da vegetação verde e sadia
Na porção do infravermelho próximo do espectro eletromagnético, a
reflectância da vegetação verde sadia aumenta sensivelmente, podendo chegar a 50%. De
acordo com Lillesand e Kiefer (1994), a maior parte da energia remanescente é transmitida,
que a absorção nesta região espectral é mínima. A reflectância nesse intervalo resulta
principalmente da estrutura interna das folhas. Como a estrutura celular é altamente variável
entre espécies vegetais, a medida da reflectância neste intervalo permite a discriminação entre
espécies.
Moreira (2001) descreveu com maior detalhe as questões que
envolvem a interação da energia eletromagnética com a vegetação. Segundo o autor, fatores
morfológicos e fisiológicos da planta estão diretamente envolvidos na interceptação e na
absorção da radiação fotossinteticamente ativa. Os fatores morfológicos mais importantes
dizem respeito à organização espacial das folhas, e os fatores fisiológicos incluem idade da
planta, déficit hídrico, a estrutura interna das folhas, deficiência em nutrientes e conteúdo de
água nas folhas.
22
É importante salientar que as colocações feitas anteriormente sobre o
comportamento espectral da vegetação dizem respeito à folha. Quando se pretende utilizar o
sensoriamento remoto para obter informações a respeito da cobertura vegetal de uma região da
superfície terrestre, é preciso levar em consideração a interação da energia eletromagnética
com múltiplas camadas de folhas de um dossel vegetativo (MOREIRA, 2001).
De acordo com Moreira (2001), dossel vegetativo é o conjunto de
todas as copas da vegetação, numa determinada área, independente da espécie. Um dossel
vegetativo pode ser homogêneo, como uma cultura agrícola, por exemplo, ou heterogêneo,
como uma mata natural.
Um dossel vegetativo em condições normais, com as suas múltiplas
camadas de folhas, propicia um aumento na reflectância espectral na porção do infravermelho
próximo. Por outro lado, como descreve Moreira (2001) com base em trabalhos realizados, são
muitos os fatores que interferem na resposta espectral de dosséis. Entre estes, está a
morfologia das folhas que compõem o dossel, a orientação e distribuição das fileiras, o teor de
água nas plantas e no solo, a condição fitossanitária, o estádio de desenvolvimento da cultura,
ângulos zenital e azimutal do Sol, além de outros.
4.2.5 Sistemas sensores
Os sistemas sensores para sensoriamento remoto são dispositivos
capazes de detectar e registrar a radiação eletromagnética em determinada faixa do espectro
eletromagnético, gerando informações que possam ser transformadas num produto passível de
interpretação como imagem, gráfico ou tabela (MOREIRA, 2001).
De acordo com a literatura (MOREIRA, 2001; NOVO, 1992;
LILLESAND; KIEFER, 1994), existem muitas formas de classificar e re-classificar os
sistemas sensores, levando em conta as diferentes características que estes apresentam. De
maneira geral, as formas mais comuns de classificação levam em consideração três aspectos: a
fonte de radiação utilizada pelo sistema sensor, o princípio de funcionamento e o tipo de
produto gerado.
23
Quanto à fonte, segundo Moreira (2001) e Novo (1992), podem ser
passivos ou ativos. Os sensores passivos detectam a radiação solar ou a radiação emitida pelos
objetos da superfície, ou seja, dependem de uma fonte externa para operar. Constituem
exemplos desta categoria o sensor TM (Thematic Mapper) do satélite Landsat e o sensor CCD
(Charge-coupled Device) do satélite CBERS, entre outros.
Os sensores ativos, por outro lado, possuem uma fonte de radiação
própria e não dependem de uma fonte externa. Estes sensores emitem radiação em
determinada faixa espectral, que interage com os alvos da superfície, captando então a energia
refletida pelos alvos. Exemplos de sensores ativos são os radares, os radiômetros de
microondas e meras fotográficas que utilizam “flash”, entre outros (MOREIRA, 2001;
NOVO, 1992).
Outra forma comum de classificação dos sistemas sensores ocorre em
função do princípio de funcionamento. De acordo com Moreira (2001), os sistemas sensores
de não-varredura (framing systems) registram a radiação refletida de uma área da superfície
terrestre em sua totalidade num mesmo instante. Nos sistemas de varredura (scanning
systems), a imagem da cena é formada pela aquisição seqüencial de imagens elementares do
terreno ou “elementos de resolução”, também chamados pixels.
De acordo com Novo (1992), os sistemas sensores podem também ser
agrupados em duas categorias quanto ao tipo de transformação sofrida pela radiação detectada.
Os sistemas sensores não-imageadores têm como saída dados na forma de dígitos e gráficos,
como é o caso de alguns tipos de radiômetros que fornecem informações detalhadas sobre o
comportamento espectral dos alvos. Os sistemas sensores imageadores fornecem uma imagem
da superfície observada, com informações sobre a variação espacial da resposta espectral dos
alvos. Nesta categoria estão os sistemas fotográficos, os sistemas eletro-ópticos e os radares de
visada lateral.
De acordo com Lillesand e Kiefer (1994), a detecção de energia
eletromagnética pode ser realizada fotograficamente ou eletronicamente. O processo de
fotografia usa reações químicas na superfície de um filme sensível à luz para detectar as
variações de energia dentro de uma cena. Os sensores eletro-ópticos e radares, por sua vez,
geram um sinal elétrico que corresponde às variações de energia na cena original.
24
Embora sejam consideravelmente mais complexos, os sistemas não-
fotográficos possuem a vantagem de operar numa ampla faixa do espectro eletromagnético,
que se estende do ultravioleta às microondas. São capazes, portanto, de operar durante o dia e
à noite, como é o caso dos imageadores que atuam na faixa do infravermelho termal. Além
disso, os radares podem operar em condições de nebulosidade, uma vez que as nuvens são
transparentes na faixa de microondas (NOVO, 1992).
Para Lillesand e Kiefer (1994), a principal vantagem dos sistemas não-
fotográficos é a aquisição de dados na forma de sinais elétricos passíveis de transmissão
eletrônica ou à distância. Estes dados podem também ser facilmente digitalizados e analisados
por meio de técnicas computacionais, de forma automatizada.
De acordo com Moreira (2001), as características dos sistemas
sensores imageadores não-fotográficos são expressas em função de quatro domínios de
resolução: espectral, espacial ou geométrica, temporal e radiométrica.
Segundo Novo (1992), a resolução espectral de um sensor refere-se à
largura de faixa ou banda espectral na qual ele opera. Quanto menor a faixa, melhor a
resolução espectral ou o poder de discriminação do sensor. Um sistema sensor pode operar em
várias faixas ou bandas espectrais, as quais podem ou não apresentar a mesma resolução
espectral. Os objetivos de utilização de um sistema sensor determinam a quantidade e a largura
das faixas espectrais nas quais ele opera.
A resolução espacial ou geométrica, de acordo com Moreira (2001),
expressa a capacidade que um sensor tem de distinguir objetos espacialmente próximos, ou
ainda, a menor área de terreno que o sensor pode individualizar. Esta medida, definida pelo
campo de instantâneo de visada ou IFOV (Instantaneous Field of View), tem papel importante
na interpretação e análise de imagens, pois está relacionada ao nível de detalhe das
informações adquiridas pelo sensor.
A resolução temporal, para Moreira (2001), é definida em função da
plataforma na qual o sensor está colocado. Considerando os sensores orbitais, a resolução
temporal indica o intervalo de tempo que o satélite leva para voltar a recobrir a área de
interesse, que está diretamente relacionado à largura da faixa imageada no solo. Quanto maior
a largura da faixa, menor o intervalo de tempo de cobertura.
25
Em estudos da vegetação, entre outros, a resolução temporal é de
fundamental importância por permitir um acompanhamento dinâmico dos alvos na superfície
terrestre. O sensor CCD/CBERS-2 possui uma resolução temporal de 26 dias, enquanto que a
do sensor TM/Landsat é de 16 dias.
Para definir a resolução radiométrica, é importante destacar que uma
imagem de sensoriamento remoto digital é composta por um conjunto de elementos
denominados pixels dispostos na forma de uma matriz bidimensional. Cada pixel representa
uma porção da superfície terrestre, e o conjunto de pixels corresponde à área total coberta pela
imagem. A cada pixel é associado um valor de intensidade denominado número digital (DN),
que representa a medida física da quantidade de energia eletromagnética refletida ou emitida
pelos alvos e detectada pelo sensor (radiância). O número digital é armazenado com uma
quantidade finita de bits, e o número de bits utilizados para armazenar uma imagem digital
expressa a resolução radiométrica (LILLESAND; KIEFER, 1994).
Desta forma, segundo Moreira (2001), a resolução radiométrica de um
sensor indica a quantidade máxima de níveis de cinza que podem ser utilizados para
representar uma imagem, que depende do sistema de gravação do sensor. Para um sensor que
possui resolução radiométrica de 8 bits, por exemplo, serão usados 2
8
=256 níveis de cinza para
representar a imagem, onde o valor zero é associado à cor preta e o valor 255 à cor branca.
Além das características dos sistemas sensores anteriormente descritas,
outro fator interfere na qualidade e na intensidade do sinal, assim como na forma de registro e
análise dos dados (NOVO, 1992). Este fator diz respeito ao nível de aquisição dos dados, que
está diretamente relacionado à altura do sensor em relação aos alvos.
De acordo com Novo (1992), os níveis de aquisição são genericamente
chamados de: nível de laboratório/campo, nível de aeronave e nível orbital. No nível de
laboratório/campo, o sensor é fixado em mastros, barcos ou outro meio físico para fixação. No
nível orbital, os sensores são colocados a bordo de satélites artificiais.
Em sensoriamento remoto, o nível de aquisição, juntamente com o
campo instantâneo de visada do sensor, interferem diretamente na resolução espacial da
imagem obtida. Ao nível de laboratório as áreas analisadas são pequenas, sendo possível, por
26
exemplo, medir a resposta espectral de uma folha, enquanto que no nível orbital, mede-se a
resposta espectral do dossel (NOVO, 1992).
Quanto mais distante dos alvos se encontra o sensor, mais complexa é
a caracterização espectral. No vel de laboratório, é possível gerar dados sob condições
controladas, tanto do sensor como da atmosfera presente entre o alvo e o sensor (NOVO,
1992).
Ao nível de aeronave e mais intensamente ao nível orbital, as
interferências ambientais estão presentes, determinando formas diferenciadas de análise dos
dados e, conseqüentemente, no nível de informação deles derivada. Nesses níveis é possível
trabalhar com áreas maiores, mas nem todos os objetos são detectados individualmente. A
energia registrada resulta da integração da resposta espectral de diferentes objetos (NOVO,
1992).
Para Moreira (2001), a escolha do sistema sensor, num determinado
nível de coleta, depende, sobretudo, de fatores relacionados ao objetivo da pesquisa, ao
tamanho da área imageada, à disponibilidade de equipamentos e ao custo e precisão dos
resultados obtidos.
4.2.6 Câmeras imageadoras dos satélites CBERS-2 e CBERS-2B
O Programa CBERS surgiu de uma parceria entre o Brasil e a China no
setor técnico-científico espacial a fim de permitir o monitoramento de suas extensas áreas
despovoadas e vastos recursos naturais, além dos grandes potenciais agrícola e ambiental,
permitindo uma importante autonomia neste segmento (INPE, 2007).
Com o sucesso do programa, que se concretizou com o lançamento dos
satélites CBERS-1, em outubro de 1999, e CBERS-2, em outubro de 2003, o acordo foi
expandido com a inclusão dos satélites CBERS-3 e CBERS-4. Diante de um possível final de
vida útil do CBERS-2 antes de 2009, data prevista para o lançamento do CBERS-3, foi
construído o CBERS-2B, lançado em setembro de 2007 (INPE, 2007).
27
No Brasil, o INPE, que projetou e construiu os satélites, cuida também
da sua operação além de distribuir os dados gratuitamente aos usuários e pela internet (INPE,
2007).
Os satélites CBERS-2 e CBERS-2B são semelhantes, possuindo três
tipos de sistemas sensores de coleta de dados de sensoriamento remoto para recursos naturais.
O CBERS-2 é composto pelos sistemas ópticos: CCD (Câmera Imageadora de Alta
Resolução), IRMSS (Imageador por Varredura de Média Resolução) e WFI (Câmera
Imageadora de Amplo Campo de Visada). No CBERS-2B, o sistema IRMSS é substituído pelo
HRC (Câmera Pancromática de Alta Resolução) (INPE, 2007).
Os satélites da família CBERS estão inseridos em uma órbita síncrona
com o Sol, a uma altitude de 778 km, de modo a recobrir quatorze faixas da superfície terrestre
por dia. Esta configuração de órbita permite que o satélite cruze a linha do Equador às 10 h e
30 min da manhã, horário local, provendo as mesmas condições de iluminação solar para
efeitos de comparação entre imagens adquiridas em dias diferentes (INPE, 2007).
O sensor WFI produz imagens de uma faixa de 890 km de largura,
permitindo a obtenção de imagens com resolução espacial de 260 m. No período aproximado
de 5 dias é possível obter uma cobertura completa do globo terrestre. O sensor opera em duas
faixas espectrais do espectro eletromagnético, conforme descrito na Tabela 1 (INPE, 2007).
Tabela 1 – Bandas espectrais do sensor WFI (CBERS-2 e CBERS-2B)
BANDAS ESPECTRAIS (µm) REGIÃO DO ESPECTRO
0,63 – 0,69 Vermelho
0,77 – 0,89 Infravermelho
O sensor CCD fornece imagens de uma faixa de 113 km de largura,
com uma resolução espacial de 20 m. Este sistema sensor possui a capacidade de orientar seu
campo de visada dentro de ±32°, o que permite a obtenção de imagens estereoscópicas de uma
determinada região. Além disso, qualquer fenômeno detectado pelo sensor WFI pode ser
focalizado pela câmera CCD por meio de seu campo de visada, dentro de três dias, no
28
máximo. O sistema CCD opera em cinco faixas espectrais, conforme descrição na Tabela 2, e
possui uma resolução temporal de 26 dias (INPE, 2007).
Tabela 2 – Bandas espectrais do sensor CCD (CBERS-2 e CBERS-2B)
BANDAS ESPECTRAIS (µm) REGIÃO DO ESPECTRO
0,51 – 0,73 Pancromática
0,45 – 0,52 Azul
0,52 – 0,59 Verde
0,63 – 0,69 Vermelho
0,77 – 0,89 Infravermelho próximo
O sensor IRMSS é uma câmera de varredura que opera em quatro
faixas espectrais do espectro magnético, desde o visível até o infravermelho termal (Tabela 3).
Este sensor produz imagens de uma faixa de 120 km de largura com uma resolução espacial de
80 m, sendo 160 m no canal termal. Em vinte e seis dias obtém-se uma cobertura completa da
Terra, que pode ser correlacionada com aquela obtida pelo sensor CCD, que possui a mesma
resolução temporal (INPE, 2007).
Tabela 3 – Bandas espectrais do sensor IRMSS (CBERS-2)
BANDAS ESPECTRAIS (µm) REGIÃO DO ESPECTRO
0,50 – 1,10 Pancromática
1,55 – 1,75 Infravermelho médio
2,08 – 2,35 Infravermelho médio
10,40 – 12,50 Infravermelho termal
O sensor HRC opera numa única faixa espectral, que cobre o visível e
parte do infravermelho próximo (Tabela 4). Produz imagens de uma faixa de 27 km de largura
com uma resolução de 2,7 m, permitindo a observação dos alvos com grande detalhamento.
29
São necessários cinco ciclos de 26 dias, ao todo 130 dias, para que os 113 km padrão do sensor
CCD sejam cobertos pelo HRC (INPE, 2007).
Tabela 4 – Banda espectral do sensor HRC (CBERS-2B)
BANDA ESPECTRAL (µm) REGIÃO DO ESPECTRO
0,50 – 0,80 Pancromática
4.3 Processamento de imagens digitais em sensoriamento remoto
O processamento de imagens digitais, de acordo com Lillesand e
Kiefer (1994), abrange técnicas em diferentes contextos: pré-processamento, realce e
classificação. As técnicas de pré-processamento têm por objetivo a retificação e a restauração
das distorções dos dados da imagem originadas durante o processo de aquisição. Essas
técnicas referem-se às rotinas de correção geométrica e radiométrica das imagens, correções
quanto aos efeitos atmosféricos e eliminação de ruídos.
As técnicas de realce de imagens visam melhorar a qualidade visual
das imagens, aumentando a distinção entre as características da cena. De um modo geral, essas
técnicas abrangem: manipulação de contraste, filtros e a integração de bandas para destacar
objetos de interesse ou reduzir a dimensionalidade dos dados para posterior classificação
(LILLESAND; KIEFER, 1994).
As técnicas de classificação conduzem ao mapeamento ou
reconhecimento de características da superfície terrestre por meio de um processo de decisão
que atribui pixels de uma imagem a determinadas classes (LILLESAND; KIEFER, 1994).
Nesta seção, são abordadas as principais técnicas de processamento de
imagens digitais de sensoriamento remoto dentro do escopo deste trabalho envolvendo as
etapas de pré-processamento e de realce. As técnicas de classificação de imagens são
abordadas na próxima seção.
30
4.3.1 Correção geométrica
A correção geométrica tem por objetivo compensar as distorções que
ocorrem nas imagens de sensoriamento remoto de modo que estas adquiram a integridade
geométrica de um mapa. As principais fontes de erros são as movimentações da plataforma do
sensor e a curvatura da Terra (LILLESAND; KIEFER, 1994).
De acordo com Lillesand e Kiefer (1994), o processo de correção
geométrica é normalmente realizado em duas etapas. Na primeira, são consideradas as
distorções sistemáticas devido à movimentação da plataforma do sensor. Essas distorções são
corrigidas facilmente pela aplicação de fórmulas matemáticas.
Na segunda etapa, são corrigidas as distorções aleatórias e as
distorções sistemáticas residuais desconhecidas pela análise de pontos de controle no terreno
bem distribuídos. Essa segunda etapa é também conhecida por registro da imagem, cujo
objetivo é rearranjar os pixels da imagem de acordo com determinado sistema de projeção
cartográfica. Para a reamostragem, são necessários pontos de controle no terreno facilmente
identificáveis na base cartográfica e na cena a ser corrigida geometricamente (LILLESAND;
KIEFER, 1994).
Os pontos de controle são localizados na imagem distorcida por suas
coordenadas (x, y) e, na imagem base, por suas coordenadas geográficas (latitude, longitude).
As coordenadas dos pontos de controle podem também ser obtidas diretamente por meio de
um aparelho GPS. Os valores dos pontos de controle são, então, submetidos a um processo de
regressão pelo método dos mínimos quadrados para a determinação da função que irá mapear
as coordenadas da imagem distorcida para suas respectivas posições geográficas por meio de
reamostragem (NOVO, 1992).
O processo de reamostragem transforma as coordenadas de cada
elemento da matriz de saída (corrigida geometricamente) para determinar sua localização
correspondente na matriz de entrada (imagem distorcida original). Este processo envolve
também a determinação do número digital (DN) atribuído a cada elemento da matriz de saída
(LILLESAND; KIEFER, 1994).
31
diversos métodos que são utilizados para o processo de
reamostragem, como alocação de vizinho mais próximo (nearest neighbour), interpolação
bilinear e convolução cúbica, cada qual com suas vantagens e desvantagens (NOVO, 1992).
Segundo o INPE (2007), as imagens das câmeras dos satélites CBERS-
2 e CBERS-2B disponibilizadas pelo catálogo de imagens possuem correção geométrica de
sistema. Entretanto, devem passar por um processo externo de georreferenciamento para
eliminar o erro de posicionamento, permitindo refinar o erro interno. Após a eliminação do
erro de posicionamento, o erro interno é o erro residual quando se tenta sobrepor a imagem a
outros dados georreferenciados, garantindo uma boa sobreposição.
4.3.2 Correção radiométrica
A medida da radiância de uma cena é influenciada pelo tipo de sensor e
também por outros fatores, como as condições atmosféricas, as trocas na iluminação, entre
outros. Como o muitos os fatores que influenciam a medida da radiância por um sistema
sensor, os procedimentos de correção radiométrica são variados e dependem diretamente da
aplicação a ser realizada (LILLESAND; KIEFER, 1994).
Em aplicações de sensoriamento remoto nas regiões do espectro do
visível e do infravermelho próximo, é freqüentemente desejável gerar mosaicos de imagens
tomadas em diferentes épocas ou estudar as trocas na reflectância de características terrestres
em diferentes épocas ou localizações. Nesses casos, é necessário aplicar correções da elevação
do Sol e da distância do Sol à Terra. Na primeira correção, os diferentes ângulos de iluminação
solar são normalizados e, na segunda, a distância da terra ao Sol é normalizada em função das
suas trocas sazonais (LILLESAND; KIEFER, 1994).
Outro procedimento comum na correção radiométrica de imagens
digitais é a redução dos efeitos atmosféricos sobre os valores de radiância registrados para uma
cena, o que pode ser feito por meio de diversos métodos, que variam em sofitiscação e
conseqüente custo computacional. Um método muito simples consiste em observar a radiância
registrada em áreas onde a reflectância é essencialmente zero, como em lagos de água limpa e
áreas de sombra. Os sinais registrados acima de zero para essas regiões indicam o efeito
32
atmosférico, e seu valor deve ser subtraído de todos os pixels da imagem naquela banda
(NOVO, 1992). Este método de correção atmosférica pelo pixel escuro foi proposto por
Chavez (1988) e deve ser aplicado a cada banda espectral.
Segundo Lillesand e Kiefer (1994), a conversão de números digitais
(DN) em dados físicos, como radiância absoluta e reflectância, é outro procedimento
radiométrico comum em muitas aplicações. Este tipo de conversão é essencial na comparação
de medidas de reflectância de diferentes sensores, ou no desenvolvimento de modelos
matemáticos que relacionam dados físicos da imagem com medidas quantitativas dos objetos.
O trabalho de Markham e Barker (1986) apresenta uma metodologia para realizar este tipo de
conversão usando parâmetros de calibração específicos para cada sensor.
Ponzoni e Shimabukuro (2007) destacaram a importância da
transformação de números digitais para valores de reflectância aparente a fim de permitir a
caracterização espectral de objetos em uma mesma escala radiométrica nas diferentes bandas.
Da mesma forma, os autores destacaram a sua importância para a geração das imagens
resultantes da aplicação de índices de vegetação de modo a se obter valores comparáveis com
os de trabalhos disponíveis na literatura.
O INPE tem realizado estudos no sentido de avaliar a qualidade
radiométrica do satélite CBERS-2 e também de apresentar a metodologia e os respectivos
coeficientes de calibração absoluta da câmera CCD/CBERS-2. Resultados desses estudos
podem ser vistos na literatura (FONSECA et al., 2004; PONZONI et al., 2005; PONZONI et
al., 2006).
4.3.3 Eliminação de ruído
De acordo com Lillesand e Kiefer (1994), o ruído em uma imagem
digital é um distúrbio indesejado nos dados da imagem causado pelas limitações do sensor,
pela digitalização do sinal ou pelo processo de gravação dos dados. A presença de ruído em
uma imagem digital pode degradar ou mascarar totalmente a informação radiométrica
verdadeira desta imagem. Assim, a remoção de ruído tem por objetivo recuperar uma imagem
33
para aproximá-la da cena original tanto quanto possível, o que é de fundamental importância
para as etapas seguintes de melhoramento e classificação.
Os procedimentos de recuperação variam de acordo com a natureza do
ruído, ou seja, se é periódico, aleatório ou isolado. Schowengerdt (1983) descreve todos
como os filtros passa-baixa e mediana, enquanto que Lillesand e Kiefer (1994) abordam os
procedimentos de ajuste de histograma e de comparação de cada pixel com sua vizinhança,
sendo que neste último uma máscara é aplicada a todos os pixels da imagem pelo processo de
convolução.
Como as técnicas de remoção de ruído acarretam alteração nos dados,
a sua aplicação descuidada pode levar à degradação do sinal original como, por exemplo,
diminuição de informação sobre o relevo de uma cena, causada pela suavização ou redução do
contraste. Desta forma, é importante que o usuário conheça a natureza dos dados de forma a
selecionar as técnicas mais adequadas ao seu objetivo (NOVO, 1992).
4.3.4 Manipulação de contraste
Para Schowengerdt (1983), a manipulação de contraste é uma
transformação radiométrica pixel-a-pixel que visa melhorar a discriminação visual de
características da cena com baixo contraste. Cada nível de cinza de pixel é substituído por uma
transformação específica, sem considerar os níveis de cinza dos pixels vizinhos.
O primeiro passo na manipulação de contraste de uma imagem é a
análise de seu histograma. O histograma descreve a distribuição estatística de níveis de cinza
em uma imagem em termos da freqüência de ocorrência de pixels para cada valor digital
dentro do intervalo definido pela resolução radiométrica. No entanto, o histograma não contém
informação sobre a distribuição espacial dos níveis de cinza na imagem (NOVO, 1992).
Segundo Novo (1992), os histogramas geralmente tendem a apresentar
uma forma próxima a uma distribuição gaussiana, com um alongamento da curva na direção
dos níveis de radiância mais altos.
34
Uma transformação linear simples é a ampliação de contraste (contrast
stretch), que consiste na expansão do intervalo de veis de cinza original, resultando em uma
imagem com um contraste mais acentuado entre as características de interesse (NOVO, 1992).
No caso de um histograma assimétrico, utiliza-se a transformação
linear por partes (piecewise linear transformation), que permite ampliar o contraste, reduzindo
a assimetria e fazendo melhor uso do intervalo de níveis de cinza disponível (NOVO, 1992).
Outra técnica de manipulação de contraste, segundo Lillesand e Kiefer
(1994), é a limiarização (thresholding). Nesta técnica, utiliza-se um limiar (nível de cinza)
para segmentar a imagem em duas classes uma cujos pixels possuem valores abaixo do
limiar e outra cujos pixels possuem valores acima do limiar.
A aplicação da limiarização não tem por objetivo a melhora visual da
imagem em si, mas é usada para vários fins. Um exemplo é a detecção de mudanças entre duas
imagens multitemporais, processo descrito por Schowengerdt (1983). Gonzalez (2000)
descreveu uma variedade de técnicas de limiarização comumente usadas na segmentação de
imagens.
4.3.5 Filtragem espacial
A filtragem espacial é uma operação de realce e, da mesma forma que
a manipulação de contraste, é uma transformação pixel-a-pixel de uma imagem. Entretanto,
esta transformação não depende somente do nível de cinza do pixel sendo processado, mas
também dos níveis de cinza dos pixels vizinhos. Assim, a filtragem espacial é uma operação
dependente do contexto em que se insere determinado pixel (SCHOWENGERDT, 1983).
De acordo com Novo (1992), o processo de filtragem é realizado por
meio da convolução de uma máscara, isto é, de uma matriz de dimensões 3x3, 5x5 ou 7x7, em
geral, que se movimenta pela imagem modificando todos os valores dos pixels originais de
acordo com os valores da imagem e os pesos da máscara.
Segundo Lillesand e Kiefer (1994), filtros do tipo passa-baixa realçam
características de baixa freqüência e suavizam os componentes de alta freqüência de uma
imagem, de forma a eliminar informações muito discrepantes que constituem, em geral,
35
ruídos. Como resultado, tem-se a suavização da imagem ou uma imagem mais homogênea em
relação à imagem original. Entretanto, perde-se em nitidez e contraste. Ao contrário dos filtros
passa-baixa, os filtros do tipo passa-alta realçam os detalhes da imagem, aumentando a nitidez
ao destacar as transições entre diferentes regiões da imagem.
A operação de filtragem espacial é também utilizada na detecção de
pontos, linhas e bordas. De acordo com Schowengerdt (1983), o realce produzido por um
único filtro é predominantemente em uma direção. O realce de bordas em todas as direções
pode ser obtido pela filtragem da imagem em duas direções ortogonais, em geral, horizontal e
verticalmente, e combinação dos resultados pela função gradiente.
Nesta categoria, estão os operadores de Sobel, que são máscaras
utilizadas para o cálculo do gradiente de uma imagem. Mais detalhes sobre a detecção de
pontos, linhas e bordas podem ser encontradas em Gonzalez (2000).
4.3.6 Razão espectral
A razão espectral é uma operação de realce que resulta da divisão dos
valores de reflectância de uma banda espectral pelos valores correspondentes de outra banda
espectral. A reflectância relativa resultante da razão espectral entre bandas pode prover
informação significativa para determinadas aplicações em sensoriamento remoto (SCHOTT,
1997).
De acordo com Lillesand e Kiefer (1994), a maior vantagem de
imagens razão é que elas carregam características espectrais ou de cor independentemente de
variações nas condições de iluminação da cena. Assim, um determinado tipo de vegetação que
apresenta valores digitais diferentes em função da variação da topografia e conseqüentemente
da iluminação, irá apresentar valores razão aproximadamente idênticos.
A utilidade de uma determinada razão espectral depende de
características de reflectância dos alvos envolvidos e também da aplicação que se tem em
mãos. A forma e o número de combinações de razões possíveis dependem da origem dos
dados digitais, ou seja, para n bandas de dados o número é igual a n(n-1) (LILLESAND;
KIEFER, 1994).
36
4.3.7 Processamento da cor
De acordo com Lillesand e Kiefer (1994), imagens digitais são
normalmente exibidas como composições coloridas usando as três cores primárias: vermelho,
verde e azul. Este padrão é conhecido pela sigla RGB, de: red, green, blue. Para um vídeo com
codificação de dados de 8 bits/pixel, o intervalo de níveis digitais possível para cada
componente de cor vai de 0 a 255. Portanto, 256
3
possíveis combinações de vermelho,
verde e azul de níveis digitais que podem ser exibidos por este dispositivo. Em um vídeo com
essa codificação, cada pixel pode ser representado por uma posição de coordenada tri-
dimensional.
Um subconjunto de três bandas de uma imagem é usado para gerar
uma composição colorida, associando-se cada banda a uma componente de cor. As
combinações coloridas possíveis são muitas e a melhor escolha depende das características
espectrais dos objetos de estudo e também do tipo de sensor. É possível também gerar
composições coloridas a partir de conjuntos de três imagens razão, assim como, de outras
composições, como as imagens geradas por meio da transformação de componentes principais
(SCHOWENGERDT, 1983).
Uma composição de cor natural é obtida atribuindo-se as cores
vermelho, verde e azul às respectivas bandas do vermelho, verde e azul, ou bandas 3, 2 e 1 do
sensor CCD/CBERS-2. Em estudos da vegetação, é comum o uso da combinação cor-banda: R
- infravermelho próximo, G - vermelho, B - verde. Nas composições coloridas é possível
aplicar a ampliação de contraste pela manipulação de contraste em cada um dos três canais
RGB (LILLESAND; KIEFER, 1994).
Uma alternativa para uma descrição de cor mais intuitiva do que
combinações de um conjunto de cores primárias é o sistema intensidade-matiz-saturação
(IHS), sigla originada dos termos intensity-hue-saturation. Esses atributos podem ser
analisados e manipulados individualmente, ao contrário do sistema RGB, no qual os
componentes estão intrinsecamente interligados. Além desta vantagem, o sistema IHS
descreve a formação de cores de um modo mais próximo do modo pelo qual o sistema visual
humano percebe as cores (SCHOWENGERDT, 1983).
37
A intensidade ou brilho se relaciona com medida da energia total em
todos os comprimentos de onda. O matiz se relaciona com a medida do comprimento de onda
médio ou dominante da luz refletida ou emitida, definindo a cor do objeto. A saturação ou
pureza da cor expressa o intervalo ao redor do comprimento de onda dominante relativo à
energia refletida ou emitida (LILLESAND; KIEFER, 1994).
Por meio do estabelecimento de uma relação espacial entre o espaço
RGB e o espaço IHS, é possível realizar a transformação de componentes RGB em
componentes IHS. Esta transformação, quando realizada antes do processamento, pode prover
mais controle sobre o realce da cor. Após o processamento, os componentes IHS modificados
são transformados de volta para o sistema RGB, para exibição (SCHOWENGERDT, 1983).
4.3.8 Transformação por componentes principais
Segundo Schott (1997), imagens geradas por dados digitais de bandas
de vários comprimentos de onda muitas vezes são similares, contendo as mesmas informações.
A alta correlação entre bandas não aumenta o tempo de processamento como reduz a
eficiência dos algoritmos de processamento. Operações de transformações em imagens são
usadas para superar essas limitações. Essas transformações redefinem o espaço característico
de forma que as características tornam-se mais descorrelacionadas.
A transformação mais comum é a transformação por componentes
principais, sendo considerada também uma técnica de realce. Para Novo (1992), esta técnica
consiste em criar um novo conjunto de dados em k dimensões, por meio da combinação linear
das informações contidas em k canais.
Para canais de dados espectrais, a primeira componente principal
contém a maior porcentagem de variância total da cena e representa o brilho. A segunda e as
subseqüentes componentes principais apresentam gradativamente uma porcentagem menor de
variância, sendo que as últimas contêm principalmente ruído (SCHOTT, 1997).
Imagens resultantes da transformação por componentes principais
podem ser usadas na classificação de imagens, melhorando a sua eficiência. Também é
possível gerar composições coloridas a partir de três imagens componentes (NOVO, 1992).
38
4.3.9 Índices de vegetação
Relações entre as características da vegetação e dados de
sensoriamento remoto são estabelecidas pelo uso de razões, diferenças, somas ou mesmo
outras combinações entre bandas para produzir índices de vegetação. Segundo Ponzoni e
Shimabukuro (2007), diversos índices de vegetação têm sido propostos na literatura com o
objetivo de explorar as propriedades espectrais da vegetação, especialmente nas regiões do
visível e do infravermelho próximo. Estes índices são relacionados a parâmetros biofísicos da
cobertura vegetal, como biomassa e índice de área foliar, além de minimizarem os efeitos de
iluminação da cena, declividade da superfície e geometria de aquisição.
Ponzoni e Shimabukuro (2007) detalharam diversos índices de
vegetação, dentre os quais alguns são descritos a seguir. O índice de vegetação da razão
simples (SR) é obtido pela Equação 8:
V
IVP
SR
ρ
ρ
= (8)
onde ρ
IVP
é a reflectância aparente no infravermelho próximo e ρ
V
é a reflectância aparente no
vermelho (JORDAN, 1969).
O índice de vegetação da diferença normalizada (NDVI), proposto por
Rouse et al. (1973), corresponde à normalização da razão simples no intervalo -1 a +1. Trata-
se de um índice amplamente usado em estudos de vegetação. O NDVI é dado pela Equação 9:
VIVP
VIVP
NDVI
ρρ
ρ
ρ
+
= (9)
No índice de vegetação ajustado para o solo (SAVI), proposto por
Huete et al. (1985), é introduzida uma constante L que minimiza o efeito do solo. Segundo
Huete (1988), os valores ótimos de L são: 1, para densidades baixas de vegetação; 0,5, para
densidades médias; e 0,25, para densidades altas. Este índice é dado pela Equação 10:
39
)1( L
L
SAVI
VIVP
VIVP
+×
++
=
ρρ
ρρ
(10)
Pinty e Verstraete (1992) propuseram, para o monitoramento global da
vegetação, o índice GEMI (Índice Global de Monitoramento Ambiental), concebido para
minimizar a influência dos efeitos atmosféricos no valor final do índice. O cálculo deste índice
é dado por:
V
V
GEMI
ρ
ρ
ηη
=
1
125,0
)25,01( (11)
onde:
5,0
5,05,1)(2
22
++
++
=
VIVP
VIVP
VIVP
ρρ
ρρρρ
η
(12)
Liu (2006), em seu livro, também apresentou diversos índices de
vegetação. Desta forma, é possível acrescentar à descrição anterior o índice de vegetação pela
diferença (DVI), proposto por Richardson e Wiegand (1977), e o índice de vegetação
transformado (TVI), proposto por Rouse et al. (1974).
O índice de vegetação pela diferença (DVI) infere a quantidade de
vegetação verde e é calculado pela diferença:
VIVP
DVI
ρρ
= (13)
O índice de vegetação transformado (TVI) foi proposto com o objetivo
de evitar o valor negativo do NDVI e é dado pela Equação 14:
2/1
)5,0( += NDVITVI (14)
40
Oliveira et al. (2007) compararam nove diferentes índices de vegetação
derivados de dados do sensor ETM+/Landsat 7 referentes à uma área localizada no Mato
Grosso do Sul, cidade de Campo Grande. A análise dos resultados demonstrou alta correlação
para todos os índices estudados, com exceção do índice CTVI. O índice CTVI, elaborado por
Perry e Lautenschlager (1984) é calculado pela Equação 15:
|5,0||5,0|
5,0
+×+
+
=
NDVINDVI
NDVI
CTVI (15)
Muitos estudos têm sido feitos no sentido de estabelecer e avaliar as
relações entre características da vegetação e dados de sensoriamento remoto. Tanajura et al.
(2005), em seu trabalho, avaliaram índices de vegetação (NDVI, PVI, SAVI, WDVI) que
melhor se ajustam ao mapeamento de superfícies com diferentes culturas e vegetação natural.
Embora tenham obtidos dados comparativos entre os índices estudados, sugerem o uso dos
mesmos em um número maior de datas e em classificadores digitais de imagens.
4.3.10 Modelo linear de mistura espectral
De acordo com Moreira (2001), a resposta espectral contida no pixel é
uma mistura de três componentes solo, vegetação e sombra (ou água) presentes dentro da
unidade de resolução do terreno. O modelo linear de mistura espectral é uma transformação
que decompõe a imagem original nesses três componentes.
De acordo com Ponzoni e Shimabukuro (2007), as imagens fração
podem ser consideradas como uma forma de reduzir a dimensionalidade dos dados e como
uma forma de realce das informações. Além disso, o modelo de mistura espectral transforma a
informação espectral em informação física (valores de proporção das componentes no pixel).
A imagem fração vegetação realça as áreas de cobertura vegetal; a imagem fração solo realça
as áreas de solo exposto; enquanto que a imagem fração sombra/água realça as áreas ocupadas
com corpos d’água e também áreas de queimadas, áreas alagadas, etc.
41
As imagens fração resultantes da decomposição linear são
freqüentemente usadas em processos de classificação. Como exemplo, no trabalho de Servello
et al. (2007), a imagem fração-sombra resultante da aplicação do modelo linear de mistura
espectral foi utilizada na classificação de imagens CCD/CBERS-2 para o mapeamento de uso
da terra na região Centro-Sul do Paraná.
4.3.11 Transformação espectral tasseled-cap
A transformação tasseled cap, assim como outras transformações
mencionadas anteriormente, é uma ferramenta útil para o monitoramento da vegetação assim
como para a redução da dimensionalidade dos dados. Conforme Schott (1997), esta
transformação é específica a cada sensor e a tipos de cenas particulares.
Segundo citação de Lillesand e Kiefer (1994), a transformação tasseled
cap foi desenvolvida a partir de uma transformação linear de quatro bandas MSS/Landsat
estabelecendo quatro novos eixos nos dados espectrais. As componentes geradas
correspondem aos componentes brilho dos solos (brightness), biomassa da vegetação
(greenness), senescência da vegetação (yellowness), sendo a quarta componente sem
significado prático. Mais tarde, o conceito tasseled cap foi extendido aos dados TM/Landsat,
definindo planos de solos, de vegetação e a zona de transição entre estes (três das componentes
não apresentaram significado prático). A partir desses planos obtêm-se três componentes
relevantes: o brilho (brightness), o verdor (greenness) e a umidade (wetness).
Trabalho realizado por Kuntschik e Gleriani (2007) concluiu que os
coeficientes gerados pela transformação tasseled cap são específicos para cada sensor, para a
grandeza radiométrica utilizada e para o tipo de solo da região. Os resultados obtidos indicam
que os valores determinados para as condições dos Estados Unidos da América, embora
usados em outros locais do mundo, não são adequados para a área de estudo, na Argentina.
42
4.4 Classificação de imagens digitais
Segundo Novo (1992), as técnicas de classificação digital implicam na
implementação de um processo computacional de decisão que atribui certos conjuntos de
pontos ou pixels de uma imagem a uma determinada classe. Desta forma, o objetivo das
técnicas de classificação digital é tornar o processo de mapeamento ou reconhecimento de
características da superfície terrestre menos subjetivo e com maior potencial de repetição em
situações subseqüentes.
Para Lillesand e Kiefer (1994), o objetivo das técnicas de classificação
é categorizar todos os pixels de uma imagem digital dentro de uma das várias classes de
cobertura da terra, ou temas. Estes dados categorizados podem ser usados para produzir mapas
temáticos da cobertura da terra presentes em uma imagem, e/ou produzir resumos estatísticos
sobre as áreas cobertas por cada tipo de cobertura da terra.
As técnicas de classificação digital podem ser aplicadas a imagens de
apenas um canal espectral (unidimensionais) ou a imagens multiespectrais. Neste trabalho, são
focalizadas as técnicas de classificação voltadas a imagens multiespectrais, que é o caso das
imagens CCD/CBERS. As seções a seguir abordam a classificação de imagens multiespectrais,
a questão do treinamento na classificação, os principais classificadores desta categoria e,
também, a questão da acurácia da classificação.
4.4.1 Classificação multiespectral
Em sensoriamento remoto, a informação espectral referente a uma cena
pode ser registrada com imagens multiespectrais, isto é, um conjunto de imagens da mesma
cena, cada qual adquirida por um filtro espectral diferente. Cada pixel em uma imagem
multiespectral tem coordenadas espaciais x e y, e uma coordenada espectral λ (comprimento de
onda), conforme ilustra a Figura 6. Para uma imagem de k bandas, k níveis de cinza
associados a cada pixel, um para cada banda espectral, de forma que cada pixel é representado
por um vetor k-dimensional (SCHOWENGERDT, 1983).
43
Fonte: Schowengerdt (1983)
Figura 6 – As três coordenadas de uma imagem multiespectral
De acordo com Schowengerdt (1983), em geral, a separação de todas
as classes requer mais do que duas bandas espectrais. Isto ocorre porque as partições são
superfícies em k dimensões e sobreposições entre classes são comuns. Desta forma, além das
bandas espectrais, outras imagens delas derivadas podem ser úteis no processo de
classificação, como razões espectrais e outras transformações, as quais definem o espaço
característico usado na classificação.
Schowengerdt (1983) destacou inúmeros outros fatores que podem
causar variabilidade dentro das classes e sobreposição entre classes, como o espalhamento
atmosférico, a topografia, pixels contendo mistura, dentre outros. Considerando isto, técnicas
de correção atmosférica, cálculo de razões espectrais, ente outras técnicas de pré-
processamento e realce devem ser usadas para uma classificação adequada.
Da mesma forma, Schott (1997) destacou o uso de transformações de
imagem para redefinir o espaço característico multidimensional dentro de um outro espaço
onde as características são mais descorrelacionadas. Assim, poucas características podem
carregar a informação necessária para classificadores multiespectrais. Essas transformações
44
também são freqüentemente usadas para normalização de efeitos atmosféricos e de calibração
de sensores.
4.4.2 Treinamento
Para Schowengerdt (1983), o primeiro passo de qualquer procedimento
de classificação é o treinamento do programa computacional para reconhecer as classes de
interesse. Este aspecto da classificação é crítico para o sucesso de todo o processo e
freqüentemente ocupa a maior parte do tempo do analista.
O treinamento, segundo Schowengerdt (1983), pode ser realizado de
duas formas: supervisionado e não-supervisionado. No treinamento supervisionado o analista
usa conhecimento anterior derivado de estudos de campo, fotointerpretação e outras fontes
sobre pequenas regiões na imagem a ser classificada para identificar aqueles pixels que
pertencem às classes de interesse. Os vetores característicos desses pixels são usados para
descrever os atributos de cada classe e, posteriormente, na fase de classificação, reconhecer
pixels similares em toda a imagem.
Essas pequenas áreas de treinamento são também chamadas de
amostras de treinamento, segundo Novo (1992), que destaca a importância de que as amostras
de treinamento devem ser homogêneas e representativas de cada classe.
No treinamento não-supervisionado, segundo Schowengerdt (1983), o
analista utiliza um algoritmo computacional que localiza as concentrações de vetores
característicos ou agrupamentos que ocorrem naturalmente a partir de amostras de pixels
heterogêneas. Cada grupo representa a distribuição de probabilidade para uma classe.
Posteriormente, na fase de classificação, um analista determina a identidade desses grupos
espectrais comparando-os com dados de referência.
Os algoritmos utilizados para treinamento não-supervisionado são
conhecidos por algoritmos de agrupamento ou clustering. Os métodos mais comuns são os
algoritmos K-médias e ISODATA. Explicações mais detalhadas sobre estes algoritmos podem
ser encontradas em Celinski (1998).
45
Schowengerdt (1983) destacou que o treinamento supervisionado não
resulta necessariamente em classes numericamente separáveis no espaço característico, embora
sejam significativas para o analista. Por outro lado, o treinamento não-supervisionado
determina a estrutura inerente aos dados, embora os grupos possam não corresponder às
classes de interesse do analista.
Desta forma, o treinamento não-supervisionado pode ser útil na
determinação de áreas homogêneas como potenciais amostras de treinamento para posterior
classificação supervisionada. Neste contexto combinado, segundo Schowengerdt (1983), o
analista, após o treinamento não-supervisionado, revisa o agrupamento obtido, dividindo ou
combinando grupos, para depois aplicar o algoritmo de classificação na imagem toda.
4.4.3 Algoritmos para classificação
Os métodos de classificação usados em sensoriamento remoto estão
baseados em procedimentos de reconhecimento de padrões, onde os padrões são constituídos
por vetores característicos de pixels. De acordo com Schowengerdt (1983), os algoritmos de
classificação podem ser agrupados dentro de um dos dois grupos: paramétricos e não-
paramétricos. Algoritmos paramétricos admitem uma distribuição estatística de classe
particular, comumente uma distribuição normal, e então estimam os parâmetros de tal
distribuição, tal como vetor médio e matriz de covariância, para usar no algoritmo de
classificação. Algoritmos não-paramétricos, por outro lado, não fazem suposições sobre as
distribuições de classes.
Pertencem à classe dos algoritmos paramétricos classificadores
tradicionais como: distância mínima até a média, paralelepípedo e máxima verossimilhança
(MAXVER). Conforme Lillesand e Kiefer (1994), no método da distância mínima até a média,
cada pixel é atribuído à classe cuja média ele é mais próximo. Embora matematicamente
simples e computacionalmente eficiente, o método da distância mínima até a média não é
adequado quando as classes são próximas e têm variância elevada.
No método do paralelepípedo, é definido um paralelepípedo ao redor
de cada área de treinamento, estabelecendo um intervalo de valores digitais para cada
46
categoria. Para Lillesand e Kiefer (1994), este método é muito rápido e computacionalmente
eficiente, mas apresenta dificuldades quando há sobreposições entre classes.
O classificador MAXVER considera que a nuvem de pontos que forma
cada categoria dos dados de treinamento possui uma distribuição normalmente distribuída ou
gaussiana no espaço característico. Sob esta suposição, uma classe pode ser completamente
descrita pelo vetor médio e pela matriz de covariância. Por meio desses parâmetros, é
calculada a probabilidade estatística de um dado pixel pertencer a cada classe, sendo então
rotulado à classe com a maior probabilidade (LILLESAND; KIEFER, 1994).
Dentre as técnicas não-paramétricas, as redes neurais artificiais,
conforme Lillesand e Kiefer (1994), não requerem que os dados de treinamento tenham uma
distribuição estatística gaussiana, que é uma exigência do Classificador Máxima
Verossimilhança. Isto permite que redes neurais sejam usadas com uma maior variedade de
tipos de dados de entrada. Além disso, uma vez tenham sido inteiramente treinadas, redes
neurais podem realizar a classificação de imagens de forma relativamente rápida, embora o
processo de treinamento possa consumir muito tempo.
Segundo Lillesand e Kiefer (1994), as redes neurais artificiais
consistem de um conjunto de três ou mais camadas, cada qual com múltiplos nós. Os nós são
análogos aos neurônios de uma rede neural biológica. As camadas da rede incluem uma
camada de entrada, uma camada de saída, e uma ou mais camadas ocultas. Os nós na camada
de entrada representam variáveis usadas como entrada na rede neural, podendo incluir bandas
espectrais de uma imagem de sensoriamento remoto, características texturais ou outros
produtos derivados da imagem, ou ainda dados adicionais sobre a região a ser analisada, como
topografia, tipos de solos, clima entre outros.
Na camada de saída, cada representa uma classe no sistema de
classificação. Entre a camada de entrada e a camada de saída há uma ou mais camadas ocultas.
As camadas ocultas consistem de múltiplos nós, que estão ligados a muitos nós na camada
precedente e a muitos nós na camada seguinte. As ligações entre os nós são representadas por
pesos, os quais guiam o fluxo da informação através da rede. O número de camadas ocultas é
arbitrário e o seu aumento permite que a rede seja usada para operações mais complexas,
47
embora diminua a habilidade para generalizar e aumente o tempo de treinamento
(LILLESAND; KIEFER, 1994).
Também pertencentes à classe dos algoritmos não-paramétricos, estão
os classificadores baseados em regras utilizando análise de árvores de decisão. De acordo com
Tso e Mather (2001,), estes classificadores realizam a categorização por meio da divisão
hierárquica dos dados, na forma de uma seqüência de decisões. A construção do classificador
ou árvore de decisão envolve o particionamento recursivo de um conjunto de dados de
treinamento, que é subdividido em conjuntos cada vez mais homogêneos sobre a base de testes
aplicada a um ou mais dos valores característicos. Esses testes são representados por nós.
Segundo Schowengerdt (1983), a Classificação por Árvore de Decisão
é uma abordagem muito flexível que permite que diferentes características e regras de
classificação sejam usadas na separação de diversas classes. São particularmente úteis para
dados multitemporais e de múltiplas fontes devido a essa flexibilidade.
aproximadamente duas décadas, diversas pesquisas têm sido
realizadas voltadas à modelagem automática de árvores de decisão. Neste contexto, destacam-
se os algoritmos ID3 (QUINLAN, 1986) e seu sucessor C4.5 (QUINLAN, 1993), CART
(BREIMAN et al., 1984) e QUEST (LOH; SHIH, 1997).
4.4.4 Avaliação da classificação
Para Schowengerdt (1983), um teste completo da acurácia de um mapa
de classificação exigiria a verificação da classe de cada pixel. Devido à impossibilidade real de
tal teste, áreas de teste representativas devem ser usadas para estimar a acurácia do mapa, que
é quase sempre estimada pela divisão do número de pixels de teste classificados corretamente
na classe pelo número total de pixels de teste na classe.
Segundo Lillesand e Kiefer (1994), um dos mais comuns instrumentos
usados para expressar a acurácia da classificação é a matriz de erros de classificação, também
conhecida por matriz de confusão ou tabela de contingência. A matriz de erros estabelece o
relacionamento entre os dados de referência (verdade terrestre) e os correspondentes resultados
48
da classificação. Tal matriz é quadrada, com número de linhas e de colunas igual ao número de
categorias cuja acurácia está sendo determinada.
Tabela 5 – Matriz de erros genérica
Dados de referência (verdade terrestre)
Dados da
classificação
Classe 1 Classe 2 ... Classe C Total (linha)
Classe 1
a
11
a
12
... a
1C
=
C
k
k
a
1
1
Classe 2
a
21
a
22
... a
2C
=
C
k
k
a
1
2
...
... ... ... ... ...
Classe C
a
C1
a
C2
... a
CC
=
C
k
Ck
a
1
Total
(coluna)
=
C
k
k
a
1
1
=
C
k
k
a
1
2
...
=
C
k
kC
a
1
==
=
C
k
ik
C
i
aN
11
A Tabela 5 corresponde a uma matriz de erros genérica. Os valores ao
longo da diagonal principal representam o número de pixels classificados corretamente para
cada classe. Os elementos da matriz que não estão na diagonal principal representam erros de
omissão ou comissão. Cada erro representa uma omissão da classe correta e, ao mesmo tempo,
uma comissão para a classe incorreta (LILLESAND; KIEFER, 1994).
Da matriz de erro derivam várias medidas descritivas. Segundo
Lillesand e Kiefer (1994), a acurácia total é calculada pela divisão do número total de pixels
classificados corretamente pelo número total de pixels de referência. Da mesma forma, a
acurácia individual de cada classe é obtida pela divisão do número de pixels classificados
corretamente na categoria pelo número total de pixels na correspondente linha ou coluna.
49
Schowengerdt (1983) menciona outra medida derivada da matriz de erros, a acurácia média,
que é obtida pela média aritmética das acurácias de cada classe.
Ao dividir-se pelo número total de pixels na coluna correspondente,
obtém-se a acurácia do produtor, que indica quão bem os pixels do conjunto de teste de um
determinado tipo de cobertura foram classificados. A acurácia do usuário é resultante da
divisão do número de pixels classificados corretamente na classe pelo número total de pixels
que foram classificados na categoria (total na linha). Esta medida é o erro de comissão e indica
a probabilidade de um pixel classificado em uma classe de fato pertencer a esta categoria
(LILLESAND; KIEFER, 1994).
Além das medidas descritas anteriormente, derivadas da matriz de
erros, o coeficiente kappa (k) é uma medida estatística que indica como cada classificação
difere de uma classificação aleatória dos tipos de cobertura, segundo Lillesand e Kiefer (1994).
O coeficiente kappa é calculado pela Equação 16:
=
++
= =
++
=
r
i
ii
r
i
r
i
iiii
xxN
xxxN
k
1
2
1 1
)(
)(
(16)
onde r é o número de linhas na matriz de erros, x
ii
é o número de observações na linha i e
coluna i, x
i+
é o total de observações na linha i, x
+i
é o total de observações na coluna i, e N é o
número de observações.
A fim de interpretar a fórmula do coeficiente kappa, a formulação
seguinte é mais útil, pois a idéia conceitual desta medida (LILLESAND; KIEFER, 1994;
DWIVEDI et al., 2004):
c
co
p
pp
k
=
1
(17)
onde p
o
é a acurácia da concordância observada ou
50
N
x
p
ii
=
0
(18)
e p
c
é a estimativa de concordância casual dada pela Equação 19.
2
N
xx
p
ii
c
++
= (19)
O valor do coeficiente kappa varia entre 0 e 1, sendo que o valor 1
indica uma concordância total entre o resultado da classificação das amostras de treinamento e
os dados de referência. Landis e Koch (1977) apresentaram uma tabela que permite avaliar o
valor do coeficiente kappa obtido a partir de uma classificação. A Tabela 6 exibe uma
adaptação da referida tabela.
Tabela 6 – Classificação qualitativa quanto ao valor do coeficiente kappa
VALOR DE k
QUALIDADE DA
CLASSIFICAÇÃO
k = 0,0 Péssima
0,0 < k 0,2 Ruim
0,2 < k 0,4 Razoável
0,4 < k 0,6 Boa
0,6 < k 0,8 Muito boa
0,8 < k 1,0 Excelente
Uma questão importante a ser considerada na avaliação da acurácia,
destacada por Lillesand e Kiefer (1994) e por Schowengerdt (1983), diz respeito à escolha das
áreas de teste. Comumente essas áreas constituem um subconjunto das áreas selecionadas para
o estágio do treinamento supervisionado. A acurácia obtida dessas áreas pode não prover uma
indicação válida da acurácia da classificação, sendo o pior caso quando são usadas as mesmas
amostras para o treinamento do classificador e para a estimativa da acurácia.
51
Uma forma de assegurar uma determinação adequada da acurácia é
determinar um número maior de áreas para o treinamento, separando uma parte para uso
exclusivo na etapa de teste. Como todas as áreas são selecionadas pelo mesmo analista,
utilizando as mesmas informações (levantamentos de campo, fotografias aéreas, etc.), é
importante que as áreas de teste sejam bastante dispersas pela área de estudo
(SCHOWENGERDT, 1983).
ainda a possibilidade de realizar uma seleção de áreas de teste de
forma aleatória, o que evitaria a correlação entre os dados de teste e de treinamento do
classificador, e a conseqüente superestimação da acurácia. Entretanto, a validação das áreas
aleatórias pode ser muito difícil e custosa. Além disso, é necessário usar uma estratégia para
garantir que as áreas selecionadas aleatoriamente sejam significativas para a análise em
questão (LILLESAND; KIEFER, 1994; SCHOWENGERDT, 1983).
Hashemian et al. (2004) realizaram estudo sobre métodos de
amostragem como um dos fatores que afetam o desempenho da determinação da acurácia da
classificação de dados de sensoriamento remoto. Os resultados obtidos demonstraram que,
dependendo de condições específicas tal como tipo e tamanho da região de estudo e
características do objeto, diferentes métodos de amostragem e tamanho de amostra são
preferidos.
4.5 Comparação entre métodos de classificação
Há, na literatura, trabalhos abrangentes que estabelecem uma
comparação entre diversos algoritmos das categorias estatísticos, redes neurais e árvores de
decisão, como os realizados por King et al. (1995) e Lime et al. (2000). Os critérios de
comparação utilizados incluem determinação da acurácia, tempo de treinamento e execução e
número de folhas, além de critérios subjetivos como facilidade de uso e compreensibilidade.
Os algoritmos foram aplicados a diferentes conjuntos de dados, incluindo dados de satélite
multiespectrais. De um modo geral, os resultados obtidos demonstram que, quanto à acurácia,
as diferenças são pouco significativas. Entretanto, diferem quanto ao tempo de treinamento e
interpretabilidade dos dados, vantajosos para a categoria árvores de decisão.
52
Os diversos métodos, em geral, quando aplicados à classificação de
dados de sensores remotos de resolução média como os sensores CCD/CBERS-2 para fins
de mapeamento da cobertura da terra, apresentam resultados muito bons quando o conjunto de
classes reflete os tipos de cobertura não fazendo distinção entre os diferentes tipos de culturas
agrícolas. Em geral, as classes relativas à água, solo e floresta apresentam acurácias excelentes.
Neste contexto, Silva e Pereira (2007) compararam o desempenho dos
algoritmos distância nima até a média, paralelepípedo e máxima verossimilhança quando
aplicados à classificação de imagens CCD/CBERS-2, utilizando como dados as bandas 2, 3 e 4
do sensor e considerando as classes mata, reflorestamento, pastagem, rio, lagoa e urbanização.
Os resultados foram excelentes para os algoritmos distância mínima até a média e máxima
verossimilhança, com valores kappa próximos a 0,90, e insatisfatórios para o método do
paralelepípedo.
Da mesma forma, Freitas e Cruz (2005) avaliaram o desempenho de
três diferentes combinações de atributos a partir de dados ETM+/Landsat 7 bandas com
correção atmosférica, quatro bandas e imagens fração (solo, sombra e vegetação), imagens
fração e três componentes principais na discriminação de classes de vegetação na mata
atlântica. O procedimento de classificação constituiu-se pela seqüência: segmentação por
crescimento de regiões, algoritmo ISOSEG e algoritmo Bhattacharya. Os resultados acusaram
acurácias muito próximas para as três combinações de atributos, próximas a 64%, devido à
dificuldade em separar as classes.
Figueiredo e Carvalho (2006) avaliaram a exatidão do mapeamento da
cobertura da terra em Capixaba Acre usando classificação por árvore de decisão. O conjunto
de atributos utilizado incluiu as bandas do sensor TM/Landsat 5, as imagens fração derivadas
do modelo de mistura espectral e o índice de vegetação NDVI. Para as classes temáticas
consideradas neste estudo floresta, capoeira, pasto alto, pasto baixo, solo e água – o
desempenho da classificação por árvore de decisão apresentou valor kappa igual a 0,90.
Comparativamente aos métodos MAXVER e ISODATA, os valores kappa foram de 0,89 e
0,79, respectivamente.
Em trabalho dos mesmos autores, Figueiredo e Carvalho (2007), outras
comparações foram realizadas entre os algoritmos ISODATA, MAXVER e árvore de decisão,
53
utilizando diferentes composições de atributos a partir das bandas dos sensores TM/Landsat 5,
ETM+/Landsat 7, das imagens fração do modelo de mistura espectral e do índice NDVI, para
as mesmas classes de cobertura. Os resultados foram superiores para o algoritmo MAXVER
com kappa próximo a 0,90, utilizando somente as bandas dos sensores ou somente as imagens
fração. Entretanto, a classificação por árvore de decisão apresentou resultados próximos aos do
classificador MAXVER, utilizando todos os atributos.
Quando a categorização é definida sobre classes específicas de cultivos
agrícolas, os índices de acurácia apresentam-se relativamente menores, em função das
semelhanças espectrais entre espécies vegetais. No trabalho de Fonseca et al. (2001), foram
realizadas classificações pelos métodos MAXVER e ISOSEG, obtendo-se baixas acurácias de,
respectivamente, 54,4% e 50%. O vetor característico usado foi composto das bandas 3, 4 e 5
do sensor TM/Landsat 5 e as classes consideradas foram milho, sorgo, cana-de-açúcar, pasto,
sem vegetação, água e floresta.
4.6 Árvores de decisão
4.6.1 Descoberta de conhecimento em bancos de dados
A descoberta de conhecimento em bancos de dados, do inglês
knowledge discovery in databases (KDD), estabeleceu-se como uma área de pesquisa
interdisciplinar bastante produtiva em função da grande quantidade de dados armazenada em
bancos de dados e da necessidade de transformação destes dados em conhecimento útil. A
meta do processo KDD é extrair conhecimento de alto nível de grandes conjuntos de dados.
Para Fayyad et al. (1996a, 1996b, 1996c), o processo de KDD inclui
um conjunto de etapas: seleção, pré-processamento, transformação, data mining, interpretação
e avaliação. Data mining corresponde a uma etapa particular do processo aplicação de
algoritmos específicos para extração de padrões dos dados. A maioria dos métodos de data
mining está baseada em conceitos de áreas como aprendizado de máquina (machine learning),
reconhecimento de padrões (pattern recognition) e estatística. Dentre as técnicas mais
populares estão as árvores de decisão, as redes neurais e as redes bayesianas.
54
4.6.2 Aprendizagem em árvores de decisão
Para Russell e Norvig (2004), o problema da aprendizagem
supervisionada envolve a aprendizagem de uma função a partir de exemplos de suas entradas e
saídas. Um algoritmo para aprendizagem supervisionada determinística recebe como entrada o
valor correto da função desconhecida para entradas específicas e deve tentar recuperar a
função desconhecida ou algo perto disso. Mais formalmente, diz-se que um exemplo é um par
(x, f(x)), onde x é a entrada e f(x) é a saída da função aplicada a x. A tarefa da inferência
indutiva pura (ou indução) é: “Dada uma coleção de exemplos de f, retornar uma função h que
se aproxime de f”. A função h é chamada hipótese. Uma boa hipótese irá generalizar bem, isto
é, irá prever corretamente exemplos ainda não-vistos.
De acordo com Mitchell (1997), o conceito de aprendizagem pode ser
visto como a tarefa de busca pelo amplo espaço de hipóteses implicitamente definido pela
representação de hipótese. A meta dessa busca é encontrar a hipótese que melhor se ajusta aos
exemplos de treinamento. Sob esse ponto de vista, algoritmos de aprendizagem examinariam
diferentes estratégias de busca no espaço de hipóteses.
A indução de árvores de decisão, de acordo com Russel e Norvig
(2004), é uma das formas mais simples, e ainda assim mais bem-sucedidas, de algoritmos de
aprendizagem. Esta afirmação é corroborada por diversos autores. Dentre estes, Mitchell
(1997) destacou que a aprendizagem em árvore de decisão é um dos mais amplamente usados
métodos para inferência indutiva. Métodos de aprendizagem em árvore de decisão realizam
uma busca expressiva e completa no espaço de hipóteses e assim esvaziam as dificuldades
relacionadas a espaços de hipóteses restritos.
Segundo Fayyad et al. (1996a), algoritmos de árvores de decisão são
métodos supervisionados de aprendizagem de máquina que analisam atributos de um conjunto
de amostras de treinamento, gerando árvores que são usadas posteriormente para classificação.
Árvores são naturais para classificação e, provavelmente, o modelo mais fácil para
interpretação.
Uma árvore de decisão toma como entrada um objeto ou situação
descrito por um conjunto de atributos e retorna uma “decisão” o valor de saída previsto de
55
acordo com a entrada. Os atributos de entrada podem ser discretos ou contínuos. O valor de
saída também pode ser discreto ou contínuo. A aprendizagem de uma função de valores
discretos é chamada de aprendizagem de classificação; a aprendizagem de uma função
contínua é chamada regressão (RUSSELL; NORVIG; 2004).
Uma árvore de decisão é um fluxograma como uma estrutura de
árvore, onde cada interno denota um teste sobre um atributo, cada aresta representa uma
saída do teste, e nós folhas representam classes ou distribuições de classes. O superior na
árvore é o nó raiz (HAN; KAMBER, 2001).
A Figura 7 ilustra uma típica árvore de decisão aprendida. Essa árvore
de decisão classifica “manhãs de sábado” conforme estas sejam adequadas para jogar tênis. Os
nós são representados por retângulos, enquanto que as folhas são representadas por elipses.
Fonte: Mitchell (1997)
Figura 7 – Árvore de decisão para o problema Jogar Tênis
Uma árvore de decisão alcança sua decisão executando uma seqüência
de testes. Cada interno na árvore corresponde a um teste do valor de uma das propriedades,
56
e as ramificações a partir do são identificadas com os valores possíveis do teste. Cada
folha na árvore especifica o valor a ser retornado se aquela folha for alcançada (RUSSELL;
NORVIG, 2004).
4.6.3 Algoritmos de aprendizagem em árvores de decisão
De acordo com Safavian e Landgrebe (1991), os objetivos principais
dos classificadores por árvore de decisão são: classificar corretamente tantas amostras de
treinamento quanto possível; generalizar além das amostras de treinamento de forma que
exemplos não vistos possam ser classificados com alta acurácia tanto quanto possível; ser fácil
de atualizar quando mais amostras de treinamento se tornam disponíveis; e, ter uma estrutura
tão simples quanto possível.
Em abordagens top-down
3
, a modelagem de um classificador por
árvore de decisão se reduz às seguintes tarefas: a seleção de uma regra de divisão de nó; a
decisão de quais nós são terminais; e, a atribuição de cada terminal a um rótulo de classe
(SAFAVIAN; LANDGREBE, 1991).
Segundo Mitchell (1997), o algoritmo básico para indução de árvore de
decisão é um algoritmo que utiliza uma técnica top-down de busca gulosa através do espaço de
árvores de decisão possíveis. Esta abordagem é exemplificada pelo algoritmo ID3 (QUINLAN,
1986) e seu sucessor C4.5 (QUINLAN, 1993). A Figura 8 exibe o algoritmo básico para
indução de árvore de decisão a partir de amostras de treinamento.
De acordo com Han e Kamber (2001), a construção da árvore se inicia
com a escolha do atributo a ser testado na raiz da árvore. Esta escolha é feita por meio de um
teste estatístico para determinar quão bem um atributo classifica os exemplos de treinamento.
Uma vez selecionado o melhor atributo, este é usado como teste no raiz da árvore. Um
descendente do raiz é então criado para cada valor possível de seu atributo, e os exemplos
de treinamento são classificados para o descendente apropriado. O processo é repetido
3
Em uma abordagem top-down, um processo é descrito de forma incremental e suas iterações se iniciam de um
nível mais abrangente do processo para níveis de detalhamento progressivos.
57
usando os exemplos de treinamento associados com cada descendente para selecionar o
melhor atributo para testar neste ponto da árvore. Um atributo que tenha sido escolhido em um
nó não é mais considerado em qualquer nó descendente.
Fonte: Han e Kamber (2001)
Figura 8 – Algoritmo básico para indução de árvore de decisão
Conforme o algoritmo exibido na Figura 8, o particionamento
recursivo pára quando uma das seguintes condições é verdadeira: i) todos os exemplos, para
um dado nó, pertencem à mesma classe, quando então o se torna uma folha e é rotulado
com esta classe; ii) não há atributos remanescentes para particionar os exemplos. Neste caso, o
é convertido em folha e rotulado com a classe da maioria dos exemplos; iii) não
exemplos que verificam o teste. Neste caso, uma folha é criada e rotulada com a classe da
maioria dos exemplos (HAN; KAMBER, 2001).
Conforme Pal e Mather (2003), diversos métodos de seleção de
atributos são descritos na literatura, cujo objetivo é maximizar a dissimilaridade ou minimizar
a similaridade dos nós descendentes, no caso de árvores de decisão univariadas. Os mais
58
freqüentemente usados são: ganho de informação, razão de ganho, índice Gini e medida qui-
quadrado.
O algoritmo ID3, de acordo com Mitchell (1997), usa a medida “ganho
de informação” para selecionar entre atributos candidatos em cada etapa durante a geração da
árvore. O atributo com maior ganho de informação (ou elevada redução de entropia) é
escolhido como atributo de teste do corrente. Este atributo minimiza a informação
necessária para classificar as amostras nas partições resultantes e reflete a mínima impureza
nestas partições.
Mais precisamente, o ganho de informação Ganho(E, A) de um
atributo A, relativo a uma coleção de exemplos E, é definido como:
)(
||
||
)(),(
)(
v
Avaloresv
EEntropia
E
Ev
EEntropiaAEGanho
= (20)
onde valores(A) é o conjunto de todos os possíveis valores para o atributo A, e E
v
é o
subconjunto de E para o qual o atributo A tem valor v. O primeiro termo da Equação 11 é a
entropia da coleção original E, e o segundo termo é o valor esperado da entropia depois que E
é particionado usando o atributo A (MITCHELL, 1997).
A entropia, por sua vez, caracteriza a impureza de uma coleção
arbitrária de exemplos. De uma forma geral, se o atributo objeto pode assumir c diferentes
valores, então a entropia de E relativa a esta classificação é definida como:
ii
c
i
ppEEntropia 2
1
log)(
=
=
(21)
onde p
i
é a proporção de E pertencente à classe i. A base 2 do logaritmo explica-se pelo fato da
entropia ser uma medida do conteúdo de informação esperado, em bits. Se o atributo objeto
pode ter possíveis valores, a entropia pode ser tão extensa quanto log
2
c (MITCHELL, 1997).
De acordo com Kohavi e Quinlan (2002), o algoritmo C4.5, sucessor
do ID3, apresenta diversas características adicionais, o que permite aplicá-lo a uma variedade
59
mais ampla de problemas. A primeira delas diz respeito aos atributos que descrevem os dados.
O algoritmo C4.5 permite usar atributos de entrada tanto inteiros quanto contínuos.
Quanto à seleção de testes de atributos, o algoritmo C4.5, por meio de
uma busca gulosa, seleciona o teste candidato que maximiza uma heurística baseada em um
critério de divisão, obtido a partir do ganho de informação descrito anteriormente. Este
critério, denominado razão de ganho, leva em conta a informação potencial em si mesma:
||
||
log
||
||
),(
)(
E
E
E
Ev
AEInfoDiv
v
Avaloresv
= (22)
O critério razão de ganho então escolhe, dentre os testes com o menor
ganho médio, o teste E que maximiza a razão de ganho (KOHAVI; QUINLAN, 2002):
),(
),(
AEInfoDiv
AEGanho
hoRazãodeGan = (23)
Dentre as características que diferem o algoritmos C4.5 e ID3, está a
possibilidade de lidar com omissão de dados. A omissão de dados é um fato comum, causado
ou por erros no registro dos dados ou porque eles foram considerados irrelevantes para um
caso particular. Tais lacunas afetam tanto a modelagem da árvore de decisão como seu uso
para classificar um novo caso (KOHAVI; QUINLAN, 2002).
No algoritmo C4.5, as equações anteriores são modificadas:
),(
||
||
),(
0
0
AEEGanho
E
EE
AEGanho
=
(24)
||
||
log
||
||
||
||
log
||
||
),(
)(
00
E
Ev
E
Ev
E
E
E
E
AEInfoDiv
Avaloresv
= (25)
60
onde E
0
é o subconjunto de casos em E com atributos desconhecidos e cuja saída do teste não
pode ser determinada, e E
v
é o subconjunto de casos em E com atributos conhecidos e cuja
saída do teste pode ser determinada. O ganho de informação, nessa nova equação, é reduzido
porque não há aprendizagem sobre os casos em E
0
. Da mesma forma, o critério de divisão tem
sua equação aumentada para refletir o resultado adicional do teste (KOHAVI; QUINLAN,
2002).
De acordo com Kohavi e Quinlan (2002), algoritmos de árvores de
decisão usam o método dividir e conquistar para construir uma árvore adequada aos dados de
treinamento. Este tipo de algoritmo particiona os dados acada folha conter casos de uma
única classe, ou até que o particionamento seja impossível porque dois casos possuem os
mesmos valores para cada atributo, mas pertencem a classes diferentes.
Segundo Nilsson (1996), o resultado desse procedimento é comumente
uma árvore grande (em largura) e complexa. Em alguns casos, a adequação da árvore de
decisão até todas as folhas conterem dados para uma única classe pode superadaptar ao ruído
nas amostras de treinamento, assim como algumas amostras de treinamento podem não ser
membros da classe que deveriam representar. Desta forma, se as amostras de treinamento
contêm erros, a superadaptação (overfitting) da árvore a tais dados pode levar a um
desempenho pobre na generalização de casos não vistos.
A superadaptação pode ser evitada pelo uso de um critério de parada
ou poda que impede a divisão de alguns conjuntos de dados de treinamento com base em
algum teste estatístico de significância, ou pela remoção de algumas sub-árvores depois que a
árvore foi produzida. O algoritmo C4.5 utiliza o segundo mecanismo, permitindo o
desenvolvimento da árvore ao máximo para depois realizar a poda em um processo
retrospectivo (bottom-up) que remove partes da árvore que não respondem a uma condição
baseada em uma taxa de erro (KOHAVI; QUINLAN, 2002).
O método de poda implementado no algoritmo C4.5 error-based
pruning visita os nós da árvore máxima obtida a partir das amostras de treinamento, no
sentido botton-up, e simplifica a árvore permitindo a substituição de um nó não-folha por uma
folha ou por uma sub-árvore da qual é pai. Desta forma, é possível remover testes
intermediários que parecem inúteis (ESPOSITO et al., 1997).
61
Considerando um conjunto de exemplos cobertos por uma folha t
como uma amostra estatística, é possível estimar um intervalo de confiança [I
CF
(t), S
CF
(t)] para
a probabilidade de má classificação de t. O limite superior do intervalo é de particular interesse
para uma análise do pior caso, e é definido como o valor real tal que:
CFS
tn
te
P
CF
= )
)(
)(
( (26)
onde: CF é o nível de confiança; n(t) é o número total de exemplos em um t; e e(t) é o
número de exemplos não pertencentes à classe da maioria (ESPOSITO et al., 1997).
Assumindo que erros no conjunto de treinamento são binomialmente
distribuídos com probabilidade p em n(t) testes, é possível calcular o valor exato de S
CF
como
o valor de p para o qual uma variável aleatória X binomialmente distribuída mostra e(t)
sucessos em n(t) testes com probabilidade CF, que é (ESPOSITO et al., 1997):
CFteXP
=
))(( (27)
Uma vez encontrado o limite superior, as estimativas de erro das folhas
e sub-árvores são calculadas considerando que elas são usadas para classificar um conjunto de
casos não vistos do mesmo tamanho do conjunto de treinamento. Assim, a taxa de erro de
predição para t será n(t). S
CF
. A soma das taxas de erro de predição de todas as folhas em uma
sub-árvore T
t
é considerada uma estimativa da taxa de erro da sub-árvore. Desta forma,
comparando a taxa de erro de predição para t com a da sub-árvore T
t
e com a da maior sub-
árvore T
t
enraizada em um filho t’ de t, é possível decidir se é conveniente: i) conservar T
t
;
ii) substituir T
t
por T
t
; ou, iii) substituir T
t
pela folha rotulada com a classe mais freqüente em
E (ESPOSITO et al., 1997).
De acordo com Kohavi e Quinlan (2002), este método é
computacionalmente eficiente e resultados bem razoáveis na maioria das aplicações.
Espósito et al. (1997) fizeram uma análise comparativa de métodos de poda em árvores de
decisão que utilizam uma abordagem top-down, com o objetivo de compreender a
62
fundamentação teórica, a complexidade computacional e os pontos fracos e fortes de seis
métodos de poda bastante conhecidos.
4.6.4 Extração de regras de classificação a partir de árvores de decisão
Han e Kamber (2001) destacaram que o conhecimento representado em
árvores de decisão pode ser extraído e representado na forma de regras de classificação do tipo
“se-então”. Uma regra é criada para cada caminho do raiz até um folha. Esta
característica, que permite transformar processos de decisão complexos em conjuntos de
decisões simples, é a mais importante característica dos classificadores por árvore de decisão,
provendo uma solução geralmente mais fácil para interpretação. A Figura 9 exibe o conjunto
de regras extraído a partir da árvore de decisão contida na Figura 7.
Fonte: Mitchell (1997)
Figura 9 – Conjunto de regras extraídas da árvore de decisão da Figura 7
De acordo com Russel e Norvig (2004), para verificar o quão boa é a
hipótese gerada para classificar exemplos não-vistos, utilizam-se as amostras de treinamento
para calcular a acurácia das regras. Para tanto, divide-se o conjunto de amostras ou exemplos
em dois conjuntos de treinamento e de teste. O algoritmo de aprendizagem é aplicado ao
conjunto de treinamento, gerando a árvore de decisão ou hipótese. A hipótese é então aplicada
ao conjunto de teste, calculando-se a porcentagem de exemplos corretamente classificados.
63
Quinlan (1987) descreveu um método para transformar ou re-expressar
classificadores de árvore de decisão na forma de uma pequena coleção de regras de produção.
O método utiliza o conjunto de exemplos de treinamento a partir do qual a árvore de decisão
foi gerada, primeiro para generalizar e determinar a confiança de regras individuais extraídas
da árvore, e subseqüentemente refinar a coleção de regras como um todo. O conjunto final de
regras de produção é usualmente tanto mais simples que a árvore de decisão da qual ele foi
obtido, quanto mais acurado quando da classificação de casos não vistos. A transformação em
regras de produção também provê uma maneira de combinação de árvores de decisão
diferentes para o mesmo domínio de classificação.
O programa C4.5, desenvolvido por Quinlan (1993), tem toda sua
teoria descrita em livro, incluindo os programas fontes, o que permitiu sua rápida
disseminação. Este programa possui um módulo de geração de regras, estas geradas a partir da
árvore de decisão criada pelo módulo gerador de árvores de decisão.
64
5 MATERIAL E MÉTODOS
5.1 Área de estudo
A área de estudo está localizada no Estado do Paraná, na região
conhecida por Campos Gerais. Esta área foi selecionada levando-se em consideração a
diversidade de espécies vegetais presentes na região. O trabalho concentrou-se em alguns dos
municípios, dentre aqueles que compõem a região dos Campos Gerais, a saber: Ponta Grossa,
Carambeí, Castro, Imbaú, Ortigueira, Palmeira, Telêmaco Borba, Tibagi e Ventania. A Figura
10 exibe a localização da área de estudo.
Em termos de localização geográfica, considerou-se a área de estudo
dividida em duas cenas, na qual a primeira, tendo como referência o Município de Ponta
Grossa, ficou delimitada pelas coordenadas UTM 570000 e 620000 m E, 7180000 e 7282000
m S, Datum SAD-69. A segunda, tendo como referência o Município de Telêmaco Borba,
ficou delimitada pelas coordenadas UTM 506000 e 598000 m E, 7280000 e 7348000 m S,
Datum SAD-69.
A região dos Campos Gerais recebeu originalmente este nome devido a
sua caracterização fitogeográfica natural, com campos limpos e matas galerias ou capões
isolados de floresta ombrófila mista, onde aparece o pinheiro araucária. O clima é do tipo
subtropical úmido, com verão brando e, no inverno, geadas. As altitudes variam de 800 m a
1200 m, aproximadamente.
65
Quanto à geomorfologia, a região caracteriza-se por estar situada no
segundo planalto paranaense, denominado Planalto de Ponta Grossa ou Planalto dos Campos
Gerais. Este planalto está naturalmente limitado pela escarpa Devoniana, a leste, e pela escarpa
da Esperança (Serra Geral), a oeste. A estrutura geológica e natureza das rochas são
responsáveis pelos solos rasos e arenosos, pouco férteis.
Figura 10 – Localização da área de estudo
É uma região de agricultura intensa, na qual se utiliza o sistema de
plantio direto. Prevalece o plantio da soja e do milho no verão e, em escala menor, do sorgo e
do feijão. No inverno, predomina a cultura do trigo e, em menor escala, culturas como triticale,
centeio, cevada, girassol, canola, nabo forrageiro, aveia preta e aveia branca. também, na
região, a ocorrência de pastagens utilizadas na criação de gado. A região possui, ainda, grandes
áreas de reflorestamento de pinus e de eucalipto, principalmente no município de Telêmaco
Borba e entorno.
66
5.2 Materiais
5.2.1 Equipamentos
Os experimentos foram conduzidos utilizando-se um computador com
processador Pentium D/3.40 GHz, com 2.00 GB de RAM e disco rígido de 160 GB.
Na coleta de amostras de verdade terrestre, tanto para serem utilizadas
no treinamento dos classificadores quanto na avaliação da acurácia, foi utilizado um aparelho
GPS de navegação da marca Garmin eMap, do Departamento de Solos da FCA/UNESP.
5.2.2 Programas computacionais
Para o processamento dos dados de sensoriamento remoto, em todas as
etapas foi utilizado o sistema de informações geográficas SPRING (CÂMARA et al., 1996),
versão 4.3.2 e, para a Classificação por Árvore de Decisão, o programa See5 (Quinlan, 1993).
5.2.3 Dados de sensoriamento remoto
Os dados de sensoriamento remoto foram obtidos junto ao Catálogo de
Imagens disponibilizado no sítio do INPE na internet (INPE, 2007). A Figura 11 exibe a grade
de cenas dos satélites CBERS. Foram utilizadas as cenas 157/128 e 158/127 do sensor CCD
(bandas 1, 2, 3 e 4), referentes às datas de passagem 07/03/2007 e 02/09/2007,
respectivamente.
67
Fonte: Engesat (2008)
Figura 11 – Grade de cenas do satélite CBERS-2, Estado do Paraná
5.3 Métodos
A metodologia adotada pode ser observada de forma resumida na
forma de fluxograma (Figura 12). Os tópicos a seguir detalham as etapas adotadas na
metodologia, que foi aplicada a cada uma das cenas em estudo.
68
Figura 12 – Fluxograma metodológico do processo utilizado para
discriminação de classes de uso do solo em imagens do satélite CBERS-2
5.3.1 Aquisição e registro das imagens
Imagens das regiões de estudo, do satélite CBERS-2, sensor CCD,
foram selecionadas por meio do catálogo disponível no sítio do INPE (2007) na internet, com
correção geométrica de sistema. A seleção obedeceu a dois critérios: a inexistência de nuvens
na região de estudo e datas de passagem em acordo com as épocas de cultura de inverno e de
verão. Uma vez obtidas as imagens, estas foram convertidas para o formato GRIB pelo módulo
IMPIMA do SPRING (CÂMARA et al., 1996), que é o formato de leitura do SPRING.
69
As cenas destacadas na Figura 11 (157/128 e 158/127) foram
recortadas com o objetivo de delimitar áreas de grande atividade agrícola e subseqüente
variedade de cobertura vegetal. A primeira, de 07/03/2007 (Figura 13), tendo como referência
o Município de Ponta Grossa, ficou delimitada pelas coordenadas UTM 570000 e 620000 m E,
7180000 e 7282000 m S, Datum SAD-69. A segunda, de 02/09/2007 (Figura 14), tendo como
referência o Município de Telêmaco Borba, ficou delimitada pelas coordenadas UTM 506000
e 598000 m E, 7280000 e 7348000 m S, Datum SAD-69.
Figura 13 – Composição colorida R3G4B2 da cena 157/128 do
sensor CCD/CBERS-2, de 07/03/2007
70
Figura 14 Composição colorida R3G4B2 da cena 158/127 do
sensor CCD/CBERS-2, de 02/09/2007
Para eliminar o erro de posicionamento das imagens com correção de
sistema e refinar o erro interno, as imagens passaram pelo processo de registro ou
georreferenciamento. O procedimento de registro adotado neste trabalho um dos modos de
registro possíveis pelo SPRING utiliza uma imagem georreferenciada e ortorretificada para
servir de referência. A imagem de referência foi obtida gratuitamente por meio de sítio, da
internet, de distribuição de imagens Landsat para pesquisadores e outros grupos de interesse
(LANDSAT, 2007).
No processo de registro, pontos de controle da imagem de referência
foram adquiridos e relacionados a pontos homólogos reconhecidos na imagem a ser registrada.
Os pontos de controle adquiridos foram selecionados com base no erro calculado e
apresentado, considerando-se o grau do polinômio usado no registro.
A escolha do grau do polinômio e do número de pontos de controle,
em função do erro apresentado, obedeceu às recomendações para o usuário do software
SPRING. Desta forma, para a cena 157/128, foram selecionados 15 pontos de controle e
polinômio de 3.º grau, obtendo-se 0,2 pixel de erro, aproximadamente. Para a imagem
71
158/127, foram selecionados 14 pontos de controle e polinômio de 3.º grau, obtendo-se,
aproximadamente, 0,3 pixel de erro.
5.3.2 Processamento das imagens
Nesta etapa, as imagens correspondentes às duas cenas em estudo
foram processadas a fim de realizar a correção radiométrica e também de gerar o conjunto de
atributos a ser utilizado na etapa de classificação.
Após o registro, foi realizada a etapa de correção radiométrica,
incluindo os procedimentos de conversão dos números digitais (DN) para valores de
reflectância aparente e de correção atmosférica. Estes procedimentos foram realizados por
meio de programas escritas na linguagem de programação LEGAL (Linguagem Espacial de
Geoprocessamento Algébrico) do SPRING (CÂMARA et al., 1996).
A conversão para valores de reflectância aparente foi realizada de
acordo com o método proposto por Markham e Barker (1986), usando os coeficientes de
calibração absoluta da câmara CCD/CBERS-2 apresentados por Ponzoni et al. (2006). Esta
conversão foi aplicada a cada uma das quatro bandas utilizadas (Apêndice 1).
Após a conversão para valores físicos, foi realizada a correção
atmosférica pelo método de correção atmosférica pelo pixel escuro (CHAVEZ, 1988). Os
valores subtraídos de cada banda foram obtidos observando-se os respectivos histogramas, no
SPRING. Esta conversão foi realizada por meio de um programa escrito em LEGAL
(Apêndice 2).
Nas imagens resultantes da correção radiométrica, foram aplicados os
índices de vegetação: CTVI, DVI, GEMI, NDVI, SR, SAVI e TVI. Destes, os índices DVI,
NDVI e SR foram gerados pelo módulo de operações aritméticas do SPRING. Os demais
foram determinados a partir de programas escritos na linguagem LEGAL do SPRING
(Apêndices 3 a 6).
Além dos índices de vegetação, transformações foram efetuadas nas
imagens resultantes da correção radiométrica, a fim de permitir a melhor discriminação entre
as classes. Foram geradas as imagens resultantes da aplicação da transformação por
72
componentes principais e do modelo linear de mistura espectral, por meio do SPRING. A
partir das bandas 2, 3 e 4, foram geradas as imagens fração vegetação, solo e sombra/água.
Utilizando-se as mesmas bandas, foram geradas as componentes primeira, segunda e terceira
aplicando-se a transformação por componentes principais, sendo que a terceira componente foi
desprezada por corresponder essencialmente a ruído.
5.3.3 Coleta de dados de verdade terrestre
Foram realizadas saídas de campo a fim de identificar as diferentes
culturas existentes bem como sua distribuição nas áreas de estudo. A coleta foi realizada
utilizando-se um aparelho GPS de navegação para individualizar as amostras, buscando-se
atingir a diversidade de culturas presente nas regiões de estudo.
Para assegurar uma determinação adequada da acurácia, tomou-se o
cuidado de escolher o maior número de áreas de treinamento e de teste possível, de forma
dispersa pela área de estudo, conforme as recomendações destacadas por Lillesand e Kiefer
(1994) e por Schowengerdt (1983).
As informações coletadas serviram de base para a definição das classes
de cobertura vegetal bem como para a definição dos conjuntos de amostras de treinamento
para a classificação e de teste para a verificação da acurácia do Classificador Árvore de
Decisão. Os dados foram coletados em datas próximas às datas de passagem do satélite das
imagens selecionadas para garantir confiabilidade às amostras.
A definição das classes buscou um nível discriminatório elevado,
considerando as imagens de resolução média utilizadas no estudo. Alguns tipos de culturas
específicos foram aglutinados em uma única classe devido à dificuldade de se obter amostras
representativas dessas culturas. Foi o caso da cultura da aveia no período de inverno, na região
de estudo, que é usada como cobertura do solo. Esta aparece, na maioria das vezes,
consorciada com nabo forrageiro ou ervilhaca. Durante a amostragem, nem sempre é possível
perceber as diferenças entre essas subclasses, de forma que foi considerada apenas uma classe
denominada aveia.
73
No caso do sorgo e do milho, essas espécies foram aglutinadas em uma
única classe devido às semelhanças espectrais existentes e também pelo fato de apresentarem,
à época da aquisição da cena pelo satélite, uma quantidade de amostras pequena, estando já em
fase de final de safra.
Para o pasto, foi considerada uma única classe, nos dois períodos de
estudo, devido à dificuldade de estabelecer subclasses que, numa mesma área ou talhão, o
pasto se apresentava heterogêneo, especialmente ao final do verão.
5.3.4 Determinação das classes de cobertura do solo
As classes de mapeamento e cobertura do solo foram determinadas
com base nas características da vegetação e das culturas presentes na região de estudo. Para o
período de verão, foram estabelecidas as classes: corpos d’água, solo exposto, eucalipto, pinus,
mata natural, sorgo-milho, pasto, soja, feijão e área urbana. Para o período de inverno, foram
consideradas as classes: corpos d’água, solo exposto, eucalipto, pinus, araucária, mata natural,
trigo, aveia, pasto e área urbana.
5.3.5 Classificação das imagens e mapeamento
Antes da classificação propriamente dita, o treinamento supervisionado
foi realizado no SPRING, com base na amostragem realizada em campo e nas classes de
cobertura estabelecidas. Imagens relativas ao treinamento são apresentadas no próximo
capítulo.
Para a etapa de classificação foi considerado o conjunto característico
com dezesseis (16) atributos: as bandas corrigidas 1, 2, 3 e 4, os índices de vegetação CTVI,
DVI, GEMI, NDVI, SR, SAVI e TVI, as imagens fração vegetação (MME_vegetação), solo
(MME_solo) e sombra/água (MME_água), e as componentes primeira (CP1) e segunda (CP2)
derivadas da transformação por componentes principais.
A classificação MAXVER foi executada no
SPRING a partir da amostras de treinamento selecionadas, utilizando-se diversas combinações
74
de atributos e analisando-se a acurácia obtida a partir de cada combinação. Após a
classificação, foi gerado o mapa de classes de cobertura no SPRING.
Para a Classificação por Árvore de Decisão, foram gerados os
conjuntos de amostras de treinamento e de teste, cada qual com duzentas amostras, sendo que
cada amostra se constituiu em um vetor característico com dezesseis atributos da imagem.
Essas amostras foram obtidas a partir do conjunto de treinamento gerado no SPRING para o
classificador MAXVER, a fim de que as amostras utilizadas nos dois classificadores
pertencessem à mesma localização na imagem, para fins de comparação.
Os arquivos de amostras de treinamento e de teste, juntamente com o
arquivo contendo a definição dos dezesseis atributos e das classes, foram utilizados no
programa See5 para a geração do Classificador Árvore de Decisão, a partir dos valores default
4
de todas as opções apresentadas na caixa de diálogo do programa. A partir do classificador
obtido, foram implementadas rotinas em LEGAL, no SPRING, para classificar a imagem e
gerar o mapa de cobertura (Apêndices 7 a 10).
5.3.6 Avaliação
A análise estatística dos resultados de classificação obtidos pelos
classificadores foi feita com base na matriz de erros de classificação, ou matriz de confusão,
obtida de cada classificação. A análise estendeu-se também à acurácia total, às acurácias
individuais de cada classe e ao coeficiente kappa (LILLESAND; KIEFER, 1994), obtidos a
partir dos valores da matriz de confusão.
4
O termo default refere-se a uma escolha padrão, a qual é feita automaticamente pelo programa quando o usuário
não especifica uma opção.
75
6 RESULTADOS E DISCUSSÃO
Foi realizada a aplicação dos métodos de classificação de imagens
digitais MAXVER e árvore de decisão nas duas cenas consideradas no estudo. Anteriormente
à classificação, foi realizado o treinamento supervisionado a partir da amostragem feita em
trabalho de campo e das classes de cobertura estabelecidas.
Os resultados da classificação das cenas foram analisados com base na
matriz de erros de classificação ou matriz de confusão. A partir das imagens classificadas,
foram gerados os mapas temáticos correspondentes.
6.1 Determinação das amostras de treinamento
O conjunto de amostras foi obtido a partir do treinamento
supervisionado, realizado por meio do SIG SPRING. As amostras foram individualizadas nas
cenas 157/128 e 158/127 a partir de sua localização geográfica, a qual foi determinada pela
utilização de aparelho GPS de navegação durante o trabalho de campo.
A Figura 15 exemplifica o processo de treinamento supervisionado,
exibindo amostras relativas às culturas presentes em uma área da Fazenda Escola Capão da
Onça, pertencente à Universidade Estadual de Ponta Grossa. A imagem exibida é um recorte
monocromático da cena 157/128, banda 4.
76
Figura 15 – Recorte monocromático da cena 157/128 relativo ao conjunto de amostras
de treinamento localizadas na Fazenda Capão da Onça, pertencente à Universidade
Estadual de Ponta Grossa
6.2 Discriminação da cena 157/128
6.2.1 Classificação pelo algoritmo MAXVER
Em relação à cena 157/128, a classificação realizada pelo algoritmo
MAXVER usando combinações feitas a partir do conjunto característico contendo os dezesseis
atributos (bandas corrigidas 1, 2, 3 e 4; índices de vegetação CTVI, DVI, GEMI, NDVI, SR,
SAVI e TVI; imagens fração vegetação, solo e sombra/água; componentes primeira e segunda
derivadas da transformação por componentes principais) resultou em diferentes valores para as
acurácias. O melhor resultado, entretanto, foi obtido considerando-se somente as quatro
bandas corrigidas, sendo a respectiva matriz de erros de classificação apresentada na Tabela 7.
Quanto à avaliação do resultado da classificação, a acurácia total foi
igual a 84,86% e o coeficiente kappa foi 0,8099, sendo este último considerado excelente de
77
acordo com a classificação de Landis e Koch (1977). Entretanto, os valores das acurácias das
classes relativas às culturas eucalipto, sorgo/milho, feijão e soja e também à classe pasto,
foram inferiores a 70%. Observou-se claramente confusão entre as classes mata e eucalipto,
mata e pinus, pasto e sorgo/milho, soja e pasto, além de feijão, soja e pasto, expressa por meio
da acurácia do produtor, que indica quão bem os pixels foram classificados para determinada
classe. Este fato também pode ser observado por meio do erro de omissão das classes.
Tabela 7 – Matriz de erros de classificação relativa ao Classificador MAXVER, cena 157/128
Classificação
Dados de referência
Total
Acurácia
do
usuário
AG EU SM PI MA SO PA AU SJ FE
Água (AG) 278 0 0 0 0 0 0 0 0 0 278 100,00%
Eucalipto
(EU)
0 12 0 2 0 0 0 0 0 0 14 85,71%
Sorgo/milho
(SM)
0 0 8 0 0 0 12 0 0 4 24 33,33%
Pinus (PI) 0 0 0 108 24 0 0 0 0 0 132 81,82%
Mata (MA) 0 28 1 2 250 0 0 0 0 0 281 88,97%
Solo (SO) 0 0 0 0 0 42 0 0 0 0 42 100,00%
Pasto (PA) 0 0 43 0 0 0 22 0 21 4 90 24,44%
Área urbana
(AU)
0 0 0 0 0 0 0 26 0 1 27 96,30%
Soja (SJ) 0 0 0 0 0 0 0 0 43 0 43 100,00%
Feijão (FE) 0 0 0 0 0 0 0 0 0 7 7 100,00%
Total 278 40 52 112 274 42 34 26 64 16 938
Acurácia
do produtor
100,00% 30,00% 15,38% 96,43% 91,24% 100,00% 64,71% 100,00% 67,19% 43,75%
Acurácia total = 84,86% Kappa = 80,99%
O erro de inclusão ou comissão, assim como a acurácia do usuário,
também são indicadores da qualidade da classificação. Estas medidas indicam a probabilidade
de um pixel classificado para uma determinada classe de fato pertencer a esta classe. Com
relação às classes eucalipto, mata, pasto, pinus e sorgo/milho, verificaram-se erros de inclusão
superiores a 10%.
Analisando outras combinações de atributos verificou-se acurácias
totais superiores a 80% para diversas combinações, envolvendo as bandas corrigidas, as
imagens fração, as componentes primeira e segunda, e os índices GEMI, NDVI, SAVI e TVI.
Todavia, as acurácias individuais de cada classe, em especial das classes de interesse, em
78
geral, o melhoraram. Quanto às combinações envolvendo os demais índices de vegetação
em conjunto, não houve melhora nos resultados em termos de acurácia total nem individual de
cada classe.
A Figura 16 exibe o mapa temático correspondente à classificação
MAXVER realizada a partir das quatro bandas corrigidas, a qual apresentou o maior valor para
a acurácia total assim como, para as acurácias relativas às culturas agrícolas.
Figura 16 – Mapa temático resultante da classificação MAXVER,
relativo à cena 157/128
A análise visual do mapa temático, com base no trabalho de campo
realizado, confirma a presença de áreas de reflorestamento de pinus em diversos pontos e
também a mata natural da região de Itaiacoca, distrito do Município de Ponta Grossa, que se
79
destaca à direita. Da mesma forma, visualiza-se a confusão entre diversas classes,
especialmente envolvendo as classes sorgo/milho e pasto.
As classes eucalipto, sorgo/milho e feijão apresentaram um número de
amostras de referência menor em relação às outras classes porque ocorreram em menor
quantidade na cena 157/128. Este fato pode explicar a confusão e os erros relativos a essas
classes.
À época da aquisição da cena 157/128, o pasto apresentava-se
heterogêneo, por tratar-se de final da estação de verão, fato que foi observado durante as
visitas a campo. Na matriz de erros de classificação correspondente, a classe pasto apresentou
erro de inclusão igual a 75,56% e confusão com a classe sorgo/milho.
6.2.2 Classificação pelo algoritmo Árvore de Decisão
As saídas resultantes da aplicação do algoritmo árvore de decisão, a
partir do conjunto de treinamento, correspondem à árvore de decisão ou classificador, à matriz
de erros de classificação relativa aos dados de teste, assim como informação relativa à
contribuição individual dos atributos para o classificador. A Tabela 8 apresenta a matriz de
erros de classificação relativa ao conjunto de teste, que corresponde a casos não usados no
treinamento, para a cena 157/128.
Ressalta-se que estes resultados foram obtidos considerando-se os
valores default
5
para as opções da caixa de diálogo do programa See5, visto que os resultados
foram satisfatórios para os mesmos. Nesta situação, fica habilitado o recurso de poda da árvore
em até 25%, e o número mínimo de casos de treinamento estabelecido para os ramos igual a 2.
A acurácia total obtida a partir do Classificador Árvore de Decisão foi
de 94,50%, superior à acurácia obtida pelo classificador MAXVER para a mesma cena
(84,86%). Da mesma forma, o valor do coeficiente kappa, igual a 0,9389, foi superior. De
acordo com Landis e Koch (1977), este valor é considerado excelente. Algumas acurácias
5
O termo default refere-se a uma escolha padrão, a qual é feita automaticamente pelo programa quando o usuário
não especifica uma opção.
80
individuais de cada classe foram igualmente superiores, permitindo uma melhor discriminação
entre as classes. Para as classes feijão, soja, pasto, solo, mata, sorgo/milho e eucalipto,
verificou-se uma melhora importante. Os erros de omissão e inclusão ficaram abaixo de 10%,
com exceção das classes mata (omissão: 13,64%), eucalipto e pasto (inclusão: 15,00%).
Tabela 8 – Matriz de erros de classificação relativa ao Classificador Árvore de Decisão, cena
157/128
Classificação
Dados de referência
Total
Acurácia
do
usuário
AG EU SM PI MA SO PA AU SJ FE
Água (AG) 19 0 0 0 0 1 0 0 0 0 20 95,00%
Eucalipto (EU) 0 17 0 1 2 0 0 0 0 0 20 85,00%
Sorgo/milho
(SM)
0 0 19 0 0 0 1 0 0 0 20 95,00%
Pinus (PI) 0 0 0 19 1 0 0 0 0 0 20 95,00%
Mata (MA) 0 1 0 0 19 0 0 0 0 0 20 95,00%
Solo (SO) 0 0 0 0 0 19 0 0 0 0 20 95,00%
Pasto (PA) 0 0 1 0 0 0 17 0 1 1 20 85,00%
Área urbana
(AU)
0 0 0 0 0 0 0 20 0 0 20 100,00%
Soja (SJ) 0 0 0 0 0 0 0 0 20 0 20 100,00%
Feijão (FE) 0 0 0 0 0 0 0 0 0 20 20 100,00%
Total 21 18 18 21 21 19 20 22 20 20 200
Acurácia
do produtor
100,00% 94,44% 95,00% 90,48% 86,36% 95,00% 94,44% 100,00% 95,24% 95,24%
Acurácia total = 94,50% Kappa = 93,89%
Comparados aos resultados obtidos por Fonseca et al. (2001) com os
classificadores MAXVER e ISOSEG, que buscaram a categorização nas classes milho, sorgo,
cana-de-açúcar, pasto, sem vegetação, água e floresta, as acurácias total e individual das
classes foram superiores. Os autores utilizaram como atributos as bandas 3, 4 e 5 do sensor
TM/Landsat 5, obtendo acurácias totais de 54,4% e 50%, respectivamente, para os
classificadores MAXVER e ISOSEG.
No processo de geração do classificador, a cada passo é selecionado o
atributo que maximiza a razão de ganho, a partir do conjunto de dezesseis atributos. A Tabela
9 relaciona os atributos selecionados na construção da árvore e seu porcentual de contribuição
para a mesma.
81
Tabela 9 – Emprego dos atributos selecionados na construção da árvore de decisão,
relativo à cena 157/128
Percentual Atributo
100% NDVI
90% MME_água
60% Banda4
41% Banda2
32% GEMI
30% CP1
27% Banda1
11% CP2
4% DVI
A árvore de decisão obtida (Figura 17), ou classificador, explicita de
forma simples e clara como é feita a classificação dos pixels de toda a imagem a partir do
conjunto de treinamento. O classificador obtido foi traduzido em um programa em linguagem
de programação LEGAL (Apêndice 7) para classificar a imagem. A Figura 18 exibe o mapa
temático correspondente à classificação utilizando o Classificador Árvore de Decisão, para a
cena 157/128, de 07/03/2007.
82
Figura 17 – Árvore decisão obtida a partir das amostras de
treinamento, relativa à cena 157/128
Se ndvi<=90 então
Se cp1<=26 então
Classe=6
Senão
Se mme_água<=150 então
Classe=10
Senão
Classe=9
Senão
Se mme_água>139 então
Se banda2>19 então
Classe=5
Senão
Se banda4<=103 então
Se banda1<=9 então
Classe=2
Senão
Classe=1
Senão
Se gemi>117 então
Classe=8
Senão
Se cp2<=123 então
Classe=2
Senão
Classe=8
Senão
Se banda4>204 então
Classe=4
Senão
Se mme_água<=125 então
Classe=3
Senão
Se banda1>50 então
Classe=3
Senão
Se gemi>153 então
Classe=7
Senão
Se dvi<=85 então
Classe=7
Senão
Classe=3
83
Figura 18 – Mapa temático resultante da classificação por árvore de
decisão, relativo à cena 157/128
6.3 Discriminação da cena 158/27
6.3.1 Classificação pelo algoritmo MAXVER
O mesmo procedimento metodológico foi aplicado à cena 158/127, de
02/09/2007, considerados os mesmos dezesseis atributos, resultando na matriz de erros de
classificação exibida na Tabela 10. Da mesma forma que para a cena 157/128, os melhores
resultados também ocorreram para a classificação realizada a partir das quatro bandas
84
corrigidas. Outras combinações de atributos não resultaram em melhores resultados quanto à
acurácia.
Embora o valor da acurácia total obtido seja de 77,90%, as classes
aveia, araucária e área urbana apresentaram acurácias individuais inferiores a 60%. Ficaram
evidentes as confusões entre as classes araucária e pinus, eucalipto e pinus, assim como aveia e
trigo. Os erros de omissão das classes aveia, trigo, eucalipto, pinus, araucária e área urbana
ficaram acima de 10%, sendo os mais elevados relativos às classes aveia e araucária.
Os menores valores para a acurácia do usuário ocorreram para as
classes pinus e araucária, com respectivos erros de inclusão maiores, indicando uma menor
probabilidade de um pixel pertencer a estas classes, de fato.
Tabela 10 – Matriz de erros de classificação relativa ao Classificador MAXVER, cena
158/127
Classificação
Dados de referência
Total
Acurácia
do
usuário
AV TR EU PI AR MA SO PA AU AG
Aveia (AV) 16 1 2 0 0 3 0 0 0 0 22 72,73%
Trigo (TR) 21 73 7 0 0 0 0 0 0 0 101 72,28%
Eucalipto
(EU)
0 8 53 6 0 2 0 0 0 0 69 76,81%
Pinus (PI) 0 0 8 34 18 1 0 0 0 0 61 55,74%
Araucária
(AR)
0 0 0 9 11 0 0 0 0 0 20 55,00%
Mata (MA) 0 0 6 1 0 88 0 1 0 0 96 91,67%
Solo (SO) 0 0 0 0 0 0 64 3 11 0 78 82,05%
Pasto (PA) 6 0 0 0 0 0 0 42 0 0 48 87,50%
Área urbana
(AU)
0 0 0 0 0 0 4 0 13 0 17 76,47%
Água (AG) 0 0 0 0 0 0 0 0 0 22 22 100,00%
Total 43 82 76 50 29 94 68 46 24 22 534
Acurácia
do produtor
37,21% 89,02% 69,74% 68,00% 37,93% 93,62% 94,12% 91,30% 54,17% 100,00%
Acurácia total = 77,90% Kappa = 74,76%
O mapa temático resultante da classificação MAXVER aplicada à cena
158/127 é exibido na Figura 19. Da análise visual do mapa temático correspondente à
classificação MAXVER para esta cena, é possível perceber a área de reflorestamento no
entorno do Município de Telêmaco Borba. Entretanto, nesta área, a espécie predominante é o
85
pinus, seguido do eucalipto e em menor escala a araucária, o que não ocorre no mapa
resultante. De fato, a matriz de erros de classificação expressa confusão entre essas classes.
Figura 19 – Mapa temático resultante da classificação MAXVER, relativo à cena 158/127
6.3.2 Classificação pelo algoritmo Árvore de Decisão
Para a cena 158/127, de 02/09/2007, que corresponde ao período de
inverno, os resultados obtidos da aplicação da classificação por árvore de decisão foram
superiores em relação ao classificador MAXVER, da mesma forma que ocorreu para a cena
157/128. A matriz de erros de classificação correspondente é exibida na Tabela 11. Para a
obtenção desses resultados, foram utilizados os valores default
6
do programa See5.
A acurácia total foi de 88%, superior àquela obtida pelo classificador
MAXVER para a mesma cena (77,9%). Quanto às acurácias individuais de cada classe, os
valores obtidos apresentaram valores superiores em relação ao Classificador MAXVER para a
6
O termo default refere-se a uma escolha padrão, a qual é feita automaticamente pelo programa quando o usuário
não especifica uma opção.
86
mesma cena, para as classes aveia, trigo, eucalipto pinus, araucária, mata e área urbana. Do
ponto de vista dos erros de omissão e inclusão, estes apresentaram valores relativamente
menores para a mesma cena, em relação à classificação MAXVER. As classes pinus e
araucária foram as que apresentaram maior confusão.
Tabela 11 – Matriz de erros de classificação relativa ao Classificador Árvore de Decisão,
cena 158/127
Classificação
Dados de referência
Total
Acurácia
do
usuário
V R U I R A O A U G
Aveia (AV) 19 1 0 0 0 0 0 0 0 0 20 95,00%
Trigo (TR) 1 19 0 0 0 0 0 0 0 0 20 95,00%
Eucalipto (EU) 0 0 20 0 0 0 0 0 0 0 20 100,00%
Pinus (PI) 0 0 0 13 6 1 0 0 0 0 20 65,00%
Araucária (AR) 0 0 0 2 18 0 0 0 0 0 20 90,00%
Mata (MA) 0 0 0 3 0 16 0 1 0 0 20 80,00%
Solo (SO) 0 0 0 0 0 0 15 2 3 0 20 75,00%
Pasto (PA) 1 0 0 0 0 0 0 19 0 0 20 95,00%
Área urbana (AU) 0 0 0 0 0 0 2 1 17 0 20 85,00%
Água (AG) 0 0 0 0 0 0 0 0 0 20 20 100,00%
Total 21 20 20 18 24 17 17 23 20 20 200
Acurácia
do produtor
90,48% 95,00% 100,00% 72,22% 75,00% 94,12% 88,24% 82,61% 85,00% 100,00%
Acurácia total = 88,00% Kappa = 86,67%
A árvore de classificação obtida como saída é exibida na Figura 20, e a
contribuição dos atributos da imagem na geração do classificador aparece na Tabela 12. Na
Figura 21, é mostrado o mapa temático resultante da classificação pelo classificador gerado.
Para a migração da imagem classificada para o mapa, foi feito um programa em linguagem de
programação LEGAL no SPRING (Apêndice 10).
87
Figura 20 – Árvore de Decisão obtida a partir das amostras de
treinamento, relativa à cena 158/127
Se tvi>175 então
Se banda2<=20 então
Se mme_solo<=79 então
Classe=5
Senão
Se mme_veget<=223 então
Classe=4
Senão
Se banda4<=60 então
Classe=5
Senão
Classe=4
Senão
Se banda4>66 então
Se mme_solo<=142 então
Se banda3<=30 então
Classe=2
Senão
Classe=8
Senão
Se mme_veget<=227 então
Classe=1
Senão
Classe=2
Senão
Se banda2>23 então
Classe=8
Senão
Se banda3>25 então
Classe=1
Senão
Se banda1<=22 então
Classe=4
Senão
Classe=6
Senão
Se cp1<=96 então
Classe=10
Senão
Se ctvi<=161 então
Classe=3
Senão
Se mme_água<=64 então
Classe=7
Senão
Se banda2<=27 então
Classe=7
Senão
Se cp1<=121 então
Classe=9
Senão
Se sr<=14 então
Classe=7
Senão
Classe=9
88
Tabela 12 – Emprego dos atributos selecionados na construção da árvore de decisão,
relativo à cena 158/127
PERCENTUAL ATRIBUTO
100% TVI
76% Banda2
47% Banda4
40% CP1
39% MME_solo
30% CTVI
23% Banda3
20% MME_vegetação
20% MME_água
12% Banda1
4% SR
Figura 21 – Mapa temático resultante da classificação por árvore de decisão, relativo à
cena 158/127
89
6.4 Considerações finais
A Tabela 13 resume os resultados relacionados à exatidão obtidos da
aplicação dos métodos de classificação MAXVER e árvore de decisão em relação às duas
cenas estudadas. Para as duas as cenas, o Classificador Árvore de Decisão resultou em uma
maior acurácia total. O coeficiente kappa, que leva em conta também os valores da matriz de
confusão que estão fora da diagonal principal, foi igualmente superior, indicando uma
concordância maior em relação aos dados usados como referência.
Tabela 13 – Resultados obtidos (MAXVER X árvore de decisão)
Classificador
Cena 157/128
(07/-3/2007)
Cena 158/127
(02/09/2007)
Acurácia
total
Kappa Acurácia
total
Kappa
MAXVER
84,86% 80,99% 77,90% 74,76%
Árvore de decisão
94,50% 93,89% 88,00% 86,67%
A partir da comparação entre as Tabelas 9 e 11, que exibem a
contribuição dos atributos da imagem, em porcentual, na geração dos classificadores para as
duas cenas, é possível verificar que os atributos utilizados não tiveram a mesma importância.
A árvore de decisão define a categorização buscando um padrão para cada classe por meio das
propriedades espectrais definidas pelos atributos da imagem, selecionando os atributos que
melhor particionam o conjunto de treinamento. O conhecimento adquirido nesse processo fica
expresso pela árvore decisão gerada, de forma clara e simples.
90
Para o Classificador Árvore de Decisão, o uso de um amplo e variado
conjunto de atributos demonstrou ser conveniente, enquanto que para o Classificador
MAXVER isto não se verificou. Desta forma, é possível incorporar outros atributos, os quais
podem ser adquiridos de outras fontes, de forma a garantir uma discriminação que mais se
aproxime da realidade.
A metodologia utilizada para o mapeamento a partir de classificação
por árvore de decisão incluiu dados de sensoriamento remoto e softwares disponíveis na
internet, provendo uma forma simples para utilização e de resultados excelentes para a
discriminação das classes presentes nas cenas de estudo.
91
7 CONCLUSÕES
O estudo mostrou a possibilidade de obtenção de um mapeamento da
cobertura vegetal incluindo a discriminação entre culturas espectralmente próximas, a partir de
dados de sensoriamento remoto de nível médio como o sensor CCD/CBERS-2, utilizando o
Classificador Árvore de Decisão.
Em comparação ao Classificador MAXVER, verificaram-se resultados
superiores em termos de acurácia total, bem como em relação às acurácias individuais das
classes, especialmente daquelas relativas às culturas.
Os resultados demonstraram que a utilização de um grande número de
atributos obtidos a partir das bandas do sensor é vantajosa para o Classificador Árvore de
Decisão, que seleciona aqueles que melhor separam as classes durante o processo de geração
da árvore de decisão.
O estudo evidenciou a necessidade de incorporar o Classificador
Árvore de Decisão a um sistema de informações geográficas, a fim de facilitar o seu uso e
permitir uma melhor funcionalidade para o usuário.
92
8 REFERÊNCIAS BIBLIOGRÁFICAS
ARCE, E. C.; RUDORFF. B. F. T.; BERKA, L. M. S.; PEREIRA, P. F. C. Imágenes Landsat e
CBERS em la identificación del uso del suelo com cultivos agrícolas. In: SIMPÓSIO
BRASILEIRO DE SENSORIAMENTO REMOTO, 12., 2005, Goiânia. Anais eletrônicos...
São José dos Campos: INPE, 2005. Disponível em:
<http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 16 abr. 2007.
ASSAD, E. D.; SANO, E. E. Sistema de informações geográficas: aplicações na agricultura.
2. ed. Brasília: Embrapa-SPI/Embrapa-CPAC, 1998. 434p. (ISBN 857383045).
BREIMAN, L.; FRIEDMAN, J. H.; STONE, C. J.; OLSHEN, R. A. Classification and
regression trees. California: Chapman & Hall/CRC, 1984. 368p. (ISBN 0412048418).
CÂMARA, G.; MEDEIROS, J. S. de. Princípios básicos em geoprocessamento. In: ASSAD,
E. D.; SANO, E. E. Sistema de informações geográficas: aplicações na agricultura. 2. ed.
Brasília: Embrapa-SPI/Embrapa-CPAC, 1998. cap. 1.
CÂMARA, G.; MONTEIRO, A. M. V. Conceitos básicos em ciência da geoinformação. In:
CÂMARA, G.; DAVIS, C.; MONTEIRO, A. M. V. Introdução à ciência da geoinformação.
93
São José dos Campos: INPE, 2001. cap. 1. Disponível em:
<http://urlib.net/sid.inpe.br/sergio/2004/04.22.07.43>. Acesso em: 10 mar. 2008.
CÂMARA, G.; SOUZA, R. C. M.; FREITAS, U. M.; GARRIDO, J. SPRING: integrating
remote sensing and GIS by object-oriented data modelling. Computers & Graphics, v. 20, n.
3, p. 395-403, may./jun. 1996.
CELINSKI, T. M. Métodos de agrupamento: uma abordagem comparativa com aplicação
em segmentação de imagens de profundidade, 1998. Dissertação. 142p. (Mestrado em
Informática), Universidade Federal do Paraná – UFPR, Curitiba, 1998.
CHAVEZ, P. S. An improved dark-object subtraction technique for atmospheric scattering
correction of multispectral data. Remote Sensing of Environment, v. 24, n. 3, p. 459-479,
1988.
DAVIS, C.; CÂMARA, G. Arquitetura de sistemas de informação geográfica. In: CÂMARA,
G.; DAVIS, C.; MONTEIRO, A. M. V. Introdução à ciência da geoinformação. São José
dos Campos: INPE, 2001. cap. 3. Disponível em:
<http://urlib.net/sid.inpe.br/sergio/2004/04.22.07.43>. Acesso em: 10 mar. 2008.
DWIVEDI, R. S.; KANDRIKA, S.; RAMANA, K. V. Comparison of classifiers of remote-
sensing data for land-use/land-cover mapping. Current Science, v. 86, n. 2, p. 328-335, 25
jan. 2004.
ENGESAT, Web: http://www.engesat.com.br/produtos/grade_cbers/pr_tm.htm. Acesso: 10
mar. 2008.
ESPOSITO, F.; MALERBA, D.; SEMERARO, G. A comparative analysis of methods for
pruning decision trees. IEEE Transactions on Pattern Analysis and Machine Intelligence,
v. 19, n. 5, p. 476-491, may. 1997.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G; SMYTH, P. From data mining to knowledge
discovery: an overview. In: FAYYAD, U. M.; PIATETSKY-SHAPIRO, G; SMYTH, P;
94
UTHURUSAMY, R. Advances in knowledge discovery and data mining. MIT Press,
1996a. 560 p. (ISBN 0262560976).
FAYYAD, U.; PIATETSKY-SHAPIRO, G; SMYTH, P. From data mining to knowledge
discovery in databases. AI Magazine, v. 17, n. 3, p. 37-54, Fall 1996b.
FAYYAD, U.; PIATETSKY-SHAPIRO, G; SMYTH, P. The KDD process for extracting
useful knowledge from volumes of data. Communications of de ACM, v. 39, n. 11, p. 27-34,
nov. 1996c.
FIGUEIREDO, S. M. de M.; CARVALHO, L. M. T. de. Análise comparativa entre técnicas de
classificação digital em imagens Landsat no mapeamento do uso e ocupação do solo em
Capixaba, Acre. In: SIMPÓSIO BRASILEIRO DE SENSORIAMENTO REMOTO, 13., 2007,
Florianópolis. Anais eletrônicos... São José dos Campos: INPE, 2007. Disponível em:
<http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 23 ago. 2007.
FIGUEIREDO, S. M. de M.; CARVALHO, L. M. T. de. Avaliação da exatidão do
mapeamento da cobertura da terra em Capixaba, Acre, utilizando classificação por árvore de
decisão. Cerne, v. 12, n. 1, p. 38-47, jan./mar. 2006.
FONSECA, E. L. da; OLIVEIRA, J. C. de; RIZZI, R. Avaliação da identificação de áreas
agrícolas para fins de previsão de safras utilizando procedimentos de classificação digital de
imagens do sensor TM/Landsat 5. In: SIMPÓSIO BRASILEIRO DE SENSORIAMENTO
REMOTO, 10., 2001, Foz do Iguaçu. Anais eletrônicos... São José dos Campos: INPE, 2001.
Disponível em: <http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 16 nov. 2006.
FONSECA, L.; PONZONI, F.; CARTAXO, R. Radiometric quality assessment of CBERS-
2. [S.I.] Deposited in the URLib collection, 2004. Offcial; Documents; (APPL-06-2004).
Disponível em: <http://urlib.net/dpi.inpe.br/banon/2006/08.03.19.18>. Acesso em: 7 mar.
2008.
FREITAS, S. R.; CRUZ, C. B. M. Análise de componentes principais e modelo linear de
mistura na discriminação de classes de vegetação na Mata Atlântica. In: SIMPÓSIO
95
BRASILEIRO DE SENSORIAMENTO REMOTO, 12., 2005, Goiânia. Anais eletrônicos...
São José dos Campos: INPE, 2005. Disponível em:
<http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 9 abr. 2007.
GONZALEZ, R. C.; WOODS, R. E. Processamento de imagens digitais. São Paulo: Ed.
Edgard Blücher, 2000. 528p. (ISBN 8521202644).
HAN, J.; KAMBER, M. Data mining: concepts and techniques. Morgan Kaufmann, 2001.
550 p. (ISBN 1558604898).
HASHEMIAN, M. S.; ABKAR, A. A.; FATEMI, S. B. Study of sampling methods for
accuracy assessment of classified remotely sensed data. In: ISPRS Congress, 20., 2004,
Istanbul. Proceedings… Singapore, ISPRS, 2004. Disponível em:
<http://www.isprs.org/istanbul2004/comm4/comm4.html>. Acesso em: 07 mar. 2008.
HUETE, A. R. A soil-asjusted vegetation index (SAVI). Remote Sensing of Environment, v.
25, p. 295-309, 1988.
HUETE, A. R.; JACKSON, R. D.; POST, D. F. Spectral response of plant canopies with
different soil background. Remote Sensing of Environment, v. 17, p. 37-53, 1985.
INPE, Web: http://www.cbers.inpe.br/?content=index. Acesso: 15 dez. 2007.
JORDAN, C. F. Derivation of leaf area index from quality of light on the forest floor.
Ecology, v. 50, p. 663-666, 1979.
KING, R.; FENG, C.; SHUTHERLAND, A. StatLog: comparison of classification algorithms
on large real-world problems. Applied Artificial Inteligence, v. 9, n. 3, p. 259-287,
may./jun.1995. Disponível em: <http://citeseer.ist.psu.edu/lim00comparison.html>. Acesso
em: 21 jun. 2007.
KOHAVI, R.; QUINLAN, J. R. Data mining tasks and methods: Classification: decision-tree
discovery. In: Handbook of data mining and knowledge discovery. New York: Oxford
University Press, 2002.
96
KUNTSCHIK, G.; GLERIANI, J. M. C.; PIVELLO, V. R. Coeficientes das componentes
greeness, brightness e wetness da transformação Tasseled Cap para chernossolos da província
de Buenos Aires, Argentina. In: SIMPÓSIO BRASILEIRO DE SENSORIAMENTO
REMOTO, 13., 2007, Florianópolis. Anais eletrônicos... São José dos Campos: INPE, 2007.
Disponível em: <http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 26 mar. 2008.
LANDIS, J.; KOCH, G. G. The measurements of agreement for categorical data. Biometrics,
Washington, v. 33, n. 3, p. 159-179, mar. 1977.
LANDSAT, Web: http://www.landsat.org. Acesso: 10 mar. 2007.
LILLESAND, T. M.; KIEFER, R. W. Remote sensing and image interpretation. 3. ed.
United States of América: John Wiley & Sons, 1994. 1040 p. (ISBN 8535211772).
LIM, T.-S.; LOH, W.-I.; SHIH, Y.-S. A comparison of prediction accuracy, complexity, and
training time of thirty-three old and new classification algorithms. Machine Learning,
Boston, v. 40, p. 203-229, 2000. Disponível em:
<http://citeseer.ist.psu.edu/lim00comparison.html>. Acesso em: 18 out. 2007.
LIU, W. T. H. Aplicações de sensoriamento remoto. Campo Grande: UNIDERP, 2006. 881
p. (ISBN 8577040400).
LOH, W.-I.; SHIH, Y.-S. Split selection methods for classification trees. Statistica Sinica, v.
7, p. 815-840, 1997.
MARKHAM, B. L.; BARKER, J. L. Landsat MSS and TM post-calibration dynamic ranges,
exoatmospheric reflectances and at-satellite temperatures. EOSAT Landsat Technical Notes,
n. 1, p. 3-8, aug. 1986.
MITCHELL, T. M. Machine learning. McGraw-Hill, 1997. 432 p. (ISBN 0070428077).
MOREIRA, M. A. Fundamentos do sensoriamento remoto e metodologias de aplicação.
São José dos Campos: Instituto Nacional de Pesquisas Espaciais, 2001. 250 p. (ISBN 901991).
97
NILSSON, N. J. Introduction to machine learning: an early draft of a proposed textbook.
Stanford: 1996. Disponível em:
<http://robotics.stanford.edu/people/nilsson/MLDraftBook/MLBOOK.pdf>. Acesso em: 22
ago. 2007.
NOVO, E. M. L. de. Sensoriamento remoto: princípios e aplicações. 2. ed. São Paulo: Edgard
Blücher, 1992. 328 p. (ISBN 8521200579).
OLIVEIRA, L. G. L. de; PEREIRA, L. M.; PEREIRA, G.; MORAES, E. C.; MAEDA, E. E.
Estudo da variabilidade de índices de vegetação através de imagens do ETM+/LANDSAT 7.
In: SIMPÓSIO BRASILEIRO DE SENSORIAMENTO REMOTO, 13., 2007, Florianópolis.
Anais eletrônicos... São José dos Campos: INPE, 2007. Disponível em:
<http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 14 abr. 2007.
PAL, M.; MATHER, P. M. Na assessment of the effectiveness of decision tree methods for
land cover classification. Remote Sensing of Environment, v. 86, p. 554-565, 2003.
PERRY, C. R.; LAUTENSCHLAGER, L. F. Functional equivalence of spectral vegetation
indices. Remote Sensing of Environment, v. 14, n. 1-3, p. 169-182, jan. 1984.
PINTY, B.; VERSTRAETE, M. M. GEMI: a non-linear index to monitor global vegetation
form satellites. Vegetation, n. 101, p. 15-20, 1992.
PONZONI, F. J.; SHIMABUKURO, Y. E. Sensoriamento remoto no estudo da vegetação.
São José dos Campos: Parêntese, 2007. 136 p. (ISBN 9788560507023).
PONZONI, F. J.; ZULLO JUNIOR, J.; LAMPARELLI, R. A. C. Calibração absoluta da
câmera CCD/CBERS-2. In: SIMPÓSIO BRASILEIRO DE SENSORIAMENTO REMOTO,
12., 2005, Goiânia. Anais eletrônicos... São José dos Campos: INPE, 2005. Disponível em:
<http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 10 mar. 2008.
PONZONI, F. J.; ZULLO JUNIOR, J.; LAMPARELLI, R. A. C. Transformações
radiométricas dos dados dos sensores do satélite CBERS-2. In: SIMPÓSIO DE
98
GEOTECNOLOGIAS NO PANTANAL, 1., 2006, Campo Grande. Anais eletrônicos...
Campinas: Embrapa Informática Agropecuária; São José dos Campos: INPE, 2006. Disponível
em: <http://urlib.net/sid.inpe.br/mtc-m17@80/2006/12.08.13.51.31>. Acesso em: 27 ago.
2007.
QUINLAN, J. R. C4.5: programs for machine learning. San Francisco, California: Morgan
Kaufmann, 1993. 302 p. (ISBN 1558602380).
QUINLAN, J. R. Generating production rules from decision trees. In: INTERNATIONAL
JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE, 10., 1987, Milan, Italy.
Proceedings… Milan, Italy, Morgan Kaufmann, 1987. p. 304-307.
QUINLAN, J. R. Induction of decision trees. Machine Learning, v. 1, n. 1, p. 81-106, mar.
1986.
RICHARDSON, A. J.; WIEGAND, C. L. Distinguishing vegetation from soil background
information. Photogrammetric Engineering and Remote Sensing, n. 43, p. 207-216, 1977.
ROUSE, J. W.; HASS, R. H.; SCHELL, J. A.; DEERING, D. W. Monitoring the vernal
advancement and retrogradation (Greenwave effect) of nature vegetation. NASA/GSFCT
Type III Final Report, 1974. 64p.
ROUSE, J. W.; HASS, R. H.; SCHELL, J. A.; DEERING, D. W. Monitoring vegetation
systems in the great plains with ERTS. In: SYMPOSIUM OF EARTH RESOURCES
TECHNOLOGY SATELLITE, 3., 1973, Maryland, USA. Proceedings… Washington,
Greenbelt, 1973. p. 309-317.
RUSSEL, S.; NORVIG, P. Inteligência artificial. Rio de Janeiro: Elsevier, 2004. 1040 p.
Tradução da 2. ed. (ISBN 8535211772).
SAFAVIAN, S. R.; LANDGREBE, D. A survey of decision tree classifier methodology. IEEE
Transactions on Systems, Man and Cybernetics, v. 21, n. 3, p. 660-674, may. 1991.
99
SCHOTT, J. R. Remote sensing: the image chain approach. New York: Oxford University
Press, 1997. 394 p. (ISBN 0195087267).
SCHOWENGERDT, R. A. Techniques for image processing and classification in remote
sensing. New York: Academic Press, 1983. 249 p. (ISBN 0126289808).
SERVELLO, E. L.; DISPERATI. A. A.; LOPES, A. L. de B.; SANTOS, J. R. dos; OLIVEIRA
FILHO, P. C. de. Mapeamento de uso da terra na região Centro-Sul do Paraná com imagem
CBERS a partir da técnica de modelo linear de mistura espectral. In: SIMPÓSIO
BRASILEIRO DE SENSORIAMENTO REMOTO, 13., 2007, Florianópolis. Anais
eletrônicos... São José dos Campos: INPE, 2007. Disponível em:
<http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 23 ago. 2007.
SILVA, M. L. M. de; PEREIRA, G. P. M. Avaliação de algoritmos de classificação
supervisionada para imagens do Cbers-2 da Região do Parque Estadual do Rio Doce-MG. In:
SIMPÓSIO BRASILEIRO DE SENSORIAMENTO REMOTO, 13., 2007, Florianópolis.
Anais eletrônicos... São José dos Campos: INPE, 2007. Disponível em:
<http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 17 abr. 2007.
TAMBOSI, L. R.; IGARI, A. T.; RIBEIRO, M. C.; PIVELLO, V. R. Análise comparativa
entre classificações realizadas a partir de imagens Landsat-7 ETM+ e CBERS-2 CCD. In:
SIMPÓSIO BRASILEIRO DE SENSORIAMENTO REMOTO, 13., 2007, Florianópolis.
Anais eletrônicos... São José dos Campos: INPE, 2007. Disponível em:
<http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 21 nov. 2007.
TANAJURA, E. L. X.; ANTUNES, M. A. H.; UBERTI, M. S. Avaliação de índices de
vegetação para a discriminação de alvos agrícolas em imagens de satélites. In: SIMPÓSIO
BRASILEIRO DE SENSORIAMENTO REMOTO, 12., 2005, Goiânia. Anais eletrônicos...
São José dos Campos: INPE, 2005. Disponível em:
<http://www.dsr.inpe.br/sbsr2007/biblioteca/>. Acesso em: 09 abr. 2007.
100
TSO, B.; MATHER, P. M. Classification methods for remotely sensed data. London:
Taylor & Francis, 2001. 332 p. (ISBN )
VENTURIERI, A.; SANTOS, J. R. dos. Técnicas de classificação de imagens para análise de
cobertura vegetal. In: ASSAD, E. D.; SANO, E. E. Sistema de informações geográficas:
aplicações na agricultura. 2. ed. Brasília: Embrapa-SPI/Embrapa-CPAC, 1998. cap. 18.
101
APÊNDICE
102
APÊNDICE 1 – Rotina de conversão de DN para reflectância aparente
{
//Declaração
Imagem b1 ("CCD");
Imagem b2 ("CCD");
Imagem b3 ("CCD");
Imagem b4 ("CCD");
Imagem novabanda1 ("CCD");
Imagem novabanda2 ("CCD");
Imagem novabanda3 ("CCD");
Imagem novabanda4 ("CCD");
//Instanciação
b1 = Recupere (Nome = "Banda1");
b2 = Recupere (Nome = "Banda2");
b3 = Recupere (Nome = "Banda3");
b4 = Recupere (Nome = "Banda4");
novabanda1 = Novo (Nome = "B1_ref_ap_", ResX=20, ResY=20);
novabanda2 = Novo (Nome = "B2_ref_ap", ResX=20, ResY=20);
novabanda3 = Novo (Nome = "B3_ref_ap", ResX=20, ResY=20);
novabanda4 = Novo (Nome = "B4_ref_ap", ResX=20, ResY=20);
//Operação
pi=3.1416;
a=1.0167;
b=46.4297*pi/180;
novabanda1 = ((3.1423 * (b1 / 1.009) * (a ^2)) / (1934.03 * cos(b))) * 350;
novabanda2 = ((3.1423 * (b2 / 1.930) * (a ^2)) / (1787.10 * cos(b))) * 350;
novabanda3 = ((3.1423 * (b3 / 1.154) * (a ^2)) / (1548.97 * cos(b))) * 350;
novabanda4 = ((3.1423 * (b4 / 2.127) * (a ^2)) / (1069.21 * cos(b))) * 350; }
103
APÊNDICE 2 – Rotina de correção atmosférica
{
//Declaração
Imagem b1 ("CCD");
Imagem b2 ("CCD");
Imagem b3 ("CCD");
Imagem b4 ("CCD");
Imagem novabanda1 ("CCD");
Imagem novabanda2 ("CCD");
Imagem novabanda3 ("CCD");
Imagem novabanda4 ("CCD");
//Instanciação
b1 = Recupere (Nome = "B1_ref_ap");
b2 = Recupere (Nome = "B2_ref_ap");
b3 = Recupere (Nome = "B3_ref_ap");
b4 = Recupere (Nome = "B4_ref_ap");
novabanda1 = Novo (Nome = "B1_corr_atm", ResX=20, ResY=20);
novabanda2 = Novo (Nome = "B2_corr_atm", ResX=20, ResY=20);
novabanda3 = Novo (Nome = "B3_corr_atm", ResX=20, ResY=20);
novabanda4 = Novo (Nome = "B4_corr_atm", ResX=20, ResY=20);
//Operação
menorvalorb1 = <menor valor para a B1_corr_atm>;
menorvalobr2 = <menor valor para a B2_corr_atm>;
menorvalorb3 = <menor valor para a B3_corr_atm>;
menorvalorb4 = <menor valor para a B4_corr_atm>;
novabanda1 = b1 – menorvalorb1;
novabanda2 = b2 – menorvalorb2;
novabanda3 = b3 – menorvalorb3;
novabanda4 = b4 – menorvalorb4; }
104
APÊNDICE 3 – Rotina de determinação do CTVI
{
//Declaração
Imagem b3 ("CCD");
Imagem b4 ("CCD");
Imagem novabanda ("CCD");
//Instanciação
b3 = Recupere (Nome = "B3_corr_atm");
b4 = Recupere (Nome = "B4_corr_atm");
novabanda = Novo (Nome = "CTVI", ResX=20, ResY=20);
//Operação
novabanda = (((b4 - b3) / (b4 + b3)) + 0.5) / ((abs(((b4 - b3) / (b4 + b3)) + 0.5)) *
(sqrt(abs(((b4 - b3) / (b4 + b3)) + 0.5))));
}
105
APÊNDICE 4 – Rotina de determinação do GEMI
{
//Declaração
Imagem b3 ("CCD");
Imagem b4 ("CCD");
Imagem etaa ("CCD");
Imagem novabanda ("CCD");
//Instanciação
b3 = Recupere (Nome = "B3_corr_atm");
b4 = Recupere (Nome = "B4_corr_atm");
etaa = Novo (Nome = "etaa_pg", ResX=20, ResY=20);
novabanda = Novo (Nome = "GEMI", ResX=20, ResY=20);
//Operação
etaa = ((2 * (b4^2 - b3^2)) + (1.5 * b4) + (0.5 * b3)) / (b4 + b3 + 0.5);
novabanda = 0.0125 * (etaa * (1 - (0.25 * etaa)) * ((b3 - 0.125) / (1 - b3)));
}
106
APÊNDICE 5 – Rotina de determinação do SAVI
{
//Declaração
Imagem b3 ("CCD");
Imagem b4 ("CCD");
Imagem novabanda ("CCD");
//Instanciação
b3 = Recupere (Nome = "B3_corr_atm");
b4 = Recupere (Nome = "B4_corr_atm");
novabanda = Novo (Nome = "SAVI", ResX=20, ResY=20);
L = 0.5;
//Operação
novabanda = ((b4 - b3) / ( b4 + b3 + L)) * (1 + L);
}
107
APÊNDICE 6 – Rotina de determinação do TVI
{
//Declaração
Imagem b3 ("CCD");
Imagem b4 ("CCD");
Imagem novabanda ("CCD");
//Instanciação
b3 = Recupere (Nome = "B3_corr_atm");
b4 = Recupere (Nome = "B4_corr_atm");
novabanda = Novo (Nome = "TVI", ResX=20, ResY=20);
//Operação
novabanda = sqrt(((b4 - b3) / ( b4 + b3)) + 0.5);
}
108
APÊNDICE 7 – Rotina de classificação por árvore de decisão (cena 157/128)
{
//Declaração
Imagem b1 ("CCD");
Imagem b2 ("CCD");
Imagem b4 ("CCD");
Imagem cp1 ("CCD");
Imagem cp2 ("CCD");
Imagem dvi ("CCD");
Imagem gemi ("CCD");
Imagem mmeagua ("CCD");
Imagem ndvi ("CCD");
Imagem novabanda ("CCD");
//Instanciação
b1 = Recupere (Nome = "B1_corr_atm");
b2 = Recupere (Nome = "B2_corr_atm");
b4 = Recupere (Nome = "B4_corr_atm");
cp1 = Recupere (Nome = "CP1");
cp2 = Recupere (Nome = "CP2");
dvi = Recupere (Nome = "DVI");
gemi = Recupere (Nome = "GEMI");
mmeagua = Recupere (Nome = "MMEag");
ndvi = Recupere (Nome = "NDVI");
novabanda = Novo (Nome = "ClassAD", ResX=20, ResY=20);
//Operação
novabanda = ndvi<=90 ? (cp1<=26 ? 6 : (mmeagua<=150 ? 10 : 9)) : (mmeagua>139 ? (b2>19
? 5 : (b4<=103 ? (b1>=9 ? 2 : 1) : (gemi>117 ? 8 : (cp2<=123 ? 2 : 8)))) : (b4>204 ? 4 :
(mmeagua<=125 ? 3 : (b1>50 ? 3 : (gemi>153 ? 7 : (dvi<=85 ? 7 : 3))))));
}
109
APÊNDICE 8 – Rotina de classificação por árvore de decisão (cena 158/127)
{
//Declaração
Imagem b1 ("CCD");
Imagem b2 ("CCD");
Imagem b3 ("CCD");
Imagem b4 ("CCD");
Imagem cp1 ("CCD");
Imagem ctvi ("CCD");
Imagem mixag ("CCD");
Imagem mixso ("CCD");
Imagem mixve ("CCD");
Imagem sr ("CCD");
Imagem tvi ("CCD");
Imagem novabanda ("CCD");
//Instanciação
b1 = Recupere (Nome = "B1_corr_atm");
b2 = Recupere (Nome = "B2_corr_atm");
b3 = Recupere (Nome = "B3_corr_atm");
b4 = Recupere (Nome = "B4_corr_atm");
cp1 = Recupere (Nome = "CP1");
ctvi = Recupere (Nome = "CTVI");
mixag = Recupere (Nome = "MMEag");
mixso = Recupere (Nome = "MMEso");
mixve = Recupere (Nome = "MMEve");
sr = Recupere (Nome = "SR");
tvi = Recupere (Nome = "TVI");
novabanda = Novo (Nome = "ClassAD", ResX=20, ResY=20);
//Operação
110
novabanda = tvi>175 ? (b2<=20 ? (mixso<=79 ? 5 : (mixve<=223 ? 4 : (b4<=60 ? 5 : 4))) :
(b4>66 ? (mixso<=142 ? (b3<=30 ? 2 : 8) : (mixve<=227 ? 1 : 2)) : (b2>23 ? 8 : (b3>25 ? 1 :
(b1<=22 ? 4 : 6))))) : (cp1<=96 ? 10 : (ctvi<=161 ? 3 : (mixag<=64 ? 7 : (b2<=27 ? 7 :
(cp1<=121 ? 9 : (sr<=14 ? 7 : 9))))));
}
111
APÊNDICE 9 – Rotina de geração do mapa temático (cena 157/128)
{
//Declaração
Imagem imclassAD ("CCD");
Tematico classes ("MapaVerão");
//Instanciação
imclassAD = Recupere (Nome = "ClassAD");
classes = Novo (Nome = "ClassAD_T", ResX=20, ResY=20);
classes = Atribua
{
"Pinus" : (imclassAD == 1),
"Eucalipto" : (imclassAD == 2),
"Pasto" : (imclassAD == 3),
"Soja" : (imclassAD == 4),
"Feijão" : (imclassAD == 5),
"Água" : (imclassAD == 6),
"Sorgo_milho" : (imclassAD == 7),
"Mata" : (imclassAD == 8),
"Solo" : (imclassAD == 9),
"Área_urbana" : (imclassAD == 10)};
}
112
APÊNDICE 10 – Rotina de geração do mapa temático (cena 158/127)
{
//Declaração
Imagem imclassAD ("CCD");
Tematico classes ("MapaInverno");
//Instanciação
imclassAD = Recupere (Nome = "ClassAD");
classes = Novo (Nome = "ClassAD_T", ResX=20, ResY=20);
classes = Atribua
{
"Aveia" : (imclassAD == 1),
"Trigo" : (imclassAD == 2),
"Eucalipto" : (imclassAD == 3),
"Pinus" : (imclassAD == 4),
"Araucária" : (imclassAD == 5),
"Mata" : (imclassAD == 6),
"Solo" : (imclassAD == 7),
"Pasto" : (imclassAD == 8),
"ÁreaUrbana" : (imclassAD == 9),
"Água" : (imclassAD == 10)};
}
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo