| Home | Página Principal | Módulo Mix | Módulo Usuários |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Inferências e Estimativas de Incertezas Utilizando Técnicas de Krigeagem Não LinearCarlos Alberto Felgueiras Suzana Druck Fuks Antonio Miguel Vieira Monteiro Eduardo Celso Gerbi Camargo RESUMOPropriedades ambientais são dados importantes para modelagens desenvolvidas em ambiente de Sistemas de Informação Geográfica. As técnicas geoestatísticas de inferência, conhecidas por krigeagem, consideram os atributos ambientais como variáveis aleatórias o que possibilita a modelagem das incertezas associadas às inferências. Neste contexto, o presente trabalho explora o uso da técnica de krigeagem não linear, a krigeagem por indicação, para inferências a partir de amostras observadas pontualmente. O trabalho apresenta, também, alternativas de cálculos de incertezas para propriedades ambientais de natureza numérica e temática. Por fim, o trabalho mostra e analisa os resultados da aplicação da krigeagem por indicação sobre amostras de textura de solo. ABSTRACTEnvironmental properties are very important data for spatial modelling in the Geographical Information Systems context. The geostatistical techniques for estimation, named kriging, consider the environmental attributes as random variables allowing the inference of uncertainties related to the estimated values. This article explores the nonlinear kriging technique, the indicator kriging, to estimate values from a set of sample point data. Also, alternatives for uncertainty assessment for numerical and thematic environmental properties are presented. Finally, this works shows and analyzes the results obtained when the indicator kriging approach is used with soil texture samples. 1. IntroduçãoNo contexto de Sistemas de Informação Geográfica SIGs muitas propriedades, ou atributos, ambientais são representadas por um conjunto de amostras pontuais. Cada amostra pontual está localizada no espaço geográfico 2D por suas coordenadas (xi,yi) e contém o valor zi da propriedade medida na posição i. Este valor pode representar propriedades numéricas, como altimetria, ou propriedades temáticas, como classes de solo. As amostras pontuais formam um subconjunto limitado em relação à quantidade de posições e valores possíveis dentro de uma área de interesse. Para se obter valores em posições não amostradas utilizam-se algoritmos inferênciais que se baseiam no conjunto amostral disponível. Os SIGs atuais incorporam vários algoritmos de inferência para espacializar propriedades segundo uma estrutura de grade regularmente distribuída no espaço. Entretanto, raramente essa espacialização é acompanhada de informações sobre a qualidade do dado gerado. Informação sobre a qualidade de um produto é valiosa para apoiar decisões baseadas no mesmo. As técnicas geoestatísticas de inferência, conhecidas por krigeagem, consideram os atributos ambientais como variáveis aleatórias o que possibilita a modelagem das incertezas associadas às inferências. Essas técnicas têm sido utilizadas, com frequência, para espacialização de atributo ambientais amostrados pontualmente (Oliver, 1990 e Camargo, 1997). A krigeagem é um estimador de média ponderada local que utiliza o critério de minimização da variância de estimação para definir os pesos associados a cada amostra considerada. Além disso, esse critério permite a criação de um mapa de incertezas de estimação associado ao mapa de atributos espacializados. Estas são as principais vantagens do interpolador de krigeagem em relação a outros interpoladores de média ponderada, cujos ponderadores são, em geral, definidos por paradigmas subjetivos. Porém as variâncias de krigeagem estão relacionadas a distribuição espacial das amostras e não informam sobre a variabilidade do atributo na região de interesse ( Deutsch, 1998). A técnica de inferência conhecida como krigeagem por indicação, que é uma técnica de inferência estatística não linear, permite a estimativa dos valores, e também das incertezas associadas ao atributo, durante o processo de espacialização de uma propriedade amostrada. Essa técnica baseia-se na premissa de que a propriedade em estudo é considerada uma variável aleatória em cada posição não amostrada. As inferências dos valores e das incertezas são obtidos a partir da construção da função de distribuição acumulada, condicionada aos dados amostrados, de cada variável aleatória. Nesse contexto, os objetivos desse trabalho são: explorar o potencial da krigeagem por indicação para espacialização de propriedades ambientais representadas por amostras pontuais; apresentar alternativas para cálculos de incertezas para variáveis aleatórias e; mostrar resultados da utilização da krigeagem por indicação para propriedades ambientais de natureza temática. O presente trabalho contém, após a introdução, uma seção conceitual para formalizar as técnicas de krigeagem e krigeagem por indicação. Nessa seção também são apresentadas alternativas para cálculo de incertezas baseadas na distribuição dos valores de probabilidades associados à variáveis aleatórias numéricas e temáticas. Na sequência apresenta-se um exemplo onde se explora a técnica de krigeagem por indicação sobre um conjunto amostral representativo de classes de textura de solo. Finalmente o trabalho contém uma seção de análise dos resultados obtidos, no exemplo, e uma seção final de conclusões. 2. ConceitosA geoestatística modela os valores de um atributo, dentro de uma região A da superfície terrestre, como uma função aleatória. Para cada posição u Î A o valor do atributo de um dado espacial é modelado como uma variável aleatória (VA) Z(u). Isto significa que, na posição u, a VA Z(u) pode assumir diferente valores desse atributo, cada valor com uma probabilidade de ocorrência associada. Nas n posições amostradas, ua , a =1,2,...,n, os valores z(ua ) são considerados determinísticos, ou ainda, podem ser considerados VAs cujo valor medido tem uma probabilidade de 100% de ocorrência. A função de distribuição de Z(u) condicionada aos dados amostrado, F(u; z|(n)), é definida por:
A F(u; z|(n)) modela a incerteza sobre os valores de z(u), em posições u não amostradas, considerando-se as n amostras. Esta seção formaliza os conceitos relacionados aos estimadores geoestatísticos de krigeagem e de krigeagem por indicação. Também são apresentadas alternativas para o cálculo de incertezas associadas aos atributos inferidos pelo método de krigeagem por indicação. 2.1 O Estimador de KrigegagemA krigeagem é uma "coleção de técnicas de regressão linear generalizadas para minimizar uma variância de estimação a partir de um modelo de covariância definido a priori", Deutsch, 1998. A krigeagem estima um valor de um atributo, em uma posição espacial u não amostrada, a partir de um conjunto de amostras vizinhas z(ua ), a = 1,...,n.. Esse procedimento é similar àquele usado em interpolação de média móvel ponderada com a diferença que os pesos são derivados de uma análise geoestatística ao invés de um modelo geral e possivelmente inapropriado (Burrough, 1998). O estimador de krigeagem simples é definido por:
onde m é a média estacionária da função aleatória caracterizada pelas variáveis aleatórias definidas numa região estacionária A. A hipótese de estacionariedade de segunda ordem implica, também, que a covariância C(h) entre duas variáveis aleatórias só depende do vetor h determinado pelas localizações espaciais dessas variáveis. Os pesos da equação 2.3, l Sa (u) com a =1,...,n, são determinados pelos seguintes critérios: o estimador deve ser não tendencioso, ou seja E{Z*(u)}-E{Z(u)}= 0, e a variância do erro de estimação, s 2 = Var(Z*(u)- Z(u)), é a mínima entre todos os estimadores lineares não tendenciosos. A aplicação dessas premissas possibilita o cálculo dos pesos l Sa (u), a =1,...,n, pela solução do seguinte sistema de equações de krigeagem simples:
onde: C(ua , ub ) é a covariância entre as amostras observadas em ua e ub ; C(u, ub ) é a covariância entre a amostra observada em ub e o ponto não amostrado u e; f é o multiplicador de Lagrange necessário para a minimização da variância. As covariâncias são calculadas a partir do modelo de variograma teórico, 2g (h), ajustado sobre o variograma experimental que é determinado, a partir do conjunto amostral, por:
onde N(h) é o número de pares de amostras separadas pelo vetor h. Sob a hipótese de estacionariedade em A, a seguinte relação é válida (Isaaks, 1989):
Uma desvantagem do estimador de krigeagem simples é a necessidade de se conhecer a priori a média estacionária da região A. Uma alternativa é o estimador de krigeagem ordinária que possibilita a inferência do atributo, numa posição u não amostrada, sem a necessidade de se conhecer a média estacionária m . Sob a condição de que a somatória dos ponderadores da krigeagem ordinária l Oa (u) é igual a 1, ou seja:
obtêm-se a seguinte formulação para o estimador de krigeagem ordinária:
Pode-se mostrar que a formulação do estimador de krigeagem ordinária é equivalente a uma krigeagem simples com médias estimadas localmente a partir das amostras vizinhas, Deutsch, 1998. A substituição de uma única média estacionária por médias locais, ou tendências locais, faz do estimador de krigeagem ordinária uma opção bem mais interessante do que o estimador de krigeagem simples. Existem outros tipos de krigeagem linear, tais como a krigeagem universal, a krigeagem disjuntiva, a krigeagem probabilística, etc., porém estão fora do escopo deste trabalho. A variância de krigeagem ordinária s O2 é dada por (Isaaks, 1989):
onde s 2 = C(h=0) é a variância do atributo e determina o quão errático é o atributo. As covariâncias C(ua , ub ) consideram aglomerados de amostras e aumentam a variância s O2 sempre que as amostras estão próximas entre si. A variância s O2 diminui com o aumento da covariância C(u, ua ), ou seja, com a proximidade da amostra em relação à posição u. Observa-se assim que o valor de variância de krigeagem está relacionada a distribuição espacial das amostras, e não depende diretamente dos valores do atributo. Deutsch, 1998, argumenta que "as variâncias de krigeagem, sendo independentes dos dados, fornecem apenas uma comparação entre diferentes configurações geométricas de dados". Portanto a variância de krigeagem não pode ser usada como medida de incerteza do atributo em análise a não ser que o atributo possa ser modelado por uma função aleatória multigaussiana. Essa premissa é difícil de ser verificada e raramente ocorre para atributos ambientais. Na seção seguinte descreve-se a krigeagem por indicação que possibilita a estimativa de incertezas sem a necessidade de se definir um modelo de distribuição de probabilidade a priori. 2.2 A Krigeagem por IndicaçãoComo já citado no início da seção 2, a função de distribuição acumulada, F(u; z|(n)), modela a incerteza sobre os valores de z(u), em posições u não amostradas, considerando-se as n amostras. Essa função pode ser inferida a partir do procedimento de inferência chamado de krigeagem por indicação. Ela é uma técnica de inferência estatística não linear pois é aplicada sobre os valores do atributo transformados por um mapeamento não linear, a codificação por indicação. A codificação por indicação da VA Z(u=ua ), em um valor de corte z = zk, gera a VA I(u=ua ; zk) utilizando a seguinte função de mapeamento não linear:
Os valores de corte, zk, k=1,2...,K, são definidos em função do número de amostras. É necessário que a quantidade de amostras codificadas com valor 1 seja suficiente para se definir, com sucesso, um modelo de variografia para cada valor de corte (Journel, 1983). A esperança condicional da VA por indicação I(u; zk) é calculada por:
A equação acima representa um resultado muito importante no que diz respeito a inferência da distribuição de probabilidade de uma variável aleatória: "A esperança condicional de I(u; zk) fornece, para o valor de corte z = zk , uma estimativa do valor da função de distribuição condicionada, fdc, de Z(u) no caso de atributos temáticos e uma estimativa da função de distribuição acumulada condicionada, fdac, para atributos numéricos". A krigeagem por indicação simples é um procedimento de krigeagem linear simples aplicado ao conjunto amostral codificado por indicação em z = zk, ou seja:
onde FS*(zk) é a média da função aleatória da região estacionária e os pesos l Sa (u; zk) são determinados com o objetivo de minimizar a variância do erro de estimação. Considerando-se a somatória dos pesos igual a 1 obtêm-se uma variante mais simplificada da krigeagem por indicação simples, a krigeagem por indicação ordinária, cuja expressão de estimação se resume a:
Os pesos l Oa (u; zk) são obtidos solucionando-se o seguinte sistema de equações krigeagem por indicação ordinária:
onde m (u; zk) é um parâmetro de Lagrange, ha b é o vetor definido entre posições ua e ub , ha é o vetor definido entre posições ua e u, CI(ha b ; zk) é a autocovariância definida por ha b e CI(ha ; zk) é a autocovariância definida por ha . As autocovariâncias são determinadas pelo modelo de variografia teórico definido pelo conjunto I quando z = zk. A krigeagem por indicação, simples ou ordinária, fornece, para cada valor k de corte, uma estimativa que é também a melhor estimativa mínima quadrática da esperança condicional da VA I(u; zk). Utilizando esta propriedade pode-se calcular estimativas dos valores da fdc de Z(u) para vários valores de zk, pertencentes ao domínio de Z(u). O conjunto dos valores estimados para das fdcs de Z(u), nos valores de corte, é considerado uma aproximação discretizada da fdc real de Z(u). Quanto maior a quantidade de valores de corte melhor é a aproximação. A krigeagem por indicação é não paramétrica. Não considera nenhum tipo de distribuição de probabilidade a priori para a variável aleatória. Ao invés disso, ela possibilita a construção de uma aproximação discretizada da fdc de Z(u). Os valores de probabilidades discretizados podem ser usados diretamente para se estimar valores característicos da distribuição, tais como: valor médio, variância, moda, quantis e outros. 2.3 Medidas de Incerteza para Variáveis AleatóriasComo já visto, os procedimentos de krigeagem por indicação possibilitam a estimativa de uma aproximação da fdc, quando Z(u) representa atributos temáticos, ou fdac, quando Z(u) representa atributos numéricos, de uma VA numa determinada localização espacial u. Para variáveis aleatórias temáticas estimam-se as probabilidades univariadas pj(u), j=1,...,L, das L classes definidas no domínio da VA. Essas probabilidades são utilizadas para inferência do valor, ou da classe, e da incerteza da VA na localização u não amostrada. O valor estimado para a VA temática é a classe de maior probabilidade. A incerteza em u, Inc(u), pode ser determinada pelo valor de máxima probabilidade, incerteza por moda, ou por uma combinação dos valores de probabilidades das L classes, incerteza por entropia. Dado o conjunto de probabilidades, pj(u) com j=1,...,L, a incerteza por moda é determinada por:
onde pjmax(u) é a probabilidade da classe mais provável da função de distribuição de probabilidade em u, ou seja, , pjmax(u) = Max (pj(u)) j=1,...,L, A incerteza por entropia é calculada a partir da medida de entropia proposta por Shannon, 1948. Informalmente, a entropia pode ser entendida com uma medida relacionada a organização espacial de um atributo. Ela mede a confusão, ou a desordem, relacionada aos valores, ou possíveis estados, associados a um atributo. Quando a VA é temática, ou resultado da discretização de uma VA numérica, (Journel, 1993), a entropia de Shannon, de sua distribuição univariada, tem a seguinte formulação:
Para variáveis aleatórias numéricas estimam-se as probabilidades acumuladas univariadas pk(u), k=1,...,K, dos K valores de corte. Essas probabilidades são utilizadas para inferência do valor e da incerteza da VA na localização u não amostrada. O valor estimado para a VA numérica pode ser o valor médio ou a mediana da distribuição. A mediana é um estimador mais robusto quando a distribuição tem alto grau de assimetria. A incerteza, Inc(u), pode ser determinada pela variância s 2=E{(Z(u)-E{Z})2}. A variância pode ser usada para se definir intervalos de confiança do tipo:
quando a variável apresenta um nível de simetria que
possibilita supor a hipótese de normalidade . Para distribuições altamente
assimétricas, uma medida mais robusta é o intervalo interquartil definido como a
diferença entre o maior e o menor quartil, onde 3. ExemploEsta seção apresenta resultados da aplicação da krigeagem por indicação para dados amostrais de natureza temática. A área de estudo pertence à fazenda Canchim, base física do Centro de Pesquisa Pecuária do Sudeste (SPPSE EMBRAPA), localizada no município de São Carlos, estado de São Paulo, Brasil. Essa região cobre uma área de 2660 hectares, entre as coordenadas de 21o5500 à 21o5900, latitudes sul, e 47o4800 à 41o5200, longitudes oeste. Detalhes das características da região estão descritos em Camargo, 1997. 3.1 Um Exemplo de Inferência para Variáveis TemáticasDa área de estudo obteve-se um conjunto de amostras de textura do solo (Calderano, 1996) classificados como: solo arenoso, solo médio argiloso, solo argiloso e solo muito argiloso. A Figura 3.1 mostra, no mapa à esquerda, os limites da fazenda Canchim e a distribuição espacial das amostras de textura do solo com seus respectivos valores. As amostras de textura foram analisadas, utilizando-se o módulo de análise geoestatístico do sistema de informação geográfica SPRING (INPE/DPI, 1999, Câmara, 1996 e Camargo, 1997), com o objetivo de se obter o modelo de variografia representativo do atributo textura do solo. Essa análise mostrou um comportamento anisotrópico para a textura do solo nessa região. A partir das frequências das classes no conjunto amostral, as probabilidades globais, a priori, das classes de textura foram definidas como: P(1) = 0.2, P(2) = 0.34, P(3) = 0.38 e P(4) = 0.08. Foram definidos 4 conjuntos de variáveis por indicação referentes às 4 classes de textura do solo. Para cada um desses conjuntos definiu-se um variograma experimental. Os parâmetros dos modelos de variografia teóricos, ajustados para os variogramas experimentais, estão apresentados na tabela 3.1. Utilizando-se o conjunto amostral, os modelos teóricos de variografia e o programa de krigeagem por indicação da GSLIB, ik3d.exe, geraram-se grades regulares de 200 linhas por 200 colunas com resolução horizontal, dx, igual a 35 metros e resolução vertical, dy, igual a 50 metros. O retângulo envolvente, em coordenadas UTM e datum SAD69, da área em estudo foi definido como: xmin = 204000.0, xmax = 211000.0, ymin = 7565000.0 e ymax = 7575000.0.
As grades regulares foram transferidas para o SPRING que possibilitou a criação dos mapas de valores inferidos e incertezas apresentados na figuras apresentadas nesta seção. O mapas da Figura 3.1 mostram resultados da inferência das classes de textura com interpolador de vizinho mais próximo e com interpolador de krigeagem por indicação (mapa à direita). O mapa inferido por krigeagem foi obtido definindo-se um raio máximo de busca igual a 2000 metros e um número máximo de pontos condicionantes igual a 12. A Figura 3.2 mostra os mapas de incerteza por moda e por entropia referentes ao mapa inferido por krigeagem apresentado na Figura 3.1. As Figuras 3.3 e 3.4 apresentam mapas de valores inferidos e incertezas associadas das classes de textura gerados com 4 e 16 pontos condicionantes.
A tabela 3.2 apresenta os valores mínimo, máximo, médio e a variância dos mapas de incerteza, por moda e por entropia, para valores máximos de pontos condicionantes iguais a 4, 8, 12 e 16.
Os resultados, mapas e tabelas, apresentados nesta seção serão analisados na seção 3.2. 3.2 Análise dos ResultadosOs mapas de valores estimados por krigeagem por indicação, apresentados na seção 3.1, mostram que pode-se aplicar com sucesso esse procedimento estocástico de inferência para espacializar atributos de natureza temática. Essa técnica é equivalente a uma classificação que utiliza apenas amostras pontuais como informação a priori. Isto não é um resultado trivial já que os estimadores determinísticos baseados em médias locais das amostras só podem ser aplicados à atributos numéricos. A Figura 3.2 ilustra as diferenças existentes entre o mapa de incertezas por moda e o mapa de incertezas por entropia. As diferenças são mais aparentes nas regiões onde várias classes se confundem. Isto já era um resultado esperado, uma vez que, nestas regiões a distribuição de probabilidade das variáveis aleatórias está mais próxima de uma distribuição uniforme. Nessas áreas a incerteza por entropia tem seus valores maximizados. A incerteza por moda mostra um aumento de incerteza a partir do parte central de uma classe em direção as bordas de transição. Os valores máximos de incerteza por moda aparecem nas bordas entre as classes e não tem influência do número de classes próximos as bordas. As Figuras 3.1 e 3.3 mostram que o estimador de krigeagem por indicação gera mapas de valores inferidos que apresentam diferenças entre si. Isto mostra uma dependência do estimador em relação ao número máximo de pontos condicionantes definidos para cada procedimento. A medida que se aumenta o número de pontos condicionantes o mapa resultante da espacialização tende a ter menor variabilidade do atributo, ou seja, a superfície gerada é mais suave. Qualitativamente essas diferenças não são muito pronunciadas pois os mapas resultantes mantém uma certa tendência para cada região classificada. Comparando-se os mapas de incerteza por moda, apresentados nas figuras 3.2 e 3.4, observa-se que o número de pontos condicionantes também influencia os valores de incertezas estimados. Nos mapas de incertezas as diferenças são bem mais pronunciadas do que nos mapas de valor estimado. A tabela 3.2 apresenta, quantitativamente, esse resultado. Observa-se, desta tabela, que os valores médios da incerteza aumentam com o número de pontos condicionantes. Em contrapartida as variâncias das incertezas diminuem, com o aumento dos pontos condicionantes, caracterizando superfícies de incertezas com variabilidade mais suave. ConclusõesEste trabalho mostra o potencial da técnica de krigeagem não linear para inferência dos valores e estimativa de incertezas na espacialização de propriedades ambientais amostradas pontualmente. Os resultados obtidos no exemplo mostram que a técnica se aplica com sucesso para propriedades ambientais de natureza temática. Essa técnica se aplica também à propriedades numéricas que são, em geral, tratadas após uma discretização de seu comportamento. O trabalho apresenta, ainda, diferentes alternativas para estimativa dos mapas de incertezas. Os mapas de incerteza fornecem informação sobre a qualidade dos mapas inferidos. Essas incertezas são propagadas em modelagens ambientais que utilizam o atributo ambiental espacializado como dado de entrada. O mapa final, produto da modelagem, deve ser acompanhado do mapa de incerteza propagado que fornece informação quantitativa sobre os riscos assumidos ao se tomar decisões apoiadas nos produtos inferidos. Infelizmente as incertezas raramente são incorporadas aos produtos gerados pelos SIGs atualmente em uso. Espera-se que, com aumento da conscientização sobre a importância da qualidade da informação, os dados de incerteza passem a fazer parte dos requisitos básicos para projetos de modelagens espaciais desenvolvidas segundo a filosofia de um SIG. Este trabalho é uma contribuição nessa direção. Referências BibliográficasBurrough, P. A.; McDonnell, R. A.,1998. Principles of Geographical Information Systems. New York, Oxford University Press, 1998. 333p. Calderano Filho, B.; Fonseca, O. O. M.; Santos, H. G.; Lemos A. L. Levantamento Semidetalhado dos Solos da Fazenda Canchim São Carlos - SP. Rio de Janeiro, EMBRAPA- CNPS, 1996. 261p. Câmara, G., Souza, R. C. M., Freitas U. M., Garrido, J. SPRING: Integrating Remote Sensing and GIS by Object-Oriented Data Modelling. Computer & Graphics, v. 20, n. 3, p. 395-403, 1996. Camargo, E. C. G. Desenvolvimento, implementação e teste de procedimentos geoestatísticos (krigeagem) no sistema de processamento de informações georeferenciadas (SPRING). Dissertação (Mestrado em Sensoriamento Remoto) Instituto Nacional de Pesquisas Espaciais, São José dos Campos, 1997. Deutsch, C. V.; Journel, A. G. GSLIB Geostatistical Software Library and Users Guide. New York, Oxford University Press, 1998. 369p. Isaaks, E. H.; Srivastava, R. M. An Introduction to Applied Geostatistics. New York, Oxford University Press, 1989. 561p. INPE/DPI - Instituto Nacional de Pesquisas Espaciais. Departamento de Processamento de Imagens. Sistema de Processamento de Informações Georreferenciadas (SPRING). http://www.inpe.br/spring. Março, 1999. Journel, A. G. Nonparametric Estimation of Spatial Distributions. Mathematical Geology, v. 15, n. 3, p. 445-468, 1983 Journel, A. G.; Deutsch, C. V. Entropy and Spatial Disorder. Mathematical Geology, v. 25, n. 3, p. 329-355, 1993. Oliver, M. A.; Webster, R. Kriging: a method of interpolation for geographical information systems. International Journal of Geographical Information Systems, v. 4, n. 3, p. 313-332, 1990. Shannon, C. E.; Weaver, W. The Mathematical Theory of Communication. Urbana, The University of Illinois Press, 1949. 117p.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Home | Página Principal | Módulo Mix | Módulo Usuários | |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||