CAPÍTULO 3
MODELAGEM
Este Capítulo procura situar o leitor com respeito às principais fases do processo de modelagem e representação de dados geográficos em ambiente computacional. A abordagem adotada, ao dividir o processo em várias fases, tem por objetivo permitir um melhor entendimento do problema.
3.1 - CONCEITUAÇÃO DE MODELO
Ao se estudar um determinado processo ambiental, é comum o uso de modelagem, que consiste em descrever de forma matemática, simbólica ou funcional o processo de interesse. O resultado é um modelo que procura representar o conhecimento que se tem sobre o processo em estudo. Por exemplo, para descrever o comportamento hidrológico de uma determinada região, pode-se gerar para a área de estudo um modelo hidrológico que descreva o fluxo da água e sua composição.
Os computadores e consequentemente os Sistemas de Informação Geográfica operam sobre números e caracteres, por isto não há como aplicá-los diretamente a variáveis do mundo real. A representação e a análise destas variáveis ambientais no contexto computacional passam primeiramente pela aquisição de amostras da variável. Contudo, devido à complexidade da natureza, à imprecisão na medida das amostras, às aproximações de modelagem, aos interesses de estudo e às limitações computacionais, os modelos são representações simplificadas da realidade. Um bom modelo é aquele que prevê correta e consistentemente o funcionamento do mundo real para a variável de interesse.
Para uma mesma área geográfica de estudo podem ser obtidos diversos modelos, cada um representando a visão e o interesse do modelador. Por exemplo, ao criar um modelo conceitual a partir de uma imagem de Sensoriamento Remoto, um geólogo estrutural, um geomorfólogo e um geobotânico provavelmente produzirão três modelos diferentes. O geólogo estrutural registrará lineamentos, atitude das camadas, eixo de dobras. O geomorfólogo está interessado nas unidades de relevo e suas formas e o geobotânico mapeará as unidades de vegetação e suas relações com a litologia.
O grau de similaridade de um modelo com a realidade pode ser estimada pela acurácia com que o resultado do modelo ajusta-se ao resultado do fenômeno natural e pela correspondência entre a previsão gerada pelo modelo e a observada no fenômeno. Neste contexto de verificação da validade do modelo, a acurácia dos dados e seus métodos de aquisição são fatores relevantes.
Sob a perspectiva de gerenciamento, os modelos são projetados para avaliar as conseqüências da aplicação de determinada política ambiental, acompanhar a evolução de planejamentos e simular e estimar situações de risco. Do ponto de vista científico, os modelos são construídos para melhorar a compreensão de sistemas naturais, pois o processo de construção de um modelo força o modelador a justificar sua visão conceitual do fenômeno e a quantificar a influência de cada fator (Cross and Moscardini,1985).
3.2 - PARADIGMA DOS QUATRO UNIVERSOS
Devido à complexidade do mundo real, o processo de captura da realidade para efeito de modelagem envolve abstrações, generalizações e aproximações. Neste caso uma abordagem recomendada é a divisão do processo em vários níveis que permitam o encapsulamento dos problemas de cada nível, possibilitando assim um melhor entendimento destes problemas e a conseqüente a solução dos mesmos. Esta abordagem é discutida por Peuquet (1984), Gomes e Velho (1994) e aplicada por Câmara (1995) no desenvolvimento do modelo conceitual do SPRING. Denominada de "paradigma dos quatro universos", esta abordagem estabelece quatro níveis ou universos de abstração:
A figura 3.1 ilustra os níveis de abstração relevantes para modelagem de dados geográficos, segundo a abordagem do paradigma dos quatro universos.

Fig. 3.1 - Níveis de abstração relevantes.
FONTE: adaptada de Laurini e Thompson, (1992),pg.23
Uma consideração importante durante o processo de modelagem é que o modelo resultante não apenas define como uma variável geográfica será representada, mas também determina o conjunto de processos e análises que podem ser implementados a partir daquele modelo.
3.3 - UNIVERSO DO MUNDO REAL
Do universo do mundo real selecionam-se os objetos, as variáveis de interesse. Estes objetos se caracterizam através da variação de uma determinada grandeza física ou química. Esta variação pode ocorrer em relação ao espaço ou ao tempo. Por exemplo, ao se estudar o comportamento do uso do solo em uma determinada região (variável de interesse) , posições diferentes na região, provavelmente possuirão culturas diferentes, como milho, soja, arroz, pastagem, etc (variação espacial). E em uma mesma posição, o uso do solo poderá sofrer alterações quando avaliado em épocas distintas (variação temporal).
3.3.1 - MODELAGEM AMBIENTAL
A modelagem ambiental é o desenvolvimento de modelos de estudo para processos ambientais. Uma característica comum nos dados tratados em modelagem ambiental é a presença do atributo espacial sempre associado a atributos temáticos.
Os dados espaciais extraídos do universo do mundo real e incluídos em modelos ambientais são derivados de dados disponíveis sobre topografia, meteorologia, propriedades dos solos, propriedades geológicas, cobertura da terra, uso da terra, hidrologia e qualidade da água, etc. Cada um destes tipos de dado tem características próprias quando usados em modelos ambientais.
Uma vez que não se pode medir uma variável espacialmente contínua em todas as posições, deve-se usar técnicas de aquisição de informações para capturar um número finito, mas representativo de valores, que descreva a variável de estudo. Os computadores disponíveis são máquinas finitas, discretas, que só podem armazenar valores com precisão finita, não permitindo o armazenamento ou a manipulação de duas variáveis espacialmentes contínuas, e ter como resultado uma terceira variável, também espacialmente contínua. Assim sendo, devido às limitações de aquisição e de manipulação em um ambiente computacional, a continuidade espacial presente em algumas váriaveis ambientais requer discretização.
Para efeito de estudo estas variáveis são descritas inicialmente como um conjunto de valores medidos de forma amostral no universo do mundo real. As medidas podem ser feitas por níveis de medidas númericos ou por níveis de medidas temáticos, conforme discutido na seção 2.3.
Como os dados não podem ser armazenados em computadores nem adquiridos de forma contínua, um dos maiores problemas em usar dados espaciais em modelos ambientais é o não casamento entre a realidade espacialmente contínua, as formas de discretização usadas para coletar e armazemar amostras deste dados contínuos e a forma na qual estes dados devem ser usados no modelo.
Uma das abordagens para o tratamento de variações contínuas da natureza considera a variação como um conjunto infinito de estados ou observações. Como não se pode enumerar este conjunto infinito, concentra-se apenas em um subconjunto destas observações. As observações escolhidas dependem dos objetivos, dos interesses e principalmente das ferramentas de medidas disponíveis(Casti,1989) .
A pesquisa matemática de técnicas para solução de equações diferenciais contínuas tem produzido alguns métodos numéricos que são apropriados para o tratamento da continuidade no ambiente computacional. Estes métodos, denominados de métodos numéricos de diferença, baseiam-se em técnicas que permitem a simplificação de equações diferenciais complexas de forma que elas possam ser resolvidas por meios analíticos. Dentre estes métodos, dois estão sendo utilizados nas implementações computacionais de modelos ambientais, o método de elementos finitos e o método das diferenças finitas.
O método de soluções por diferença finita é o mais usado em modelos ambientais. Nele, o tempo e o espaço são discretizados em pequenos intervalos e uma equação diferencial é escrita para cada intervalo gerando-se assim um sistema de equações. O sistema de equações é então resolvido simultaneamente (Gerald e Wheatley,1989).
O método de soluções por elemento finito é mais apropriado para problemas nos quais a área de estudo não pode ser facilmente quebrada em unidades retangulares simples ou são melhor tratadas como um conjunto de áreas homogêneas mas de formas irregulares.
Uma das características da tecnologia SIG é representar a informação espacial numéricamente, o que contrasta com a forma analógica e espacializada dos mapas em papel. A necessidade em modelagem ambiental de ferramentas que descrevam e manipulem esta informação numérica de forma espacializada tem estimulado o desenvolvimento de áreas como estatística espacial e álgebra de mapas (Berry,1993).
A estatística espacial desenvolveu-se como uma extensão da estatística clássica com o objetivo de melhor caracterizar a distribuição espacial presente nos dados geográficos. A figura 3.2 exemplifica como o recurso da estatística espacial dá uma visão mais precisa do comportamento da variável.
A figura 3.2 mostra o mapeamento da densidade de microorganismos em uma região de um lago. Os valores usados podem ser obtidos através de análises em laboratório de amostras coletadas em algumas posições do lago. A plotagem em um sistema de coordenadas x,y é mostrada na parte superior esquerda, onde cada par (x,y) é a localização de cada amostra de densidade em um determinado período de tempo. Quando avaliado pela distribuição numérica, o atributo de localização (x,y) é desprezado, e a concentração média de microorganismos (430 ± 5.17) assumida como verdadeira para todo o lago, como se vê no gráfico inferior direito. Quando avaliado pela estatística espacial, onde o atributo de localização é também considerado, tem-se uma descrição mais realista da distribuição de microorganismos no lago. Percebe-se, por exemplo, que a posição de maior e a de menor concentração de microorgamismos está na região sul da área analizada.

Fig. 3.2 Estatística espacial: Uma ferramenta de modelagem ambiental
FONTE: Goodchild et al. (1993),p.59
A álgebra de mapas, por sua vez, também pode ser vista como uma extensão da álgebra tradicional aplicada a dados geográficos. Na álgebra de mapas o comportamento espacial de um variável ambiental sobre uma região geográfica é tratado como um operando da álgebra.
3.4 - UNIVERSO MATEMÁTICO
Neste nível de abstração busca-se conceituar e definir formalmente os objetos de estudo, selecionados do universo do mundo real. O resultado deste nível de abstração é a conceituação humana da realidade descrita na forma matemática. Normalmente só as propriedades consideradas relevantes são incorporadas ao modelo.
Quando o modelo assume a forma matemática, com entidades simbólicas satisfazendo um conjunto particular de axiomas e teoremas, este modelo é denominado modelo matemático.
3.4.1 - classes de dados geográficos: Campo e Objeto
No universo matemático, classificam-se os dados geográficos em duas grandes classes (Goodchild, 1992):
A primeira classe, denominada de campo geográfico ou geo-campo, é formada por variáveis cujos valores são definidos em todas as posições da região geográfica de estudo, ou seja, são variáveis espacialmente contínuas. Variáveis como temperatura, topografia, teor de minerais, reflectância e emitância pertencem a esta classe de dados geográficos.
A segunda classe, denominada de objetos geográficos ou geo-objetos, é formada por variáveis que apresentam descontinuidade espacial e podem ser individualizadas, ou seja, estas variáveis não são definidas em todas as posições da região geográfica de estudo. Variáveis como rios, determinada cultura em uma imagem ou lotes em um mapa cadastral pertencem a esta classe de dados geográficos.
Variáveis cujo valor pode estar associado com uma posição geográfica (x,y), são denominadas genéricamente de variáveis espaciais. Este trabalho aborda somente a modelagem e manipulação de variáveis espaciais da classe geo-campo.
3.4.2 - DEFINIÇÃO DE CAMPO
Goodchild (1992) sugere que o elemento fundamental de informação geográfica é uma tupla do tipo:
T = <x,y,z1,z2 ,z3,......zn>
Esta tupla T descreve o valor de n variáveis espaciais na posição (x,y). Como x e y determinam posições no espaço, e o espaço é contínuo, o número de tuplas é infinito. Usando o conceito de tupla, pode-se afirmar que uma variável espacial da classe campo pode ser descrita como um conjunto infinito de tuplas <x,y,z>, tal que a componente z de cada tupla contém o valor da variável espacial na posição x,y (Goodchild,1992).
Usando uma abordagem mais formal, Câmara (1995) define um geo-campo (f) como uma entidade matemática que representa a distribuição de uma variável espacialmente contínua sobre uma região geográfica (R).
f = [R,V,l ]
R : região geográfica definindo o domínio espacial
V : contra-domínio de valores da variável na região geográfica
l : mapeamento entre pontos (x,y) em R e valores em V (l : R® V)
O conceito de geo-campo pode ser especializado em função da variável geográfica que se esta modelando. Câmara (1995) sugere três especializações para geo-campo.
Uma característica particular dos campos físicos é o grau extremamente alto de autocorrelação espacial (Cliff e Ord,1981). Esta característica permite inferir que posições próximas têm chance de possuirem características similares, compensando assim o fato de não se medir o fenômeno contínuo em todas as posições, dado que elas são infinitas.
O conhecimento da autocorrelação espacial fornece pouca informação de quão rápidamente os valores mudam entre posições conhecidas. Para manipular e representar campos em modelos matemáticos é necessário encontrar alguma forma de ligar a variação contínua do campo, como ela é observada na natureza, com as amostras individuais armazenadas no computador, representando os valores do fenômeno em certas posições. Esta ligação entre a realidade contínua e sua representação no computador é obtida:
3.5 - UNIVERSO DE REPRESENTAÇÃO
Neste nível de abstração, concentra-se em como representar geometricamente no ambiente computacional as entidades de interesse selecionadas do universo do mundo real e definidas formalmente no universo matemático. Neste contexto são feitas as associações entre definições matemáticas das entidades e as possíveis representações geométricas para as mesmas.
3.5.1 - REPRESENTAÇÕES GEOMÉTRICAS
O processo de desenvolvimento de modelos para grandezas físicas ou químicas da realidade envolve a discretização da variação espacial destas grandezas com o objetivo de permitir a sua descrição, a sua representação e a sua manipulação em um ambiente computacional.
A "plotagem" do conjunto de amostras de uma variável ambiental modelada conceitualmente como geo-campo em um gráfico tri-dimensional x,y,z, onde z é o valor da variável e (x,y) sua posição geográfica, gera uma superfície que representa geometricamente o comportamento espacial da variável em estudo.
Para Goodchild (1992) as entidades reais modeladas conceitualmente como geo-campo podem ser representadas geometricamente como: grade regular de células, regiões contíguas, grade triangular, isolinhas, grade regular de pontos e amostras irregulares. Cada representação geométrica incorpora características próprias ao se representar a realidade, e estas características determinam as manipulações matemáticas possíveis sobre o modelo.

Figura 3.3 - Representação grade regular de células de uma váriável geo-campo

Figura 3.4 - Representação regiões contíguas de uma váriavel geo-campo

Figura 3.5 - Representação grade triangular de uma váriavel geo-campo

Figura 3.6 - Representação grade regular de pontos de uma váriavel geo-campo

Figura 3.7 - Representação amostras irregulares de uma váriavel geo-campo

Figura 3.8 - Representação isolinhas de uma váriavel geo-campo
3.5.2 - CARACTERÍSTICAS DAS REPRESENTAÇÕES GEOMÉTRICAS
As seis representações geométricas de variáveis da classe geo-campo, representam duas formas distintas de explorar a autocorrelacão espacial existente nestas variáveis (Goodchild,1992). As representações geométricas denominados por partes consideram que localizações próximas são similares, enquanto que as representações denominadas de amostras pontuais exploram o fato de que os valores de localizações vizinhas podem ser estimados a partir dos valores de certas localizações.
Das 6 representações descritas acima, 3 podem ser classificadas como representações por partes: grade regular de células, regiões contíguas e grade triangular, pois estas representações dividem a área geográfica (domínio espacial) da variável geo-campo em regiões contíguas. As variações no valor do geo-campo dentro de cada região são descritas por uma função matemática, tendo como variáveis as coordenadas espaciais (x,y). Para as representações grade regular de células e regiões contíguas a função matemática é uma constante para cada região, mas para a representação grade triangular a função mais usada é uma função linear. Desta forma, ao se representar a variável em um gráfico tri dimensional, as representações grade regular de células e por regiões contíguas geram uma superfície com degraus de descontinuidade entre as regiões horizontais, enquanto a representação grade triangular gera uma superfície onde os planos das regiões triangulares possuem declividades diferentes, mas sem degraus de descontinuidade entre os limiares das regiões. A principal característica das representações por partes é que o valor ou função atribuída a cada região é representativo do valor médio ou tendência geral da região. Como não se pode representar precisamente a variável em todos os pontos individualmente, pressupõe-se que uma integração sobre os valores da região resultaria no valor ou função que se está atribuindo a região.
Usando uma abordagem diferente, as representações geométricas denominadas de amostras pontuais - isolinhas, grade regular de pontos e amostras irregulares - procuram representar a variável a partir de um conjunto de medidas pontuais em diferentes posições da região geográfica de interesse. Nenhum valor é atribuído a posições que não foram amostradas e, exceto no caso de isolinhas, nenhuma informação é fornecida sobre a variação do valor entre amostras. Como no caso anterior, supõe-se que a variação entre amostras pode ser descrita por uma função matemática; contudo, neste caso, a forma desta função nem sempre é definida claramente. Normalmente são usadas funções lineares, embora outras formas sejam também comuns, como por exemplo, funções de maior ordem que representam de forma mais exata uma superfície em uma janela 3x3 de uma grade regular de pontos. A função de interpolação usada depende da aplicação, mas, em geral, a precisão com que um valor pode ser estimado depende da resolução do modelo.
Vale ressaltar que a representação geométrica isolinha é, na verdade, uma combinação das duas classes de representações descritas acima. Além de se encaixar na classe amostras pontuais, a representação isolinha permite inferir informações sobre a variação entre linhas com base na concentração destas linhas, sendo esta uma característica da classe de representações por partes.
Em resumo, pode-se afirmar que as representações por partes fornecem uma descrição geométrica de forma genérica de uma variável geo-campo, enquanto as representações por amostras pontuais fornecem dados precisos em um número limitado de posições.
Em termos de representação de superfície, é util considerar as representações anteriormente descritas em 3 grupos distintos. Representações por partes constantes: grade regular de células e regiões contíguas, que representam as variáveis por superfícies horizontais, com quebra vertical nos limiares dos pixels ou das regiões poligonais. Representações de superfície: grade triangular e isolinhas, que representam as variáveis por superfícies contínuas com valores variando dentro das regiões e com continuidade nos limiares. Representações pontuais; grade regular de pontos e amostras irregulares, que não representam de forma direta uma superfície, necessitando de interpolações para descreverem uma superfície.
3.5.3 - RELAÇÃO ENTRE UNIVERSO MATEMÁTICO E UNIVERSO DE REPRESENTAÇÃO
Diversas questões devem ser consideradas na análise de quão bem as representações computacionais descrevem a realidade.
A primeira questão independe das características dos modelos de representações e está relacionada com a qualidade dos dados disponíveis. Dados com erros interferem na fidelidade das representações. Estes erros surgem principalmente durante o processo de aquisição, podem ser aleatórios ou sistemáticos e estão associados a acurácia das localizacões e dos valores medidos.
Mesmo assumindo que as medidas são acuradas, os modelos continuam sendo representações simplificadas da realidade. Estimar a acurácia com que o modelo discreto representa uma variável espacialmente contínua torna-se uma tarefa difícil, dado que não se pode comparar diretamente os dois.
A terceira questão, que afeta a relação realidade/representação, é a escala e a frequência de amostragem com a qual o fenômeno está sendo capturado. Segundo o teorema da amostragem (Nyquist), para se recuperar uma informação, é necessário que a taxa de amostragem seja no mínimo duas vezes maior que a maior variação presente no dado. Ou seja, para uma grade regular com espaçamento de 30 metros (taxa de amostragem) não se consegue recuperar fácilmente objetos menores que 60 metros (maior variação).
Outra questão importante que afeta a relação realidade/representação é a capacidade que cada representação geométrica possui para reproduzir fielmente as variações presentes nos processos ambientais. Representações por partes constantes substituem a variação local por uma média local, suavizando a variabilidade. Representações de superfície representam a variabilidade através de mudanças de declividade, permitindo melhor fidelidade da taxa de variação. O usuário deve, em função da aplicação, determinar como usar e interpretar estes modelos de representações geométricas da realidade. Por exemplo, se pequenas variações no valor da variável espacial são importantes, é essencial que a representação escolhida seja capaz de representar esta variação. Em uma situação oposta, quando as pequenas variações no valor da variável geográfica levam a resultados inconcludentes, a utilização de um modelo que suaviza estas variações de altas frequências enquanto mantém uma boa representação das baixas frequências pode ser a solução.
Algumas conversões entre representações podem também introduzir artefatos, tais como faces triangulares sem declividade em grade triangular gerada a partir de representação isolinha (isto ocorre quando os três nós do triângulo são obtidos de uma mesma isolinha). Pode também acontecer de cumes e vales serem eliminados (isto ocorre quando faces triangulares cobrem cumes e vales que não foram representados pelas isolinhas). Estes dois exemplos de artefatos são críticos em modelos hidrológicos por causarem mudanças na direção de fluxos.
Em alguns casos a fidelidade do modelo em representar a variável desejada é uma questão de escolha subjetiva: este modelo ajusta-se com a versão de realidade esperada pelo modelador?
3.6 - UNIVERSO DE IMPLEMENTAÇÃO
O conceito de universo de implementação como um dos níveis do processo de modelagem tem por objetivo separar o universo de representação das particularidades das estruturas de dados utilizadas na implementação computacional de representações geométricas. Neste nível trabalha-se com estruturas de dados matriciais e vetoriais e com formas eficientes de acesso aos dados.
3.6.1 - RELAÇÃO UNIVERSO DE REPRESENTAÇÃO/ UNIVERSO DE IMPLEMENTAÇÃO
Devido a um mapeamento complexo entre representações geométricas e estruturas de dados, frequentemente as duas são confundidas (Goodchild,1992). Se se considerar somente duas grandes categorias de estruturas de dados - matriz e vetor, este mapeamento pode ser visto como:
TABELA 3.1 - MAPEAMENTO DE REPRESENTAÇÃO GEOMÉTRICA PARA ESTRUTURA DE DADOS
|
Representação |
Estrutura de dados |
|
Grade regular de células |
matriz |
|
Regiões contíguas |
vetor (arco, nó,polígono) |
|
grade triangular |
vetor (arco, nó,polígono) |
|
Isolinhas |
vetor(linhas) |
|
Grade regular de pontos |
vetor ou matriz |
|
Amostras irregulares |
vetor |
Então, um conjunto de dados armazenado em estrutura vetorial, pode representar uma realidade geográfica em vários modelos de representações diferentes. Para que um conjunto de dados geográficos presentes em um banco seja usado de forma apropriada, é importante saber qual representação geométrica foi usada no estágio de modelagem dos dados no banco de dados.
3.7 - CONCLUSÕES
Todas as representações geométricas descritas anteriormente podem ser utilizadas para descrever em maior ou menor detalhe os geo-campos numéricos. Já os geo-campos temáticos, por serem formados por um conjunto finito de classes ou temas, não utilizam as representações de superfície (grade triangular e isolinhas).
A seguir, na Tabela 3.2 é apresentado uma correspondência entre os universos do modelo apresentado neste Capítulo.
TABELA 3.2 - CORRESPONDÊNCIA ENTRE OS UNIVERSOS DO MODELO
|
Universo do mundo real |
Universo conceitual |
Universo de representação |
Universo de implementação |
|
Tipos de solos, Cobertura Vegetal,etc |
Geo-campo (Temático) |
Regiões Contíguas, Grade Regular de Células, amostras irregulares, Grade Regular de pontos |
Estruturas de dados Vetor/Matriz (arco, nó, polígono, linhas) |
|
Altimetria, Temperatura, Reflectância |
Geo-campo (Numérico) |
Grade Regular de Células, Regiões Contíguas, Grade Regular de pontos, Grade triangular, Isolinhas, amostras irregulares |
Estruturas de dados Vetor/Matriz (arco, nó, polígono, linhas) |