Estatística Espacial – Análise de Padrões Pontuais

A análise de dados espaciais consiste em observar dados disponíveis no espaço e tentar, de alguma forma, através de métodos e modelagem, descrever e explicar o comportamento do processo espacial e suas relações com algum outro fenômeno espacial.

No caso da análise de "padrões pontuais" os dados são pontos relacionados a algum evento. Por exemplo, ocorrência de doenças, centros de crateras vulcânicas, células biológicas.

Em análise de padrões de pontos, somente a localização dos pontos é considerada, ao contrário da geoestatística, onde os atributos relacionados à amostra, ponto, são importantes.

Na área de ecologia, suponha que se queira analisar a distribuição espacial de plantas dentro de pequenas áreas( figura a baixo).


O dado apresenta a localização de 62 sementes germinadas, distribuídas em uma região de 23m2. Do ponto de vista ecológico, espera-se alguma evidência de agrupamentos em torno de sementes de uma mesma espécie.

Imagine que epidemiologistas coletem dados de ocorrência de uma doença. Analisando e visualizando os dados, verifica-se que esses são mais densos perto de um poço que abastece aquela região. Essa evidência de agrupamento pode indicar que o poço está contaminado?

O objetivo básico da análise de padrões pontuais é verificar se os eventos observados em uma dada região de estudo apresentam comportamento sistemático, como por exemplo, agrupamento, regularidade ou aleatoriedade.


    


Qualquer análise espacial de dados envolve um conjunto de métodos de análise que podem ser divididos entre, métodos que estão relacionados à visualização dos dados, métodos chamados exploratórios e aqueles centralizados na especificação do modelo estatístico e na estimativa de parâmetros.

O SPRING apresenta, nesta versão, dois procedimentos para a análise de padrões pontuais univariados , o método da distância ao vizinho mais próximo e o da Função L. Estes dois métodos analisam propriedades dos dados, conhecidas como de segunda ordem ou dependência espacial. A componente de segunda ordem é responsável pelos desvios estocásticos em relação à média e, ao contrário de assumir esses desvios espacialmente independentes pode-se considerar uma estrutura de covariância espacial ou dependência espacial no processo. Essa componenete de segunda ordem é modelada como um processo espacial estacionário e isotrópico.

Um processo espacial { Y(s), s Î R} é estacionário ou homogêneo se suas propriedades estatísticas, média e variância, são constantes na região R e, portanto, não dependem da localização, s. Estacionaridade além disso sugere que a matriz de covariância , entre valores de quaisquer dois lugares si e sj ,depende exclusivamente da direção e distância entre eles e não de seus valores absolutos. Se além disso a matriz de covariância do processo for independente da direção, então tem-se um processo estacionário isotrópico.

Em um processo isotrópico, existe uma relação estreita entre a distribuição das distâncias entre eventos e as propriedades de segunda ordem.

A distância ao vizinho mais próximo é uma medida que leva em consideração propriedades de segunda ordem. Uma maneira de verificar o grau de dependência espacial em um padrão de pontos é observar o comportamento da distribuição acumulada dessas distâncias.

 

Vizinho Mais Próximo – o método do vizinho mais próximo considera a estimativa de G(w), como a distribuição acumulada da distância entre qualquer evento escolhido aleatoriamente e o evento vizinho mais próximo. Para a análise univariada, a estimativa do vizinho mais próximo é reduzida a:

Onde:

Os gráficos dos resultados empíricos de G(w) versus "w" podem ser utilizados como método para inferir se há alguma evidência de interação entre os eventos. Se o gráfico mostra uma função com brusca elevação no início, pode sugerir um agrupamento na escala considerada. Se a elevação ocorre a intervalos de distâncias maiores, mais para o final da curva, sugere-se repulsão ou regularidade entre os eventos

O vizinho mais próximo pode ser usado como método formal para comparação estatística da distribuição observada dos eventos, com o que seria esperado sob a hipótese de Aleatoriedade Espacial Completa (CSR). Este caso corresponde a opção de Vizinho mais próximo com simulação.

O modelo espacial padrão para Aleatoriedade Espacial Completa é aquele em que os eventos seguem um processo homogêneo de Poisson na região de estudo. Isto significa que no processo espacial pontual descrito, considera-se Y(Ai) e Y(Aj) variáveis aleatórias independentes para qualquer escolha de Ai e Aj e que a distribuição de probabilidade de Y(A) obedece a distribuição de Poisson com média l A, onde A é a área de A e l o número médio de eventos por unidade de área. Além disso, considerando o número total de eventos em R, eventos são independentes e uniformemente distribuídos em R. Isto significa que qualquer evento tem a mesma probabilidade de ocorrer em qualquer posição e que a posição de qualquer evento é independente da posição do outro, não há interação entre eventos.

Pode-se então simular 'n' eventos com distribuição uniforme dentro da região, e formular a hipótese para testar se os padrões observados estão agrupados, aleatórios ou regulares.

O método consiste em simular "envelopes" para a distribuição CSR para avaliar a significância dos dados de saída. A simulação estimada para G(w) sob a hipótese CSR é (w) = ,ondei (w), i=1,...n são as funções distribuição estimadas sem correção de borda. Cada uma das 'n' funções estimadas corresponde a uma simulação e para cada simulação são gerados 'm' eventos independentes com distribuição uniforme. Os envelopes superior e inferior são definidos como:

U(w) = max{ (w)} e L(w) = min{(w)}


Se os dados são compatíveis com CSR o resultado a ser obtido quando   plotar a função simulada (w) versus a função acumulada adquirida a partir das observações, (w), deverá ser uma função próxima de uma linear a 45 graus. Se existir agrupamento, a função observada (w) deverá estar acima da reta de 45 graus e, na presença de regularidade (w) ficará abaixo da reta.

O método do vizinho mais próximo  baseia-se em distâncias aos eventos mais próximos e, portanto, consideram as escalas menores do padrão. Para obter informações mais efetivas de um padrão espacial abrangendo grandes intervalos de escala, o melhor método é a Função L, que será descrita a seguir.

 

Função L – proporciona uma descrição mais efetiva da dependência espacial em um intervalo mais largo de escalas e está relacionada com propriedades de segunda ordem de um processo isotrópico. Portanto, supondo o processo isotrópico em toda a região, a Função L é definida para um processo univariado como:

lK(h) = E(# de eventos da distância h de um evento arbitrário), onde:

# = número de

E( ) = é o operador esperança

l = é a intensidade ou número médio de eventos por unidade de área, em uma região assumida como constante.

A Função L pode ser estimada por K(h) =

Para entender essa função imagina-se que cada evento é visitado e ao seu redor   constroem-se círculos concêntricos espaçados. O número acumulado de eventos dentro de cada um desses círculos é contado. Todos os eventos são visitados e o número de eventos que caem dentro de uma distância h de todos os eventos é calculado e passa a ser a estimativa da Função L, quando ponderada por , ignorando efeito de borda ().

No caso de um processo homogêneo sem dependência espacial, K(h) = p h2 . Portanto, sob agrupamento, espera-se que K(h) >= p h2 e , no caso de regularidade, K(h) <= p h2 .

A fim de facilitar a interpretação gráfica da Função L, que é menos intuitiva do que a do vizinho mais próximo, utiliza-se uma fórmula simplificada = - h . No gráfico de contra h, picos positivos indicam atração espacial ou agrupamento e picos negativos indicam repulsão ou regularidade.

O método da Função L tem, portanto, vantagens em relação à abordagem do vizinho mais próximo. Apresenta informação em diversas escalas de padrões, envolve o uso da localização precisa do evento e inclui todas as distâncias evento-evento. Outro motivo para seu uso é que a forma teórica de K(h) é conhecida para vários modelos de pontos. Portanto, , não é utilizado apenas para explorar a dependência espacial mas na sugestão de modelos que representem essa dependência e na estimativa de parâmetros do modêlo.

No caso da Função L com simulação , assim como no caso anterior, são construídos envelopes superiores e inferiores para 'm' simulações de 'n' eventos na região, sob hipótese de aleatoriedade espacial completa, CSR, e as estimativas associadas de . Os envelopes são incluídos no gráfico da Função L versus h. A significância dos picos e depressões pode ser considerada com base na

Pr(> U(h)) = Pr (< L(h)) = , que fornece o valor de m a ser usado , ou seja, quantas simulações devem ser feitas para detectar a não aleatoriedade a um nível de significância específico. No exemplo a baixo, verifica-se que a suposição de agrupamento verificada pela Função L, é confirmada neste teste padrão já que a curva, está situada a cima do envelope superior. Os envelopes simulados superior e inferior são calculados pelas fórmulas

 

Alguns gráficos que são gerados pelo SPRING e que foram mencionados no texto são apresentados e interpretados.

  1. Vizinho mais próximo - Gráfico de distribuição cumulativa versus Distância: Se o gráfico cresce rapidamente no início e depois se estabiliza em um dado valor, significa interação entre os eventos ou agregação (clustering). Se a curva cresce mais rápido somente na parte final do gráfico, isto significa repulsão entre os eventos, caracterizando regularidade na distribuição para as distâncias analisadas.

  2. Configure seu Gráfico

  3. Vizinho mais próximo com simulação – Gráfico da função estimada 'G ' versus média da função simulada 'G:' Curvas (estimada de 'G', envelopes máximos e mínimos) acima de 45o indicam agregação. Curvas abaixo da linha de 45o representam regularidade.

  4. Configure seu Gráfico

  5. Função L – Gráfico da função 'L' estimada, versus Distância: Valores positivos significam agregação e valores negativos significam regularidade. Extremos positivos correspondem a distância onde a agregação é mais acentuada, enquanto extremos negativos refletem valores de distância onde a repulsão entre eventos é mais forte.


    Configure seu Gráfico

      d. Função L com simulação - Gráfico da função estimada L e envelopes versus Distância: Extremos positivos da função L,             acima dos envelopes, indicam agregação e extremos negativos, abaixo dos envelopes, representam regularidade para as            respectivas   distâncias.


Configure seu Gráfico


Executando a Análise Espacial de Pontos:

  • selecione no "Painel do Controle" um PI da categoria Temático
  • clique em Análise Espacial; na sequência clique em Estatística Espacial e em seguida acesse a Análise Univariada de Pontos. A janela "Padrão de Pontos" é apresentada.
  • escolha o métodoVizinho Mais Próximo, Vizinho Mais Próximo com Simulação, Função L ou Função L com Simulação.
  • digite na caixa de texto Distância Mínima (distância mínima, escolhida, entre eventos), Distância Máxima (distância máxima, escolhida, entre eventos), número de Intervalos (Número de Intervalos – define a largura de cada intervalo de distância) Obs1: O ideal é que o usuário observe, previamente, a distribuição dos pontos, para definir com coerência as distâncias mínimas e máximas. Pode-se ativar as coordenadas no menu principal para auxílio.
  • Obs1: O número de intevalos, define o número de círculos concêntricos onde estarão os pontos distantes de cada evento de uma valor no máximo igual ao raio.
  • Obs2: O aplicativo que gera o gráfico apresenta sempre 10 coordenadas em X e em Y apesar do número de intervalos escolhido ser diferente de dez. Observe que um número maior de intervalos fornece um gráfico com mais detalhes.
  • Para os métodos com simulação, uma caixa de texto adicional aparece para ser preenchida: número de simulações (simula eventos – cria os "envelopes").
  • clique em Executar. O resultado é mostrado automaticamente na tela, na forma de gráfico(s).


Consulte também:
Análise Geográfica no SPRING