본문 바로가기

[Paper] Interpretable Deep Generative Spatio-Temporal Point Processes

2024. 7. 5.

0. Preliminary

ETAS point process

시작에 앞서 논문을 이해하기 위해 ETAS point process에 대한 사전지식이 필요하다. Epidcmie-Type Aftershock Sequence (ETAS) model이란 날짜, 시간, 위도, 경도, 지진의 진도 등을 사용하여 지진의 발생을 modeling하는 과정이다.

 

수식적인 설명을 덧붙이면 이는 conditional intensity $\lambda(t, x, y, m\mid H_t)$를 사용한 point process 이다.

이 intensity function의 notation들을 조금 더 자세히 살펴보자면, $(x, y)$는 2차원 좌표이며 $m, t$는 진도와 시간이다. 또한 $H_t$는 $t$ 시점까지의 process들의 history이며 $\Big(H_t = (t_i, x_i, y_i, m_i) : t_i \le t \Big)$, 따라서 intensity function은 t시점 이전까지의 event들이 given되었을 때, 시간 $t$, 좌표 $(x,y)$, 진도 $m$인 이벤트가 발생할 expected rate라고 해석할 수 있다.

 

또한 이는 Hawkes' point process의 special case인데, conditional intensity function을 아래와 같이 decompose 할 수 있다.

$$\lambda_{\beta, \Theta}(t, x,y,m\mid H_t) = \nu_\beta(m)\lambda_\Theta(t,x,y \mid H_t)$$

여기서 $\nu_\beta (m)$은 magnitude m 의 pdf with unknown parameter $\beta >0$이다. 오른쪽 $\lambda$ 함수는 다음과 같이 decompose가 가능하다.

$$\lambda_\Theta(t,x,y\mid H_t) = \tilde{u}(x,y) + \sum_{t_i < t} \kappa_{A,\alpha}(m_i) g_{c,p}(t-t_i) f_{D,\gamma,q}(x-x_i, y-y_i;m_i)$$

$\tilde{u} (x,y)$: $\mu >0$을 모수로 가지는 background seismicity (지진활동도) rate를 나타낸다.

$\kappa_{A,\alpha}(m_i)$: 진도가 $m_i$로 발생하는 지진의 기대 발생 횟수이다.

$g_{c,p}(t-t_i)$: 지진 발생 시간에 대한 probability density function이다.

$f_{D, \gamma, q}(x-x_i, y-y_i ; m_i)$: 지진이 발생하는 좌표에 대한 probability density function이다. 이때 진도는 $m_i$이다.

 

 

Interpretable Deep Generative Spatio-Temporal Point Processes

1. Goal

위 논문에서는 Neural Embedding Spatio-Temporal (NEST) point process를 제안한다. 위에서 언급한 지진의 모델링에 많이 사용하던 ETAS는 kernel function이 location에 상관 없이 homogeneous한 성질이 있어서 model fitting이 용이하였지만, 이러한 고전적인 모델들은 conditional intensity의 parameter 값에 의존할 수 밖에 없다는 단점 또한 존재한다.

따라서 NEST model은 복잡한 spatial dependence를 더 잘 capture하고, 해석이 가능하며, computation에도 장점이 있다.

(intensity function이란 시간, 공간에 따른 사건 발생률의 함수이며, conditional intensity function은 과거 사건의 발생을 고려한다.)

 

2. Method

이들은 continuous-time and continuous space point process model인 NEST model을 제안한다. NEST model에서는 intensity function으로 neural network를 사용하게 되는데, parameter에 의존하는 기존의 방법들과는 달리 이들은 neural network를 사용함으로 model의 interpretability를 유지하며 flexibility를 줄 수 있다고 주장한다.

 

구체적으로 이들은 다음과 같은 conditional intensity function을 제안한다.

$$\lambda^*(t,s) = \lambda_0 + \sum_{j:t_j<t}\nu (t,t_j,s,s_j)$$

$\nu$는 과거 사건 $\mathcal{H}_t$의 영향을 capture하는 kernel function이며, 여기서는 standard Gaussian diffusion kernel 형태의 커널을 사용했다. (사건 간의 시공간적 dependency를 결정하는 함수)

 

kernel function의 구체적인 형태는 다음과 같다.

$$\nu(t,t^\prime, s, s^\prime) = \sum_{k=1}^K \phi_{s^\prime}^{(k)} \cdot g(t,t^\prime, s, s^\prime \mid \Sigma_{s^\prime}^{(k)} , \mu_{s^\prime} ^{(k)}), \quad \forall t^\prime < t, s \in \mathcal{S}$$

term들을 조금 더 자세히 살펴보자면,

$\{\mu_{s^\prime}^{(k)}, \Sigma_{s^\prime}^{(k)}\}$:  mean and covariance matrix parameters

$K$:  Gaussian mixture의 component 수를 결정하는 hyper-parameter

$\phi_{s^\prime}^{(k)}:\mathcal{S} \rightarrow \mathbb{R}$:  $\sum_{k=1}^K \phi_{s^\prime}^{(k)}=1, \forall s^\prime \in \mathcal{S}$를 만족하는 k-th Gaussian component의 weight

 

$g(\cdot)$ 함수의 구체적인 형태는 다음과 같다.

$$g(t, t^\prime, s, s^\prime) = \frac{Ce^{-\beta(t-t^\prime)}}{2\pi \sqrt{\lvert \Sigma_{s^\prime} \rvert}(t-t^\prime)}\cdot \exp \Big\{ - \frac{(s-s^\prime - \mu_{s^\prime})^\top \Sigma_{s^\prime}^{-1}(s - s^\prime - \mu_{s^\prime})}{2(t-t^\prime)} \Big\}$$

$\beta>0$가 커질수록 위 함수의 값이 빠르게 감소하므로, 이는 temporal decay rate를 조절하는 parameter이며, $C>0$은 constant로 값의 magnitude를 조절한다.

$\mu_s = [\mu_x(s), \mu_y(s)]^\top, \Sigma_s$는 diffusion kernel의 mean and covariance parameters를 의미하며, Ganssian component들의 shift, rotation, shape을 결정하는 parameter이다.($\Sigma$는 positive semi-definite matrix이다).

 

3. Conclusion

결과적으로 저자들은 자신들의 방법 (NEST)가 기존의 ETAS 방법을 사용했을 때보다 spatial dependency를 더 잘 capture한다고 주장한다. 또한 model parameter 추정에서 neural network를 사용한 것 같은데, model의 기조는 Gaussian diffusion kernel이므로 parameter값에 대한 해석이 가능하기 때문에 interpretable이라는 단어를 논문 제목에 붙인 것 같다. 구체적인 실험 결과 및 수식은 본문의 Chapter 4와 Appendix에서 확인 가능하다.

 

 

 

References:

Zhu, S., Li, S., Peng, Z., & Xie, Y. (2020). Interpretable deep generative spatio-temporal point processes. In AI for Earth Sciences Workshop at the 34th Conference on Neural Information Processing Systems (NeurIPS 2020), online, Dec(pp. 6-12).

Ogata, Y. (1998). Space-time point-process models for earthquake occurrences. Annals of the Institute of Statistical Mathematics, 50, 379-402.

댓글