22-2학기에 배우게 된 '생존자료분석' 이라는 과목에 대해 정리한 글입니다.
생존자료분석이라는 이름은 별로 나에게 직관적이기 못하여 무엇을 배우는지 과목명만 들으면 알 수 없다. 아마도 지금까지 통계학에 대해 배운 것과 다른 처음 배우게 될 내용이 꽤나 많을 것으로 생각된다.
간단히 생존자료분석이 무엇인지 첫 시간에 배운 것을 토대로 정리해보자.
Survival Analysis
영어로 Survival Analysis라고 하는 생존자료분석은 time-to-event 데이터를 분석하는 것이다. 일정 time 에서 발생하는 이벤트를 우리는 point event라고 하며 이것을 또한 failure라고 부른다. 이 failure가 발생하기 까지의 시간을 우리는 failure time 이라고 하며 이것은 꽤나 중요한 개념인 듯 하다.
예를 들어 암의 발병 이후부터 죽기까지 걸린 시간, HIV에 감염된 후 AIDS가 시작되기 까지 걸린 시간 등이 failure time이다.
또한 중요한 가정사항 하나는 최대 1번의 failure만 발생해야 한다는 것인데, 2번 이상의 failure가 발생하는 경우는 따로 다루기로 하였다.
Survival Analysis에서 또한 중요한 것이 Censoring이라는 개념이다. 우리가 일정한 기간을 관찰하였을 때, 우리가 기대하는 특정 event가 발생하지 않을 수 있고, 일련의 이유로 실험 참가자가 실험을 그만둘 수도 있으며, 참가자가 다른 곳으로 떠나버려서 추적하기 어려운 경우 또한 있을 수 있다.
Censoring은 failure time의 불완전한 observation이며 Right, Left, Type I 등등 다양한 형태의 Censoring이 있다.
또한 Truncation이라는 개념이 Censoring과 헷갈릴 수 있는데, 비슷하지만 중요한 차이점이 하나 있다. 바로 truncation은 데이터 셋 레벨에서 발생한다는 것이다.
조금 더 풀어서 설명하자면 윗 문단의 경우처럼 Censoring된 사람들이 누군지 우리는 알 수 있다. 그러나 truncation은 사람들을 특정할 수 없다. 예를 들어 은퇴자 모임에 가입하는 나이를 우리가 분석하려고 할 때, 은퇴자 모임에 가입하기 위해서는 그 전에 죽어서는 안된다. 따라서 우리가 현재 가진 데이터에는 현존하는 사람들만 속해있을 것인데, 우리는 누가 일찍 죽어서 우리의 데이터에 포함되지 못했는지를 알 수 없기에 이 경우는 left truncated 되었다고 할 수 있다.
'통계공부 > 여러가지' 카테고리의 다른 글
[경제] 경제성장률을 확인하려면? (3) | 2025.05.20 |
---|---|
[경제] 경기변동, 미래 경제를 예측할 수 있을까? (0) | 2025.03.18 |
[비모수통계] 0. Non-parametric Function Estimation? (5) | 2024.04.03 |