[파이썬] 천문학/우주과학 - 데이터의 중간값(median)

안녕하세요. 오늘은 천문학/우주과학 관측 데이터 처리에 있어서 중간값(median)을 알아보려 합니다.

데이터로부터 정보를 얻는 과정은 그 데이터로부터 정보를 얻는 그 자체에도 의미가 있지만, 그 정보를 어떻게 활용하느냐가 매우 중요합니다. 사실 이 점은 천문학/우주과학뿐만 아니라 데이터를 활용하는 모든 분야에 적용된다고 생각합니다.

데이터로부터 '정보'를 얻을 때, 단일 데이터로부터 정보를 얻기보다는

('데이터 -> 특정 정보 -> 활용'의 방법)

다수의 데이터로부터 '적합한 처리 과정'을 겪은 후, 정보를 얻는 것이 더 정확한 방법일 것입니다.

('다수의 데이터' -> 적합한 처리 과정 -> 정제된 데이터 -> 활용'의 방법)

특히, 천문학/우주과학에서의 관측 데이터는 관측 당시 기상상황(지상 망원경의 경우), 관측기기의 한계, 관측대상의 특성등 데이터의 정확성에 있어서 다양한 변수가 존재하기 때문에 단 하나의 데이터로부터 관측대상의 정보를 얻는 것은 매우 위험합니다.

앞서 언급한 '적합한 처리 과정'의 경우, '중간값 계산'이라는 방법이 있습니다.

일반적인 경우, 데이터의 중간값(median)과 평균값(mean)중 선택 기준은 '대표성'이라고 할 수 있는데, 여기서 '대표성'이란, 중간값, 평균값 계산을 통해 얻은 하나의 계산값이 계산과정에 사용된 값들을 대표할 수 있는지를 의미합니다.

통계학적으로, 중간값이 평균값보다 데이터 집합(dataset)의 이상치(outlier)의 영향을 적게 받으며, 이상치의 경우, 관측기기의 한계가 주된 원인이 될 수 있기 때문에, 천문학/우주과학 데이터 처리에 있어서 '중간값 계산 방법'은 '평균값 계산 방법'보다 활용도가 높습니다.

관측데이터의 값들이 왼쪽 편향(Positive Skew)되어 있는 경우를 보겠습니다.

(예를 들어, 10개의 관측데이터(fits)의 (100, 100) pixel 인덱스 값들을 히스토그램으로 나타내 보니, 다음과 같은 분포를 나타냄)

분포의 대표성 그 자체로 정의된 최빈값(가장 많이 반복된 값, Mode)과의 차이가 평균값보다는 중간값에서 작다는 것을 알 수 있습니다.

다음 포스팅에서는 실제 관측데이터를 활용한 실습으로 찾아오겠습니다.

감사합니다.

천문학도 루껍

[파이썬] 천문학/우주과학 - 데이터의 중간값(median) - 1

댓글

티스토리툴바