수위관측소의 유지관리를 위한 로지스틱 회귀모형 구축 및 평가

Logistic Regression Model Construction and Evaluation for Maintenance of Water Level Stations

Article information

J. Korean Soc. Hazard Mitig. 2017;17(2):389-396
Publication date (electronic) : 2017 April 30
doi : https://doi.org/10.9798/KOSHAM.2017.17.2.389
이지호*, 이정민**, 천정환***, 구본상****, 전환돈
* Member, Research Professor, Seoul National University of Science and Technology, Dept. of Civil Engineering
** Member, Research Fellow, Urban & Environmental Research Department, Land & Housing Institute
*** Hydrological survey center
**** Member, Assistant Professor, Seoul National University of Science and Technology, Dept. of Civil Engineering
*****Corresponding Author, Member, Associate Professor, Seoul National University of Science and Technology, Dept. of Civil Engineering (Tel: +82-2-970-6570, Fax: +82-2-948-0043, E-mail: hwjun@seoultech.ac.kr)
Received 2017 March 17; Revised 2017 March 17; Accepted 2017 March 22.

Abstract

본 연구에서는 효율적인 수위관측소의 유지관리를 위해 수위관측소의 문제점을 예측할 수 있는 로지스틱 회귀모형을 제시하고, 산정된 회귀모형의 효용성을 ROC 성능평가기법을 통해 평가하였다. 제안된 방법론을 한강유역에 대해 적용하여 그 효율성을 검토하였다. 그 결과를 정리하면 다음과 같다. 회귀모형 구축을 위해 2013-2015년의 수위유지관리 자료를 수집하였으며, 독립변수와 종속변수와의 관계를 고려하여 6개의 독립변수를 선별하였다. 2013-2014년의 자료로 구축된 회귀모형을 2015년의 자료예측에 적용한 결과 83.97%의 예측률을 보였다. 구축된 회귀모형을 ROC 성능평가기법을 통해 모형의 우수함을 확인하였다. 아울러 본 연구에서 제안된 방법론은 관리가 필요한 수문관측지점을 선별할 수 있는 의사결정 기법으로 활용될 수 있다.

Trans Abstract

In this study, we propose a logistic regression model to predict the problems of the water level stations for the efficient maintenance of water level stations, then the effectiveness of the estimated logistic regression model is evaluated by ROC curve. The results are summarized as follows. In order to construct a regression model, water level maintenance data for 2013-2015 is collected and 6 independent variables are selected with considering the relationship between independent variables and dependent variables. As a result of applying regression model constructed with the data of 2013-2014, the prediction rate for data prediction of 2015 year is evaluated by 83.97%. It is found that the constructed regression model is confirmed to be suitable using the ROC curve analysis. The methodology proposed in this study can be used as a decision making technique to distinguish hydrologic observation points that need to be managed.

1. 서론

강우 및 유출자료는 시공간적 영향으로 인해 자료의 불확실성이 크며 이로 인해 정확한 관측과 해석이 어렵다. 국내의 경우 지형학적으로 삼면이 해양이며, 전체 국토의 70%가 산악지형으로 영국, 일본과 같은 해양학적 수문현상과 산악지형의 수문현상이 복합된 특성을 가지고 있다. 더욱이 최근의 이상기상과 해수 온도의 상승으로 인해 국지성 호우 및 가뭄이 빈번히 발생하고 있으며 이러한 기상이변은 국가적 수문계획수립을 어렵게 한다(Hanson and Weltzin, 2000). 수문자료를 보다 효율적으로 관리하는 일은 수문계획수립에 있어 시발점이며, 따라서 정도 있는 수문자료의 관측이 수행되어야 한다. 특히 신뢰성 있는 수문자료 축적 및 분석은 홍수와 가뭄 피해를 줄이기 위한 수공구조물의 설계에 있어 선행되어야 할 과정이다.

그러나 국내의 경우 홍수예측을 위한 수문자료의 관측기간이 짧고, 관할기관별로 수문자료의 관측목적이 상이하여 그 활용도가 제한적이다. 이를 극복하기 위해 국내에서는 수문조사 선진화 5개년 계획을 수립하고 홍수통제소와 유량조사사업단 등을 운영함으로써 수문조사를 체계적으로 추진하기 위한 시도를 하였다. 그럼에도 불구하고 전문성과 관측장비 부족 등으로 인해 자료 품질에는 많은 문제를 가지고 있다. 현재 수위자료 확보를 위해 홍수통제소와 유량조사사업단에서 수문자료를 관측하고 있으나, 전국의 모든 수위관측소에서의 유량관측은 인력 및 장비 등의 문제로 인해 현실적으로 불가능하다. 그러나 수위관측소에서 발생할 수 있는 문제를 사전에 예측한다면 적은 인원과 비용으로 보다 효율적인 수문자료의 관리가 가능할 것이다. 따라서 전국의 수위관측소를 체계적으로 관리하기 위해서는 수위관측소의 오류를 미리 예측하고 이에 대응하는 기법이 필요하다.

미래에 발생될 가능성을 예측하는 방법에는 시계열 분석, 이동평균법, 인공신경망, 델파이 기법, 회귀분석 등이 있다. 이중 시계열 분석은 비정상성의 예측률이 낮으며 인공신경망의 경우는 수위의 점진적인 상승 및 하강부의 예측률은 높으나 이들의 변동성을 반영하기는 어렵다. 델파이 기법의 경우 정성적 예측에 주로 적용하여 정량적인 수문자료의 예측에는 적절하지 않다. 이에 본 연구에서는 예측 활용성이 높은 로지스틱 회귀분석을 예측모형으로 선정하였다. 회귀모형은 토목 분야뿐만 아니라 생산 분야, 의료 분야, 마케팅 분야 등 거의 모든 분야에서 활용되고 있다. 아울러 로지스틱 회귀분석은 의사결정의 정확도 및 성공비율 등을 추정하는데도 널리 이용되고 있다.

국내에서는 Yoo et al.(2007)은 Clark 단위도의 매개변수 추정치에 대한 신뢰구간을 좁힐 수 있는 방안으로 다변량 회귀모형을 구축하였으며, Jang and Kim(2006)는 홍수피해위험도를 산정하기 위해 지역회귀분석을 적용하였다. Lee et al.(2013)은 자연재해위험지구 정비사업의 타당성 검증을 위해 로지스틱 회귀분석을 이용하였으며, Yeon(2011)Lee and Kim(2012)은 로지스틱 회귀분석을 적용하여 산사태 위험도평가 모형을 개발하였다. Kim and Lee(2012)는 서울지점의 극치 수문량 산정에, Jun and Kim(2015)은 수문시계열의 미래 경향성 분석을 위해 분위회귀분석을 적용하였다.

이와 같은 회귀분석은 다양한 수문분야의 예측에 적용하고 있으며, 유도된 모형은 예측효율을 위해 적합도 검증이 수행되어야 한다. 모형의 검증에는F 검정, X2검증, KS검증, bootstrap, ROC성능평가 기법 등이 있다. 모형의 검증기법은 시계열 수문자료와 같은 통계적 예측의 정확도를 판단하는 기법과 이원화된 위험군을 갖는 경우에 대한 평가기법으로 구분할 수 있다(Jeong et al., 2016). 이원화된 위험군을 예측하는 기법중 대표적인 방법이ROC (Receiver Operating Characteristic) 성능평가 기법이다(Egan, 1975). ROC성능평가 기법은 예측성능을 기초로 계급 구간을 선택하고 Hit Rate (HR)와 False Alarm Rate (FAR) 사이의 적정성을 묘사하기 위한 것으로 시그널 탐지 이론에서 주로 적용되었다(Egan, 1975; Swets et al., 2000; Jeong et al., 2016). Kim and Lee (2011)Yoo et al.(2013)는 가뭄에 대한 평가모형을 구축하고 이를 가뭄 발생유무와의 비교를 위해ROC분석을 적용한 바 있으며, Son et al.(2015)은 GloSea5 모형과 VIC 지면모형을 결합하여 가뭄지수를 산정하고ROC기법을 적용한 바 있다. Bae et al.(2013)은 수문기상 정보에 따른 가뭄판단기준을 위해, Jeong et al.(2016)은 다층 퍼셉트론 인공신경망 기반의 가뭄 예측모형의 성능평가를 위해ROC기법을 적용하였다. 이와 같이 다양한 연구자들에 의해ROC기법은 모형의 정확도 평가를 위해 널리 사용되고 있다.

본 연구의 최종적인 목적은 안정적인 수문자료의 생산이다. 그러나 결빙, 우물통 막힘 등과 같은 다양한 장애 요인으로 인해 결측이나 부적절한 수문자료가 생산된다. 따라서 문제점이 발생가능한 관측소들을 미리 예측하고 관리함으로써 보다 정도 있는 수문자료의 확보가 가능하다. 이에 본 연구에서는 효율적인 수위관측소의 유지관리를 위해 수위관측소의 문제점을 미리 예측할 수 있는 로지스틱 회귀모형을 구축하고, 산정된 회귀모형의 효용성을ROC성능평가기법을 통해 평가하고자 한다. 아울러 제안된 방법론을 한강유역에 대해 적용하고 그 효율성을 검토하였다.

2. 이론적 배경

2.1 로지스틱 회귀분석 모형

로지스틱 회귀모형은 종속변수와 독립변수들 간의 인과관계를 추정하는 통계기법으로 연속형 변수와 범주형 변수를 혼합해서 분석할 수 있는 장점이 있다(Woo et al., 2014). 모형구조에 의해 연관성 및 교호작용의 유형을 설명할 수 있으며 모수의 추론을 통해서 반응 값에 대한 독립변수의 영향력을 평가할 수 있다. 예측확률을 바탕으로 판별분석과 같이 분류 기법으로 적용가능하며, 로지스틱 회귀모형은 독립변수들의 공분산 행렬과 다변량 정규분포로 가정하는 판별 분석에 비해 모형의 구조가 간단하다. 아울러 로지스틱 회귀모형은 종속변수를 독립변수의 선형결합으로 설명한다는 점에서 선형 회귀분석과 유사하다. 그러나 로지스틱 회귀분석은 종속변수가 특정 분류로 구분되어는 점에서 선형회귀분석과 상이하다. 로지스틱 회귀분석은 종속변수가 이항형인 이항 로지스틱 회귀모형과 두 개 이상의 범주를 가지는 다항 로지스틱 회귀모형으로 분류할 수 있다. ODDs는 Eq. (1)과 같이 표현할 수 있으며, 여기서p는 사건이 일어날 확률이다.

(1)ODDs=p(1p)

만약 확률p가 (0,1)사이의 값을 가질 경우ODDs는 (0,∞)를 가지게 되며 여기에 로그를 적용하면 Eq. (2)과 같이 나타낼 수 있다.

(2)y=ln(p1p)

로지스틱 회귀모형에서는 종속변수인y을 독립변수x로 표현하면 Eq. (3)으로 나타낼 수 있다.

(3)ln(p1p)=β0+β1x1+β2x2+......+βkxk

만약 회귀계수가 양의 값일 때 특정집단에 포함될 확률이 높아지고 음의 값일때는 특정집단에 포함할 확률이 낮아진다. 선정된 각각의 변수들은 원하는 결과 값을 도출하는 과정에서 유의성 검사를 수행하여야 하며, 이 과정에서 유의성이 작은 독립변수는 제외된다.

2.2 ROC 성능평가 기법

ROC (Receiver Operating Characteristic) 성능평가기법은 특정 수치를x축(FPR: False Positive Rate)와y축(TPR: True Positive Rate)에 나타내고 이를 확률적 근거를 통해 가장 높은 확률을 가지는 모형을 찾는 방법이다(Heckerling, 2002). ROC분석은 확률적 근거를 바탕으로 기상분야에서 확률예보의 정확도 검증에 자주 활용되는 기법이다(Mason, 1982). Spackman(1989)은 서로 다른 분류의 기계적 학습 알고리즘을 비교, 평가하는 기술에 적용하여 활용성을 증명한 바 있다. ROC 기법은 성능평가를 통해 예측결과의 불확실성을 평가하기 위한 의사결정 기법으로 적용 가능하다(Kim and Lee, 2011). 이 기법은 적중률(TPR)과 비적중률(FPR)을 기준으로 가장 높은 확률값을 선택하며(Heckerling, 2002; Jeoung et al., 2016), 확률을 적용하기 위해 혼동행렬(confusion matrix)을 구성하여야 한다. Table 1ROC분석을 위한 혼동행렬(confusion matrix)의 구조를 나타낸 것이다. 혼동행령의 분류는 기본적으로 실제사실(Actual value)과 추정된 결과(Prediction value)로 나누어지며, 진실과 거짓에 의해서 각각 2가지 경우로 다시 분류된다. 실제 일어난 사실이 ‘Positive’일 경우 추정된 값에 따라 ‘Positive’일 경우 TP(True Positive), ‘Negative’일 경우 FN(False Negative)로 나타내며, 실제 일어난 사실이 ‘Negative’일 경우 추정된 값에 따라 ‘Positive’이면 FP(False Positive), ‘Negative’이면 TN(True Negative)로 나뉜다. 이중TPTN의 경우는 각각 ‘Positive’와 ‘Negative’로만 이루어진 참값으로 판단하고, FP(Type I Error)와 FN(Type II Error)은 거짓값으로 받아들인다(Table 1 참조).

Confusion Matrix of ROC(Kim and Lee, 2011; Jeong et al., 2016)

확률적 분포로 분류된 4가지의 요소를TPRFPR를 하나의 점으로 표현함으로서ROC공간을 구성할 수 있다. 여기서 민감도인TPR는 참값을 참값으로 예측할 비율, 특이도인FPR는 거짓값을 거짓값으로 예측한 비율을 의미한다. Cut-off 값의 연속적인 변화에 따라ROC공간의 좌표 점은 연속적인 곡선의 형태로 나타날 수 있으며 이를ROC곡선이라 한다(VanErkel and Pattynama, 1998). TPRFPR는 Eqs. (4)-(5)로 산정되며, 모형의 정확도를 나타내는F1점수는 Eq. (6)으로 간단히 계산할 수 있다. 여기서F1점수는 민감도와 특이도를 바탕으로 산정된 값으로 1에 가까울수록 모형의 정확도가 높다고 판정한다.

(4)TPR=TPTP+FN
(5)FPR=FPFP+TN
(6)F1=2TP2TP+FP+FN

Fig. 1에서 예측이 가장 우수한 경우는ROC공간에서 (0, 1)점으로 이때 민감도는 100%이며, 특이도는 1인 경우이다. 즉, 왼쪽 상단인 부분에서 직각으로 꺾이는 형태가 가장 좋은 경우라고 할 수 있다. 만약 예측이 랜덤하다면ROC공간에서 좌표는 (0, 0)부터 (1, 1)의 직선에 위치하게 되며, 표본 크기가 커지면ROC포인트가 대각선 방향으로 이동한다. 자료가 완벽히 랜덤분포를 따르면 좌표는 (0.5, 0.5)에 집중되게 된다. Fig. 1에서 45도선에서 위쪽에 위치하면 예측의 정확도가 우수한 경우, 아래에 위치하면 예측의 정확도가 떨어짐을 의미한다. 모형의 효율성을 판단하는 또 다른 방법으로 AUC(Area Under Curve) 지표가 이용되며, AUC값이 클수록 정확도가 높다고 판정한다. Table 2는 모형의 정확도를 판정할 수 있는AUC의 기준을 나타낸 것이다.

Fig. 1

ROC Space and Plots of the Prediction Examples

ROC Score for Evaluation Prediction Model

3. 대상유역 선정 및 특성

본 연구에서는 로지스틱 회귀분석을 통한 수위관측소의 문제점을 예측하기 위해 한강유역을 대상유역으로 선정하였다. 한강유역은 유역면적이 34,430km2이며, 유로연장은 480km 정도이다. 한강유역의 하천은 38개의 국가하천과 694개의 지방하천으로 구성되어 있으며, 205개의 수위관측소(국토해양부: 149개, 수자원공사: 43개, 기타: 13개)와 205개의 강우관측소(국토해양부: 129개, 수자원공사: 61개, 기타: 15개)가 위치해 있다. 205개의 수위관측소중 2013-2015년의 유량관측지점인 46개의 수위관측소를 대상으로 로지스틱 회귀모형을 구축하고 이를 평가하였다. Fig. 2Table 3은 대상유역의 하천망도와 본 연구에서 적용한 수위관측소의 위치를 나타낸 것이다.

Fig. 2

Study Basin and Status of Water Level Station

Status of Water Level Station Applied in This Study

4. 수위관측소 로지스틱 회귀분석 모형 구축

4.1 적용자료

회귀모형 구축을 위해 3년 동안(2013-2015년)의 2,905개의 수위유지관리 자료를 수집하였다. 수집된 수위유지관리 자료를 연도별로 살펴보면, 2013년 48개 수위관측소 지점에서 892개, 2014년 46개 수위관측소 지점에서 1,258개, 2015년 46개소의 수위관측소 지점에서 755개 자료이다. 수집된 수위유지관리 자료에는 이상치가 포함되어 있으며, 이는 산정된 회귀모형의 정확도에 영향을 준다. 따라서 수집된 수위유지관리 자료중 기준수위표와 관측소의 계기수위를 비교하여 오차범위 ±0.03m 이상의 차이를 보이는 자료는 이상치로 판단하여 분석에서 제외하였다. 다만 수위 급변화로 인해 10분 이내에 0.10m 이상으로 급격한 수위변동이 발생한 경우는 정상적인 자료로 가정하였다. 위 기준으로 최종적으로 선정된 수위유지관리 자료는 2,563개(2013년: 741개, 2014년: 1,129개, 2015년: 693개)이다. 2013-2015년의 관측된 수위유지 관리 자료의 연도별 이상치률은 각각 16.9%, 10.3%, 8.2% 정도이다. 아울러 2013-2014년 자료는 회귀모형에 구축에 2015년의 자료는 회귀모형의 검증에 적용하였다.

4.2 독립변수 선정

로지스틱 회귀분석은 두 개의 값을 가지는 종속변수와 다양한 값을 갖는 독립변수들 사이의 관련성을 분석하는 통계기법이다. 독립변수와 종속변수와의 관계를 고려하여 우선적으로 7개의 독립변수(관측소 위치, 부자식 여부, 하상 재질, 최고기온, 홍수기 여부, 선행 5일 강우량, 당일 강우량)를 선정하였다. 이중 당일 강우량과 선행 5일강우량 사이에는 공선성이 존재하며, 당일 강우량이 보다 큰 유의성을 보여 선행 5일강우량은 독립변수에서 제외하였다. 따라서 선행 5일강우량은 제외한 6개의 독립변수로 로지스틱 회귀모형을 구축하였다. 선별된 독립변수중 관측소의 위치는 우물통 막힘의 원인으로 수위관측소가 흐름중심에 위치하는 것이 좋으며, 주흐름일 경우 종속변수와의 유의성이 크다. 부자식 여부는 압력식 수위계와 레이더식 수위계 보다 종속변수와의 유의성이 작은 특성을 가지고 있으며, 하상재질은 우물통 막힘의 주요 원인으로, 최고기온은 결빙의 원인으로이며 기온이 높을수록 종속변수와의 유의성이 크다. 아울러 홍수기 여부는 집중강우로 인한 수문현상을 분석 하는데 중요한 변수가 되며, 당일강우량은 수위변동에 있어 중요한 변수로 강우량이 적을수록 종속변수와의 유의성이 커진다.

4.3 로지스틱 회귀모형 구축

2013-2014년의 정상치 자료를 이용하여 회귀계수β0 ~ β6를 추정하였으며, 한강유역에 대해 구축된 로지스틱 회귀모형은 아래 Eq. (7)과 같다.

(7)ln(p1p)=1.0850.394x10.007x2+0.268x3+0.5110x4+0.043x50.432x6

여기서, x1은 홍수기 여부(여:1, 부:0), x2는 당일강우량(mm), x3은 관측소 주흐름 여부(여:1, 부:0), x4는 하상재질(우수:1, 불량: 0), x5는 최고기온(°C), x6는 부자식 여부(여:1, 부:0)를 나타낸다. 만약 산정된 회귀모형을 부자식으로 관측되고 있는 율극지점에 대해 적용하면 다음과 같다. 율극지점은 주흐름 관측소로 하상재질이 우수하며, 8월 25일에 발생한 강우량이 20mm이고 이때 최고기온은 23.3°C로 가정하면, logit value는 1.395이다. 이때 logit value는 ln(p1p)=1.395임으로 확률p는 0.801가 된다. 로지스틱 회귀모형을 통해 예측확률을 산정할 수 있으나 산정된 확률이 정상확률인지 오류확률인지는 판정하기 어렵다. 따라서 산정된 확률은 기준치(thresholds)를 바탕으로 오류여부를 판정하여야 한다. 로지스틱 회귀모형의 확률은 0~1사이의 값으로 나타낼 수 있으며, 이때의 정확도는 0%~100%의 값을 의미한다. 본 연구에서는 0.70~0.90의 기준값을 검토하였으며, 최종적으로 0.81을 기준값으로 결정하였다. 이는 회귀분석에서 가장 큰 영향을 주는 변수는 기온자료로 최고기온이 0°C 이하일 경우 정상에서 오류로 바뀌는 기준점이 0.81이기 때문이다.

4.4 로지스틱 회귀분석 모형의 적용 및 검증

2013-2014년의 자료를 바탕으로 결정된 회귀모형을 2015년의 자료예측에 적용하여 모형의 효용성을 검토하였다. 2015년도 755자료중 62개의 이상치가 포함되어 있으나 본 연구의 목적이 문제점을 미리 판별하는데 목적이 있으므로 모든 자료를 활용하여 오류의 판별여무를 확인하였다. 그 결과 2015년도 755회의 수위유지관리 자료중 634회를 예측성공하여 83.97%의 예측률을 보였다. 634회의 예측성공중 정상 관측자료를 정상자료로 예측한 경우가 620회이며, 오류 관측자료를 오류로 예측한 경우는 14회이다. Table 4는 46개 수위관측소별(2015년) 오류 발생유무와 월별 예측률을 정리한 것이다. 아울러 1월~4월 및 8월 달은 유량관측을 수행하지 않아 46개의 관측소보다 작다.

Probability of Monthly Prediction Success

수위관측소지점을 월별 분석한 결과 1월~3월의 예측률이 여름철에 비해 상대적으로 낮다. 이는 회귀모형의 영향을 주는 독립변수중 최고기온의 유의성이 크기 때문인 것으로 판단된다. 반면 1월~3월을 제외한 4월~8월은 로지스틱 회귀분석 예측확률이 90% 정도로 매우 높은 예측률을 보인다. 다만 7월 달의 예측률이 80.43%로 상대적으로 낮은 이유는 큰 강우발생으로 인한 것으로 판단된다. 회귀모형에서 강우량이 클수록 예측실패로 판별될 확률이 높아지기 때문이다. 실제로 2015년 7월은 다른 월에 비해 상대적으로 큰 강우가 발생하였다. 특히 하상재질이 불량하고 관측소가 주흐름부에 위치하지 않는 지점에 큰 강우가 발생하면 회귀모형의 예측률은 더욱 낮아진다.

본 연구에서 제안된 회귀모형의 적합성을 평가하기 위해ROC성능평가 기법을 적용하였다. 먼저 회귀모형으로 예측된 자료와 관측자료의 비교를 통해 Table 5와 같이 혼동행렬을 구축하였다. 혼동행렬에서 정상인 수문자료를 정상으로 예측한 경우는 TP(True Positive), 정상인 수문자료를 오류로 예측한 경우는FN(False Negative), 오류의 수문자료를 정상으로 예측한 경우는 FP(False Positive), 마지막으로 오류 자료를 오류로 예측한 경우는 TN(True Negative)으로 분류하였다. Table 5ROC성능평가 기법 적용을 위한FPR, TPR와 모형의 정확도를 의미하는F1점수를 정리한 것이다.

Confusion Matrix of ROC for Water Level Stations

산정된TPRFPRROC공간에 도시한 것이 Fig. 3이다. 모형의 정확도는ROC곡선에서 (1, 0)에 근접할수록 정확도가 높으며 (1, 1)에 근접할수록 정확도가 낮아진다. 대부분의 자료는 45도선 상위분위에 위치하여 월별 정확도는 높다고 할 수 있다. 특이할 점은 6월의 예측률은 45도선 하위분위에 위치하여 있다. ROC곡선에서y축은 정상 자료를 정상으로 예측한 경우를 의미하며, x는 오류가 발생

Fig. 3

ROC Curve and AUC Score

된 자료를 오류로 예측한 경우이다. 그러나 6월의 경우 오류가 발생된 자료가 없어FPR가 1로 산정되었으며, 따라서 모형의 예측률에는 문제가 없다고 판단된다. 아울러F1점수 및ACU점수를 통한 모형검증에서도 모형의 예측률이 높음을 재확인할 수 있다. F1점수(0.93)의 경우 1월 및 2월 제외하면 전제적으로 80% 이상의 정확도를 보인다. ACU점수 역시 0.835로 산정되어 Table 1에서 제시된 판정 기준에 따라 본 연구에서 제시된 회귀모형은 우수하다고 판단된다. 최종적으로 본 연구에서 제안된 방법론은 관리가 필요한 수문관측지점을 우선적으로 선별할 수 있는 의사결정 기법으로 활용될 수 있다.

5. 결론

본 연구의 최종적인 목적은 안정적인 수문자료의 생산이다. 그러나 결빙, 우물통 막힘 등과 같은 다양한 장애 요인으로 인해 결측이나 부적절한 수위자료가 생산된다. 따라서 문제점이 발생가능한 관측소들을 미리 예측하고 관리함으로써 보다 정도 있는 수문자료의 확보가 가능하다. 이에 본 연구에서는 효율적인 수위관측소의 유지관리를 위해 수위관측소의 문제점을 미리 예측할 수 있는 로지스틱 회귀모형을 구축하고, 산정된 회귀모형의 효용성을ROC성능평가기법을 통해 평가하였다. 제안된 방법론을 한강유역에 대해 적용하고 그 효율성을 검토하였다. 그 결과를 정리하면 다음과 같다.

회귀모형 산정을 위해 3년 동안(2013-2015년)의 2,905개의 수위유지관리 자료를 수집하였으며, 독립변수와 종속변수와의 관계를 고려하여 6개의 독립변수(관측소 위치, 부자식 여부, 하상 재질, 최고기온, 홍수기 여부, 당일 강우량)를 선별하였다. 2013-2014년의 자료를 바탕으로 결정된 회귀모형을 2015년의 자료예측에 적용한 결과 83.97%의 예측률을 보였다. 산정된 회귀모형의 효용성을ROC성능평가 기법을 이용하여 검증한 결과F1점수는 0.93, ACU점수는 0.835로 산정되어 구축된 모형의 우수함을 확인하였다. 본 연구의 결과는 문제가 발생할 수 있는 수위관측소를 미리 선별하고 이를 바탕으로 수위관측소의 등급화에 적용할 수 있다. 아울러 본 연구에서 제안된 방법론은 관리가 필요한 수문관측지점을 선별할 수 있는 의사결정 기법으로 활용될 수 있으며, 최종적으로 문제가 발생가능한 지점을 미리 선별하여 보다 적은 인력과 비용으로 안정적인 수문자료의 확보에 목적이 있다.

감사의 글

본 연구는 국민안전처 자연재해 저감기술개발 사업단(자연피해예측 및 저감연구 개발사업)의 지원으로 수행한 ‘기후변화 적응을 위한 연안도시지역별 복합원인의 홍수 취약성 평가기술개발 및 대응방안 연구’[MPSS-자연-2015-77]과제의 성과입니다. 이에 감사드립니다.

References

Bae D.H, Son K.H, Kim H.A. 2013;Derivation & evaluation of drought threshold level considering hydro-meteorological data on south Korea. Journal of Korea Water Resource Association 46(3):287–299. 10.3741/JKWRA.2013.46.3.287.
Egan J.P. 1975. Signal detection theory and ROC analysis series in cognition and perception Academic Press. New York:
Hanson P.J, Weltzin J.F. 2000;Drought disturbance from climate change: response of United States forests. The Science of the Total Environment 262(3):205–220. 10.1016/S0048-9697(00)00523-4.
Heckerling P.S. 2002;Parametric receiver operating characteristic curve analysis using mathematica. Computer Methods and Programs in Biomedicine 69(1):65–73. 10.1016/S0169-2607(01)00179-1.
Jang O.J, Kim Y.O. 2006;Flood risk estimation using regional regression analysis. Journal of Korea Water Resource Association 9(4):71–80.
Jeong M.S, Kim J.S, Jang H.W, Lee J.H. 2016;ROC evaluation for MLP ANN drought forecasting model. Journal of Korea Water Resource Association 49(10):877–8850.
Jun H.D, Kim S.J. 2015;Future trend analysis of hydrologic time series in Chungju dam basin using quantile regression. Journal of Korea Society of Hazard Mitigation 15(3):275–283. 10.9798/KOSHAM.2015.15.3.275.
Kim G.S, Lee J.W. 2011;Evaluation on drought indices using the drought Records. Journal of Korea Water Resource Association 44(8):639–652. 10.3741/JKWRA.2011.44.8.639.
Kim G.S, Lee G.C. 2012;Estimates extreme hydrologic event at Seoul using regression analyses. J. of Korea Society of Hazard Mitigation 12(3):33–40. 10.9798/kosham.2012.12.3.263.
Lee H.G, Kim G.H. 2012;Landslide risk assessment in Inje using logistic regression model. Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography 30(3):313–321. 10.7848/ksgpc.2012.30.3.313.
Lee K.S, Kim T.H, Jung J.K, Ahn S.J. 2013;Economic and logistic regression analysis for verifying of validity of the regeneration project policy for the zones vulnerable to natural disaster. Journal of Korea Society of Hazard Mitigation 13(6):167–178. 10.9798/KOSHAM.2013.13.6.167.
Mason I.B. 1982;A model for assessment of weather forecasts. Australian Meteorological Magazine 30:291–303.
Son K.H, Bae D.H, Cheong H.S. 2015;Construction & evaluation of glosea5-based hydrological drought outlook system. Atmosphere 25(2):271–281. 10.14191/atmos.2015.25.2.271.
Spackman K.A. 1989. Signal detection theory: Valuable tools for evaluating inductive learning. Proceedings of the Sixth International Workshop on Machine Learning Morgan Kaufmann. San Mateo, CA: p. 160–163. 10.1016/B978-1-55860-036-2.50047-3.
Swets J.A, Dawes R.M, Monahan J. 2000;Better decisions through science. Scientific American 283:82–87. 10.1038/scientificamerican1000-82.
VanErkel A.R, Pattynama P.M.T. 1998;Receiver operating characteristic (ROC) analysis: Basic principles and applications in radiology. European Journal of Radiology 27(2):88–94. 10.1016/S0720-048X(97)00157-5.
Woo C.S, Kwon H.J, Lee C.W, Kim K.H. 2014;Landslide hazard prediction map based on logistic regression model for applying in the whole country of south Korea. Journal of Korea Society of Hazard Mitigation 14(6):117–123. 10.9798/KOSHAM.2014.14.6.117.
Yeon Y.K. 2011;Evaluation and analysis of Gwangwon-do landslide susceptibility using logistic regression. Journal of the Korean Association of Geographic Information Studies 14(4):116–127. 10.11108/kagis.2011.14.4.116.
Yoo C.S, Lee J.H, Kim K.W. 2007;Evaluation of the Clark unit hydrograph parameters depending on basin and meteorological condition:2. Estimation of parameter variability. Journal of Korea Water Resource Association 40(2):171–182. 10.3741/JKWRA.2007.40.2.171.
Yoo J.Y, Song H, Kim T.W, Ahn J.H. 2013;Evaluation of short-term drought using daily standardized precipitation index and ROC analysis. Journal of The Korean Society of Civil Engineers 33(5):1851–1860. 10.12652/Ksce.2013.33.5.1851.

Article information Continued

Table 1

Confusion Matrix of ROC(Kim and Lee, 2011; Jeong et al., 2016)

Threshold Actual value
Positive Negative
 Prediction outcome  Positive True Positive (TP) False Positive (FP) (Type I error)
Negative  False Negative (FN) (Type II error)  True Negative (TN)

Fig. 1

ROC Space and Plots of the Prediction Examples

Table 2

ROC Score for Evaluation Prediction Model

ROC score  Evaluation 
 0.9 < AUC≦ 1.0  Excellent
0.8 < AUC≦ 0.9 Good
0.7 < AUC≦ 0.8 Fair
0.6 < AUC≦ 0.7 Poor
AUC≦ 0.6 Fail

Fig. 2

Study Basin and Status of Water Level Station

Table 3

Status of Water Level Station Applied in This Study

Num Name Num Name Num Name
1 Hyeolcheon 17 Munmak 33 Sihueng
2 Imgye 18 Janghowon 34 Gunnam
3 Songcheon 19 Yulgkuk 35 Jeongyeon
4 Najeon 20 Heungcheon 36 Yeongjung
5 Jeongseon2 21 Heukcheongyo 37 Gososeong
6 Geoun 22 Bongsan 38 Cheongsan
7 Bangnimgyo 23  Waeongseongdong  39 Jeongok
8  Pyeongchang  24 Gapyeong 40 Yangnyeong
9 Anheung 25 Gyulwun 41 Songsan
10 Jucheon 26 Jojong 42 Paengseong
11 Sincheon 27 Gyeongan 43 Yangyang
12 Palgoe 28 Bupyeong 44 Gangneung
13 Okdong 29 Toegyewon 45 Jansu
14 Mokdo 30 Seongnam 46  Wahpyeonggyo 
15 Hoengseong 31 Jungranggyo
16 Ganhyeon 32 Sinjeong

Table 4

Probability of Monthly Prediction Success

Month # of water level station Prediction success Prediction error Probability of prediction success (%)
January 43 24 19 55.81
February 45 28 17 62.22
March 45 30 15 66.67
May 45 40 5 88.89
April 46 43 3 93.48
Jun 46 43 3 93.48
July 46 37 9 80.43
August 44 39 5 88.64

Table 5

Confusion Matrix of ROC for Water Level Stations

Month # of water level station Predicted and true condition FPR TPR F1
TP FP FN TN
January 43 19 5 12 7 0.42 0.61 0.69
February 45 26 2 13 4 0.33 0.67 0.78
March 45 29 1 11 4 0.20 0.73 0.83
May 45 38 2 3 2 0.50 0.93 0.94
April 46 43 0 0 2 0.00 1.00 1.00
Jun 46 42 0 0 3 0.00 1.00 1.00
July 46 35 2 9 0 1.00 0.80 0.86
August 44 39 0 3 2 0.00 0.93 0.96
All data 620 14 73 48 0.23 0.90 0.93

Fig. 3

ROC Curve and AUC Score