하천의 저수위 구간 예측을 위한 머신러닝 모델에 관한 연구

A Study on Learning-Machine Models for Low-Flow Prediction in River Basins

Article information

J. Korean Soc. Hazard Mitig. 2025;25(6):461-472
Publication date (electronic) : 2025 December 31
doi : https://doi.org/10.9798/KOSHAM.2025.25.6.461
* 정회원, 인하대학교 수자원시스템연구소 책임연구원(E-mail: juhwan@inha.ac.kr)
* Member, Researcher, Institute of Water Resources System, Inha University
** 정회원, 인하대학교 사회인프라공학과 교수
** Member, Professor, Department of Civil Engineering, Inha University
*** 정회원, 한국건설기술연구원 수자원하천연구본부 수석연구원
*** Member, Senior Researcher, Department of Hydro Science and Engineering Research, Korea Institute of Civil Engineering and Building Technology
**** 정회원, 인하대학교 스마트시티공학과 박사과정
**** Member, Ph.D. Candidate, Department of Smart City Engineering, Inha University
***** 정회원, 인하대학교 스마트시티공학과 박사과정(E-mail: uk9509@nate.com)
***** Member, Ph.D. Candidate, Department of Smart City Engineering, Inah University
***** 교신저자, 정회원, 인하대학교 스마트시티공학과 박사과정(Tel: +82-32-876-9783, Fax: +82-32-876-9787, E-mail: uk9509@nate.com)
***** Corresponding Author, Member, Ph.D. Candidate, Department of Smart City Engineering, Inah University
Received 2025 November 19; Revised 2025 November 21; Accepted 2025 November 25.

Abstract

하천의 유출량은 유황구간에 따라 갈수량, 저수량, 평수량, 풍수량으로 구분되며, 수자원 관리 목적에서 중요한 인자로 활용되고 있다. 이를 정량적으로 산정하기 위해 기존 연구에서는 유역모형을 기반으로 일유량을 모의하는 방법이 주로 사용되었다. 그러나 유역모형은 자료 구축 과정에서 많은 인력과 비용이 요구되며, 적용 과정이 복잡하다는 한계가 존재한다. 이에 본 연구에서는 수문⋅기상자료를 기반으로 머신러닝 알고리즘을 적용하여 수위관측소의 일유출량을 예측하는 모형을 구축하였다. 특히, 가뭄으로 인한 저수량 구간의 예측 정확도를 향상시키기 위해 유출량 자료의 누적분포와 분산을 나타내는 통계적 지표인 IQR (Inter Quartile Range)를 활용하였다. 또한 유황구간을 범주형 변수로 설정하여 홍수기 고유량 값으로 인한 영향을 최소화하였다. 금강권역의 월산교 수위관측소와 섬진강권역의 섬진강댐 지점을 대상으로 신경망, 랜덤포레스트, 의사결정나무를 활용하였으며, 비교를 위해 수학적 모형인 중회귀 모형을 적용하였다. 이후 성능을 평가하고자 k-겹 교차검증 방법을 사용하였으며, 상관계수, Kendall, Spearman 통계량, MAE, RMSE, RAE, RRSE 등의 지표를 이용하여 실측자료와 비교 및 분석하였다. 결과적으로, 머신러닝 기반 모형이 중회귀모형보다 높은 재현성이 나타났으며, 그중 랜덤포레스트 모형이 가장 우수한 예측 성능을 나타냈다. 이러한 결과를 통해 수문⋅기상자료 및 AI 모형을 통해 가뭄 대응을 위한 하천 갈수량 예측이 가능할 것으로 판단하였다. 본 연구의 결과는 향후 가뭄 대응을 위한 수자원 관리 측면에서 기초 연구자료로 활용될 수 있을 것이다.

Trans Abstract

River discharge can be categorized into low-, drought-, normal-, and high-flow conditions depending on the flow regime and is an essential parameter in water resource management. Traditionally, the quantitative estimation of daily streamflow has primarily relied on hydrological models; however, such models require extensive effort and cost for data preparation and involve complex implementation procedures. To address these limitations, this study developed a predictive framework using hydrometeorological variables to estimate the daily discharge at streamflow monitoring stations. To improve prediction accuracy, particularly in drought-related low-flow conditions, the interquartile range, representing the statistical variability and cumulative distribution characteristics of streamflow data, was applied. In addition, flow regimes were classified into categorical variables to minimize the influence of extreme high-flow values occurring during flood seasons. The proposed methodology was applied to the Weolsan Bridge station in the Geum River Basin and the Seomjingang Dam station in the Seomjingang River Basin. Artificial Neural Network, Random Forest, and Model Tree were employed, and a multiple regression model was applied for comparison. Model performance was evaluated using k-fold cross-validation and assessed based on correlation coefficients, Kendall’s tau, Spearman’s rho, MAE, RMSE, RAE, and RRSE metrics by comparing model predictions with observed values. The results indicated that the models demonstrated higher reproducibility than the regression-based approach. Among them, the Random Forest model achieved the best predictive performance. Overall, the findings suggest that machine-learning models utilizing hydrometeorological variables provide a viable approach for forecasting low-flow conditions and may serve as a useful tool for drought preparedness and water resource management. The results of this study can be used as foundational research data to establish drought response strategies for sustainable water resource management.

1. 서 론

전 지구적 기후변화와 기상이변으로 인해 가뭄 및 홍수의 발생 패턴이 변화하고 있으며, 이를 대응하기 위한 기존 다목적댐과 용수전용댐 등 물관리 시설의 이수⋅치수 기능에 대한 중요성이 점차 강조되고 있다. 가뭄 상황에서 안정적인 용수공급을 확보하기 위해 다양한 정책적⋅기술적 대응이 추진되고 있으며, 국가 차원에서도 「수자원장기종합계획」을 수립하여 가뭄 및 물 부족 대응체계를 마련하고 있다. 해당 계획에서는 전국 유역을 대상으로 수요⋅공급량을 예측하고 장기적인 물 부족량을 산정하고 있으나, 이러한 체계는 주로 국가하천과 대형 수자원시설에 집중되고 있으며 지방하천과 소하천에 대한 대응은 상대적으로 미흡한 실정이다(Jang et al., 2021; Kim et al., 2021).

한편, 하천은 도시의 공간 구조를 형성하는 핵심 요소로써 많은 도시가 하천을 중심으로 형성되어 있다. 그러나 최근 기후변화에 따른 자연재해(가뭄, 홍수 등)가 빈번해지면서 하천 주변 도시는 이전보다 높은 재해 위험에 노출되고 있다. 또한 장기간의 강우 부족은 가뭄으로 이어져 생활⋅농업⋅산업용수 공급에 심각한 영향을 미치고 있다. 이에 하천 흐름에 영향을 미치는 수문⋅기상학적 인자를 분석하고, 이를 기반으로 하천 유출량을 예측하는 연구가 자연재해 대응 및 사전 관리 측면에서 중요한 과제로 인식되고 있다. 그럼에도 불구하고 우리나라와 같이 하상계수가 큰 하천의 경우 홍수기 유출량과 차이가 매우 커 가뭄 시기에 발생하는 갈수량 및 저수량 예측의 불확실성이 증가하고 있다. 또한 현재의 하천 유출량 예측은 계절적 강수 변동뿐만 아니라 다양한 기상 요소를 고려하기 위해 유역모형을 기반으로 수행되고 있으나, 자료 구축에 많은 시간과 인력이 소요되고 적용 과정이 복잡하여 운영 및 유지 비용이 높다는 한계가 존재한다. 따라서 가뭄에 따른 수자원 관리 효율을 극대화하기 위해서는 적정수준의 정확성을 가진 예측모형이 반드시 필요하다(Stedinger et al., 1984).

하천 유출량 예측과 관련된 선행 연구사례를 살펴보면, Kim et al. (1992)Kim (1993)은 시계열 기반 강우-유출모형에 인공신경망을 적용하여 기존 시계열 모형과 비교 및 분석하였으며, 인공신경망이 비선형 예측에 적합하다는 것을 확인하였다. 또한 Jee et al. (2005)은 Tank 모형의 매개변수를 유전자 알고리즘(genetic algorithm, GA)으로 자동보정하여 앙상블 유출량 예측에 활용하였다.

Choi et al. (2009)은 다층 신경망(multi layer perceptron)인 AI 기반의 모형이 유량 예측에서 적합한 모형에 적합하다고 제시하였으며, Firat et al. (2010)은 수자원 관리에 필요한 수요량을 예측하고자 GRNN (Generalized regression neural networks), CCNN (Cascade correlation neural network) 등 신경망 계열의 모형을 적용하였다. Jun et al. (2020)은 낙동강 하류 유역의 수질 및 유량 모니터링 지점을 대상으로 BRNNs (Bayesian regularized neural networks), NN (Neural Networ), SVM (Support vector machines) 알고리즘을 사용하여 유량을 예측하였다. 해당 연구에서는 유량 예측에 있어 NN 알고리즘이 다른 알고리즘과 비교하여 낮은 오차가 발생한 것을 확인하였다.

Choi et al. (2009)은 다층 신경망(multi-layer perceptron, MLP) 모형 유량 예측 과정에 활용할 경우 적합한 결과가 도출된다는 것을 확인하였으며, Firat et al. (2010)은 수자원 관리에 필요한 수요량을 예측하고자 GRNN (generalized regression neural networks), CCNN (cascade correlation neural network) 등 신경망 계열의 모형을 적용하였다. 또한 Hwang (2021)은 LSTM (long short-term memory) 모형을 활용하여 삽교호로 유입하는 곡교천 유역의 홍수시 유량을 예측하였다. 또한 다수의 연구에서는 머신러닝⋅딥러닝 기반의 예측결과와 통계모형의 예측 결과를 비교하였으며, 머신러닝 및 딥러닝 기반 모형이 더 우수한 예측 정확도를 보이는 것을 확인하였다(Kwon et al., 2012; Altunkaynak and Nigussie, 2017; Choi and Kim., 2018).

기존 선행 연구사례를 통해 머신러닝 및 딥러닝 기법이 하천 유출량 예측에 높은 적용 가능성을 보이며, 통계 기반 모형보다 우수한 성능이 나타난다는 것을 확인하였다. 그러나 기존의 연구들은 주로 홍수기의 고유량 또는 평균 유출량 예측을 중심으로 수행되었으며, 가뭄 시기의 갈수량 및 저수량과 같은 저유량 구간에 대한 분석은 상대적으로 미비하였다. 저유량 구간은 데이터 변동 폭이 작고 외부 환경 요인에 민감하여 예측 정확도가 저하되는 경향이 있음에도 불구하고, 이를 반영한 모델 성능 분석 및 개선 연구는 아직 충분히 수행되지 못하였다.

따라서 본 연구에서는 저유량 구간에 대한 예측 성능을 개선하고자 범주형 유출량 예측 모델을 구축하였으며, 해당 모델에 대한 성능을 비교하였다. 이를 위해 통계 기반 유출량 자료를 활용하였으며, 하천 유역 유출량이 특정 임계값 이하일 확률에 따라 자료를 범주형으로 구분하였다. 이후 저수량 구간의 예측을 위해 머신러닝 기법인 의사결정트리(decision tree, DT), 랜덤포레스트(random forest, RF), 인공신경망(artificial neural network, ANN)을 활용하였다. 마지막으로 수학적 예측기법인 중회귀모형을 통해 머신러닝 모델의 적용성과 정확도를 비교 및 분석하였다.

2. 이론적 배경

2.1 하천유역의 유출량 발생확률

유역에서 발생하는 가뭄이나 홍수를 완전히 방어한다는 것은 불가능하므로 발생확률을 가지는 수문량에 따라 각종 수자원의 계획 및 관리가 이루어지고 있다. 또한 발생 확률을 초과하는 경우 가뭄 또는 홍수로 인한 피해가 크게 증가하므로, 장기적 피해 복구 비용과 과다 설계에 따른 사업비 증가 등을 함께 고려하여 설계량을 결정해야 한다. 따라서, 특정 크기의 발생확률을 정확하게 결정한다는 것은 수자원 시스템의 설계에 필수적이라 할 수 있다(Kim, 2010; Kim et al., 2020).

확률법칙은 반복되는 관측값의 통계학적 특성분석의 근거가 되는데 특정 사상 E1의 확률 P(E1)이란 반복적인 시행 끝에 해당 사상이 발생할 빈도로 정의된다.

(1)P(E1)=n1N

여기서, n1E1이라는 사상의 빈도이며, N은 시도 횟수로서 충분히 큰 값, n1/N은 상대빈도 또는 확률이다. 자료의 분포는 각 변량이 가지는 특정 값의 확률분포에 의하여 그 특성이 표기되는데 확률밀도함수는 확률변수의 분포를 나타내는 함수이며, 누적분포함수는 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수이다. 즉, 누적 분포 함수 F(x)는 어떤 변량 X가 특정변수 x보다 크지 않을 확률을 의미한다. 따라서, F(x)는 0에서부터 1까지 증가하는 함수이고, 각 계급구간으로 나누어 각 구간에 속하는 자료를 표기한다.

(2)F(x)=P(Xx)

유출량 자료의 분산을 나타내는 통계적 지표 중 하나인 사분위 범위(inter-quartile range, IQR)은 자료가 흩어진 정도를 의미하는 값으로, 제1사분위수(Q1)와 제3사분위수(Q3)의 차이로 정의된다. 여기서 Q1은 전체 자료 중 하위 25% 지점을, Q3은 상위 75% 지점을 의미한다. 한편, 유황곡선에서는 유량의 규모에 따라 여러 기준값이 사용된다. 갈수량은 강우 감소로 인해 하천 유량이 크게 저하되어 평상시 필요한 물 공급이 곤란해지는 상태를 의미하며, 일반적으로 연중 355일 동안 이 값보다 유량이 낮지 않은 수준으로 정의된다. 연중 275일 동안 유지되는 유량은 저수량, 185일 동안 유지되는 유량은 평수량으로 구분된다. 또한 연중 약 95일 동안 유지되는 유량은 풍수량, 연 1~2회 발생하는 출수의 유량은 고수량으로 정의되며, 3~4년에 한 번 발생하는 유출량은 홍수량으로 분류된다. 이외에도 과거 기록 또는 관측 자료를 기반으로 산정된 최저갈수량과 최대홍수량이 존재하며, 이는 각각 관측된 최저 및 최대 유량을 의미한다.

2.2 중회귀모형

일반적으로 자연적 또는 사회적 현상을 설명할 때 종속변수의 변화는 두 개 이상의 독립변수에 의해 결정된다. 이러한 변수 간 관계를 보다 효과적으로 설명하기 위해 여러 독립변수를 포함하여 종속변수와의 선형적 관계를 가정하는 모델을 선형 중회귀모델(multiple linear regression model)이라 한다. 해당 모델은 다음과 같은 식으로 표현될 수 있다.

(3)y=β0+β1x1+β2x2++βnxn

2.3 인공신경망

인공신경망은 Fig. 1과 같이 인간의 두뇌와 정보를 처리하는 과정을 수학적으로 모사한 모델로, 다수의 요소가 동시에 작동하는 병렬형 정보처리 시스템으로 정의된다. 인공신경망 기반의 모형은 명시적인 구조 정의나 매개변수 산정 규칙이 필요하지 않으며, 학습 데이터가 축적될수록 예측 성능이 향상된다는 특징을 가진다. 인공신경망을 구성하는 기본 단위인 뉴런은 비선형 구조를 갖는 신경소자로, 이들 간 연결 강도(가중치)가 학습 성능을 결정한다. 각 뉴런은 다른 뉴런으로부터 입력 신호를 받아 이를 종합한 후 활성 여부를 판단하며, 활성화될 경우 출력 신호를 다음 뉴런으로 전달한다. 이러한 입력-출력 관계는 연결 강도 변화에 의해 조정되며, 이는 인공신경망의 학습 과정에서 중요한 역할을 수행한다. 또한 뉴런의 처리 과정은 일반적으로 합산(summation), 활성화(activation), 전달(transfer), 학습(learning) 단계로 구성된다. 합산함수는 입력값에 가중치를 적용하여 총합을 계산하고, 활성화 함수는 이 값을 기준 함수에 따라 비선형적으로 변환한다. 이후 전달함수는 활성화 결과를 다음 뉴런으로 전송하며, 학습 과정에서는 매개변수인 가중치가 최적화되어 모델의 성능을 향상시킨다.

Fig. 1

Biological and Artificial Neuron

학습 함수는 모델의 예측값과 목표값을 비교하여 오차를 줄이는 역할을 수행한다. 입력층과 출력층의 구조는 문제에서 정의된 변수에 의해 결정되는 반면, 은닉층의 뉴런 수는 목적과 학습 데이터의 특성에 따라 조정될 수 있다. 인공신경망 학습 방법 중 대표적으로 사용되는 알고리즘은 오차역전파(error back-propagation)이며, 본 연구에서는 해당 알고리즘을 기반으로 한 다층 퍼셉트론(multi-layer perceptron, MLP) 구조를 적용하였다. 이를 수식으로 나타낸다면 다음과 같다.

(4)Ep=12k(ypkopk)2

여기서, ypkp번째 입력패턴에 대한 k번째 뉴런의 관측값을 의미하며, opk는 동일한 입력패턴에 대해 출력층의 k번째 뉴런에서 생성된 출력값이다. 오차 함수는 단일 패턴에 대한 오차 EP와 모든 학습 패턴에 대한 총 오차를 포함하며, 학습 과정에서 이를 최소화하도록 가중치가 조정된다.

2.4 의사결정 트리

의사결정트리는 분석 대상 자료로부터 의사결정 규칙을 추출하여 이를 나무 구조로 표현하는 분류 및 예측 기법이다. 분석 과정이 트리 형태로 시각화되기 때문에 동일 목적의 다른 예측 방법에 비해 모델 구조가 명확하고 결과 해석이 용이하다는 장점을 갖는다. 또한 데이터마이닝 분야에서는 의사결정트리가 단독 예측 모델로 활용되며, 연속형 및 범주형 변수 모두를 전처리 과정 없이 사용할 수 있어 데이터 변환에 필요한 처리 시간을 줄일 수 있다. 더불어 다양한 입력 변수 중 예측에 유의한 변수를 선별하는 데에도 활용될 수 있다.

의사결정트리는 뿌리마디(root node)에서 시작하여 분기 과정을 반복하면서 자식마디를 생성하고, 각 가지가 끝마디(leaf node)에 도달할 때까지 성장한다. 완성된 의사결정나무를 구성하기 위해서는 분리 기준(splitting rule), 정지 기준(stopping rule), 가지치기(pruning) 방법, 결측값 처리 방식(imputation method)과 같은 요소들이 필요하다. 이러한 기준에 따라 서로 다른 구조의 의사결정나무가 생성된다. 대표적인 알고리즘으로는 CHAID (chi-squared automatic interaction detection), Breiman et al. (1984)의 CART (classification and regression trees), Quilan (1992)의 C4.5, QUEST (quick, unbiased efficient statistical tree) 등이 있다.

본 연구에서는 Fig. 2와 같이 C4.5 알고리즘을 기반으로 개선된 M5 알고리즘을 적용하였다. M5는 선형회귀식, 회귀트리(regression tree), 모델트리(model tree)를 결합한 형태의 예측 모델이며, 회귀트리와 모델트리는 모두 트리 구조를 기반으로 하나 출력 방식에서 차이가 있다. 회귀트리는 각 분기 노드의 평균값을 결과로 제시하는 반면, 모델트리는 리프 노드에 선형 회귀식을 적용하여 예측값을 산정한다. 모델트리의 장점은 의사결정 규칙을 제공하면서도 결과로 제시되는 선형식이 일반적으로 적은 수의 변수를 포함하여 해석 가능성을 높인다는 점이다. 또한 M5 알고리즘은 선형 시계열 모델인 ARIMA (auto-regressive integrated moving average)와 비선형 모델인 인공신경망의 중간적 성격을 가지며, 의사결정트리 기반 분류에서는 분할 정복(divide-and- conquer) 방식이 활용된다.

Fig. 2

Partitioning of M5 Model Tree

  • (1) 뿌리마디에 위치할 변수를 선택하고 가능한 값에 대하여 하나의 가지를 생성한다.

  • (2) 선택된 값에 대하여 자식마디를 분리 생성한다.

  • (3) 하나의 가지에 할당된 값을 대상으로 반복적으로 자식마디를 분리 생성한다.

  • (4) 자식마디에 할당된 모든 샘플이 하나의 범주로 분리될 때 자식마디의 분리 생성을 중지한다.

모델트리에서 통계학적 분리기준은 자식마디의 엔트로피(entropy), 불순도 감소에 근거하고 있다. 즉, 유사한 성질의 샘플을 가능한 하나의 자식마디로 분류하는 방식으로 분리를 수행한다. M5 모델트리는 자식마디 T에 할당된 샘플의 표준편차가 줄어드는 방향으로 분리를 수행한다. 각 마디에 할당된 자료의 표준편차는 예측오차로써 평가되고 표준편차의 감소량을 최대화시키는 변수가 분리기준으로 선정된다.

(5)SDR=sd(T)|T||Ti|×sd(Ti)

여기서, SDR (standard deviation reduction)은 표준편차의 감소량, Ti는 선정된 변수에 의해 생성된 자식마디의 샘플집합이다. 나무구조의 분리는 표준편차 변화가 미미하거나(약 5% 미만) 자식마디에 할당된 샘플수가 거의 없을 때 중지된다. 최종적으로 각각의 자식마디 샘플에 대하여 선형회귀모델을 구축한다.

2.5 랜덤포레스트

랜덤포레스트(RF)는 의사결정트리의 숲을 의미하는 것으로, 무작위로 자료의 특징을 선정하여 노드를 지정하고 분기(branching)할 때마다 Fig. 3의 의사결정트리와 같은 방식으로 지니불순도(gini impurity or index)를 파악하여 분기해 나가는 모형이다. 지니불순도는 데이터의 불순도 혹은 혼잡도를 측정하는 지표로, 의사결정트리가 데이터를 어떻게 분할할지 결정하는 데 중요한 역할을 수행한다. 예를 들어, 노드 t에서 GINI 계수는 다음과 같이 표현된다.

Fig. 3

Conceptual Diagram of Random Forest (Written by CFI Team, 2025)

(6)GINI(t)=1j=1k[p(j|t)]2

여기서, p(j|t)는 노드 t에서 클래스 j구간의 상대빈도를 의미한다.

랜덤포레스트는 여러 개의 의사결정나무 모형에 샘플을 여러 번 뽑아 모형을 학습시켜 집계하는 방법인 배깅(bagging)의 기본 원리와 임의성을 가미한 분류모형으로 핵심원리는 다음과 같다.

  • (1) 앙상블 학습(ensemble Learning): 단일 모델 대신 여러 의사결정트리를 결합하여 더 높은 예측 정확도와 안정성을 확보한다.

  • (2) 부트스트랩 샘플링(bagging): 전체 학습 데이터에서 복원추출 방식으로 여러 개의 학습용 데이터셋을 생성하고, 각 데이터셋을 이용해 개별 트리를 학습시킨다.

  • (3) 무작위 변수 선택(random Subspace): 각 트리의 노드 분할 시 모든 변수 대신 일부 변수만 무작위로 선택하여 사용함으로써 모델 간 다양성을 확보하고 특정 변수에 대한 과적합을 방지한다.

  • (4) 집계 기반 예측(aggregation): 새로운 데이터가 주어지면 모든 트리가 예측을 수행하며, 분류 문제에서는 다수결 방식으로 최종 결과를 결정하고, 회귀 문제에서는 개별 예측값의 평균을 최종 예측값으로 사용한다.

위와 같은 랜덤포레스트는 분류 모형 중 높은 예측 정확도를 보이는 것으로 알려져 있으며, 배깅 기법을 기반으로 학습 데이터를 무작위로 추출하여 여러 개의 의사결정트리를 독립적으로 구성한다. 일반적으로 다수의 트리를 생성하며, 약 500개의 트리를 구축하는 경우가 많다. 학습이 완료된 후에는 각 트리의 예측 결과를 집계하여 최종 결과를 결정하는데, 분류 문제에서는 다수결 방식으로 최종 클래스를 선정한다. 랜덤포레스트에서 생성되는 트리의 수는 분류기의 개수를 의미하며, 트리 구조 및 예측 결과는 무작위성에 기반하여 결정된다. 또한 학습 과정에서는 모형의 성능을 향상시키기 위해 하이퍼파라미터를 조정하며, 반복적인 학습을 통해 최적의 매개변수를 도출한다.

2.6 성능평가 방법

본 연구에서는 모델의 성능을 평가하고자 교차검증(cross-validation)과 기존의 보정 및 검증 절차를 수행하였다. 성능 비교를 위해 사용된 검증 지표는 상관계수(correlation coefficient), 두 변수 간 순위 기반 상관성을 분석하는 Kendall-tau, 순위형 변수 간 통계적 의존성을 평가하는 Spearman-rho, 평균절대오차(mean absolute error, MAE), 평균제곱근오차(root mean square error, RMSE), 상대평균절대오차(relative absolute Error, RAE), 상대제곱근오차(root relative squared error, RRSE)이다. 이후 모델의 일반화 능력 평가를 위해 K-겹 교차검증(K-fold cross-validation)을 적용하였다. 이 방법은 전체 데이터를 k개의 폴드(fold)로 분할한 뒤 각 폴드를 한 번씩 검증 데이터로 사용하고 나머지 k-1개의 폴드를 학습용 데이터로 활용하여 모델을 k회 반복 학습⋅검증하는 방식이다. 이러한 절차는 과적합(overfitting)과 과소적합(underfitting)을 방지하고 모델의 일반화 성능을 평가하는 데 효과적이다. k-겹 교차검증은 전체 데이터를 k개의 폴드로 나누고 각 폴드를 한 번씩만 검증데이터로 사용하면서 나머지 k-1개의 폴드로 학습데이터를 구성하여 모델의 성능을 k번 반복하는 방법이다. 이는 모델이 새로운 데이터에 얼마나 잘 작동하는지를 파악함으로써 과대적합이나 과소적합을 방지하고, 일반화 성능을 높이기 위한 방법이라고 볼 수 있다.

3. 대상유역 선정 및 분석

3.1 대상유역 선정

본 연구에서는 금강권역 표준유역인 세종시 월산교 수위관측지점과 섬진강권역 표준유역인 섬진강댐 유역을 Fig. 4와 같이 선정하였다. 이러한 월산교 지점과 섬진강댐 지점의 관측소 현황은 각각 Tables 1, 2와 같다. 월산교와 섬진강댐 유역면적은 각각 258.58 km2, 399.86 km2이며, 인근에는 총 3개의 기상관측소가 운영되고 있다. 여기서, 월산교 지점의 경우 대전관측소의 영향은 상대적으로 미미한 것으로 판단하였다.

Fig. 4

Hydro-Meteorological Characteristics of Study Areas

Meteorological Stations of Weolsankyo in Geum River

Meteorological Stations of Seomjin River Dam

3.2 계급구간 분류

Fig. 5와 같이 대상유역의 유출량이 매우 낮은 구간에 집중되어 있어 갈수량 및 저수량을 모의하거나 예측하는 데 한계가 존재하였다. 따라서 본 연구에서는 유량 변동 특성을 객관적으로 분류하고자 지속일수와 초과확률을 고려하였으며, Fig. 6의 통계적 지표인 사분위 범위(IQR)를 도입하여 유량을 범주형 자료로 설정하였다. 이와 같이 금강 및 섬진강 유역에 대한 유량 범주를 정의하였으며, 그 결과는 Tables 3, 4와 같다. 분석 결과를 살펴보면, 월산교 지점의 저수량(14.10 cms)은 Q1 (14.15 cms)과 유사한 값을 보였으며, 평수량(18.12 cms)은 중간값(18.27 cms)에 근접하였다. 또한 Q3 (28.04 cms)는 홍수량(27.28 cms)과 유사하게 나타났다. 섬진강댐 지점 또한 동일한 경향을 보였으며, 저수량(2.96 cms)은 Q1 (2.98 cms), 평수량(5.50 cms)은 중간값(5.65 cms), Q3 (11.94 cms)은 홍수량(11.49 cms)과 각각 유사한 값으로 확인되었다. 다만, 최소유량과 갈수유량의 차이는 월산교 지점에서 약 1.85배, 섬진강댐 지점에서는 약 30배 수준으로 나타나, 저유량 구간의 변동성이 유역별로 크게 상이하다는 것을 확인하였다.

Fig. 5

Flow-Duration Curve of Weolsankyo and Seomjin River Dam Stations

Fig. 6

Inter Quartile Range by Each Variance

Classification of Flow Categories at Weolsankyo Station

Classification of Flow Categories at Seomjin River Dam Station

3.3 예측모형 개발

머신러닝 기반 예측 모형의 주요 장점 중 하나는 자료의 특성을 반영하여 분류 기능을 수행할 수 있다는 점이다. 이러한 분류 방식은 크게 두 가지 유형으로 구분될 수 있다. 첫째는 자료를 계급 구간별로 구분할 수 있는 경계면(decision boundary)을 도출하고, 해당 경계면으로부터 입력 자료가 어느 구간에 속하는지를 판별하는 방식으로, 이는 판별함수 기반 모형에 해당한다. 둘째는 입력된 자료가 특정 계급 구간에 속할 확률을 계산하는 확률 기반 모형이다. 본 연구에서는 저유량(갈수량 및 저수량) 조건을 보다 정확하게 파악하기 위해 IQR 기반 통계지표와 유황곡선을 활용하여 유출량 범주(Category)를 설정하고, 이를 종속변수로 활용하였다. 이후 각 유출량 자료가 어느 범주에 속하는지를 예측하기 위해 의사결정트리(M5), 랜덤포레스트(RF), 인공신경망(ANN) 및 중회귀(MR) 모형을 적용하였다. 또한 기상자료는 강우량, 최고⋅최저 및 평균기온, 풍속, 상대습도, 일조량 등 관측소에서 수집 가능한 항목을 사용하였고 각 변수에 대한 분포는 Fig. 7에서 볼 수 있다. 분석 기간은 세종 월산교 지점의 경우 2008년 1월부터 2020년 12월 31일까지이며, 섬진강댐 지점은 2012년 1월부터 2019년 12월 31일까지의 일 단위 자료를 활용하였다. Fig. 8은 세종 월산교 지점에서 사용된 입력 변수들의 빈도분포를 도시한 것으로, 강우량은 무강우 기간이 길어 비대칭적 분포를 보였으며, 일조량 또한 강우 발생 여부와 관련해 유사한 편향 분포 특성을 나타냈다.

Fig. 7

Variables Frequency of Application Data at Weolsankyo Station in Geum River

Fig. 8

Comparison of Cumulative Density Function by Actual and Results

4. 적용결과 및 분석

4.1 통계적 특성 비교

본 연구에서는 세종 월산교 지점과 섬진강댐 지점을 대상으로 RF, M5, ANN, 중회귀모형을 적용하였다. 이를 위해 세종 월산교 지점의 일 단위 자료 4,673개와 섬진강댐 지점의 일 단위 자료 2,859개를 사용하였으며, 모델 검증은 k-겹 교차검증(k-fold cross validation) 기법을 적용하였다. 또한 누적분포함수(CDF)와 상자그림(Boxplot) 기반의 통계적 특성과 검증 통계량 비교를 통해 성능을 평가하였다. 두 지점에 대한 모형 예측 결과는 Fig. 8에 제시하였으며, 월산교 지점은 비교적 균등한 유량 분포 특성을 보인 반면, 섬진강댐 지점은 유량 변화가 급격하고 분포의 편중이 크게 발생한 것을 확인하였다.

또한 Fig. 9의 상자그림 분석을 통해 월산교 지점 RF, M5, ANN 모형의 예측값이 관측값과 유사한 분포 특성으로 나타났으나, 중회귀모형(MR)의 결과는 다른 모형 및 관측값과 비교하여 상대적으로 큰 편차가 발생하였다. 섬진강댐 지점의 경우 RF 모형은 관측값의 통계 범위 내에서 예측 결과가 나타난 반면, M5, ANN, 중회귀모형은 사분위 범위를 벗어나는 예측값이 다수 확인되었다. 이를 통해 지점별 자료 특성에 따라 모형 간 예측 성능 차이가 존재한다고 판단하였다.

Fig. 9

Boxplot of Actual and RF, M5, ANN, MR Results

4.2 예측성능 비교분석

세종 월산교 지점과 섬진강댐 지점에 적용된 모형의 예측 성능을 비교하기 위해 k-겹 교차검증(k-fold cross validation)을 수행하였으며, 상관계수, Kendall-tau, Spearman-rho, MAE, RMSE, RAE RRSE를 활용하여 성능을 평가하였다. 분석은 원자료 기반 일유출량과 IQR 및 유황곡선에 따라 구분된 범주형 자료를 각각 적용하였으며, 범주화 과정이 예측 정확도 향상에 미치는 효과를 비교하는 방식으로 진행하였다. 또한 세종 월산교 지점의 적용 결과는 Table 5에 정리하였다. 분석 결과에서는 M5 알고리즘 기반 의사결정트리 모델이 가장 우수한 예측 성능을 보였으며, 상관계수 0.999, Kendall 통계량 0.875, Spearman 통계량 0.966, MAE 0.011, RMSE 0.021, RAE 0.68%, RRSE 1.22%로 나타났다. 이를 통해 원자료 기반 학습보다 범주형 자료 적용 시 예측 정확도가 크게 향상된 것으로 판단하였다. 반면, 섬진강댐 지점에서는 RF 모형이 가장 우수한 결과를 보였으나(Table 6), 통계지표 평가 결과 원자료 기반 학습이 범주형 자료 기반 학습보다 상대적으로 높은 예측 성능을 나타냈다. 이는 Fig. 8에서 확인되듯이 섬진강댐 자료가 특정 유량 구간에 집중되어 분포 왜곡이 심하며, 최소유량과 갈수유량의 차이가 약 30배 수준으로 매우 크기 때문에 범주화 과정이 오히려 정보 손실을 초래한 것으로 판단하였다.

Application Results of Weolsankyo Station

Application Results of Seomjin River Dam Station

Fig. 8의 누적밀도함수 및 Fig. 10의 히스토그램 비교에서도 이러한 특징이 확인되었다. 월산교 지점은 비교적 완만한 분포 특성을 보인 반면, 섬진강댐 지점은 특정 구간에 값이 집중되어 급격한 분포 변화를 나타냈다. 이와 같은 특성은 범주형 모델링 시 예측 성능 저하로 이어질 수 있으며, 따라서 해당 지점과 같이 유량 변동 폭이 크고 왜곡된 분포를 가진 자료의 경우 외부 입력변수 확대, 자료 재분류, Box-Cox 변환과 같은 추가적 전처리 과정이 필요할 것으로 판단하였다. 종합적으로, 해당 분석 결과를 통해 머신러닝 기반 모형 적용 시 자료 분포 특성과 유역별 수문 특성을 반영한 갈수 및 저수 구간 설정이 중요하며, 이를 위한 추가적인 데이터 전처리 및 분류 기법 개선 연구가 필요할 것으로 판단하였다.

Fig. 10

Comparison of Histograms for Application Data

유출량과 같이 수문학적 예측 문제에서는 선형모형과 비선형 모형의 특성이 고려되어야 하는데 수학적 모형에서는 수문자료의 선형패턴만 인식할 수 있으며, 비선형 모형은 수문자료의 비선형 관계를 구현할 수 있다. 즉, 모형에 적정한 입력자료가 활용되어야 하며, 올바른 입력자료를 토대로 다양한 상황이 구현될 수 있도록 모형이 구축되어야 한다. 머신러닝과 같은 AI 모형은 관측장비에서 측정되는 수집정보를 데이터 전송을 통해 수집되어 적정모형의 매개변수를 찾아내 유출량을 예측하게 된다.

머신러닝 모형은 입력자료가 방대하고 자료에 의해 찾아낸 매개변수를 사용하는 유역모형과는 달리 자료의 획득이 어려운 하천 유출에 대해 수집 가능한 가용정보를 직접 입출력 데이터로 설정하여 예측을 수행하게 되므로 효과적으로 활용될 수 있을 것으로 판단하였다. 본 연구의 결과에서는 머신러닝 모형이 보여주고 있는 단순성과 용이성에 따라 여러 가지 알고리즘을 적용한 결과를 제시하고 있으나, 다양한 상황이 발생 가능한 수문계에서 최상의 결과를 제공하기에는 많은 한계점 또한 존재하는 것도 사실이다.

따라서 본 연구에서는 예측 성능이 향상된 경우와 그렇지 못한 경우를 모두 검토하였다. 이를 통해 머신러닝 모형 적용 시 장점을 최대한 활용함과 동시에, 입력자료가 부적절한 상황에서 발생할 수 있는 시행착오를 최소화하는 데 연구의 의의를 두었다.

5. 결 론

본 연구에서는 갈수위와 저수위 구간 위주의 하천유출량 예측을 머신러닝 기반의 모형화 과정을 제시하였으며, 그 결과에 대한 성능평가를 수행하였다. 이를 위해 표준유역인 금강권역의 월산교 지점과 섬진강댐 지점의 일단위 유출량과 강우량 등 기상관측 자료 간의 상관관계를 분석하였다. 또한 유황곡선과 사분위값을 고려하여 유출량 계급구간 예측을 위한 머신러닝 알고리즘인 랜덤포레스트, 인공신경망 및 모델트리, 중회귀모형을 적용하였다. 이후 각 모형별 예측성능을 평가하고자 교차검증 방법을 사용하였다.

우선, 머신러닝 기반 갈수량 예측의 적합성을 확보하기 위해 알고리즘 적용에 앞선 전처리 과정을 수행하였다. 이를 위해 수문⋅기상자료에 통계기법을 적용하여 사분위값과 유황곡선을 반영한 계급구간 기반의 범주형 자료를 구성하였으며, 해당 자료를 이용해 저유량 구간을 예측하였다. 이후 교차검증을 통해 범주형 자료 적용 결과와 원자료 적용 결과를 비교하여 모델 성능을 평가하였다. 교차검증을 통해 모델 성능을 평가한 결과, 두 표준유역 모두에서 인공신경망(ANN)보다 M5 모델트리와 랜덤포레스트가 더 우수한 예측 성능을 보였다. 이러한 결과는 모델 선정 단계에서 알고리즘의 학습 효율성과 적용 적합성을 판단하는데 유의미한 근거가 될 수 있을 것으로 판단하였다.

섬진강댐 지점의 누적확률분포 분석을 수행한 결과, 자료의 분포가 특정 구간에 집중되거나 왜곡이 큰 경우 범주형 자료를 적용한 모델이 원자료 기반 모델보다 예측 성능이 낮아지는 경향이 나타났다. 이는 최소유량과 갈수유량의 차이가 월산교 지점에서는 약 1.85배, 섬진강댐 지점에서는 약 30배로 크게 나타나는 자료 특성 영향으로 해석되며, 이러한 조건에서는 모델 적용 시 정확성 확보가 어려울 수 있어 알고리즘 선택에 주의가 필요할 것으로 판단하였다. 따라서 저수 구간 예측 정확도를 향상시키기 위해서는 머신러닝 적용 이전 단계에서 저수 및 갈수 구간의 재분류와 통계적 변환 등의 전처리 과정이 선행되어야 한다. 또한 입력자료 구성 시 외부 변수를 추가하거나, 유역모델과 결합한 하이브리드 모형을 적용하는 등 예측 체계의 확장적 접근이 모형 성능 개선에 기여할 수 있을 것으로 판단하였다.

본 연구에서는 강수량을 포함한 가용 수문⋅기상자료를 활용하여 모델을 구축하였으나, 섬진강댐 지점에서 나타난 예측 한계는 자료의 비선형성과 분포 왜곡에 기인한 것으로 판단하였다. 따라서 향후 연구에서는 정규화 기법 또는 통계적 변환을 포함한 개선 전략을 적용하여 이러한 한계를 보완할 필요가 있으며, 이를 기반으로 저유량 예측 정확도가 강화될 수 있을 것이다.

감사의 글

본 결과물은 기후에너지환경부의 재원으로 한국환경산 업기술원의 가뭄대응 물관리 혁신 기술개발사업의 지원을 받아 연구되었습니다(2022003610002).

References

1. Altunkaynak A, Nigussie T.A. 2017;Monthly water consumption prediction using season algorithm and wavelet transform–based models. Journal of Water Resources Planning and Management 143(6):04017011.
2. Breiman L, Friedman J, Stone C.J, Olshen R.A. 1984. Classification and regression trees CRC Press.
3. Choi G.S, Yu C, Jin R.M, Yu S.K, Chun M.G. 2009;Short-term water demand forecasting algorithm using AR model and MLP. Journal of Korean Institute of Intelligent Systems 19(5):713–719.
4. Choi J.H, Kim J.B. 2018;Analysis of water consumption data from smart water meter using machine learning and deep learning algorithms. Journal of the Institute of Electronics and Information Engineers 55(7):31–39.
5. Firat M, Turan M.E, Yurdusev M.A. 2010;Comparative analysis of neural network techniques for predicting water consumption time series. Journal of Hydrology 384(1-2):46–51.
6. Hwang B.G. 2021;Evaluation of LSTM model for inflow prediction of lake sapgye. Journal of the Korea Academia-Industrial Cooperation Society 22(4):287–294.
7. Jang O.J, Moon Y.I, Moon H.T. 2021;Methodology for assessment and forecast of drought severity based on the water balance analysis. Journal of Korea Water Resources Association 54:241–254.
8. Jee G.J, Kim S.J, Kim P.S. 2005;Forecasting monthly inflow for the storage management of small dams. Proceedings of the Korea Water Resources Association Conference :85–89.
9. Jun G.L, Kwon D.H, Ki S.J. 2020;Comparing the performance of machine learning algorithms in predicting river water quality and quantity. Korean Society of Water Science &Technology 28(1):49–57.
10. Kim D.H, Kim J.S, Wang W.J, Lee J.S, Jung J.W, Kim H.S. 2020;Analysis of morphological characteristics of collapsed reservoirs in Korea. Journal of the Korean Society of Hazard Mitigation 20(5):207–216.
11. Kim H.S. 2010. Hydrologic Paju: Donghwa Technology Publishing Co.
12. Kim J.H. 1993. A study on hydrologic forecasting of streamflows based on artificial neural network Ph.D. dissertation, Inha University.
13. Kim J.H, Park C.Y, Kang K.W. 1992;Nonlinear prediction of stream flows by pattern recognition method. Journal of Korea Water Resources Association 25(3):105–113.
14. Kim J.S, Kim D.H, Wang W.J, Lee H.N, Lee M.J, Kim H.S. 2021;Comparative analysis of linear model and deep learning algorithm for water usage prediction. Journal of Korea Water Resources Association 54:1083–1093.
15. Kwon H.H, Kim M.J, Kim O.G. 2012;A development of water demand forecasting model based on Wavelet transform and Support vector machine. Journal of Korea Water Resources Association 45(11):1187–1199.
16. Quilan J.R. 1992. Programs for machine learning Morgan Kaufmann Publishers.
17. Stedinger J.R, Sule B.F, Loucks D.P. 1984;Stochastic dynamic programming models for reservoir operation optimization. Water Resources Research 20(11):1499–1505.
18. Written by CFI Team. 2025. Random forest Revised November 19, 2025, from https://corporatefinanceinstitute.com/resources/data-science/random-forest/.

Article information Continued

Fig. 1

Biological and Artificial Neuron

Fig. 2

Partitioning of M5 Model Tree

Fig. 4

Hydro-Meteorological Characteristics of Study Areas

Table 1

Meteorological Stations of Weolsankyo in Geum River

Station No. Station name Ares (km2) Thiessen Coefficient
232 Cheonan 132.66 51%
133 Daejeon 2.38 1%
131 Cheongju 123.54 48%
Sum - 258.58 100%

Table 2

Meteorological Stations of Seomjin River Dam

Station No. Station name Ares (km2) Thiessen Coefficient
245 Jeongeup 197.31 49.3%
244 Imsil 179.12 44.8%
146 Jeonju 23.44 5.9%
Sum - 399.86 100%

Table 3

Classification of Flow Categories at Weolsankyo Station

Category 1 2 3 4 5
Class Min. Drought Low Q1 Average Median Flood Q3
Exceedance probability (%) 100% 97.3% 75.3% 75% 50.7% 50% 26% 25%
Flow (CMS) 5.10 9.44 14.10 14.15 18.12 18.27 27.28 28.04
Ranking 1 355 275 185 95

Table 4

Classification of Flow Categories at Seomjin River Dam Station

Category 1 2 3 4 5
Class Min. Drought Low Q1 Average Median Flood Q3
Exceedance probability (%) 100% 97.3% 75.3% 75% 50.7% 50% 26% 25%
Flow (CMS) 0.02 0.60 2.96 2.98 5.50 5.65 11.49 11.94
Ranking 1 355 275 185 95

Fig. 5

Flow-Duration Curve of Weolsankyo and Seomjin River Dam Stations

Fig. 6

Inter Quartile Range by Each Variance

Fig. 7

Variables Frequency of Application Data at Weolsankyo Station in Geum River

Fig. 8

Comparison of Cumulative Density Function by Actual and Results

Fig. 9

Boxplot of Actual and RF, M5, ANN, MR Results

Table 5

Application Results of Weolsankyo Station

Statistics MR MLP RF M5
Correlation Coeff. 0.970 (0.517) 0.987 (0.501) 0.999 (0.554) 0.999 (0.481)
Kendall’s tau 0.872 (0.373) 0.869 (0.291) 0.876 (0.422) 0.875 (0.379)
Spearman’s rho 0.965 (0.533) 0.963 (0.422) 0.966 (0.593) 0.966 (0.539)
MAE 0.339 (27.357) 0.208 (29.306) 0.033 (22.196) 0.011 (25.121)
RMSE 0.422 (70.970) 0.274 (75.503) 0.071 (68.987) 0.021 (73.594)
RAE (%) 24.17 (89.306) 12.960 (95.669) 2.070 (72.458) 0.680 (82.009)
RRSE (%) 24.13 (85.678) 15.670 (91.151) 4.610 (83.284) 1.220 (88.486)

※ Statistics in brackets by application of raw flow data as input variable

Table 6

Application Results of Seomjin River Dam Station

Statistics MR MLP RF M5
Correlation Coeff. 0.534 (0.591) 0.481 (0.516) 0.593 (0.633) 0.535 (0.602)
Kendall’s tau 0.300 (0.211) 0.270 (0.231) 0.365 (0.323) 0.300 (0.280)
Spearman’s rho 0.438 (0.311) 0.393 (0.338) 0.523 (0.467) 0.437 (0.407)
MAE 0.971 (15.189) 1.066 (16.323) 0.926 (13.420) 0.973 (13.471)
RMSE 1.276 (38.930) 1.280 (54.732) 1.0240 (37.382) 1.276 (38.557)
RAE (%) 87.348 (89.936) 95.852 (96.650) 83.303 (79.463) 87.534 (79.762)
RRSE (%) 84.482 (80.621) 93.058 (113.347) 86.530 (77.417) 84.484 (79.850)

※ Statistics in brackets by application of raw flow data

Fig. 10

Comparison of Histograms for Application Data