J. Korean Soc. Hazard Mitig Search

CLOSE


J. Korean Soc. Hazard Mitig. > Volume 25(5); 2025 > Article
머신러닝을 이용한 호우재해의 인명피해 예측모델 개발

Abstract

By combining damage data from heavy rainfall disasters with rainfall characteristics in South Korea from 1999 to 2019, this study developed and evaluated a machine learning (ML) model to predict human damage. The damage and rainfall data were obtained from the Disaster Yearbook of the Ministry of the Interior and Safety and Korea Meteorological Administration’s ASOS records, respectively. The ML models employed included Random Forest, Decision Tree, and XGBoost, with the period from 1999 to 2015 and 2016 to 2019 designated as the training and validation phases, respectively. A comparison of the performance of various models revealed that XGBoost attained the highest level of accuracy, with a value of 0.974, followed by Random Forest and Decision Tree, with 0.963 and 0.932, respectively. While all models exhibited remarkably high specificity for negative predictions, ranging from 94.9% to 99.3%, their predictive performance for positive cases was comparatively low, with recall values ranging from 0.34 to 0.37. This phenomenon was attributed to an imbalance in the occurrence of human damage between the training and validation periods. The significance of not only rainfall characteristics but also damage amounts to facilities in casualty prediction models was corroborated. Subsequent studies have revealed that enhancing prediction accuracy can be achieved through data imbalance correction and the implementation of time series-based models.

요지

본 연구에서는 1999년부터 2019년까지 국내에서 발생한 호우재해 피해데이터와 강우 특성을 결합하여 인명피해 발생을 예측하는 머신러닝 모델을 개발하고 그 성능을 평가하였다. 피해데이터는 행정안전부의 재해연보를, 강우데이터는 기상청 ASOS 자료를 활용하였다. 머신러닝 모델은 Random Forest, Decision Tree, XGBoost를 적용하였으며, 1999년부터 2015년은 학습구간으로, 2016년부터 2019년은 검증구간으로 설정하였다. 성능 비교 결과, XGBoost의 정확도(Accuracy)는 0.974로 가장 높았으며, Random Forest는 0.963, Decision Tree는 0.932로 분석되었다. 모든 모델은 Negative 예측의 특이도(Specificity)가 94.9%~99.3%로 매우 높았으나, Positive 예측 성능은 낮아 재현율(Recall)이 0.34~0.37로 나타났다. 이는 학습 및 검증 데이터에서 인명피해 발생 사례의 불균형이 영향을 미친 것으로 판단된다. 본 연구는 인명피해 예측모델을 통해 강우 특성뿐만 아니라 시설물 피해금액의 중요성을 확인하였다. 향후에는 불균형 데이터 보정 기법과 시계열 기반 모델을 적용하여 예측 성능을 향상시킬 수 있음을 제시하였다.

1. 서 론

1980년대 후반, 기후변화 대응을 위해 Intergovernmental Panel on Climate Change (IPCC)가 설립되면서 기후변화 문제는 전 세계적인 주요 이슈로 부상하였다. 현재 우리는 기후변화를 넘어 기후위기 시대에 직면하고 있으며, 국지성 집중호우, 태풍, 홍수 등 극한 재난의 발생 빈도와 강도가 지속적으로 증가하고 있다(Mukherji, 2023). 특히 도시지역은 불투수면적 증가로 인해 강우와 유출량이 급격히 늘어나며, 짧은 시간 안에 침수 피해가 발생하여 인명 및 재산 손실을 초래한다. 호우재해의 피해 규모와 범위를 예측하기 위해 다양한 수문학적 모형이 활용되지만, 이러한 모형은 기상⋅수문 관측자료와 복잡한 매개변수 보정 과정을 필요로 하며 모든 매개변수를 반영하기에는 한계가 있다. 이에 따라, 호우 피해를 발생시키는 기상 조건, 지역 특성, 사회기반시설 등의 데이터를 고려하여 재해 피해 규모와 예측 정확도를 향상시킬 수 있는 머신러닝(Machine Learning, ML) 모델의 필요성이 대두되고 있다.
국내외 선행연구에서는 ML 모델을 활용한 호우 및 태풍 피해 예측 연구가 활발히 진행되고 있다. ML 모델 기반 호우재해 예측 연구에서는 Random Forest (RF), XGBoost, LSTM (Long Short-Term Memory) 등을 적용하여 침수 깊이와 범위를 예측하는 사례가 보고되었다(Sahoo and Sreeja, 2024; Tan et al., 2024; Liu et al., 2025). 단일 ML 모델보다 여러 모델을 결합한 앙상블 기법이 더 높은 예측 정확도를 보였다. 또한 일부 연구에서는 수치모델(HEC-RAS, MIKE)과 ML 모델을 결합하여 재해 발생 시 예측 정확도를 향상시켰으며(Tamiru and Wagari, 2022; Huang et al., 2023), 다른 연구에서는 DEM과 위성 데이터를 연계하여 호우재해 발생 시 침수 취약지점을 도출하는 방안을 제시하였다(Soria-Ruiz et al., 2022).
강우 예측 연구에서는 SVM과 RF 모델을 활용해 기상청 관측자료, 수치예보, 위성자료를 결합한 분석으로 단기 강우 예측의 시공간적 정확도를 향상시켰다(Hussein et al., 2020; Aderyani et al., 2022). 머신러닝과 딥러닝을 기반으로 강우의 시⋅공간적 패턴을 학습하고, 레이더 강우 영상을 입력하여 1~6시간 선행 예측을 수행한 연구도 있다(Klocek et al., 2021; Ravuri et al., 2021; Demetrakopoulos, 2023; Sham et al., 2025). 이들 연구는 기존 강우 예측 대비 평균제곱오차(RMSE)를 유의하게 감소시켰다. 또한, 강우량 기반 호우재해 예측 연구에서는 SVM과 RF 모델을 이용해 강우량에 따른 홍수 피해 규모를 정량적으로 산정하였으며(Cholissodin and Sutrisno, 2018; Ganguly et al., 2019; Tien Bui et al., 2020), 예측 성능 향상을 위해 XGBoost, MLP, DT, KNN 등 다양한 ML 모델이 적용되어 임계 강우량 산정과 예측 정확도 개선이 이루어졌다(Mohd et al., 2018; Appiah-Badu et al., 2022; Balram et al., 2024).
국내 연구에서도 기계학습을 활용한 피해예측 시도가 다수 연구되었다. Song et al. (2024)은 인공신경망(ANN)을 활용하여 1999-2019년 재해연보 피해 데이터를 기반으로 총 피해금액, 일 최대 강우량, 총 강우량을 이용한 피해 특성 예측을 수행하였으며, 총 피해금액의 설명력이 가장 높음을 제시하였다. Kwon et al. (2016)은 강원 지역의 대설 피해액을 대상으로 회귀분석 모형을 구축하여 인구, 면적, GRDP와 같은 사회⋅경제적 변수를 결합한 피해예측이 가능함을 제시하였다. 또한, Noh and Song (2020)은 재해연보 자료를 활용해 지역 특성을 반영한 강풍 피해 예측함수를 개발하여 정책결정 및 방재 자원 배치에 활용 가능성을 제시하였다. Lee et al. (2016)은 비선형 회귀식을 적용해 강우량과 홍수 피해액의 함수식을 제안하여 재해 발생 전 신속한 피해 규모 추정 가능성을 검증하였다.
국내외 선행연구에서는 ML 모델을 이용하여 호우재해 예측 정확도와 침수 범위 산정의 정밀도를 향상시켰으며, 대부분 피해 규모나 피해 예측에 관한 연구에 집중되어 왔다. 반면, 재해 발생에 따른 다양한 피해 기록을 기반으로 정량적인 인명 피해 규모를 예측한 연구는 수행되지 않았다. 이에 본 연구에서는 국내에서 발생한 호우재해 피해 데이터를 바탕으로, 강우 발생 시 인명 피해 발생 가능성을 평가할 수 있는 예측 모델을 머신러닝 기법을 통해 개발하고자 한다. 피해 데이터는 행정안전부가 매년 발간하는 재해연보의 1999년부터 2019년까지 자료를 활용하였으며, 호우재해는 재해 유형 중 호우와 태풍으로 한정하였다. 또한, 재해 발생 기간의 강우 특성을 예측모델에 연계하여 분석하였다.

2. 머신러닝 모델 및 정확도 모형

2.1 Random Forest

Random Forest (RF)는 Breiman (2001)에 의해 제안된 대표적인 머신러닝 앙상블 학습 기법으로, 분류(classification)와 회귀(regression) 문제에 널리 활용된다(Fig. 1). RF는 학습 데이터로부터 부트스트랩 표본을 무작위로 추출하고, 각 표본에 대해 다수의 의사결정나무(decision tree)를 학습시킨 후, 예측 시에는 각 나무의 결과를 다수결(분류) 또는 평균(회귀) 방식으로 결합한다(Liaw and Wiener, 2002). 각 노드 분할 시 무작위로 선택된 일부 특성(feature)을 사용함으로써 모델의 다양성을 확보하고 과적합(overfitting)을 방지한다(Cutler et al., 2007). 이러한 특성은 단일 의사결정나무 대비 일반화 성능을 크게 향상시키며, 잡음 데이터나 결측치에도 강인한 성능을 보인다. 또한, 변수 중요도(feature importance)를 제공하여 예측에 기여하는 주요 요인을 파악할 수 있으며, 하이퍼파라미터 최적화(예: 트리 개수 조정, 최대 특성 수 조정 등)를 통해 예측 성능을 더욱 향상시킬 수 있다(Oshiro et al., 2012).
Fig. 1
Random Forest Structure
kosham-2025-25-5-231-g001.jpg

2.2 Decision Tree

Decision Tree (DT)는 분류(classification)와 회귀(regression) 모두에 활용 가능한 대표적인 지도학습(supervised learning) 기법으로, 데이터 내 존재하는 패턴을 예측 가능한 규칙(rule) 형태로 도출한다(Breiman et al., 1984; Quinlan, 1986). DT는 학습 데이터의 속성값을 기반으로 분할 기준(split criterion)을 설정하고, 이를 반복적으로 적용하여 범주형(categorical) 또는 연속형(continuous) 변수를 예측 가능한 트리 구조로 생성한다(Hastie et al., 2009). 대표적인 DT 알고리즘으로는 CHAID, CART (Classification and Regression Trees), ID3, C4.5, C5.0 등이 있으며, 데이터 마이닝 분야에서는 ID3, C4.5, C5.0이, 통계 분석 및 예측 모델링 분야에서는 CHAID와 CART가 주로 활용된다(Loh, 2011). DT는 모델의 구조가 직관적이어서 분석 결과의 해석이 용이하며, 변수 중요도 산출이 가능하다는 장점이 있다. 그러나, 데이터의 경계가 복잡하게 분포하거나 다수의 변수를 동시에 고려해야 하는 경우, 단일 의사결정트리 모델은 과적합(overfitting) 위험이 높고 예측 성능이 제한될 수 있다(Fig. 2).
Fig. 2
Decision Tree Structure
kosham-2025-25-5-231-g002.jpg

2.3 Extreme Gradient Boosting

Extreme Gradient Boosting (XGBoost)는 Friedman (2001)이 제안한 Gradient Boosting Machine (GBM) 기법을 기반으로, Chen and Guestrin (2016)이 경사하강법을 활용하여 성능과 효율성을 개선한 지도학습 알고리즘이다(Fig. 3). XGBoost는 경사의 잔차(residual)를 이용해 새로운 약분류기(weak learner)를 순차적으로 결합하며, L1 및 L2 정규화(regularization)를 통해 모델의 복잡도를 제어하여 과적합(overfitting)을 방지한다. 주요 하이퍼파라미터로는 부스팅 반복 횟수(n_estimators), L2 정규화 계수(lambda), L1 정규화 계수(alpha), 학습률(eta) 등이 있다. 소규모 데이터셋에서는 과적합 가능성이 존재하지만, 충분한 학습 데이터가 주어질 경우 예측 성능이 매우 뛰어난 것으로 보고되고 있다(Friedman, 2001; Chen and Guestrin, 2016).
Fig. 3
Extreme Gradient Boosting Structure
kosham-2025-25-5-231-g003.jpg

2.4 예측력 평가기법

본 연구에서는 머신러닝 이진분류 모델의 성능을 평가하기 위해 널리 사용되는 지표인 Accuracy (정확도), Precision (정밀도), Recall (재현율), F1-score를 활용하였다. Accuracy는 전체 샘플 중 올바르게 예측한 비율이며, Precision은 모델이 양성(Positive)으로 예측한 것 중 실제 양성의 비율, Recall은 실제 양성 중 올바르게 예측한 비율을 의미한다. F1-score는 Precision과 Recall의 조화평균으로, 두 지표의 균형을 평가한다(Table 1).
(1)
Accurancy=TP+TNTP+TN+FP+FN
(2)
Recall=TPTP+FP
(3)
Precision=TPTP+TN
(4)
F1Score=2·Precision·RecallPrecision+Recall
Table 1
Confusion Matrix for Performance Evaluation
Division Predicted
Positive Negative
Actual True TP (True Positive) FN (False Negative)
False FP (False Positive) TN (True Negative)

3. 호우재해의 피해특성

3.1 호우재해의 피해현황

본 연구에서는 행정안전부에서 고시하는 재해연보를 기반으로 호우재해 피해데이터를 구축하였다. 재해연보는 매년 발생한 자연재난에 대한 피해데이터를 제공하는 부처 공식자료이며 호우재해는 호우와 태풍에 대한 피해데이터를 활용하였다(Table 2).
Table 2
Status of Human Casualties from Heavy Rainfall Disasters
Category Details
Disaster Type Heavy Rainfall, Typhoon
Period 1999 yr – 2019 yr
Damaged Region (Si/Gun/Gu) 6,902
Victim (persons) 386,705
Human Damage (persons) 1,828
호우재해 피해데이터는 1999년부터 2019년까지 국내에서 발생한 호우와 태풍의 피해현황이며 총 피해지역은 시군구를 대상으로 6,902건의 사례에서 발생하였다. 같은 기간동안 386,705명의 이재민과 1,828명의 인명피해가 발생하였다(Fig. 4).
Fig. 4
Annual Human Damage and Damaged Region due to Heavy Rainfall Disasters
kosham-2025-25-5-231-g004.jpg
호우재해의 발생으로 건물, 선박, 농경지, 공공시설, 사유시설에서 1999년부터 2019년까지 발생한 총 피해금액은 4조 5,398억원이 발생하였다(Table 3). 시군구를 대상으로 호우재해로 발생한 시설별 최대 피해금액의 합계는 80조 643억원, 최소 피해금액은 4조 312억원이 조사되었다. 각 시설별로 표준편차가 가장 큰 분야는 공공시설이 7조 130억원 사유시설이 2조 1,969억원으로 연도별 피해의 변동성이 큰 것으로 분석되었다.
Table 3
Damage Cost by Type of Heavy Rainfall Disaster (1999-2019)
Configure Average (millions KRW) Maximum (millions KRW) Minimum (millions KRW) Standard Deviation (millions KRW)
Buildings 1,291 26,879 0 2,823
Vessel 189 8,952 0 793
Farmland 2,956 113,023 0 11,693
Public Utilities 34,295 539,255 40,312 70,130
Private facilities 8,195 174,088 0 21,969
Total damage costs 45,398 806,435 40,312 92,019

3.2 호우재해의 강우발생 특성

호우재해 발생 시간의 강우특성을 분석하기 위해서 기상청에서 관리하고 있는 기상관측소(ASOS) 중 30년 이상의 관측기간을 보유한 68개 관측소를 분석에 사용하였다. 시군구별 호우재해의 강우특성은 티센다각형(Thiessen’s polygon)을 기반으로 관측소별 강우자료를 시군구 강우자료로 변환하여 호우재해의 발생기간의 강우특성을 분석하였다(Fig. 5).
Fig. 5
Local Rainfall Observatories and Thiessen’s Polygon
kosham-2025-25-5-231-g005.jpg
1999년부터 2019년까지 재해기간별 호우재해의 발생 건수는 2일 지속된 경우가 가장 많았으며, 전체 건수의 절반 이상이 3일 이내에 집중되었다. 특히, 1~2일 이내에 종료되는 국지성 호우피해 대다수를 차지하였으며 5일 이상 지속되는 태풍 피해의 발생 건수는 상대적으로 적었다. 10일 이상 지속되는 장기 호우재해는 국내에서 제한적으로 발생하여, 호우재해는 짧은 기간에 집중되는 경향을 확인할 수 있었다(Fig. 6).
Fig. 6
Number of Occurrences of Heavy Rainfall Disasters by Disaster Period (1999-2019)
kosham-2025-25-5-231-g006.jpg
호우재해의 발생이 3일 이내인 사례가 전체의 50%를 초과하였으며, 이는 본 연구에서 재해 기간 내 인명피해를 예측하는 연구 방법론과도 부합한다. 국내의 호우재해의 발생은 대부분 단기간 집중형이며 인명피해는 단기간의 강우 집중으로 유출량 증가에 따른 침수, 산사태, 제방 붕괴 등의 이유로 발생한다. 따라서, 본 연구에서는 호우재해의 강우 특성 분석을 일 최대 강우량과 총 강우량으로 한정하였다. 분석 결과, 호우재해의 발생기간 동안의 일 최대 강우량은 평균 271 mm, 최대 795 mm, 최소 114 mm이며. 총 강우량은 평균 454 mm, 최대 832 mm, 최소 220 mm이 분석되었다. 표준편차는 일 최대 강우량이 68 mm, 총 강우량이 122 mm로 분석되었으며 재해별 강우 규모의 변동성을 확인할 수 있었다(Table 4).
Table 4
Rainfall Characteristics of Heavy Rainfall Disaster (1999 to 2019)
Configure Average (mm) Max (mm) Min (mm) Standard deviation (mm)
Maximum daily rainfall 271 795 114 68
Total rainfall 454 832 220 122

4. 호우재해 발생시 인명피해 예측모델 평가

4.1 머신러닝을 이용한 인명피해 모델의 평가

본 연구에서는 호우재해 발생 시 인명피해 유발을 사전에 예측하기 위하여 ML 모델인 RF, DT, XGBoost를 적용하였다. 학습데이터는 1999년부터 2015년까지의 피해데이터와 강우특성을 이용하였으며 2016년부터 2019년까지의 자료를 독립적인 검증데이터로 사용하여 시간 순서를 보존한 홀드아웃(hold-out) 방식으로 모델 검증을 수행하였다(Table 5).
Table 5
Evaluation Criteria for Heavy Rainfall Disaster Prediction Models
Configure Study Sections Evaluation Intervals
Duration 1999-2015 2016-2019
Rainfall History 158 54
Municipalities 5,698 1,204
Model RF, DT, XGBoost
Dependent Variable Human damage
Independent Variables Sigungu, victims, 1-day maximum rainfall, total rainfall, buildings, vessels, agricultural land, public facilities, private facilities
호우재해의 인명피해 예측모델의 종속변수는 재해연보에 고시된 인명피해로 설정하였다. 이는 사망자에 대한 인명피해의 규모로서 연속형 수치 예측을 수행하였다. 독립변수는 재해가 발생하는 강우특성과 피해특성을 고려하였다. 강우특성은 호우재해 기간 동안 발생한 일 최대 강우량은 단기간의 피해가능성, 총 강우량은 전체 호우재해의 피해를 고려하기 위해 선정하였다. 피해특성은 건물, 선박, 농경지, 공공시설, 사유시설의 피해금액으로 지역별 인프라와 자산 가치를 고려하기 위해 포함하였다. 또한, 시군구별로 과거 피해이력을 기반으로 지역적 특성을 고려하기 위해 선정하였다.
각 ML 모델은 GridSearchCV (교차검증 3-fold, scoring: neg_mean_squared_error)를 통해 최적 파라미터를 탐색한 뒤 학습되었으며, 이후 인명피해와 총피해액에 대해 회귀 및 분류 평가를 병행하였다. 분류 평가는 인명피해 발생 여부와 총피해액(임계값 1.0 적용)을 기준으로 수행하였으며, Accuracy, Precision, Recall, F1-score 및 혼돈행렬을 이용하여 검증하였다. 또한, 트리 기반 모델(Decision Tree, Random Forest, XGBoost)에 대해서는 변수 중요도를 산출하여 모델별 기여 요인을 비교하였다.
ML 모델의 학습은 각 알고리즘의 기본 파라미터를 적용하여 변수 중요도를 평가 하였다. 변수 중요도 평가는 모델이 학습 과정에서 스스로 산정하는 내재적 산정방식에 기반하였으며, 이를 통해 공통적으로 중요한 인자를 도출하였다. 변수 중요도 분석결과 ML 모델에서 공공시설, 사유시설, 농경지와 같은 노출변수가 높은 기여도를 산정되었으며 일 최대 강우량과 총 강우량은 상위 변수는 아니지만 인명피해 규모를 예측에 일정 수준 기여하는 것으로 분석되었다(Fig. 7). 변수 중요도 분석에서 XGBoost와 RF는 공공시설과 사유시설 피해금액을 주요 요인으로 산정한 반면, DT는 지역(시군구)과 일 최대 강우량의 기여도가 상대적으로 높게 분석되었다. 이러한 차이는 각 모델의 학습 구조와 변수 중요도 산출 방식의 차이에서 기인한다.
Fig. 7
Assessing Feature Importance for Heavy Rainfall Events
kosham-2025-25-5-231-g007.jpg
RF와 XGBoost는 다수의 결정트리를 결합하는 앙상블 기법으로, 변수 간 상호작용과 비선형 관계를 반영하면서 중요도를 평균적으로 분석하기 때문에 시설물 피해금액과 같은 지표가 상대적으로 높은 기여도가 제시되었다. 반면, DT는 단일 결정트리에 의존하여 특정 시점의 분할 기준에 따라 변수 중요도가 과도하게 집중될 수 있으며, 데이터 분포의 편향이 직접적으로 반영되는 특성을 가진다. 따라서, 본 연구에서 모델별 변수 중요도의 차이는 앙상블 기반 모델의 평균화 효과와 단일 트리 모델의 국소적 분할 기준 차이에서 발생한 것으로 해석된다.

4.2 호우재해에 대한 인명피해 모델의 정확도 평가

본 연구에서는 머신러닝(RF, DT, XGBoost) 기반의 인명피해 예측 모델의 분류 성능을 평가하기 위해서 1999년부터 2015년까지의 자료를 학습데이터로, 2016년부터 2019년까지의 자료를 검증데이터로 사용하였다. 혼돈행렬의 평가 결과는 인명피해가 ‘없음’을 예측하는 정확도가 매우 높게 분석되었다(Table 6). ML 모델의 Negative를 예측하는 Specificity는 XGBoost가 99.3%이며 RF와 DT가 각각 98.0%, 94.9%로 분석되었다. 분석결과는 학습데이터와 검증데이터의 피해 규모가 작은 사건이 대부분이었기 때문에 ML 모델dl 보수적으로 Negative를 예측한 결과로 판단된다.
Table 6
Confusion Matrix Evaluation of Human Damage Model Using Machine Learning
RF Predicted
Positive Negative
Actual True 13 22
False 24 1,184
DT Predicted
Positive Negative
Actual True 13 22
False 62 1,146
XGBoost Predicted
Positive Negative
Actual True 12 23
False 9 1,199
ML 모델의 평가지표 결과를 비교하면 Accuracy는 XGBoost가 0.974로 가장 높았고, RF가 0.963, DT가 0.932로 분석되었다(Table 7). Precision은 XGBoost가 0.571로 가장 높아 Positive 예측의 신뢰성이 상대적으로 높았으며, Random Forest는 0.351, DT는 0.173으로 낮게 분석되었다. Recall은 RF와 DT가 0.371로, XGBoost의 0.343보다 0.028 높았으나 전반적으로 모든 모델에서 낮은 수준이 분석되었다. 혼돈행렬 분석에서도 Positive의 Recall은 ML 모델 모두 0.34~0.37 수준에 머물러, 실제 인명피해 발생을 놓치는 비율이 높게 분석되었다. F1-score는 XGBoost가 0.429로 가장 우수했으며, RF와 DT가 0.361, 0.236이 분석되었다.
Table 7
Accuracy Evaluation of Human Damage Prediction Model
Model Accuracy Precision Recall F1 Score
RF 0.963 0.351 0.371 0.361
DT 0.932 0.173 0.371 0.236
XGBoost 0.974 0.571 0.343 0.429
머신러닝을 이용한 호우재해의 인명피해 예측 모델은 XGBoost가 높은 정확도와 정밀도에서 우수한 성능을 보였으나, Positive 탐지율이 낮아 실제 인명피해 발생을 예측하는데 한계가 있을 것으로 판단된다. Fig. 4(a)의 연도별 인명피해 추이에 따르면, 검증기간(2016년~2019년)은 전체 분석기간 중 인명피해 규모가 가장 낮은 수준을 유지하였다. 특히 2002년과 2011년에 수백 명 이상의 피해가 발생했던 대규모 재해와 달리, 검증기간에는 피해 규모가 소규모에 그쳤으며 피해 발생 지역도 제한적이었다.

5. 결 론

본 연구에서는 1999년부터 2019년까지 국내에서 발생한 호우재해(호우와 태풍)의 피해데이터와 강우특성을 결합하여 인명피해 발생 가능성을 예측하는 머신러닝 기반의 모델 개발하고 성능을 평가하였다. 피해데이터는 행정안전부에서 고시하는 재해연보를 활용하였으며 강우 특성은 기상청 강우관측자료(ASOS)를 티센다각형 기법을 적용하여 재해 발생 기간의 시군구별 일 최대 강우량과 총강우량을 분석하였다. ML 모델은 RF, DT, XGBoost를 적용하였으며, 학습기간(1999-2015년)과 검증기간(2016-2019년)을 구분하여 모델의 성능을 비교하였다.
인명피해 예측모델의 분석결과 공공시설, 사유시설, 농경지의 피해금액이 인명피해 예측에 가장 큰 기여를 하였으며, 일 최대 강우량과 총 강우량도 일정 수준의 영향 요인으로 확인되었다. ML 모델의 성능분석 결과, XGBoost의 Accuracy 0.974로 가장 높았으며, RF는 0.963, DT는 0.932로 분석되었다. ML 모델 모두 Negative 예측에서 XGBoost 99.3%, RF 98.0%, DT 94.9%의 높은 Specificity이 분석되었다.
재난발생이 균일할 수 없기 때문에 학습 및 검증 데이터의 불균형이 발생하였으며 특히, 검증데이터에 인명피해 발생이 적어 ML 모델 모두에서 Recall이 0.34~0.37으로 낮게 분석되었다. 따라서, 인명피해의 Negative 예측률이 매우 높았으나, Positive의 탐지 성능은 낮게 분석되었다. 연구 결과는 인명피해 규모를 예측하는 모델에서 호우재해의 강도뿐 아니라 피해 대상의 규모가 중요한 역할을 한다는 점을 시사한다.
본 연구에서는 공공시설, 사유시설, 농경지의 피해금액을 활용하여 정량적인 인명피해 규모를 예측하는 모델을 개발하였다. 그러나 재해연보는 매년 발간되며 인명피해와 피해금액의 제시는 자연재난의 피해가 종료된 이후에 고시된다. 따라서, 개발된 모델은 실시간 예측보다는 과거 피해 기록을 기반으로 사회적 위험성 평가 및 정책결정 지원에 활용될 수 있을 것으로 판단된다.
본 연구에서는 인명피해 규모를 시군구로 분석하다 보니 Positive 사례의 적용이 제한적이었으며 과거의 피해데이터를 기반으로 시간에 따른 동적 변화를 반영하지 못한 한계점을 가지고 있다. 특히, 불균형 데이터 문제에 대한 구체적이고 실질적인 해결 방안을 제시하지 못한 점은 중요한 한계로 지적된다. 이러한 한계를 극복하기 위해, 향후 연구에서는 SMOTE와 같은 오버샘플링 기법, 언더샘플링, 비용민감 학습, 앙상블 기반 불균형 데이터 처리 방법을 적용하여 Recall 성능을 개선하고자 한다. 또한, 시계열 기반 LSTM 및 TFT 모델을 활용하여 재해 전후의 시간적 패턴을 학습하고, 다양한 환경⋅사회적 지표를 통합함으로써 실시간 대응력이 강화된 지역 맞춤형 인명피해 예측모델로 발전시킬 필요가 있다.

감사의 글

이 연구는 2024년도 행정안전부 및 한국산업기술기획평가원(KEIT) 연구비 지원에 의한 연구(‘RS202400398858’)임.

References

1. Aderyani, F.R, Mousavi, S.J, and Jafari, F (2022) Short-term rainfall forecasting using machine learning-based approaches of PSO-SVR, LSTM and CNN. J. Hydrol, Vol. 614, pp. 128463.
crossref
2. Appiah-Badu, N.K.A, Missah, Y.M, Amekudzi, L.K, Ussiph, N, Frimpong, T, and Ahene, E (2022) Rainfall prediction using machine learning algorithms for the various ecological zones of Ghana. IEEE Access, Vol. 10, pp. 5069-5082.
crossref
3. Balram, G, Poornachandrarao, N, Ganesh, D, Nagesh, B, Basi, R.A, and Kumar, M.S (2024) Application of machine learning techniques for heavy rainfall prediction using satellite data. Proc. 2024 5th Int. Conf. Smart Electron. Commun. (ICOSEC), pp. 1081-1087.
crossref
4. Breiman, L (2001) Random forests. Mach. Learn, Vol. 45, No. 1, pp. 5-32.
crossref pdf
5. Breiman, L, Friedman, J.H, Olshen, R.A, and Stone, C.J (1984). Classification and regression trees. Belmont, CA: Wadsworth International Group.

6. Chen, T, and Guestrin, C (2016) XGBoost:A scalable tree boosting system. Proc. 22nd ACM SIGKDD Int. Conf. Knowl. Discov. Data Min, pp. 785-794.

7. Cholissodin, I, and Sutrisno, S (2018) Prediction of rainfall using simplified deep learning based extreme learning machines. J. Inf. Technol. Comput. Sci, Vol. 3, pp. 120-131.
crossref pdf
8. Cutler, D.R, Edwards, T.C, Beard, K.H, Cutler, A, Hess, K.T, Gibson, J, and Lawler, J.J (2007) Random forests for classification in ecology. Ecology, Vol. 88, No. 11, pp. 2783-2792.
crossref pmid
9. Demetrakopoulos, P (2023) Short-term precipitation forecasting in The Netherlands:An application of convolutional LSTM neural networks to weather radar data. arXiv preprint.

10. Friedman, J.H (2001) Greedy function approximation:A gradient boosting machine. Ann. Stat, Vol. 29, No. 5, pp. 1189-1232.
crossref
11. Ganguly, K.K, Nahar, N, and Hossain, B.M.M (2019) A machine learning-based prediction and analysis of flood affected households:A case study of floods in Bangladesh. Int. J. Disaster Risk Reduct, Vol. 34, pp. 283-294.
crossref
12. Hastie, T, Tibshirani, R, and Friedman, J (2009). The elements of statistical learning:Data mining, inference, and prediction. (2nd ed.). New York, NY: Springer.

13. Huang, H, Lei, X, Liao, W, Liu, D, and Wang, H (2023) A hydrodynamic-machine learning coupled (HMC) model of real-time urban flood in a seasonal river basin using mechanism-assisted temporal cross-correlation (MTC) for space decoupling. J. Hydrol, Vol. 624, pp. 129826.
crossref
14. Hussein, E, Ghaziasgar, M, and Thron, C (2020) Regional rainfall prediction using support vector machine classification of large-scale precipitation maps. Proc. 2020 IEEE 23rd Int. Conf. Inf. Fusion (FUSION), pp. 1-8.
crossref
15. Klocek, S, Dong, H, Dixon, M, Kanengoni, P, Kazmi, N, and Luferenko, P (2021) MS-nowcasting:Operational precipitation nowcasting with convolutional LSTMs at Microsoft Weather. NeurIPS 2021 Workshop on Tackling Climate Change with Machine Learning. arXiv preprint.

16. Kwon, S, Kim, J, Park, H, and Jung, G (2016) Development of damage prediction model for heavy snow in Gangwon province using regression analysis. J. Korean Soc. Hazard Mitig, Vol. 16, No. 2, pp. 437-443.
crossref
17. Lee, J, Eo, G, Choi, C, Jung, J, and Kim, H (2016) Development of rainfall-flood damage estimation function using nonlinear regression analysis. J. Korean Soc. Disaster Inf, Vol. 12, No. 1, pp. 74-88.
crossref
18. Liaw, A, and Wiener, M (2002) Classification and regression by randomForest. R News, Vol. 2, No. 3, pp. 18-22.

19. Liu, B, Li, Y, Ma, M, and Mao, B (2025) A comprehensive review of machine learning approaches for flood depth estimation. Int. J. Disaster Risk Sci, Vol. 16, No. 3, pp. 433-445.
crossref pdf
20. Loh, W.Y (2011) Classification and regression trees. Wiley Interdiscip. Rev. Data Min. Knowl. Discov, Vol. 1, No. 1, pp. 14-23.
crossref pdf
21. Mohd, R, Ahmed Butt, M, and Baba, M.Z (2018) Comparative study of rainfall prediction modeling techniques (A case study on Srinagar, J&K, India). Asian J. Comput. Sci. Technol, Vol. 7, pp. 13-19.
crossref
22. Mukherji, A (2023). Climate change 2023 synthesis report. Intergovernmental Panel on Climate Change. Geneva, Switzerland: p 1-34.

23. Noh, J, and Song, C (2020) Development of wind damage prediction functions reflecting regional characteristics based on disaster annual reports:Focus on Gyeongsang region. J. Korean Soc. Disaster Inf, Vol. 16, No. 2, pp. 223-236.

24. Oshiro, T.M, Perez, P.S, and Baranauskas, J.A (2012) How many trees in a random forest? Proc. Int. Conf. Mach. Learn. Data Mining Pattern Recognit, pp. 154-168.
crossref
25. Quinlan, J.R (1986) Induction of decision trees. Mach. Learn, Vol. 1, No. 1, pp. 81-106.
crossref pdf
26. Ravuri, S, Karra, S, Wen, R, Huang, J, Reichstein, M, and Gagne II, D.J (2021) Skilful precipitation nowcasting using deep generative models. Nature, Vol. 597, No. 7878, pp. 672-677.
crossref pmid pmc pdf
27. Sahoo, S, and Sreeja, P (2024) Urban flash flood hazard mapping using machine learning. J. Hydroinformatics, Vol. 26, No. 9, pp. 2124-2142.

28. Sham, F.A.F, El-Shafie, A, Jaafar, W.Z.W., S, A, Sherif, M, and Ahmed, A.N (2025) Advances in AI-based rainfall forecasting:A comprehensive review of past, present, and future directions with intelligent data fusion and climate change models. Results Eng, Vol. 27, pp. 105774.
crossref
29. Song, Y, Lee, H, Joo, J, and Park, M (2024) Prediction of heavy rainfall disaster characteristics using artificial neural networks. J. Korean Soc. Hazard Mitig, Vol. 24, No. 1, pp. 83-89.
crossref pdf
30. Soria-Ruiz, J, Fernandez-Ordoñez, Y.M, Ambrosio-Ambrosio, J.P, Escalona-Maurice, M.J, Medina-García, G, Sotelo-Ruiz, E.D, and Ramirez-Guzmán, M.E (2022) Flooded extent and depth analysis using optical and SAR remote sensing with machine learning algorithms. Atmosphere, Vol. 13, No. 11, pp. 1852.
crossref
31. Tamiru, H, and Wagari, M (2022) Machine-learning and HEC-RAS integrated models for flood inundation mapping in Baro River Basin, Ethiopia. Model. Earth Syst. Environ, Vol. 8, No. 3, pp. 2291-2303.
crossref pdf
32. Tan, W, Qin, N, Zhang, Y, McGrath, H, Fortin, M, and Li, J (2024) A rapid high-resolution multi-sensory urban flood mapping framework via DEM upscaling. Remote Sens. Environ, Vol. 301, pp. 113956.
crossref
33. Tien Bui, D, Hoang, N.-D, Martínez-Álvarez, F, Ngo, P.-T.T, Hoa, P.V, and Pham, T.D (2020) A novel deep learning neural network approach for predicting flash flood susceptibility:A case study at a high frequency tropical storm area. Sci. Total Environ, Vol. 701, pp. 134413.
crossref pmid


ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
AUTHOR INFORMATION
Editorial Office
1014 New Bldg., The Korea Science Technology Center, 22 Teheran-ro 7-gil(635-4 Yeoksam-dong), Gangnam-gu, Seoul 06130, Korea
Tel: +82-2-567-6311    Fax: +82-2-567-6313    E-mail: master@kosham.or.kr                

Copyright © 2026 by The Korean Society of Hazard Mitigation.

Developed in M2PI

Close layer
prev next