딥러닝 성능 최적화를 위한 데이터 전처리 및 데이터 구축 방법의 체계적 검증

Systematic Verification of Data Preprocessing Methods and Data Construction Methods for Optimizing Deep Learning Performance

Article information

J. Korean Soc. Hazard Mitig. 2025;25(3):217-229
Publication date (electronic) : 2025 June 30
doi : https://doi.org/10.9798/KOSHAM.2025.25.3.217
류용민*, 이의훈**
* 정회원, 충북대학교 토목공학과 박사수료(E-mail: rmfl45@naver.com)
* Member, Ph.D. Candidate, Department of Civil Engineering, Chungbuk National University
** 정회원, 충북대학교 토목공학부 부교수(Tel: +82-43-261-2407, Fax: +82-43-261-2378, E-mail: hydrohydro@cbnu.ac.kr)
** Member, Associate Professor, Department of Civil Engineering, Chungbuk National University
** 교신저자, 정회원, 충북대학교 토목공학부 부교수(Tel: +82-43-261-2407, Fax: +82-43-261-2378, E-mail: hydrohydro@cbnu.ac.kr)
** Corresponding Author, Member, Associate Professor, Department of Civil Engineering, Chungbuk National University
Received 2025 April 14; Revised 2025 April 15; Accepted 2025 April 25.

Abstract

댐의 효율적인 운영을 위해서는 유입량을 정확하게 예측해야 한다. 댐 유입량을 예측하기 위해 딥러닝을 기반으로 학습을 통한 예측을 진행하는 연구가 진행되었다. 그러나, 딥러닝 입력자료 구축을 위한 입력 인자의 선정에 대한 기준은 제시되지 않고 있다. 본 연구에서는 딥러닝을 기반으로 댐 유입량을 학습 및 예측하는 과정에서 입력자료의 구축에 대한 검증을 통해 최적의 입력 인자를 구축하고자 한다. 입력 인자별 근거를 분석하기 위해 R-squared (R2), Principle Component Analysis (PCA) 및 eXplainable Artificial Intelligence (XAI)를 사용하였다. R2, PCA 및 XAI 분석을 기반으로 인자별 상관관계, 고유치 및 관련성 점수를 산정해 입력자료 구축에 대한 근거를 분석하였다. 검증결과에 따르면, 데이터 구축방법 적용에 따라 최대 약 13.15%의 오차가 감소하였으며, 예측결과에 따르면, 최대 약 46% 감소한 것으로 나타났다. 향후 추가적인 연구를 통해 다양한 XAI 기법을 활용한 데이터 구축방법의 검증하게 된다면 딥러닝을 통해 수문 자료를 예측하는 과정에서 높은 정확도로 학습 및 예측결과를 산출할 수 있을 것이다.

Trans Abstract

Efficient dam operation requires accurate inflow predictions. Although deep learning has been used for this purpose, the criteria for selecting input factors remain unclear. This study aims to identify the optimal input factors by verifying data construction methods for deep learning-based inflow prediction. R-squared (R2), Principal Component Analysis (PCA), and eXplainable Artificial Intelligence (XAI) were used to evaluate the correlation, eigenvalues, and relevance scores of the input factors. Based on the verification results, the proposed data construction method reduced errors by up to 13.15%, whereas the prediction errors decreased by up to 46%. Future research on XAI-based data construction and dimensionality reduction techniques can further improve the accuracy of deep learning models in hydrological predictions.

1. 서 론

물은 경제발전과 식량안보 등 인간사회에서 필수적인 역할을 한다(Ringler et al., 2011; Anseeuw et al., 2012). 그러나, 산업화 및 도시화로 인해 물의 수요가 증가하여 전 세계 국가에서 물 부족 현상이 발생하고 있다(Qadir et al., 2007; Blignaut and van Heerden, 2009; Wang et al., 2015; Lee, 2016). 2021년 발표된 기후변화에 관한 Intergovernmental Panel on Climate Change의 6차 보고서에 따르면, 지구온난화는 지속될 것으로 나타나고 있으며, 이로 인해 전 세계적으로 홍수와 가뭄의 심각성이 증가될 것으로 나타나고 있다.

국내의 경우, 연중 최대 유량과 최소 유량의 비율을 나타내는 하상계수는 약 300이다(Lee, 2024). 유럽 평균 하상계수는 약 20으로, 유럽 대비 한국은 유량의 변동이 크기 때문에 수자원의 확보 및 효율적 활용이 어렵다(Moon and Lee, 2011). 또한, 국내의 경우, 연간 강수량의 60% 이상이 6~8월에 집중되어있기 때문에 수자원의 효율적인 관리가 필수적이다. 댐 등을 통해 수자원을 효율적으로 관리하여 홍수 및 가뭄의 피해를 최소화하기 위해서는 효과적인 운영이 필수적이다(Eom and Jung, 2019). 댐의 효과적인 운영을 위해서는 댐으로 유입되는 유량을 정확히 예측하는 것이 중요하다.

댐 유입량 예측에는 물리 모델, 경험적 모델 및 데이터 모델 등이 사용된다. 물리 모델은 자연현상을 단순화하여 모델로 구축한다는 특성으로 인해 다양한 지질변수 등을 고려하기 어렵다는 단점이 있다(Jung et al., 2018). 경험적 모델은 통계적 관점에서 입력과 출력간의 관계를 추정하는 모델이다. 경험적 모델은 강수량 및 유량 등과 같은 비선형적인 수문학적 요소들을 해석하는 과정에서 한계가 있다(Montanari et al., 1997; Kim, 2010).

물리모델 및 경험적 모델은 물 유입량 변화에 미치는 자연적 요인을 고려하는 과정에서 인자간 상관관계 및 인과관계를 분석하는 것이 불가능하다. 그러나, 데이터 모델인 머신러닝의 개발로 인해 입력 및 출력데이터를 기반으로 인과관계를 분석하여 예측하는 연구가 진행되었다(Abrahart et al., 2004; Riad et al., 2004; Ghumman et al., 2011; Granata et al., 2016; Mosavi et al., 2018; Zhang et al., 2018; Bae et al., 2019; Zuo et al., 2020; Lee and Lee, 2022). 머신러닝의 대표적인 예로는 딥러닝이 있다. 딥러닝은 구축된 데이터를 기반으로 학습을 통해 미래의 결과를 예측하는 데이터 모델이다. 딥러닝은 신경망의 개념을 착안하여 제안된 기술이다(Rosenblatt, 1958). 대규모 데이터를 처리할 수 있는 딥러닝의 특징으로 인해 장기간의 데이터를 누적시켜 학습 및 예측을 통해 미래의 예측값을 도출해내는 연구가 진행되었다(Ghumman et al., 2011; Granata et al., 2016; Yan et al., 2018; Zhang et al., 2018; Bae et al., 2019; Ren et al., 2020; Zuo et al., 2020; Lee and Lee, 2022).

딥러닝은 입력자료와 출력자료를 활용해 내부 연산을 기반으로 학습 및 예측을 하는 블랙박스형 데이터 모델이다. 딥러닝은 입력받은 자료를 기반으로 내부 연산을 진행하기 때문에 고정확도 학습 및 예측을 위해서는 최적의 입력자료를 선정해야 한다. 기존에는 딥러닝의 입력자료는 사용자의 경험을 기반으로 진행되었다(Ryu and Lee, 2025). 딥러닝의 최적 입력자료를 구축하기 위해서는 입력자료의 인자별 영향력을 분석하는 것이 필수적이다. 그러나, 딥러닝은 학습 과정에서 학습 결과에 대한 인자별 분석이 불가능하다는 단점이 있다(Chun et al., 2021). 블랙박스 형태의 딥러닝의 한계를 개선하기 위해 eXplainable Artificial Intelligence (XAI)이 제안되었다. XAI는 딥러닝 연산과정의 결과와 최종결과를 해석하기 위해 출력값이 산출되는 과정을 설명할 수 있도록 인자별 영향력 등을 표출하는 모델이다(Roh and Park, 2021). XAI 중 대표적인 모델은 Local Interpretable Model-agnostic Explanations (LIME), SHapley Additive exPlanations (SHAP) 및 Layer-wise Relevance Propagation (LRP) 등이 있다(Bach et al., 2015; Ribeiro et al., 2016; Lundberg and Lee, 2017). XAI 중 LRP는 SHAP 및 LIME보다 연산속도가 빠르다는 장점이 있다(Rios et al., 2020).

XAI 기법 중 LRP를 사용하여 딥러닝의 성능을 개선한 연구 중 Lee and Han (2021)은 KOSPI 증감을 예측하기 위한 딥러닝을 구축하는 과정에서 LRP를 사용하였다. 딥러닝 학습자료 구축 과정에서 LRP의 결과를 통한 근거기반 입력자료를 구축하였다. LPR기반 입력자료 구축을 통해 딥러닝의 성능을 개선하였다. Lee and Lee (2023a)은 딥러닝을 활용하여 수질인자를 예측하는 과정에서 LRP를 사용하였다. LRP를 통해 입력자료 구축에 대한 근거를 분석 및 제시하였다. LPR기반 입력자료 구축을 통해 수질 예측을 위한 딥러닝의 성능을 개선하였다. 그러나, 수자원 분야에서 댐 유입량 예측을 위해 딥러닝을 통한 학습 및 예측과정에 XAI를 적용하여 딥러닝의 성능을 개선하는 연구는 미비한 실정이다.

본 연구에서는 딥러닝의 학습 및 예측 성능을 개선하기 위해 딥러닝 입력자료의 데이터 전처리 및 데이터 구축방법을 분석 및 제시하였다. 데이터 전처리 및 데이터 구축방법의 체계적 검증을 통해 수자원분야에서 딥러닝을 적용하기 위해 필요한 과정에 대한 분석을 실시하였다.

2. 연구방법

2.1 데이터 전처리

딥러닝을 활용한 높은 정확도의 학습 및 예측을 위해서는 데이터 전처리가 필수적이다(Joo et al., 2000). 데이터 전처리는 딥러닝의 입력 및 출력자료를 구축하는 과정에서 적용하는 기법이다. 본 연구에서 적용한 데이터 전처리는 데이터 스케일링을 위한 정규화(Normalization) 및 도달시간을 고려하기 위한 Time lagged cross correlation (TLCC)이다.

2.1.1 정규화(Normalization)

정규화는 딥러닝의 데이터 전처리에서 사용하는 데이터 스케일링 기법이다. 데이터 스케일링 기법은 구축된 데이터의 최댓값과 최솟값 간의 편차가 클 경우 사용하는 방법이다. 데이터의 최댓값과 최솟값간의 편차가 클 경우, 딥러닝의 학습 성능이 저하된다(Mok et al., 2020). 데이터 스케일링을 위한 기법은 Min-Max Normalization, Z-score normalization 및 Decimal scaling normalization 등이 있다(Lee, 2024). 데이터 스케일링 기법 중 Min-Max Normalization은 딥러닝에 적용할 경우, 가장 좋은 학습 및 성능을 나타낸다(Nawi et al., 2013). Eq. (1)은 Min-Max Normalization의 식이다.

(1)Valinew=ValiValminValmaxValmin

여기서, Valinew 은 Min-Max Normalization을 통해 변환된i 번째 자료이며, Valmax 는 구축된 원자료의 최댓값, Valmin 는 구축된 원자료의 최솟값, Vali 는 Min-Max Normalization을 통해 변환하고자 하는i 번째 원자료이다.

2.1.2 Time lagged cross correlation

도달시간은 강우가 발생하였을 때, 강우가 발생한 지점과 목표지점 간의 거리가 있을 경우, 강우로 인한 영향이 도달하는 시간을 말한다(Kite, 1977; Loaiciga and Mariño, 1991). 딥러닝의 입력자료를 구축하는 과정에서 도달시간은 필수적으로 고려되어야 한다. TLCC는 도달시간을 고려하기 위해 적용하는 방법으로, 입력자료와 출력자료간 상관계수를 통해 시간을 지연시키는 방법이다. TLCC는 상관계수의 절댓값이 가장 높을때까지 입력자료 또는 출력자료를 구축된 시간단위로 지연시키며 상관계수를 분석한다. Eq. (2)는 TLCC의 적용을 위해 상관계수를 분석하는 식이다.

(2)Tcoe=i=1n(XiX¯)×2i=1n(YiY¯)2i=1n(XiX¯)×2i=1n(YiY¯)2

여기서, Tcoe 는 상관계수이며, XiYi 는 입력 및 출력자료 중 i 번째 자료이며, X¯Y¯XiYi 의 평균이다.

2.2 데이터 구축방법

딥러닝의 학습 및 예측성능을 향상시키기 위해서는 입력자료의 데이터 전처리 뿐만이 아닌 데이터 구축방법의 적용이 필요하다. Ryu and Lee (2025)에 따르면, 입력자료의 인자별 출력자료에 대한 영향력 분석을 기반으로 입력자료를 구축할 때 딥러닝의 성능이 개선된다는 것을 알 수 있다. 따라서, 본 연구에서는 딥러닝 입력자료를 구축하는 과정에서 다양한 방법들을 기반으로 Case study를 통해 딥러닝의 데이터를 구축하였다.

2.2.1 R-squared 분석

R-squared (R2) 분석은 입력자료와 출력자료간 Pearson 상관계수를 기반으로 두 자료간의 상관도를 분석하는 방법이다. R2 분석을 기반으로 데이터를 구축하는 방법은 다음과 같다.

  • ① 입력자료 및 출력자료 구축

  • ② 입력자료 내 입력인자별 출력자료 간 R2 분석

  • ③ 입력인자별 R2 오름차순 배열 및 순위 선정

  • ④ 선정된 순위 기반 입력자료 구축

딥러닝의 최적 입력자료 구축을 위해 ①~③과정을 통해 선정된 입력인자별 순위를 기반으로 입력자료의 재구축을 진행한다. 입력자료의 재구축은 입력자료 내 하위 순위 입력인자를 제거하면서 다양한 Cases를 생성한다. 생성된 Cases를 기반으로 딥러닝의 학습 및 예측을 통해 정확도를 비교하여 최적의 딥러닝 입력자료를 구축한다.

2.2.2 주성분 분석

주성분 분석(Principle component analysis, PCA)은 다양한 분야에서 사용되는 차원 축소 기법이다(Kim et al., 2022). 주성분 분석은 원자료가 갖고있는 데이터의 분포를 유지하면서 데이터의 차원을 축소하는 방법이다. 주성분 분석은 원자료 내부의 전체 변수에 대한 90% 이상의 정보를 포함하기 때문에 정보 손실 측면에서 효율적이라는 장점이 있다(Kim et al., 2020).

2.2.3 eXplainable Artificial Intelligence

XAI는 딥러닝이 입력자료를 기반으로 학습하는 과정에서 입력자료의 인자별로 출력자료에 대한 영향력을 수치 또는 이미지로 나타내는 기법이다. 딥러닝의 학습과정에서 XAI의 적용을 통해 입력인자별로 영향력을 얼마나 미치는지 알 수 있다. XAI를 활용하여 데이터를 구축하는 방법은 다음과 같다.

  • ① 입력자료 및 출력자료 구축

  • ② 딥러닝 기반 학습 진행

  • ③ XAI 기법을 활용한 딥러닝 학습과정 분석

  • ④ 입력자료의 입력인자별 영향력 분석 및 순위 선정

  • ⑤ 선정된 순위 기반 입력자료 구축

딥러닝의 최적 입력자료 구축을 위해 ①~④과정을 통해 선정된 입력인자별 영향력 기반 순위를 기반으로 입력자료의 재구축을 진행한다. 생성된 Cases를 기반으로 딥러닝의 학습 및 예측을 통해 정확도를 비교하여 최적의 딥러닝 입력자료를 구축한다. 본 연구에서는 다양한 XAI 기법 중 딥러닝에 가장 적합하다고 알려져있는 LRP를 사용하였다(Nahm, 2022). LRP를 기반으로 입력자료의 입력인자별 영향력인 관련성 점수를 산출하였다. LRP는 feed-forword 방식을 통해 학습된 딥러닝을 backword 방식으로 각 뉴런의 출력단에서 입력단 방향으로 기여도를 분배한다. Eq. (3)은 LRP의 관련성 점수 산출식이다.

(3)Relj=iNjijNjiReli,Nji=wjixj

여기서, Relj 는 하위 뉴런인 j 의 관련성 점수이며, Njij 부터 i 로 이어지는 뉴런의 가중치(wjixj), Reli 는 상위 뉴런인i 의 관련성 점수이다.

2.3 오차 분석

딥러닝의 학습 및 예측결과에 대한 정확도를 분석하기 위해서는 학습 및 예측결과와 관측값 간의 오차를 분석해야 한다. 학습 및 예측결과와 관측값간의 오차 비교를 통해 다양한 데이터 구축방법에 대한 성능을 비교할 수 있다. 본 연구에서는 Root Mean Squared Error (RMSE)를 활용하여 오차를 분석하였다. Eq. (4)는 RMSE의 수식이다.

(4)RMSE=i=1N(xiyi)2N

여기서, N은 자료의 개수, xi 는 모델의 결과값이며, yi 는 관측값이다.

RMSE는 모델의 출력값과 관측값간의 거리를 기반으로 오차를 산정한다. 따라서, RMSE가 높을수록 오차가 많이 발생한다는 것을 나타낸다.

3. 연구결과

3.1 대상유역

딥러닝 성능 최적화를 위한 데이터 전처리 및 데이터 구축방법의 성능을 비교하기 위해 다양한 Case의 입력자료를 기반으로 대한민국에 위치하고 있는 대청댐의 유입량을 예측하였다. 대청댐의 유입량을 예측하기 위해 대청댐 상류의 수위관측소 및 기상관측소의 자료를 수집하였다. 대청댐 상류의 수위관측소는 4개소(여의교, 양강교, 초강교 및 산계교)를 선정하였으며, 기상관측소는 12개소(청남대, 세천, 보은, 옥천, 영동, 청산, 가곡, 무주, 진안, 주천, 동향 및 금산)를 선정하였다. 또한, 대청댐 상류에 위치하고 있는 용담댐의 방류량을 추가로 선정하였다. Fig. 1은 대청댐 유입량을 예측하기 위해 자료를 취득한 관측소의 현황을 나타낸 그림이다.

Fig. 1

Study Area

Fig. 1에 따르면, 출력자료인 대청댐 유입량을 예측하기 위해 총 17개의 입력인자를 구축한 것을 알 수 있다. 총 17개의 입력인자는 2013년부터 2024년까지 홍수기의 일단위 자료로 취득을 하였다. 수문자료는 국가수자원관리종합정보시스템(http://www.wamis.go.kr/)에서 취득하였으며, 기상자료는 기상자료개방포털(https://data.kma.go.kr)에서 취득하였다. 2013년부터 2023년까지의 자료는 딥러닝의 학습을 위한 자료로 사용하였으며, 2024년의 자료는 딥러닝의 예측자료로 사용하였다. Table 1은 수집된 입력자료를 나타낸 표이다.

Description of Input Features Used in Deep Learning Input Data Construction

Table 1에 따르면, 수위자료, 댐 방류량 및 강우자료를 기반으로 딥러닝의 입력자료를 구축한 것을 알 수 있다. 구축된 자료를 기반으로 데이터 전처리 기법인 TLCC를 적용하기 위해 시간단위를 기준으로 자료에 대한 시간지연을 적용하였다. 출력자료를 기준으로 입력자료를 일단위로 지연시켰다. 지연에 따른 상관계수 분석결과 1일을 지연시켰을 때 상관계수가 가장 높았으며, 이를 기반으로 입력자료를 1일씩 지연하여 입력자료를 구축하였다. Fig. 2는 입력자료 중 대청댐 유입량에 대한 수문곡선이다.

Fig. 2

Hydrograph of Daecheong Dam Inflow

총 17개로 구성된 입력자료를 기반으로 R2 분석, 주성분 분석, XAI 기반 분석을 통해 최적의 딥러닝 입력자료를 구축하고자 한다.

3.2 Multi Layer Perceptron

대청댐 유입량을 예측하기 위해 사용된 딥러닝은 가장 기본적인 구조를 갖고 있는 MLP이다. MLP는 비선형적 문제에 적용할 경우, 문제를 해결하는 능력을 갖고있기 때문에 수자원분야에서 많이 사용되고 있다(Lee et al., 2013; Zhou et al., 2020, Lee and Lee, 2023b). Fig. 3은 MLP의 구조를 나타낸 그림이다.

Fig. 3

Structure Diagram of MLP

Fig. 3에 따르면, MLP는 구축된 입력자료를 기반으로 입력층에서 자료를 입력받아 은닉층을 통해 연산이 진행되며, 최종 출력결과는 출력층을 통해 결과를 산출한다. MLP는 은닉층, 은닉층 내 노드 수 및 학습횟수가 증가할 경우, MLP의 복잡성이 증가함과 동시에 정확도가 향상된다. 그러나, 복잡성이 과도하게 증가할 경우에는 과적합(Overfitting)이 발생하며, 복잡성이 매우 낮을 경우에는 과소적합(Underfitting)이 발생하여 학습 및 예측에 영향을 미친다. 딥러닝의 복잡성은 학습횟수를 포함하여 구조 매개변수인 은닉층 및 은닉층 내 노드 수에 따라 변동된다(Bilmes, 2020). 따라서, 딥러닝의 학습 및 예측과정에서 과적합 및 과소적합을 발생하지 않기 위해서는 최적의 구조 매개변수 및 학습횟수를 설정하는 것이 필요하다. 대청댐 유입량 예측을 위해 사용되는 MLP의 구조 매개변수는 은닉층이 5개이며, 은닉층 내 노드가 10개, 옵티마이저가 Adaptive moment일 때 가장 좋은 결과를 나타낸다(Ryu and Lee, 2025). 기존 연구를 기반으로 본 연구의 MLP는 은닉층 5개, 은닉층 내 노드는 10개로 설정하였다. 구조가 결정된 MLP에 대한 최적의 학습횟수를 선정하기 위해 다양한 학습횟수를 기반으로 성능을 검토하였다. MLP의 성능을 검토하기 위해 출력값과 관측값간 오차를 분석하였다. 총 10회의 반복실행 결과를 기반으로 오차를 비교하였다. MLP의 학습횟수를 선정하기 위해 검증결과와 예측결과간 trade-off 관계를 분석하였으며, 이를 통해 최적의 학습횟수를 선정하였다. Table 2는 학습횟수에 따른 검증 및 예측결과를 나타낸 표이다.

Average RMSE of Each Epochs for Verification Results and Prediction Results

Table 2에 따르면, 검증결과에서는 학습횟수가 약 4,500일 때, 예측결과에서는 학습횟수가 약 1,000일 때 가장 좋은 결과를 나타냈다. 딥러닝은 학습을 계속하게 된다면 검증결과에 따른 오차는 감소하나, 예측결과는 증가한다(Pothuganti, 2018). 본 연구에서는 최적의 학습횟수를 선정하기 위해 검증결과와 예측결과의 그래프가 교차되는 지점을 최적 학습횟수로 선정하였다. Table 2를 기반으로 그래프를 통한 분석을 위해 검증결과와 예측결과를 동일한 스케일로 변환하기 위해 정규화를 적용하였다. Fig. 4Table 2를 기반으로 정규화를 통해 나타낸 결과를 나타낸 그림이다.

Fig. 4

Average RMSE of Each Epochs for Verification and Prediction Results

Fig. 3에 따르면, 학습횟수가 1,500일 때 검증결과와 예측결과 그래프간 교차가 발생한 것을 알 수 있다. 따라서, Fig. 4를 통해 최적 학습횟수가 1,500인 것을 알 수 있다.

3.3 데이터 구축방법별 적용 결과

본 연구에서는 데이터 전처리가 적용된 입력자료를 기반으로 딥러닝의 성능을 향상시키기 위해 데이터 구축방법을 적용하고자 한다. 데이터 구축방법은 총 3개이며, R2 분석, 주성분 분석 및 XAI 기반 분석을 통해 다양한 Case 생성을 통한 결과를 활용해 최적의 입력자료를 구축하고자 한다. 각 데이터 구축방법에 대한 성능을 비교하기 위해 Fig. 5에 나타난 순서와 같이 딥러닝 입력자료를 구축하였다.

Fig. 5

Method for Constructing Deep Learning Input Data by Technique

R2 분석을 기반으로 입력자료를 구축하기 위해 출력자료인 대청댐 유입량과 입력인자별 R2를 분석하였다. 입력인자별 R2는 다음과 같다.

Table 3에 따르면, 대청댐 유입량에 가장 높은 상관도를 나타내는 것은 양강교의 수위자료인 것을 알 수 있다. Table 3의 결과를 기반으로 상관계수가 낮은 입력인자를 제거하면서 딥러닝의 입력자료에 대한 Case들을 구축하였다. Case는 총 16개이며, Case1은 17개의 입력인자 중 최하위 1개가 제거된 Case이며, Case16은 입력인자 중 최상위 1개를 제외하고 모든 입력인자가 제거된 Case이다. 각 Case 별 검증결과는 Table 4와 같다.

R2 by Input Feature in Deep Learning Input Data

Case-by-case Verification Results according to Input Data Construction Through R2 Based Analysis

Table 4에 따르면, Average RMSE를 기준으로 가장 좋은 결과를 나타낸 Case는 Case3인 것을 알 수 있다. Case3의 RMSE를 통해 검증기간에 대해서 Case3을 활용할 때 최대 약 73% 오차가 감소되는 것을 알 수 있다. Case3은 R2 기준으로 하위 3개의 인자를 제거한 입력자료를 기반으로 MLP를 활용해 산출한 학습을 한 결과이다. Case3에 따르면, 학습과정에서는 청남대, 가곡 및 주천 강수량은 대청댐 유입량 검증에 좋지 않은 결과를 나타낸다는 것을 알 수 있다. Table 5는 Case3의 결과와 데이터 구축방법을 적용하지 않은 결과간의 첨두값간 오차를 분석한 표이다.

Verification Results according to Input Data Construction Through R2 Based Analysis

Table 5에 따르면, Case3이 데이터 구축방법을 적용하지 않은 MLP보다 낮은 오차를 나타낸 것을 알 수 있다. 검증결과의 경우, 데이터 구축방법을 활용해 학습을 하는 것이 효과적임을 알 수 있다. Table 6은 가장 좋은 검증 결과를 나타낸 Case3을 기반으로 산출된 예측결과를 분석한 표이다.

Prediction Results according to Input Data Construction Through R2 Based Analysis

Table 6에 따르면, 데이터 구축방법을 적용하지 않은 MLP가 데이터 구축 방법 중 R2 분석을 적용한 Case3보다 오차가 낮은 것을 알 수 있다. R2를 기반으로 입력자료를 재구축하는 경우에는 예측과정에서 좋지 않은 결과를 나타낸다는 것을 알 수 있다. Table 7은 각 기법에 따른 첨두값간 오차를 나타낸 표이다.

Prediction Results according to Input Data Construction Through R2 Based Analysis

Table 7에 따르면, R2 기반 분석을 진행하여 입력자료를 재구축한 Case3의 예측성능이 데이터 구축방법을 적용하지 않은 MLP보다 좋지 않은 것을 알 수 있다. 이를 통해 R2를 통한 입력자료 구축방법은 첨두를 예측하는 과정에서는 효율적인 방법이 아님을 알 수 있다.

PCA 분석을 기반으로 입력자료를 구축하기 위해 총 17개의 입력자료를 활용해 17개의 주성분으로 변환하였다. 주성분 분석결과는 Table 8과 같다.

Principal Component Estimation Results Based on Input Data

Table 8에 따르면, 기존 딥러닝 입력자료의 입력인자가 아닌 Component로 산정이 된 것을 알 수 있다. 주성분 분석은 입력자료를 기반으로 데이터의 분산을 보존하면서 데이터의 차원을 축소시키는 방법이다. Ryu et al. (2024)에 따르면, 주성분의 누적치 비율이 90% 이상이 되는 인자들을 기반으로 딥러닝 입력자료를 구축하는 것이 효율적이라고 언급하였다. 본 연구에서는 주성분 분석결과를 기반으로 주성분의 고유값 분산 누적치가 90% 이상이 되는 시점의 입력인자들을 기반으로 학습 및 예측을 진행하였다. 주성분 분석 결과를 기반으로 입력자료를 구축한 MLP를 통해 진행한 검증결과는 Table 9와 같다.

Verification Results according to Input Data Construction Through PCA

Table 9에 따르면, Average, Max 및 Min RMSE가 모두 PCA를 적용하지 않은 입력자료를 기반으로 MLP을 학습한 결과가 더 좋은 것을 알 수 있다. PCA를 통해 새로 생성한 주성분이 기존 원자료보다 학습 성능이 개선되지 않는다는 것을 알 수 있다. RMSE의 차이를 통해 전 기간에 대해서 PCA를 활용한 결과가 전체적으로 좋지 않다는 것을 알 수 있다. Table 10은 원자료 및 PCA를 활용하여 학습자료를 구축한 MLP의 학습결과에 대한 첨두값간 오차를 분석한 표이다.

Verification Results according to Input Data Construction Through PCA

Table 10에 따르면, 원자료를 기반으로 학습한 MLP가 PCA를 기반으로 입력자료를 구축한 MLP보다 첨두유량에 대한 오차가 더 낮은 것을 알 수 있다. 이를 기반으로 검증단계에서는 PCA를 사용하지 않는 것이 학습오차를 낮출 수 있다는 것을 알 수 있다. Table 11은 원자료 및 PCA를 활용하여 학습자료를 구축한 MLP의 예측결과를 분석한 표이다.

Prediction Results according to Input Data Construction Through PCA Based Analysis

Table 11에 따르면, PCA를 통해 입력자료를 구축한 MLP가 데이터 구축방법을 적용하지 않은 MLP보다 낮은 Average, Max 및 Min RMSE를 나타내는 것을 알 수 있다. MLP는 학습이 과도하게 진행될 경우, 과적합이 발생되며, 과적합으로 인해 예측성능이 낮아진다. Tables 9 및 11을 통해 PCA를 통해 입력자료를 구축한 MLP가 데이터 구축방법을 적용하지 않은 MLP보다 과적합에 대한 방지를 할 수 있다는 것을 알 수 있다. RMSE의 오차를 기반으로 전체 기간에 대해서 PCA를 적용한 자료를 기반으로 MLP를 적용했을 때 개별 출력데이터 간 거리에 따른 오차가 낮은 것을 알 수 있다. Table 12는 각 기법에 따른 첨두값간 오차를 나타낸 표이다.

Prediction Results according to Input Data Construction Through PCA

Table 12에 따르면, PCA를 통해 입력자료를 구축한 MLP가 데이터 구축방법을 적용하지 않은 MLP보다 오차가 낮은 것을 알 수 있다. Tables 11 및 12를 기반으로 MLP를 활용해 예측하는 과정에서는 PCA를 기반으로 입력자료를 구축한 MLP가 더 효과적임을 알 수 있다.

XAI 기법 중 LRP를 기반으로 입력자료를 구축하기 위해 학습과정에 대한 관련성 점수를 분석하였다. 입력인자별 관련성 점수는 Table 13과 같다.

Relevance Score by Input Feature in Deep Learning Input Data

Table 13에 따르면, 대청댐 유입량에 가장 높은 관련성 점수를 나타내는 인자는 옥천 강수량인 것을 알 수 있다. R2 기반 분석결과의 경우, 양강교의 상관도가 가장 높았으나, XAI기반 분석결과의 경우, 옥천 강수량이 관련성 점수가 가장 높았다. XAI의 경우, 딥러닝이 학습하는 과정에서의 관련성 점수를 산출하기 때문에 R2 기반 분석 결과와 차이가 발생한다. Table 13의 결과를 기반으로 딥러닝의 입력자료에 대한 Case들을 구축하였다. Table 14는 Case별 입력자료를 나타낸 표이다.

Input Features by Case

Table 14에 따르면, 관련성 점수가 낮은 입력인자를 제거하면서 Case를 구축하였다. 최종적으로 Case16은 하나의 입력자료로 구성된 것을 알 수 있다. 각 Case 별 검증결과는 Table 15와 같다.

Case-by-case Verification Results according to Input Data Construction Through XAI Based Analysis

Table 15에 따르면, Average RMSE를 기준으로 가장 좋은 결과를 나타낸 Case는 Case1인 것을 알 수 있다. Case1은 관련성 점수를 기준으로 하위 1개의 인자를 제거한 입력자료를 기반으로 MLP를 활용해 학습을 한 결과이다. Case1의 RMSE를 통해 검증기간에 대해서 Case1을 활용할 때 최대 약 83% 오차가 감소되는 것을 알 수 있다. Case1을 사용하여 학습을 진행할 경우, 전 기간에 대해서 상대적으로 정확히 예측한다는 것을 알 수 있다. 이를 기반으로, 학습을 하는 과정에서는 영동 강수량은 대청댐 유입량 검증에 좋지 않은 결과를 나타낸다는 것을 알 수 있다. Table 16은 가장 좋은 검증 결과를 나타낸 Case1을 기반으로 데이터 구축방법을 적용하지 않은 결과와의 첨두값간 오차를 분석한 표이다.

Verification Results according to Input Data Construction Through XAI Based Analysis

Table 16에 따르면, Case1이 데이터 구축방법을 적용하지 않은 MLP보다 낮은 오차를 나타낸 것을 알 수 있다. Table 16을 통해, 검증결과의 경우, XAI 중 LRP를 기반으로 데이터 구축방법을 활용해 학습을 하는 것이 효과적임을 알 수 있다. Table 17은 가장 좋은 검증 결과를 나타낸 Case1을 기반으로 산출된 예측결과를 분석한 표이다.

Prediction Results according to Input Data Construction Through XAI Based Analysis

Table 17에 따르면, Min RMSE를 기준으로 데이터 구축 방법 중 R2 분석을 적용한 Case1가 데이터 구축방법을 적용하지 않은 MLP보다 오차가 낮은 것을 알 수 있다. 높은 정확도를 기반으로 예측을 하기 위해서는 XAI를 기반으로 입력자료를 재구축하여 결과를 산출해야한다는 것을 알 수 있다. Table 18은 각 기법에 따른 첨두값간 오차를 나타낸 표이다.

Prediction Results according to Input Data Construction Through XAI Based Analysis

Table 18에 따르면, R2 기반 분석을 진행하여 입력자료를 재구축한 Case3의 예측성능이 데이터 구축방법을 적용하지 않은 MLP보다 오차가 낮은 것을 알 수 있다. 이를 통해 XAI를 통한 입력자료 구축방법은 기존 입력자료 구축방법보다 효율적인 방법임을 알 수 있다.

본 연구에서 사용된 데이터 구축방법별 성능을 비교하기 위해 검증 및 예측결과를 비교하였다. Fig. 6은 학습을 위한 자료를 기반으로 각 데이터 구축방법별 검증결과를 나타낸 그래프이다.

Fig. 6

Comparison of Validation Results by MLP with Data Construction Method Applied

Fig. 6에 따르면, 대부분의 기간에서 유사한 결과를 나타내는 것을 알 수 있다. 검증기간 중 첨두유입량이 발생한 기간을 확대하여 분석한 결과, PCA를 기반으로 입력자료를 구축한 MLP는 R2 및 XAI를 기반으로 입력자료를 구축한 MLP와 입력자료 구축방법을 적용하지 않은 MLP보다 과대추정을 하는 것을 알 수 있다. XAI를 기반으로 입력자료를 구축한 MLP의 경우, 유입량의 상승부에서는 정확한 결과를 나타냈으나, 하상부에서는 과소추정을 하는 것을 알 수 있다. Fig. 4를 기반으로, 다양한 데이터 구축방법을 적용할 경우, 검증단계에서는 성능에 대한 큰 차이가 없는 것을 알 수 있다. 학습결과를 기반으로 예측결과에 대한 성능을 비교하기 위해 예측을 위한 자료를 기반으로 각 데이터 구축방법별 결과를 비교하였다. Fig. 7은 예측을 위한 자료를 기반으로 각 데이터 구축방법별 예측결과를 나타낸 그래프이다.

Fig. 7

Comparison of Prediction Results by MLP with Data Construction Method Applied

Fig. 7에 따르면, 데이터 구축방법을 적용하지 않은 MLP는 R2, PCA 및 XAI 분석을 통한 데이터 구축방법을 적용한 MLP보다 과대추정하는 결과를 나타냈다. R2, PCA 및 XAI 분석을 통한 데이터 구축방법 중 XAI 분석을 통한 데이터 구축방법을 적용한 MLP는 예측기간 중 발생한 첨두유입량을 상대적으로 정확히 예측하는 것을 알 수 있다. 데이터 구축방법을 적용함에 따라 과적합을 방지할 수 있다는 것을 알 수 있다.

4. 결 론

본 연구는 딥러닝의 성능 최적화를 위해 입력자료에 대한 데이터 전처리 및 데이터 구축방법을 검증하였다. 딥러닝 입력자료를 구축하기 위해 데이터 전처리 기법은 Min-Max Normalization 및 TLCC를 적용하였으며, 데이터 구축방법은 R2 분석, PCA 분석 및 XAI 분석을 사용하였다. 데이터 전처리 기법을 적용한 딥러닝 입력자료를 기반으로 R2 분석, PCA 분석 및 XAI 분석을 통해 입력자료 구축을 위한 근거를 제시하였다. 제시된 근거를 기반으로 딥러닝 입력자료를 구축하여 각 기법에 대한 성능을 비교하였다. PCA 분석을 통한 딥러닝 데이터 구축방법은 주성분의 누적 고유치 비율이 90%이상이 되는 주성분들을 기반으로 입력자료를 구축하였다. R2 및 XAI 분석을 통한 딥러닝 입력자료 구축은 상관계수 및 관련성 점수를 인자별로 분석하여 하위 인자를 제거하는 방식을 통해 다양한 Case 분석을 기반으로 최적의 딥러닝 입력자료를 구축하였다.

R2, PCA 및 XAI 분석을 통한 데이터 구축방법을 적용한 MLP를 기반으로 검증 및 예측결과를 비교하였다. 검증결과에 따르면, Min RMSE는 XAI 분석을 통한 데이터 구축방법을 적용하였을 때, 기존 MLP 대비 오차가 약 1.9% 감소하는 것으로 나타났다. Max RMSE는 기존 MLP 대비 약 13.15% 감소하였으며, Average RMSE는 기존 MLP 대비 약 2.97% 감소한 것으로 나타났다. 첨두값간의 차이에 따르면, XAI 분석을 통한 데이터 구축방법을 적용하였을 때 기존 MLP 대비 오차가 감소한 것을 알 수 있다. 검증결과를 통해 데이터 구축방법을 적용한 MLP를 기반으로 대청댐 유입량을 학습할 경우, 기존 MLP 대비 높은 정확도로 결과를 산출할 수 있다는 것을 알 수 있다. 예측결과에 따르면, Min RMSE는 PCA 분석을 통한 데이터 구축방법을 적용하였을 때, 기존 MLP 대비 오차가 약 26% 감소하는 것으로 나타났다. Max RMSE는 기존 MLP 대비 약 46% 감소하였으며, Average RMSE는 기존 MLP 대비 약 39.32% 감소한 것으로 나타났다. 첨두값간의 차이에 따르면, PCA 분석을 통한 데이터 구축방법을 적용하였을 때 기존 MLP 대비 오차가 감소한 것을 알 수 있다.

제안된 데이터 구축방법을 통해 입력자료 재구축을 통한 MLP는 기존 MLP 보다 학습 및 예측과정에서 좋은 결과를 나타냈다. 이를 통해 데이터 구축방법 중 PCA 및 XAI 분석을 통한 데이터 구축방법은 대청댐 유입량을 정확하게 예측하는 과정에서 필수적인 것을 알 수 있다. XAI 분석을 통한 입력인자별 관련성 점수, 학습 및 예측 성능의 검증을 기반으로 대청댐 수위에 영향을 미치는 인자의 우선순위를 파악할 수 있다. 이를 통해 홍수기시 선제적 대응을 하기 위한 기반자료로 활용될 것으로 기대된다. 그러나, 본 연구에서 제안된 데이터 구축방법은 인자별 분석을 통한 입력자료 근거 산정과 함께 차원축소를 통한 입력자료 구축방법을 사용하였다. 차원축소를 통한 입력자료 구축방법의 경우, 원래의 입력 인자를 직접 반영하지 못한다는 단점이 있다. 또한, 다양한 XAI 기법 중 LRP만을 사용하여 성능을 검증하였다. 향후 연구를 통해 다양한 XAI 기법을 활용한 데이터 구축방법의 검증과 입력 인자의 값을 보전하면서 입력자료의 차원을 축소할 수 있는 방법을 검증하게 된다면 딥러닝을 통해 수문 자료를 예측하는 과정에서 보다 높은 정확도로 학습 및 예측결과를 산출할 수 있을 것이다.

감사의 글

본 연구는 환경부의 재원으로 한국환경산업기술원의 도시홍수시설의 계획, 운영, 유지관리 최적화 기술개발사업의 지원을 받아 수행되었음(No. RS-2024-00398012).

References

1. Abrahart R, Kneale P.E, See L.M. 2004. Neural networks for hydrological modeling London: UK:CRC Press.
2. Anseeuw W, Alden Wily L, Cotula L, Taylor M. 2012;Land rights and the rush for land:Findings of the global commercial pressures on land research project ILC, Rome, 72.
3. Bach S, Binder A, Montavon G, Klauschen F, Müller K.R, Samek W. 2015;On pixel-wise explanations for nonlinear classifier decisions by layer-wise relevance propagation. PloS One 10(7):e0130140.
4. Bae Y.H, Kim J.S, Wang W.J, Yoo Y.H, Jung J.W, Kim H.S. 2019;Monthly inflow forecasting of soyang river dam using VARMA and machine learning models. Journal of Climate Research 14(3):183–198.
5. Bilmes J. 2020;Underfitting and overfitting in machine learning UW ECE Course Notes, 5.
6. Blignaut J, Van Heerden J. 2009;The impact of water scarcity on economic development initiatives. Water Sa 35(4):415–420.
7. Chun Y.E, Kim S.B, Lee J.Y, Woo J.H. 2021;Study on credit rating model using explainable AI. The Korean Data &Information Science Society 32(2):283–295.
8. Eom J.I, Jung K.S. 2019;Estimation of hourly dam inflow using time series data. Journal of the Korean Society of Hazard Mitigation 19(2):163–168.
9. Ghumman A.R, Ghazaw Y.M, Sohail A.R, Watanabe K. 2011;Runoff forecasting by artificial neural network and conventional model. Alexandria Engineering Journal 50(4):345–350.
10. Granata F, Gargano R, De Marinis G. 2016;Support vector regression for rainfall-runoff modeling in urban drainage:A comparison with the EPA's storm water management model. Water 8(3):69–81.
11. Joo D.S, Choi D.J, Park H.K. 2000;The effects of data preprocessing in the determination of coagulant dosing rate. Water Research 34(13):3295–3302. doi:10.1016/S0043-1354(00)00067-1.
12. Jung S.H, Lee D.E, Lee K.S. 2018;Prediction of river water level using deep-learning open library. Journal of the Korean Society of Hazard Mitigation 18(1):1–11.
13. Kim D, Kim J, Kwak J, Necesito I.V, Kim J, Kim H.S. 2020;Development of water level prediction models using deep neural network in mountain wetlands. Journal of Wetlands Research 22(2):106–112.
14. Kim K.S. 2010. A study on the real time forecasting for monthly inflow Daecheong dam using hydrologic time series analyses Master's thesis, Seokyeong University. p. 32–54.
15. Kim S.Y, Choi Y.Y, Park S.Y, Kwon O, Shin H.K. 2022;Nuclear power plant severe accident diagnosis using deep learning approach. Journal of Korea Society of Industrial Information Systems 27(6):95–103.
16. Kite G.W. 1977. Frequency and risk analyses in hydrology Water Resources Publications. p. 224.
17. Lee J.E, Han J.H. 2021;Layer-wise relevance propagation (LRP) based technical and macroeconomic indicator impact analysis for an explainable deep learning model to predict an increase and decrease in KOSPI. Journal of KIISE 48(12):1289–1297.
18. Lee J.H, Kim J.S, Jang H.W, Lee J.C. 2013;Drought forecasting using the multi layer perceptron (MLP) artificial neural network model. Journal of Korea Water Resources Association 46(12):1249–1263.
19. Lee J.S. 2016;Alternative water resources development domestic and international market analysis. Water for Future 49(5):34–42.
20. Lee W.J. 2024. Improvement of multi layer perceptron using adaptive moments and harmony search:Focused on daecheong dam inflow prediction Master's thesis, Chungbuk National University.
21. Lee W.J, Lee E.H. 2022;Runoff prediction based on the discharge of pump stations in an urban stream using a modified multi-layer perceptron combined with meta-heuristic optimization. Water 14(1):99.
22. Lee W.J, Lee E.H. 2023a;Performance improvement of artificial neural network based water quality prediction model using explainable artificial intelligence technology. Journal of Korea Water Resources Association 56(11):801–813.
23. Lee W.J, Lee E.H. 2023b;Improvement of multi layer perceptron performance using combination of adaptive moments and improved harmony search for prediction of daecheong dam inflow. Journal of Korea Water Resources Association 56(1):63–74.
24. Loaiciga H.A, Mariño M.A. 1991;Recurrence interval of geophysical events. Journal of Water Resources Planning and Management 117(3):367–382.
25. Lundberg S.M, Lee S.I. 2017. A unified approach to interpreting model predictions. Proceedings of the Advances in Neural Information Processing Systems Long Beach, CA, U.S: 30p. 4768–4777.
26. Mok J.Y, Choi J.H, Moon Y.I. 2020;Prediction of multipurpose dam inflow using deep learning. Journal of Korea Water Resources Association 53(2):97–105.
27. Montanari A, Rosso R, Taqqu M.S. 1997;Fractionally differenced ARIMA models applied to hydrologic time series:Identification, estimation, and simulation. Water Resources Research 33(5):1035–1044.
28. Moon B.S, Lee K.J. 2011;Prediction of the water inflow in seum-jin dam according to rainfall. Korea Entertainment industry Association 5(2):104–111.
29. Mosavi A, Ozturk P, Chau K.W. 2018;Flood prediction using machine learning models:Literature review. Water 10(11):1536.
30. Nahm E.-S. 2022;Neural network modeling based XAI of activated sludge process in wastewater treatment system for dissolved oxygen control. The Transactions of the Korean Institute of Electrical Engineers 71(8):1176–1181.
31. Nawi N.M, Atomi W.H, Rehman M.Z. 2013;The effect of data pre-processing on optimized training of artificial neural networks. Procedia Technology 11:32–39.
32. Pothuganti S. 2018;Review on over-fitting and under-fitting problems in machine learning and solutions. Int. J. Adv. Res. Electr. Electron. Instrum. Eng 7(9):3692–3695.
33. Qadir M, Sharma B.R, Bruggeman A, Choukr-Allah R, Karajeh F. 2007;Non-conventional water resources and opportunities for water augmentation to achieve food security in water scarce countries. Agriculture Water Management 87(1):2–22.
34. Ren T, Liu X, Niu J, Lei X, Zhang Z. 2020;Real-time water level prediction of cascaded channels based on multilayer perception and recurrent neural network. Journal of Hydrology 585:124783.
35. Riad S, Mania J, Bouchaou L, Najjar Y. 2004;Predicting catchment flow in a semi?arid region via an artificial neural network technique. Hydrological Processes 18(13):2387–2393.
36. Ribeiro M.T, Singh S, Guestrin C. 2016. “Why should I trust you?”Explaining the predictions of any classifier. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining San Francisco, CA, U.S: p. 1135–1144.
37. Ringler C, Karelina Z, Pandya-Lorch R. 2011. Emerging country strategies for improving food security:Linkages and trade-offs for water and energy security Bonn, Germany: Bonn 2011 Conference:The Water, Energy, and Food Security Nexus. 17 Nov 2011.
38. Rios A, Gala V, Mckeever S. 2020;Explaining deep learning models for structured data using layer-wise relevance propagation arXiv preprint arXiv:2011.13429.
39. Roh S, Park D. 2021;Sweet persimmons classification based on a mixed two-step synthetic neural network. Journal of Korea Multimedia Society 24(10):1358–1368.
40. Rosenblatt F. 1958;The perceptron:A probabilistic model for information storage and organization in the brain. Psychological Review 65(6):386–408.
41. Ryu Y.M, Lee E.H. 2025;Development of dam inflow prediction technique based on explainable artificial intelligence (XAI) and combined optimizer for efficient use of water resources. Environmental Modelling &Software 187:106380.
42. Ryu Y.M, Kim Y.N, Lee D.W, Lee E.H. 2024;Development of new artificial neural network optimizer to improve water quality index prediction performance. Journal of Korea Water Resources Association 57(2):73–85.
43. Wang X.J, Zhang J.Y, Yang Z.F, Shahid S, He R.M, Xia X.H, Liu H.W. 2015;Historic water consumptions and future management strategies for haihe river basin of northern China. Mitigation and Adaptation Strategies for Global Change 20:371–387.
44. Yan J, Jin J, Chen F, Yu G, Yin H, Wang W. 2018;Urban flash flood forecast using support vector machine and numerical simulation. Journal of Hydroinformatics 20(1):221–231.
45. Zhang D, Lin J, Peng Q, Wang D, Yang T, Sorooshian S. 2018;Modeling and simulating of reservoir operation using the artificial neural network, support vector regression, deep learning algorithm. Journal of Hydrology 565:720–736.
46. Zhou T, Jiang Z, Liu X, Tan K. 2020;Research on the long-term and short-term forecasts of navigable river's waterlevel fluctuation based on the adaptive multilayer perceptron. Journal of Hydrology 591:125285.
47. Zuo G, Luo J, Wang N, Lian Y, He X. 2020;Decomposition ensemble model based on variational mode decomposition and long short-term memory for streamflow forecasting. Journal of Hydrology 585:124776.

Article information Continued

Fig. 1

Study Area

Table 1

Description of Input Features Used in Deep Learning Input Data Construction

Feature Description (Category)
1 Yeouigyo (Water level data)
2 Yangganggyo (Water level data)
3 Choganggyo (Water level data)
4 Sangyegyo (Water level data)
5 Yongdam dam (Dam discharge data)
6 Cheongnamdae (Rainfall data)
7 Secheon (Rainfall data)
8 Boeun (Rainfall data)
9 Okcheon (Rainfall data)
10 Yeongdong (Rainfall data)
11 Cheongsan (Rainfall data)
12 Gagok (Rainfall data)
13 Muju (Rainfall data)
14 Jinan (Rainfall data)
15 Jucheon (Rainfall data)
16 Donghyang (Rainfall data)
17 Geumsan (Rainfall data)

Fig. 2

Hydrograph of Daecheong Dam Inflow

Fig. 3

Structure Diagram of MLP

Table 2

Average RMSE of Each Epochs for Verification Results and Prediction Results

Epochs Average RMSE
Verification results Prediction results
100 177.506 419.059
500 90.195 391.487
1,000 72.834 324.300
1,500 62.070 361.729
2,000 55.521 417.721
2,500 66.985 459.349
3,000 55.683 496.035
3,500 53.882 458.102
4,000 49.160 404.319
4,500 46.933 464.638
5,000 51.820 463.525

Fig. 4

Average RMSE of Each Epochs for Verification and Prediction Results

Fig. 5

Method for Constructing Deep Learning Input Data by Technique

Table 3

R2 by Input Feature in Deep Learning Input Data

Input data R2 Input data R2
Yangganggyo 0.5547 Cheongsan 0.2306
Yongdam dam 0.5213 Secheon 0.2196
Yeouigyo 0.4287 Boeun 0.2169
Sangyegyo 0.3881 Okcheon 0.2135
Jinan 0.3503 Yeongdong 0.2017
Donghyang 0.3205 Cheongnamdae 0.1927
Choganggyo 0.3064 Gagok 0.1695
Muju 0.2529 Jucheon 0.1356
Geumsan 0.2459 - -

Table 4

Case-by-case Verification Results according to Input Data Construction Through R2 Based Analysis

Case RMSE
Average Max Min
Original 83.6288 110.2701 62.0702
1 84.9081 105.0965 66.8967
2 87.3652 109.0367 65.9778
3 80.8833 113.2556 64.9978
4 90.3504 105.8093 78.3236
5 94.8555 159.6753 70.8876
6 92.7359 109.3855 73.7361
7 96.7828 131.7565 75.9517
8 101.4683 118.7783 85.3844
9 102.2327 165.8334 71.3990
10 130.3020 178.4094 99.1727
11 127.4990 174.4096 75.4197
12 125.6854 150.5391 97.2114
13 195.5972 238.9184 172.4213
14 228.6334 260.2169 206.9035
15 255.2939 276.7804 233.6172
16 295.2955 302.3245 290.5636

Table 5

Verification Results according to Input Data Construction Through R2 Based Analysis

Case Difference (│Observed data - Verification results│)
Original 255.6899
3 202.7249

Table 6

Prediction Results according to Input Data Construction Through R2 Based Analysis

Case RMSE
Average Max Min
Original 559.0678 781.6267 361.7290
3 578.8773 714.9067 448.6235

Table 7

Prediction Results according to Input Data Construction Through R2 Based Analysis

Case Difference (│Observed data - Verification results│)
Original 1,718.1118
3 2,557.2188

Table 8

Principal Component Estimation Results Based on Input Data

Component Score Accumulate score
1 0.6222 0.6222
2 0.1381 0.7603
3 0.0639 0.8242
4 0.0434 0.8676
5 0.0270 0.8946
6 0.0230 0.9176
7 0.0205 0.9380
8 0.0121 0.9501
9 0.0097 0.9598
10 0.0084 0.9683
11 0.0076 0.9758
12 0.0070 0.9829
13 0.0043 0.9872
14 0.0036 0.9907
15 0.0033 0.9941
16 0.0032 0.9972
17 0.0028 1.0000

Table 9

Verification Results according to Input Data Construction Through PCA

Method RMSE
Average Max Min
Original 83.6288 110.2701 62.0702
PCA 90.1546 125.9300 71.5291

Table 10

Verification Results according to Input Data Construction Through PCA

Method Difference (│Observed data - Verification results│)
Original 255.6899
PCA 346.0691

Table 11

Prediction Results according to Input Data Construction Through PCA Based Analysis

Method RMSE
Average Max Min
Original 559.0678 781.6267 361.7290
PCA 339.2193 422.0697 266.8926

Table 12

Prediction Results according to Input Data Construction Through PCA

Method Difference (│Observed data - Verification results│)
Original 1,718.1118
PCA 1,600.9426

Table 13

Relevance Score by Input Feature in Deep Learning Input Data

Input data Relevance score Input data Relevance score
Okcheon 422.3956 Geumsan 123.9630
Cheongsan 341.2991 Muju 109.2373
Yeouigyo 332.7190 Donghyang 103.0336
Gagok 228.2613 Jucheon 78.5796
Secheon 220.1823 Yangganggyo 74.8219
Choganggyo 206.7425 Cheongnamdae 65.5434
Sangyegyo 198.5118 Boeun 17.5767
Jinan 147.1172 Yeongdong 1.7822
Yongdam dam 132.5039 -

Table 14

Input Features by Case

Case Feature
Original 9, 11, 1, 12, 7, 3, 4, 14, 5, 17, 13, 16, 15, 2, 6, 8, 10
1 9, 11, 1, 12, 7, 3, 4, 14, 5, 17, 13, 16, 15, 2, 6, 8
2 9, 11, 1, 12, 7, 3, 4, 14, 5, 17, 13, 16, 15, 2, 6
3 9, 11, 1, 12, 7, 3, 4, 14, 5, 17, 13, 16, 15, 2
4 9, 11, 1, 12, 7, 3, 4, 14, 5, 17, 13, 16, 15
5 9, 11, 1, 12, 7, 3, 4, 14, 5, 17, 13, 16
6 9, 11, 1, 12, 7, 3, 4, 14, 5, 17, 13
7 9, 11, 1, 12, 7, 3, 4, 14, 5, 17
8 9, 11, 1, 12, 7, 3, 4, 14, 5
9 9, 11, 1, 12, 7, 3, 4, 14
10 9, 11, 1, 12, 7, 3, 4
11 9, 11, 1, 12, 7, 3
12 9, 11, 1, 12, 7
13 9, 11, 1, 12
14 9, 11, 1
15 9, 11
16 9

Table 15

Case-by-case Verification Results according to Input Data Construction Through XAI Based Analysis

Case RMSE
Average Max Min
Original 83.6288 110.2701 62.0702
1 81.1492 95.7680 60.9011
2 84.8507 129.1630 70.2128
3 81.5272 103.4554 70.4764
4 90.1400 124.9745 67.9997
5 138.4226 566.0306 77.2840
6 93.3277 122.3916 68.8198
7 90.2569 118.7088 68.3108
8 99.7578 119.5174 85.4600
9 133.8678 177.0411 92.9302
10 162.7927 214.7288 128.7377
11 171.7494 212.8502 140.3863
12 198.5480 223.9781 163.0152
13 220.3416 262.8558 181.7921
14 267.8623 329.0814 227.8435
15 447.2953 475.0178 398.6560
16 502.4822 566.2609 491.2608

Table 16

Verification Results according to Input Data Construction Through XAI Based Analysis

Case Difference (│Observed data - Verification results│)
Original 255.6899
1 255.0625

Table 17

Prediction Results according to Input Data Construction Through XAI Based Analysis

Case RMSE
Average Max Min
Original 559.0678 781.6267 361.7290
1 591.5509 803.9519 391.3961

Table 18

Prediction Results according to Input Data Construction Through XAI Based Analysis

Case Difference (│Observed data - Verification results│)
Original 1,718.1118
1 1,667.7151

Fig. 6

Comparison of Validation Results by MLP with Data Construction Method Applied

Fig. 7

Comparison of Prediction Results by MLP with Data Construction Method Applied