공개 빅데이터와 비선형 회귀분석을 이용한 도시지역 지하수위 예측 모델 개발
Development of an Urban-Groundwater-Level Prediction Model Using Public Big Data and Nonlinear Regression Analysis
Article information
Abstract
지하수위 변동은 지반침하와 같은 도시 재해로 이어질 수 있으므로, 선제적 재해예방을 위해 수위 변화를 과학적으로 예측하는 것이 중요하다. 또한, 이렇게 예측된 정상 수위는 실제 관측값과 비교하여 센서의 이상을 감지하거나 인근 공사의 영향을 분석하는 핵심 기준으로 활용될 수 있다. 본 연구는 국가지하수정보센터 등에서 제공하는 공공 빅데이터와 강수량 자료를 통합 분석하여 실용적인 지하수위 예측모형을 개발하고자 했다. 서울 내 수문학적 경계가 명확한 지역을 대상으로 7년간의 데이터를 수집하고 이상치를 제거한 후, 시계열 분석(ACF, PACF, CCF)을 통해 데이터의 시간적 특성과 변수 간 시차 상관관계를 규명하였다. 이를 바탕으로 비선형 다중 회귀분석을 적용하여 최종 예측모형을 도출했다. 개발된 모형은 구축에 사용되지 않은 최신 자료를 이용한 검증작업으로 신뢰도와 정확도를 확인하였고, 방법론의 확장을 위해 필요한 최소 요구 자료량을 제시하였다. 본 연구에서 개발된 예측모형은 해당 지역의 지하수위 변동을 효과적으로 예측하고, 이를 통해 재해예방에 기여할 수 있을 것으로 기대된다.
Trans Abstract
Groundwater level fluctuations can lead to urban disasters, such as ground subsidence, necessitating the development of predictive measures for proactive disaster prevention. The predicted normal groundwater level can serve as a critical baseline for comparison against actual observed values, enabling the detection of sensor anomalies or analysis of impacts from nearby construction activities. In this study, a practical groundwater-level prediction model was constructed using public big data, acquired from sources such as the National Groundwater Information Center, and precipitation data. A hydrologically distinct area in Seoul was selected, and seven years of data were processed to remove outliers. A systematic statistical approach, involving time-series analyses (ACF, PACF, and CCF), was employed to identify the temporal characteristics and lagged correlations among the variables. Based on these findings, a multiple non-linear regression model was developed, whose reliability and high accuracy were verified using recent data; additionally, a minimum data requirement was established for its broader applications. This model offers a practical tool for predicting variations in groundwater level, supporting urban disaster prevention and sustainable water management.
1. 서 론
도시화와 산업화로 인한 지표수 이용의 한계와 기후변화로 인한 가뭄 빈도 증가는 전 세계적으로 지하수 자원의 중요성을 더욱 부각시키고 있다(Konikow and Kendy, 2005; Rodell et al., 2009). 미국 캘리포니아의 센트럴 밸리 지역은 장기간의 가뭄으로 지표수 공급이 줄어들자 농업용수 확보를 위해 지하수에 과도하게 의존하였고, 그 결과 광범위한 지역에서 연간 수십 센티미터에 달하는 심각한 지반침하를 겪고 있다(Famiglietti et al., 2011). 또한, 인도의 벵갈루루와 같은 대도시는 급격한 인구 증가와 도시화로 인해 지하수위가 고갈되어 시민들이 물 부족에 시달리는 등, 지하수가 도시 생존에 필수적인 자원이 되었음을 보여준다(Avvannavar and Shrihari, 2008). 국내 제주도는 지질학적 특성상 도민의 생활용수와 농업용수 대부분을 지하수에 의존하고 있어, 관광객 증가와 개발 압력으로 인한 지하수 고갈 및 해수 침투 문제가 지속적으로 제기되고 있다(Song and Moon, 2013). 과거 부산 낙동강 삼각주 일대에서도 공업 및 농업용 지하수의 과잉 양수로 인해 공극수압이 감소하고 유효응력이 증가하여 지반이 압축되면서 지반침하 사례가 보고된 바 있다(Lee and Kim, 2007). 이처럼 국내외 여러 사례는 안정적인 수자원으로서 지하수의 역할이 커지고 있음을 명확히 보여준다(Richey et al., 2015; Cuthbert et al., 2019).
그러나 지하수의 과도한 개발이나 급격한 수위 변동은 지반침하, 건물 균열, 사면붕괴와 같은 심각한 지반 재해를 유발할 수 있다. 지하수위 저하는 토양 입자 사이의 간극을 채우던 물의 부력을 상실시켜 지반의 유효응력을 증가시키고, 이는 곧 지반의 압축과 침하로 이어진다(Chaussard et al., 2017). 반대로 집중호우로 인한 지하수위의 급격한 상승은 토층의 전단강도를 약화시켜 사면붕괴의 직접적인 원인이 되기도 한다(Gariano and Guzzetti, 2016). 특히, 대규모 굴착 공사가 빈번한 도시 지역에서는 지하수 유출로 인한 수위 저하가 주변 지역의 안정성에 큰 위협이 된다(Pujades et al., 2017). 이러한 배경에서 정부는 「지하안전관리에 관한 특별법」을 제정하여 지하 20 m 이상 굴착 공사 시 지하수위 변화를 포함한 지하안전영향평가를 의무화하고, 계측 관리 기준을 명시하는 등 제도적 노력을 강화하고 있다. 따라서 지하수위의 정상적인 변동 패턴을 과학적으로 예측하고, 실제 관측값과의 비교를 통해 이상 징후를 조기에 발견하는 기술은 도시 재해를 예방하는 데 있어 핵심적인 역할을 한다(Kim et al., 2020).
최근 국가지하수정보센터, 서울시 물순환정보 공개시스템 등 공공 플랫폼을 통해 방대한 양의 지하수 관측 데이터가 실시간(1시간 단위)으로 축적 및 공개되고 있다. 이는 과거 데이터 부족으로 어려움을 겪었던 지하수 연구에 새로운 가능성을 열어주고 있다. 이러한 고해상도의 시계열 빅데이터를 기상청의 상세 강수량 데이터와 결합하여 분석하면, 복잡한 지하수 시스템의 거동을 이해하고 특정 지역의 수위 변동을 정밀하게 예측하는 데이터 기반 모델을 개발할 수 있다.
기존의 지하수위 예측 연구들은 시계열 분석 기법인 ARIMA 모델이나 딥러닝과 같은 인공지능 기법을 주로 활용해왔다(Zhang et al., 2021; Lee et al., 2022; Baek and Kim, 2023). ARIMA 모델은 데이터의 정상성 가정이 필요하고 비선형 관계를 충분히 반영하기 어려운 단점이 있으며, 인공지능 모델은 우수한 예측 성능에도 불구하고 모델 구조가 복잡한 블랙박스 형태여서 결과 해석이 어렵고, 방대한 학습 데이터를 요구하여 실무적 적용에 한계가 있었다(Mohanty et al., 2022). 예를 들어, 재난 관리자가 인공지능 모델이 발령한 ‘지하수위 위험’ 경보의 원인을 설명해야 할 때, 모델이 어떤 입력 변수(강수량, 인근 수위 등)에 얼마만큼 반응하여 결과를 도출했는지 알기 어렵다는 문제가 있다(He et al., 2022). 또한, 대부분의 연구가 선형적 관계를 가정하여 분석을 수행함으로써 강수량의 침투와 지하수위 상승 간의 복잡하고 비선형적인 상호작용, 즉 강우강도가 일정 수준을 넘어서야 비로소 함양이 시작되거나 토양이 포화됨에 따라 함양률이 점차 감소하는 현상을 제대로 모사하지 못하는 경우가 많았다.
따라서 본 연구의 목적은 이러한 기존 연구의 한계를 극복하고 실용성에 초점을 맞추어, 누구나 쉽게 접근할 수 있는 공개 데이터를 활용하여 보다 정확하면서도 신속하게 지하수위를 예측할 수 있는 비선형 다중 회귀모형을 개발하는 것이다. 개발된 모형을 통해 지하수위의 정상적인 변화 양상을 예측하고, 이를 실제 측정치와 비교 분석함으로써 관측망의 이상 유무를 점검하고, 인근 굴착현장의 유출수 현황을 간접적으로 모니터링하는 등 도시 재해예방 업무 전반에 기여하고자 한다.
2. 연구 방법
2.1 연구 대상 지역 선정
본 연구의 대상지역은 예측모형의 정확성과 일반화 가능성을 확보하기 위해 수문학적 경계가 뚜렷한 곳으로 선정하였다. 대상지는 서울특별시 도봉구 방학역 인근으로, 북측으로는 도봉천, 남측에는 방학천, 그리고 동측에는 중랑천이 흘러 자연적인 유역 경계를 형성하고 있다. 이는 외부 유역으로부터의 지하수 유출입 영향을 최소화하여 강수와 지하수위 간의 관계를 보다 명확하게 분석할 수 있는 이상적인 조건을 제공한다.
총 면적은 약 6,114천 m2에 달하며, 지형적으로는 북서측에 도봉산(740 m)과 북한산(835 m)이 위치하여 높은 고도를 형성하고, 남동쪽으로 갈수록 중랑천과 방학천을 따라 지형이 낮아져 비교적 단순한 북서-남동 방향의 지하수 흐름이 나타날 것으로 예상된다(Fig. 1). 또한, 대상지 내에는 공원, 임야 등 녹지 공간(자연유역)과 주거지, 상업지, 도로 등 불투수층이 많은 도시유역이 적절히 혼재하고 있어, 복합적인 도시 환경에서의 지하수위 변동 특성을 연구하기에 적합하다.
2.2 데이터 수집 및 처리
2.2.1 지하수위 자료
대상지역 내에 분포하며 데이터의 연속성과 신뢰성이 확보된 4개소의 보조지하수 관측망(요셉의집, 방학초등학교, 서울창포원, 도봉소방서)을 선정하였다. 이 관측망들로부터 2017년 1월 1일부터 2023년 12월 31일까지, 총 7년간 관측된 일별 평균 지하수위(지표면으로부터의 깊이) 자료를 ‘서울시 물순환정보공개시스템’을 통해 수집하였다. 각 관측망의 상세 제원은 Table 1과 같다.
2.2.2 강수량 자료
지하수위 변동의 가장 핵심적인 외부 요인인 강수량 자료는 연구대상지역에서 가장 인접하고, 1907년부터 관측을 시작하여 데이터의 일관성과 대표성이 매우 높은 서울관측소(기상청)의 데이터를 활용하였다. 수집 기간은 지하수위 자료와 동일한 2017년 1월 1일부터 2023년 12월 31일까지의 일별 총 강수량 자료이며, ‘기상자료개방포털’을 통해 확보하였다.
2.2.3 자료 전처리
수집된 원자료에는 센서 오류나 통신 장애 등으로 인한 이상치(outliers)와 결측치(missing data)가 포함되어 있다. 이러한 비정상적인 데이터는 모형의 성능을 심각하게 저하시키므로, 분석에 앞서 반드시 정제 과정이 필요하다. 본 연구에서는 통계적으로 널리 사용되는 3-시그마 규칙(3-sigma rule)을 적용하여, 전체 데이터의 평균에서 표준편차의 3배를 벗어나는 극단적인 값들을 이상치로 판별하고 제거하였다. 짧은 기간의 결측치는 선형 보간법(linear interpolation)을 통해 보완하였으나, 장기 결측 구간은 데이터의 왜곡을 방지하기 위해 해당 기간의 데이터를 분석에서 제외하였다.
2.3 분석 방법
2.3.1 상관관계 분석
전처리가 완료된 동적 변수들(강수량, 4개 관측정의 지하수위) 간의 선형적 관계의 강도와 방향을 파악하기 위해 피어슨 상관관계 분석(Pearson’s Correlation Analysis)을 실시하였다. 이는 각 변수들이 서로 얼마나 밀접하게 연관되어 있는지를 계량적으로 보여주며, 예측모형에 포함될 잠재적 독립변수를 선별하는 기초 자료로 활용된다.
2.3.2 시계열 분석
2.3.2.1 자기상관함수(ACF) 및 편자기상관함수(PACF)
ACF는 현재 시점의 데이터가 과거의 모든 데이터와 어느 정도의 상관성을 갖는지를 나타내며, PACF는 과거의 특정 시점 하나와의 순수한 상관성을 보여준다. 이 두 함수를 통해 지하수위 데이터가 지닌 ‘기억’ 또는 ‘관성’의 특성(자기회귀, AR)과 이동평균(MA) 특성을 파악할 수 있다.
2.3.2.2 교차상관함수(CCF)
CCF는 하나의 시계열(원인, 예: 강수량)이 다른 시계열(결과, 예: 지하수위)에 미치는 영향을 시간의 지연(lag time)을 고려하여 분석하는 강력한 도구다. 이를 통해 ‘언제 내린 비가 며칠 후에 지하수위에 가장 큰 영향을 미치는지’를 추정할 수 있다.
2.3.3 예측모형 도출
상관관계 및 시계열 분석 결과를 종합하여 종속변수(예측 대상 관측정의 지하수위)와 이에 영향을 미치는 주요 독립변수(자기 자신의 과거 값, 강수량, 인근 관측정의 과거 값)를 최종적으로 선정하였다. 특히, 강수량과 지하수위의 관계는 일정량 이상의 비가 와야 비로소 함양이 시작되는 비선형적 특성을 보이는 경우가 많으므로, 이를 반영하기 위해 선형 항과 비선형 항(자연로그)이 조합된 기본식을 설정하였다. 이 기본식을 바탕으로 비선형 다중 회귀분석(Multiple Non-linear Regression Analysis)을 실시하여 각 독립변수의 영향력을 나타내는 최적의 모수(계수)를 추정함으로써 최종 예측모형을 완성하였다.
2.3.4 예측모형 검증
모형의 신뢰성과 일반화 성능을 평가하기 위해, 모형 도출에 전혀 사용되지 않은 2024년도의 실측 데이터를 이용하여 모형의 예측값과 실제 관측값을 비교하였다. 예측 오차(실측값-예측값)를 계산하고, 통계적 지표(예: 평균 제곱근 오차, RMSE)와 시계열 그래프를 통해 모형의 정확도를 정량적, 정성적으로 검증하였다. 또한, 모형 구축에 필요한 데이터의 양이 실용성에 큰 영향을 미치므로, 입력 자료의 기간을 달리하며 모형 성능을 반복적으로 평가하여 안정적인 예측을 위해 필요한 최소 자료 기간(Minimum Data Requirement)을 분석하고 제시하였다.
3. 결과 및 고찰
3.1 시계열 분석 결과
3.1.1 자기상관함수(ACF) 및 편자기상관함수(PACF) 분석
Fig. 2와 같이 분석 대상인 4개 관측정의 지하수위 자료는 모두 통계적으로 유의미한 강한 자기상관성을 보였다. 이는 지하수 시스템이 외부 충격(강수 등)에 대해 즉각적으로 소멸하지 않고 일정 기간 그 영향을 유지하는 ‘관성’ 또는 ‘기억’ 효과가 크다는 것을 의미한다. 대표적으로 Fig. 2(b)에 제시된 ‘방학초등학교’ 관측정의 경우, ACF는 시차가 증가함에 따라 지수적으로 서서히 감소하는 형태를 보였고, PACF는 시차(lag) 1에서 매우 높은 유의한 값을 보인 후 시차 2부터는 신뢰구간 내로 급격히 감소하는 전형적인 자기회귀 모델, 즉 AR (1) 프로세스의 특성을 나타냈다. 이는 통계적으로 당일의 지하수위가 다른 어떤 과거의 값보다 바로 전날(t-1)의 지하수위에 가장 직접적이고 큰 영향을 받는다는 것을 정량적으로 보여주는 결과이다. 반면, Fig. 3과 같이 강수량 자료는 지하수위 자료에 비해 자기상관성이 현저히 낮게 나타나, 특정일의 강수 현상이 그 이전의 강수 현상과는 비교적 독립적임을 시사했다.
3.1.2 교차상관함수(CCF) 분석
강수량과 각 관측정 지하수위 간의 CCF 분석 결과, 강수라는 원인과 지하수위 상승이라는 결과 사이에는 뚜렷한 시간 지연(lag time)이 존재함을 확인하였다(Fig. 4). 이는 빗물이 지표면에 도달한 후 토양층을 통과하여 대수층에 도달하기까지 물리적인 시간이 소요되기 때문이다. Fig. 4에서 ‘강수량’과 ‘방학초등학교’ 지하수위의 CCF 분석 결과, 시차 +3일에서 교차상관계수가 0.205로 통계적으로 가장 유의미한 양의 값을 보여, 강수 발생 약 3일 후에 지하수위가 가장 민감하게 반응하여 상승하는 것으로 분석되었다. 반면, ‘도봉소방서’ 관측정은 동일한 강수 이벤트에 대해 시차 +9일에서 최대 상관관계를 보여 반응 속도가 상대적으로 느린 것으로 나타났다. 이러한 반응 시간의 차이는 각 관측정 주변의 지질학적 특성, 즉 지표면으로부터 대수층까지의 심도, 토양의 투수성, 그리고 주변 지역의 지하수 이용량 등 복합적인 요인에 기인하는 것으로 판단된다.
또한, Fig. 5와 같이 인접한 관측정들 간에도 유의미한 시차 상관관계가 확인되어, 한 지점의 지하수위 변동이 압력 전파 등을 통해 다른 지점에 영향을 미친다는 것을 보여주었다. 분석된 주요 변수 간의 최대 상관계수와 해당 시차는 Table 2에 요약하였다.
3.2 지하수위 예측 모형 도출
앞서 수행한 체계적인 시계열 분석 결과를 바탕으로, 예측 대상일(t)의 지하수위는 ①바로 전날(t-1)의 자기 자신의 지하수위 값, ②특정 시차(lag)를 갖는 과거의 강수량 값, 그리고 ③특정 시차를 갖는 인근 관측정의 지하수위 값에 의해 결정된다는 가설을 설정하였다. 지하수위는 이전 시점의 수위에 크게 의존하는 강한 자기상관성(ACF/PACF 분석 결과)을 가지므로 이를 선형 자기회귀 항으로 반영하였다. 반면, 강수량의 영향은 토양의 초기 함수 상태나 강우 강도에 따라 그 반응이 달라지는 비선형적 특성을 가지므로, 이를 수학적으로 표현하기 위해 자연로그(ln) 항을 포함한 아래와 같은 일반화된 기본식을 설정하였다.
여기서,
GWLt : 예측하고자 하는 관측정의 당일(t)의 지하수위(m)
X1: 예측 시점(t) 기준 1일 전 자기 관측정의 지하수위(m)
X2, X3: 예측 시점(t) 기준 3일 및 9일 전 일 강수량(mm)
X4: 예측 시점(t) 기준 2일 전 인근 관측정의 지하수위(m)
a, b, c, d, e : 회귀분석을 통해 도출된 모수
여기서, X2, X3의 시차(3일, 9일)은 교차상관함수(CCF) 분석을 통해 결정되었는데, ‘방학초등학교’ 관측정은 강수 발생 후 약 3일, ‘도봉소방서’ 관측정은 약 9일 후에 지하수위와 가장 높은 상관관계를 나타냈다. 이는 관측정 주변의 지질 특성, 토양의 투수성, 대수층까지의 깊이 차이로 인해 강우가 지하수위에 영향을 미치는 반응 시간이 다름을 알 수 있으며, 본 모형은 이러한 물리적 지연 현상을 반영하기 위해 각 관측정에 가장 큰 영향을 미치는 시차의 강수량 값을 독립변수로 채택하였다.
자기상관함수(ACF), 편자기상관함수(PACF) 및 교차상관함수(CCF)를 근거로 관측정의 지하수위 변동과 상관관계가 큰 변수를 선정하였으며, 예측모형에 적용할 종속변수 및 독립변수를 적용하였다. 먼저, ‘도봉소방서 지하수위’와 다른 관측자료와의 교차상관관계는 ‘강수량’, ‘방학초등학교_지하수위’, ‘서울창포원_지하수위’ 및 ‘요셉의집_지하수위’이 상호 상관관계가 있는 것으로 분석되었으나, ‘서울창포원_지하수위’ 및 ‘요셉의집_지하수위’는 관측자료가 상대적으로 부족하여 본 연구에서는 제외하였다. 즉, 유의한 상관관계로 분석된, ‘자기자료’와 ‘강수량’, ‘방학초등학교 지하수위’를 종속변수로 활용하였다. ‘방학초등학교’의 지하수위와 타 관측자료와의 교차상관관계도 유의한 상관관계로 분석된 ‘자기자료’와 ‘강수량’, ‘도봉소방 서 지하수위’를 종속변수로 적용하였다.
3.2.1 도봉소방서 관측정 예측모형(R2= 0.955)
여기서,
X1: 도봉소방서 1일 전 지하수위(m)
X3: 도봉소방서 9일 전 일 강수량(mm)
X4: 방학초등학교 2일 전 지하수위(m)
3.2.2 방학초등학교 예측모형(R2= 0.996)
여기서,
X1: 방학초등학교 1일 전 지하수위(m)
X3: 방학초등학교 3일 전 일 강수량(m)
X4: 도봉소방서 2일 전 지하수위(m)
도출된 모형의 계수를 살펴보면, 자기자료(X1)의 계수(a)가 1에 매우 가까운 값을 보여, 당일의 지하수위는 전날의 지하수위에 가장 크게 의존한다는 ACF/PACF 분석 결과를 다시 한번 확인시켜 준다. 또한 강수량(X2)과 인근 관측정 지하수위(X3)의 계수 값은 상대적으로 작지만, 이 변수들의 미세한 변동이 예측치에 통계적으로 유의미한 조정을 가하는 중요한 역할을 하는 것으로 분석되었다.
3.3 예측모형의 검증
개발된 예측모형의 일반화 성능과 실제 적용 가능성을 평가하기 위해, 모형 구축에 사용되지 않은 2024년 1월 1일부터 8월 31일까지의 실측 데이터를 활용하여 검증을 수행하였다. 검증 결과, 두 모형 모두 해당 기간 동안의 실제 지하수위 변동 추세를 매우 정확하게 예측하였으며, 평균절대오차(MAE)와 평균제곱근오차(RMSE) 모두 낮은 수준으로 나타났다.
Fig. 6은 도봉소방서 예측모형의 검증 결과를 보여준다. 그래프에서 볼 수 있듯이, 예측값(파란색 선)은 실제 관측값(회색 선)의 전반적인 상승 및 하강 패턴을 잘 따라가고 있으며, 대부분의 기간 동안 예측오차(주황색 막대)가 ± 5.0% 이내의 안정적인 범위를 유지했다. 이 기간 동안의 MAE는 0.09 m, RMSE는 0.23 m로 산정되었다. 8월 초에 오차가 일시적으로 19%까지 증가했으나, 이는 해당 기간 강수량이 거의 없었음에도 불구하고 실제 관측값이 하루 만에 2.3 m 급등하는 등 비정상적인 거동을 보였기 때문으로, 센서 오류나 인근의 기록되지 않은 양수/주입 활동 등 관측 데이터 자체의 문제일 가능성이 높다. 이러한 이상 구간을 제외하면 모형의 예측 성능은 매우 우수한 것으로 평가된다.
방학초등학교 예측모형 역시 매우 높은 신뢰도를 보였다(Fig. 7). 일반적인 강우 조건에서는 예측오차가 ± 5.0% 이내로 매우 안정적이었으며, 검증 기간의 MAE는 0.07 m, RMSE는 0.15 m로 더욱 우수한 성능을 보였다. 특히 7월 중순 128 mm/day의 집중호우가 발생하여 지하수위가 급상승하는 극한 상황에서도 오차는 ± 10.0% 이내를 유지하여 모형의 강건성을 입증했다. 이는 개발된 모형이 평상시뿐만 아니라 재해 발생 가능성이 높은 집중호우 상황에서도 유용한 예측 정보를 제공할 수 있음을 시사한다.
3.4 최소 요구 자료 기간 분석
예측모형의 안정성과 타 지역으로의 확장 가능성, 즉 실용성을 높이기 위해, 신뢰할 수 있는 모형을 구축하는 데 필요한 최소한의 자료 기간을 분석하였다. 이를 위해 Table 3과 같이 모형 구축에 사용되는 입력 자료의 기간을 1년(2023년)부터 시작하여 7년(2017년~2023년)까지 점진적으로 늘려가며 각 경우에 대한 예측모형을 각각 도출하였다. 그 후, 2024년 검증용 데이터를 이용하여 각 모형의 예측 오차에 대한 평균과 표준편차를 비교하였다.
분석 결과, Table 3과 Fig. 8과 같이 입력 자료 기간이 단 1년일 때에 비해 2년 이상으로 늘어났을 때 예측 오차의 평균값이 약 10배 감소하며 예측 성능이 급격하게 개선되고 안정화되는 경향을 보였다. 1년의 데이터만으로는 특정 해의 가뭄이나 홍수 같은 이상 기후 패턴에 모형이 과적합(overfitting)될 위험이 크지만, 2년 이상의 데이터를 사용하면 최소한의 계절적 변동성과 다양한 강우 패턴을 학습하여 모형의 강건성(robustness)이 크게 향상되기 때문으로 해석된다. 자료 기간을 3년 이상으로 늘렸을 때는 오차 감소 효과가 점차 둔화되는 수확 체감 현상이 나타났다. 따라서, 본 연구에서 제안하는 예측모형 방법론을 다른 지역에 새롭게 적용하고자 할 경우, 최소 2년, 그리고 보다 안정적인 예측 성능을 확보하기 위해서는 3년 이상의 일별 관측자료를 확보하는 것이 타당할 것으로 결론지을 수 있다.
4. 결 론
본 연구에서는 공개된 지하수 빅데이터와 강수량 자료라는 접근성 높은 데이터를 이용하여 특정 도시지역의 지하수위를 예측하는 실용적인 비선형 다중 회귀모형을 성공적으로 개발하고 그 성능을 검증하였다. 연구를 통해 도출된 주요 결론은 다음과 같다.
첫째, 변수 간 시차적 관계 규명하였는데, 연구대상지역의 지하수위는 강수량, 그리고 인근 다른 관측정의 지하수위 변동과 통계적으로 매우 유의미한 시차 상관관계를 보였다. 특히 강수 발생 후 지하수위가 최대로 반응하는 시간은 관측정의 지질 및 수문학적 특성에 따라 3일에서 9일까지 다양하게 나타남을 정량적으로 규명하였다.
둘째, 개발한 모형은 전날의 자기 지하수위, 특정 시차를 적용한 강수량 및 인근 관측정의 지하수위를 독립변수로 설정한 비선형 다중 회귀모형은 대상 관측정의 지하수위 변동을 95% 이상 설명하는(R2= 0.95) 매우 높은 정확도를 보여주었다. 이는 각 지역의 고유한 수문학적 특성이 모델의 계수(모수) 차이로 반영된 결과로, 모델이 지역별 특수성을 효과적으로 학습할 수 있음을 보여준다.
셋째, 개발된 모형은 2024년 실측 데이터를 이용한 검증 과정에서, 일반적인 강우 조건 하에서는 예측 오차가 ± 5.0% 이내로 매우 안정적인 성능을 보였다. 그러나 100 mm/day 이상의 극한 집중호우 시에는 오차가 ± 10.0% 이내로 다소 증가하는 경향을 보여, 이례적인 기상 이벤트에 대한 예측 정확도를 높이는 것이 향후 과제임을 확인하였다.
마지막으로, 본 연구의 방법론을 타 지역에 성공적으로 적용하기 위한 가이드라인을 제시하였다. 안정적인 예측모형을 구축하기 위해서는 최소 2년에서 3년 이상의 일별 관측자료가 필요함을 통계적 분석을 통해 확인했다. 그러나 본 연구의 대상지는 수문학적 경계가 명확한 이상적인 조건을 갖추고 있으므로, 다른 지역에 적용 시에는 추가적인 고려가 필요하다. 먼저, 지하수 유동 특성을 분석하여 외부 유출입 영향을 최소화하는 합리적인 영향 범위를 설정해야 한다. 또한, 해당 지역의 데이터로 시계열 분석을 다시 수행하여 최적의 독립변수와 시차(lag)를 재선정하는 과정이 필수적이다. 향후 이러한 지역별 분석 결과를 축적하여, 각 지역의 지질 및 토지이용 특성과 모델 계수 간의 상관관계를 데이터베이스화한다면, 이를 기반으로 한 범용적인 지하수위 예측 시스템을 구축할 수 있을 것이다.
본 연구를 통해 개발된 예측모형은 손쉽게 획득 가능한 공공 데이터를 기반으로 특정지역의 지하수위 변동을 신속하고 합리적으로 예측할 수 있다는 점에서 높은 실용적 가치를 지닌다. 이 모형을 통해 산출된 예측치는 실제 관측 데이터의 이상 여부를 실시간으로 판단하는 기준으로 사용될 수 있으며, 가뭄 및 홍수기 지하수 자원의 효율적 관리, 그리고 도심지 대규모 공사 현장 주변의 지반침하 위험을 조기에 감지하는 모니터링 시스템의 핵심 요소로 활용될 수 있을 것이다.
감사의 글
본 논문은 김종원의 석사학위논문 「지하수 빅데이터를 활용한 특정지역의 지하수위 예측모형 개발」(Kim, 2024)의 일부를 수정⋅보완하여 작성하였음.