다변량 통계분석을 이용한 유역의 수문학적 지역화: 경기도 내 30개 지구를 대상으로

Hydrologic Regionalization of Basin Using Multivariate Statistical Analysis: A Case Study of Gyeonggi-do 30 Districts

Article information

J. Korean Soc. Hazard Mitig. 2017;17(01):287-300
Publication date (electronic) : 2017 February 28
doi : https://doi.org/10.9798/KOSHAM.2017.17.1.287
노용훈*, 이진욱**, 조은샘***, 유철상
* Member, Ph.D course candidate, School of Civil, Environmental and Architectural Engineering, College of Engineering, Korea University
** Member, Ph.D course candidate, School of Civil, Environmental and Architectural Engineering, College of Engineering, Korea University
*** Member, Ph.D course candidate, School of Civil, Environmental and Architectural Engineering, College of Engineering, Korea University
****Corresponding Author, Member, Professor, School of Civil, Environmental and Architectural Engineering, College of Engineering, Korea University (Tel: +82-2-3290-3321, Fax: +82-2-3290-3912, E-mail: envchul@korea.ac.kr)
Received 2017 January 03; Revised 2017 January 06; Accepted 2017 January 19.

Abstract

본 연구에서는 돌발홍수 예경보에 영향을 주는 인자를 파악하기 위해 다변량 통계분석기법을 적용하여 수문학적 특성이 동질하게 나타나는 유역을 분류하였다. 가능한 인자로써 주요 유역특성인자와 돌발홍수 발령기준의 가능 범위를 고려하였다. 먼저, 요인분석을 이용하여 다양한 유역특성인자를 공통적인 특성에 따라 세 개 요인으로 분류하였다. 다음으로 군집분석을 통해 유역의 특성이 동일하게 나타나는 지역을 분류하였다. 마지막으로 회귀분석을 이용하여 각 군집에 영향을 주는 요인 및 돌발홍수 예경보에 영향을 미치는 인자를 결정하였다. 그 결과를 정리하면 다음과 같다. 첫 째, 요인분석 결과에서는 최적의 요인수가 세 개로 결정되었고, 요인 1은 지형형태학적 비율과 관련된 성분으로, 요인 2는 유역 크기와 관련된 성분으로, 요인 3에는 경사와 관련된 성분으로 분류되었다. 둘 째, 최적의 군집수는 세 개로 결정되었다. 군집 1은 홍수예경보의 가능 범위가 가장 작은 유역들로 구성되었고 군집 3은 가장 큰 유역들로 구성되었다. 마지막으로 면적비, 길이비, 분기비가 돌발홍수 예경보의 불확실성에 크게 영향을 미치는 것으로 확인되었다.

Trans Abstract

This study applied the multivariate statistical analysis to classify the basins into those having the same hydrological characteristics to detect factors affecting the flash flood warning. As possible factors, this study considered the major basin characteristics and the range of flash flood warning criteria. First, factor analysis was applied to group the basin characteristics into three common factors. Next, cluster analysis was applied to classify the basins into those having the same characteristics. Finally, regression analysis was applied to detect factors dominating each cluster as well as the flash flood warning. Summarizing the results is as follows. First, three factors were determined as an optimal number; Factor 1 is related with the geomorphological ratios, factor 2 the basin size, and factor 3 the basin and channel slope. Second, as the optimal number of clusters was determined three; Cluster 1 was those with basins with the smallest range of flash flood warning and cluster 3 was the largest. Finally, area, length, and bifurcation ratios have found to greatly impact on the uncertainty of flash flood warning.

1. 서론

최근 기후변화의 영향으로 단시간에 강한 강도를 갖는 호우의 발생이 빈번해지면서 전세계적으로 돌발홍수로 인한 인명 및 재산피해가 급증하고 있다. 대표적으로 2010년 중국과 파키스탄에서는 폭우로 인한 인명 피해가 발생하였고, 2011년 태국에서도 폭우로 인한 막대한 인명 및 재산피해가 발생하였다. 국내의 경우 지난 30년 동안 하루 평균 80 mm 이상의 강수일수가 50% 이상 증가함에 따라(NEMA, 2007), 2010년 광화문 침수, 2011년 우면산 산사태와 같은 피해가 발생하였다.

이러한 피해를 줄이기 위해서는 효과적인 돌발홍수 예경보시스템을 구축하여 폭우가 예상되는 지역에 대해 사전에 적절한 경보를 발령해 주어야 한다. 기존에는 주로 강우자료를 이용하여 예경보시스템을 운영해 왔다. 그러나 지역마다 토양, 식생, 지형 등의 조건이 다르게 나타나기 때문에 동일한 양의 강우가 나타나도 지역마다 피해규모는 다양하게 나타난다. 특히 홍수 예경보를 위한 시간은 극단적으로 짧은 반면 지역 특성에 따라 적절하게 예경보를 발령해 주지 못할 경우 피해는 더 가중되어 나타날 수 있다(Carpenter et al., 1999; Georgakakos, 2006).

돌발홍수 예경보시스템을 효율적으로 운영하기 위해서는 해당 지역의 수문학적 특성을 적절히 반영하여 홍수 피해가 발생할 가능성이 있는 지역과 그렇지 않은 지역을 분류할 수 있어야 한다. 이를 위해서는 수문자료를 체계적으로 구축하여 자료의 특성이 동일하게 나타나는 지역을 그룹화 해야 한다. 이러한 과정을 지역화(regionalization)라고 한다. 지역화는 계측지역의 자료를 전이시켜 미계측 지역에 대한 자료를 추정하기 위해 도입된 방법이다. 수문 분야에서 지역화는 모형 매개변수의 전이, 강우인자와 지형인자를 이용한 기후대를 구분, 미계측유역의 홍수해석, 수문학적 동질성을 갖는 유역구분 등에 활용되었다(Kang et al., 2007; Nam et al., 2008; Lee et al., 2009; Lee et al., 2013; Ahn et al., 2014; Yokoo et al., 2001; Mwakalila, 2003; Zhang and Hall, 2004; Cloutier et al., 2008).

지역화와 관련된 이러한 연구에는 주로 다변량 통계분석기법이 적용되고 있는데, 기존에는 크게 다중회귀분석, 요인분석, 군집분석의 세 가지 방법이 적용되었다. 다중회귀분석은 두 개 이상의 독립변수와 하나의 종속변수의 관계를 분석하는 기법으로 특정 인자가 다양한 요인에 대해 영향을 받는 정도를 평가할 수 있는 방법이다. 요인분석(factor analysis)은 변수들 사이의 관계를 공통요인을 이용하여 설명하는 방법이다. 군집분석(cluster analysis)은 자료의 유사성을 분석하여 여러 집단으로 분류하고, 집단 자료의 유사성과 다른 집단에 속한 객체간의 차이를 규명하는 방법이다.

회귀분석은 다변량 통계분석기법 중 가장 간단하여 지역화 연구에 가장 많이 적용되었다. 국내의 경우 Lee and Kang(2007)은 15개의 계측유역에 대한 탱크모형의 매개변수를 결정하고 미계측유역에 전이하였다. Hwang et al. (2007)은 금강유역에 대해 물수지모형의 매개변수를 회귀식을 이용하여 지역화 하였고, Hong et al.(2011)은 유역특성인자에 대한 민감도 분석과 회귀분석을 수행하여 유출모형의 매개변수를 지역화 하였다. 또한 Moon et al.(2013)은 일사량과 기온 자료의 관계를 분석하여 기준증발산량을 산정하는 경험식인 Hargreaves 공식(Hargreaves and Samani, 1982)의 매개변수를 지역화 하였다. 국외 적용사례의 경우 Yokoo et al.(2001)Mwakalila(2003)은 미계측유역의 유출을 모의하기 위해 유역특성인자를 이용하여 유출 모형의 매개변수를 지역화 하였다. 또한 Lee and Moon(2007)은 영국 126개 유역에 대해 회귀분석을 이용하여 계측유역의 매개변수를 미계측유역으로 전이하였다.

요인분석을 이용한 지역화 연구에는 국내의 경우 KICT (2004)에서 농경지 저류지를 설치할 때 영향을 미치는 장애요인을 분류한 사례가 있다. Kang et al.(2007)은 한강수계의 댐들의 연계운영에 있어 영향을 미치는 인자를 요인분석을 이용하여 분류하였고, Nam et al.(2008)은 기상청 강우 관측소의 연최대 강우 자료를 요인분석을 이용하여 분류하였다. Ahn et al.(2014)은 요인분석으로 유역의 특징을 결정짓는 대표적인 유역특성인자를 추출하였다. 국외의 경우 수문분야의 지역화 연구에 요인분석을 적용한 사례는 많지 않지만 대표적으로 Nandagiri and Kovoor(2006)가 증발산 과정에 영향을 미치는 주요 인자들을 구분하기 위하여 요인분석을 적용한 사례가 있다.

군집분석을 이용한 지역화 연구에는 국내의 경우 Lee et al.(2008)이 미계측유역에 대한 유출모형의 매개변수를 결정하기 위해 유역특성인자가 동일하게 나타나는 지역을 분류한 사례가 있다. Nam et al.(2008)은 요인분석으로 분류된 자료를 이용하여 강우의 특성이 동일하게 나타나는 지역을 분류하였다. Lee et al.(2013)은 금강유역의 25개 소유역을 대상으로 군집분석을 이용하여 유역특성인자가 동질한 지역을 분류하였고, Ahn et al.(2014)은 유역특성인자를 이용하여 국내 795개의 표준유역을 지역화 하였다. 국외의 경우 Zhang and Hall(2004)은 중국 Gan-Ming River 유역의 86개 수위관측소를 군집분석을 이용하여 분류하였고, Rao and Srinivas(2006)는 미국 Indiana 지역의 유역을 동일한 특성별로 분류하였다. Cloutier et al.(2008)은 군집분석을 이용하여 지형자료와 지하수의 관계를 규명하고 지하수의 공간적 분포를 분석하였다.

이와 같은 연구를 비교해보면 지역화 연구에는 주로 유역특성인자가 이용된 것을 알 수 있다. 이는 유역특성인자를 통해 지역의 특성을 쉽게 파악할 수 있기 때문이다. 그러나 관련된 연구가 활발히 진행되고 있음에도 유역특성인자의 다양성과 자료간 스케일 조정 미흡 등의 문제로 인하여 동일한 지역을 구분하는 것은 간단하지 않은 문제로 남아 있다. 아울러 분류된 지역에 대해서도 유역의 특성에 크게 영향을 미치는 인자를 결정하는 것도 쉽지 않은 것이 사실이다.

본 연구에서는 유역특성인자와 돌발홍수 발령기준의 가능 범위를 고려하여 돌발홍수 위험 지역을 분류하고자 한다. 특히, 지역화 연구에 널리 이용되고 있는 회귀분석, 요인분석, 군집분석과 같은 다변량 통계분석기법을 이용하여 돌발홍수 발생에 유역특성인자가 미치는 영향을 분석하고자 한다. 이는 지역화에 이용된 기법들을 모두 이용하여 최적으로 돌발홍수 위험지구를 구분할 수 있는 점에서 의의가 크다. 본 연구에서는 경기도 30개 유역에서 수집된 자료를 이용하여 수문학적 특성이 동질하게 나타나는 지역을 분류하였고, 분류된 유역의 특성을 분석하여 돌발홍수 예경보에 크게 영향을 미치는 인자를 결정하였다.

2. 배경이론

2.1 요인분석

요인분석은 공통요인을 이용하여 변수들 간의 관계를 나타내는 다변량 통계분석기법이다. 이는 상관성이 높은 일부 변수들이 서로 같은 분산구조를 가지고 있는지를 검토한 후 동일요인으로 분류하는 통계기법이다(Lee, 2002). 많은 변수가 복잡하게 상관하고 있는 경우 변수들은 상관관계를 설명할 수 있는 몇 개의 공통적인 부분과 독자적인 부분으로 구분될 수 있다. 요인분석에서는 공통적인 성분은 공통요인(common factor), 독자적인 성분은 특수요인(specific factor)이라 하고 x1, x2, x3, \cdots, xp와 같이 p개의 변수로 구성된 Z가 공통요인 F와 특수요인 U의 선형결합으로 나타낼 수 있다고 가정한다. 이를 식으로 나타내면 Eq. (1)과 같다.

(1)Z=AF+U

여기서 Z = [z1, z2,...,zp]’, U = [u1, u2,...,up]’이며, [ ]’는 변수들의 행렬을 전환한 값이다. 행렬 A는 Eq. (2)와 같이 p × m 행렬로 요인적재량(factor loading)을 나타낸다.

(2)A=(a11a12a1ma21a22a2map1ap2apm)

요인분석은 설명변수와 목적변수를 지정하지 않고 변수들 사이의 상호작용을 분석한다. 이는 자료를 요약하는 경우, 중요도가 낮은 변수를 제거할 경우, 변수들이 동일한 성분끼리 분류되었는지 확인할 경우 등에 이용된다. 분석을 통해 얻어진 요인들은 회귀분석이나 판별분석에서 설명변수로 사용될 수 있다. 이러한 요인분석의 절차를 간단히 나타내면 다음과 같다.

2.1.1 사전 적합성 검토

요인분석에는 기본적으로 표본의 크기는 최소 50개 이상이 되어야 하며 100개 이상이 바람직하다. 또한 표본자료가 변수의 최소 5배 이상은 되어야 하며 10배 이상이 바람직하다. 요인분석이 연구자의 목적에 적합한 방법이라고 판단되더라도 대상자료가 요인분석을 수행할 수 있는지를 점검해야 한다. 그 방법으로는 Bartlett의 단위행렬 점검, 상관계수 행렬 점검, 고유값(eigenvalue) 점검, 공통인자분석 점검, 잔영상관행렬(anti-image correlation matrix)의 점검, Kaiser- Meyer-Olkin(KMO)의 표본적합도 점검 등이 있다. 이 중에서 KMO의 표본적합도가 주로 사용된다.

KMO의 표본적합도 점검은 잔영상관행렬을 사용하여 계산된 통계량으로 연구자의 자료가 요인분석에 적합한가를 판정하는 방법이다. 여기서 잔영상관행렬은 각 변수들 사이의 요인공통분산(communality)을 제거한 후 변수의 고유분산과 잔차 분산으로 산정된 상관계수 행렬이다. 자료에 대한 요인분석의 적합성을 판단하기 위해서는 MSA(KMO Measures of Sampling Adequacy) 값을 이용하는데, 이는 Eq. (3)과 같이 정의된다.

(3)MSA= jkrjk2jkrjk2+jkqjk2

여기서 qjk2는 잔영상관행렬의 비대각선에 있는 계수의 제곱, rjk2는 원래 상관행렬의 비대각선에 있는 계수의 제곱을 나타낸다. 일반적으로 MSA 값이 0.4 미만인 경우 대상 자료를 요인 분석에 적용하기 어렵다.

2.1.2 최초 요인행렬 결정과 요인수 추출

자료에 대한 요인분석의 적합성 점검한 후 변수와 요인의 상관관계를 나타내는 최초 요인행렬을 구성해야 한다. 첫 번째 요인은 변수의 분산 중 가장 많은 부분을 설명할 수 있도록 추출되며, 두 번째 요인은 첫 번째 요인이 설명하지 못하는 분산 중에서 가장 많은 부분을 설명할 수 있도록 추출된다. 이와 같은 방법으로 변수의 수와 같은 수의 요인을 차례로 추출한다. 최초 요인을 추출한 후에는 요인행렬로부터 몇 개의 요인을 추출할 것인가를 결정해야 한다. 요인분석에서 적정요인의 수를 결정하는 방법에는 최소 고유값, 스크리도표, 요인 공통분산의 총분산에 대한 비율을 사용하는 방법이 있다.

최소 고유값을 설정하는 방법은 최소 고유값이 1 이상인 요인을 사용하는 것으로 요인수를 추출하는데 가장 많이 사용된다. 스크리도표를 사용하는 방법은 요인수에 대한 고유값을 나타내는 스크리 도표가 지수함수의 형태에서 벗어나는 임의 지점을 선정하여 이를 기준으로 요인수를 결정하는 방법이다. 요인 공통분산의 총분산에 대한 비율을 사용하는 방법은 각 변수의 고유값을 변수의 수로 나눠 이 값의 누적값이 60% 이상일 경우 적절하다고 판단하는 방법이다.

2.1.3 요인 부하량 추정

요인 부하량은 회전되지 않은 요인 행렬의 변수와 요인들 사이의 단순상관관계를 나타낸다. 요인 부하량을 이용하면 각 변수들이 어떠한 요인들에 의해 설명되는지를 알 수 있다. 즉, 요인 부하량은 어떤 요인들이 어떤 변수들과 높은 관계를 나타내는가를 알 수 있는 계수이다. 요인 부하량을 제곱하여 백분율로 나타내면 요인에 의해 설명되는 변수의 분산 비율을 알 수 있다.

2.1.4 요인 회전

만약 변수들이 여러 요인들에 대하여 비슷한 요인 부하량을 나타낼 경우 변수들이 어느 요인에 속하는지를 분류하기 어렵다. 이러한 문제를 해결하고 요인과 변수와의 관계를 명확하게 하기 위해서 변수들의 요인 부하량이 한 요인에서 최대가 되고 다른 요인에는 최소가 되도록 요인들을 회전시킨다. 요인 회전 방법은 직각회전과 사각회전으로 구분된다. 직각회전은 두 요인의 회전축이 직각을 유지하면서 한쪽 요인의 요인적재값을 1에 근사하게 하고 다른 요인적재값은 0에 가깝게 설정하는 방법이다. 사각회전은 직각회전과 다르게 두 요인의 직각을 유지하지 않은 상태에서 한쪽 요인의 요인 적재값을 1에 근사하게 하고 다른 하나의 요인 적재값은 0에 가깝게 하는 방법이다.

2.1.5 요인점수 산정

요인 점수는 각 변수들이 회전에 따라 결정된 최종 요인들에 대해 갖는 점수로서, 변수들이 가지고 있는 측정 오차들을 제거한 후 산정한 순수한 요인들의 점수이다. 요인점수는 추출된 요인들에 대하여 각각 산정되며 Eq. (4)와 같이 변수들의 표준화된 값과 가중치의 선형 결합으로 표현된다.

(4)Fj=i=1pWjiZi

여기서 Fj는 추출된 요인(j)의 요인점수, p는 변수 개수, Zi는 i 변수의 표준화된 값, Wji는 요인 j에 대한 각 변수(i)에 주어지는 가중치를 나타낸다. 요인점수는 요인들 사이의 독립성이 보장되기 때문에 회귀분석의 설명변수로 사용될 수 있다.

2.2 군집분석

군집분석은 자료의 유사성을 분석하여 여러 집단으로 분류하고, 집단 자료의 유사성과 다른 집단에 속한 객체간의 차이를 규명하는 다변량 통계분석기법이다. 이는 자료를 군집으로 구분하여 분석하기 때문에 전체 자료에 대한 정보를 쉽게 얻을 수 있다(Chipman et al., 2003). 군집의 유형에는 상호 배반적 군집, 계보적 군집, 중복 군집, 퍼지 군집의 4가지가 있다. 상호 배반적 군집은 자료들 중 1개를 선정했을 경우 하나의 군집에만 속하는 유형이다. 계보적 군집은 한 군집이 다른 군집에 포함되어 중복이 없으며 군집들이 모든 단계에서 계층적인 구조를 이룬다. 중복 군집은 한 자료가 두 개 이상의 군집에 소속되는 유형이다. 퍼지 군집은 1개의 자료가 군집에 속할 확률이나 가능성을 표현한 방법이다.

군집분석은 크게 계층적 군집분석과 비계층적 군집분석으로 구분된다. 계층적 군집분석은 n개의 군집을 기준으로 정하고 점차 군집의 수를 줄여가면서 최적의 군집을 찾는 방법이다. 계층적 군집분석은 군집 간 거리를 연결하는 방법에 따라 최단 연결법, 최장 연결법, 평균 연결법, 중심 연결법, Ward 연결법 등이 이용된다. 비계층적 군집분석은 분류할 군집 수를 알고 있을 때 총 n개의 자료를 x개의 군집으로 나눌 수 있도록 가능한 방법을 바탕으로 최적화된 군집을 결정하는 방법이다. 비계층적 군집분석에는 K-means 군집분석, K-medoids 군집분석이 있다. 이러한 분류 방법 중 계층적 군집분석에 주로 사용용되는 Ward 연결법과 비계층적 군집분석에 널리 쓰이는 K-means 분석을 간단히 정리하면 다음과 같다.

2.2.1 Ward 연결법

Ward(1963)가 제안한 방법으로 군집 내 제곱의 합 증분과 군집 간 제곱의 합을 고려한 방법이다. 이 방법은 군집 정보의 손실을 최소화하기 위해 편차제곱합 ESS(Error Sum of Squares)을 이용하여 나타내고 있으며 군집 AB의 거리는 Eqs. (5) - (6)과 같다.

(5)ESSA=j=1nA(XAjXA¯)'(XAjXA¯)=j=1nAk=1p(XAjkXAk¯)2
(6)ESSB=j=1nB(XBjXB¯)'(XBjXB¯)=j=1nBk=1p(XBjkXBk¯)2

여기서 XA¯, XB¯는 각 군집에서의 평균 관측값 벡터를 나타낸다. Ward 연결법은 각 군집별로 모든 변수들의 평균을 구하고, 이 평균과 군집에 속한 각 개체간의 유클리드 거리제곱을 계산하여 합을 구한 후 매 단계별로 이 값이 가장 작게 증가하는 방식으로 군집을 형성하는 방법이다.

2.2.2 K-means 군집분석

K-means 군집분석은 유사한 특성을 지니는 자료들을 K개의 그룹으로 분할하는 방법으로 각 군집 자료의 평균을 중심점으로 근접한 거리에 있는 자료를 묶어 분할하는 방법이다(MacQueen, 1967). 이는 통상적으로 미리 규정된 판정기준을 최적화하게 되어 있으며, 분석되는 자료의 군집 개수가 연구자에 의해 미리 결정되어 있다. 일반적으로 이 방법은 크게 다음과 같은 절차를 따르고 있다. 먼저 군집의 초기값을 규정하여 결정된 초기군집에 각 개체들을 할당한다. 다음으로 군집의 일부 또는 전체를 기준에 따라 최적분리에 이를 때까지 해당하는 규칙에 재할당한다. K-means 군집분석 방법은 자료의 중심점을 평균으로 정하기 때문에 평균을 구할 수 있는 자료에만 적용할 수 있다. 이 방법은 이상치에 민감하기 때문에 초기 선택한 K값이나 비유사성을 계산하는 방법에 따라 다른 결과를 초래할 수 있다.

3. 적용사례

3.1 대상 자료

본 연구에서는 경기도 30개 유역을 대상으로 지역화에 이용되는 요인분석, 군집분석 등과 같은 다변량 통계분석기법을 적용하여 동일한 특성을 나타내는 유역을 구분하였다. 대상 지역인 경기도 30개 유역은 지구로 분리되어 있으며, 백둔천, 탑동계곡, 정배, 삼일계, 지암계, 용계계곡, 산정호수, 엄둔계곡, 경반천, 황골계곡, 도원, 사나사, 임초천, 덕동계곡, 고든치계곡, 용문, 승안천, 용수골, 가일천, 어비계곡, 석산, 안골, 상원사계곡, 법흥계곡, 병지방, 흑천, 노목계곡, 단월, 서면, 장흥 지구이다. 30개 지구 위치의 분포를 공간적으로 나타내면 Fig. 1과 같다.

Fig. 1

Location of 30 Regions

그림에서 확인할 수 있듯이 30개 대상 지구는 경기도에서 강원도 일부 지역까지 분포하고 있으며 매우 작은 규모의 유역임을 알 수 있다. 본 연구에서는 위와 같이 분포된 30개 지구에 대해 구축한 자료를 이용하여 다변량 통계분석을 수행하였다. 자료는 유역특성인자와 돌발홍수 발령기준의 가능 범위(mm)를 이용하였다. 여기서 돌발홍수 발령기준의 가능 범위(이하 가능 범위)는 기존의 유출해석인자(NDMI, 2009)로 산정한 강우량과 본 연구에서 구축한 자료로 산정한 강우량과의 차를 나타낸 것으로 돌발홍수 발생에 대한 불확실성을 나타낸다. 본 연구에서는 기존의 자료로 산정된 강우량을 기준값으로 하여 새로 산정된 값과의 비교를 통해 지역별 돌발홍수 위험 정도를 파악하고자 가능 범위를 이용하였다.

유역특성인자는 30개 지구의 하폭(m), 유로연장(km), 유역면적(km2), 평균폭(km), 형상계수, 하도경사, 유역평균경사, 길이비, 면적비, 분기비, CN의 11개 자료를 이용하였다. 하폭은 저자들이 30개 유역에서 실제로 측정한 값을 이용하였다. 유로연장, 유역면적, 하도경사, 유역평균경사는 국토정보플랫폼에서 제공하는 DEM을 이용하여 GIS 프로그램으로 결정하였다. 평균폭은 유로연장에 대한 유역면적의 비로, 형상계수는 유로연장의 제곱에 대한 유역면적의 비를 이용하여 산정하였다. 길이비, 면적비, 분기비는 GIS 프로그램으로 하천 차수별 유역 평균길이와 평균면적, 개수를 결정하고 이를 통해 산정하였다. CN은 국가수자원관리종합정보시스템에서 제공하는 토양도와 토지피복도를 이용하여 GIS 프로그램으로 결정하였다. 30개 지구에 대한 11개의 유역특성인자와 돌발홍수 발령기준의 가능 범위를 정리하여 나타내면 Table 1과 같다.

Basin Characteristics and Range of Flash Flood Warning

Table 1에서 확인할 수 있듯이, 30개 지구에 대해 구축한 11개의 유역특성인자 중 가능 범위에 크게 영향을 미치는 인자를 쉽게 결정하기 어려운 것을 알 수 있다. 이를 해결하기 위해 본 연구에서는 Table 1의 자료를 이용하여 먼저 요인분석으로 서로 상관도가 높은 유역특성인자들을 몇 개 요인으로 묶어서 변수의 수를 축약하였다. 그러한 후에 결정된 요인과 가능 범위 자료를 이용하여 군집분석을 수행하고 동일한 지역으로 분류된 지구를 분석하여 유역특성인자가 가능 범위에 미치는 영향을 분석하였다.

3.2 요인분석을 이용한 유역특성인자 분류

3.2.1 자료의 적합성 검토

요인분석을 수행하기 위해서는 먼저 대상 자료가 요인분석에 적합한지를 검토해야 한다. 요인분석은 대상 자료가 최소 50개 이상은 되어야하며, 변수의 수보다 관측치의 수가 최소 5배는 되어야 한다. 본 연구에 적용한 자료는 30개 지구에 대한 자료로 요인분석 적용이 적합하지 않을 수 있다. 그러나 적용한 유역특성인자가 많아 자료 간 상관도가 감소하면 군집분석이 적절히 수행될 수 없기 때문에 먼저 요인분석을 수행하여 유역특성인자들을 몇 개 요인으로 분류하였다.

11개 인자를 모두 사용하여 요인분석을 수행한 결과 고유값에 따른 적정한 요인수가 4개 이상으로 공통적인 특성을 나타내는 인자들이 뚜렷이 요인으로 분류되지 않았다. 이는 자료 간 분산정도가 서로 다르게 나타나 요인을 회전시켜도 공통된 특성이 뚜렷하게 나타나지 않은 것이다. 본 연구에서는 이러한 문제를 해결하기 위해 요인분석을 몇 차례 반복하여 상관도가 낮은 인자를 제거하였고, 그 결과 하폭, 유로연장, 형상계수, CN은 분석에서 제외하였다. 이 중에서 CN은 유역의 토양과 식생 특성을 반영하는 중요한 지표이다. 그러나 Table 1에서 알 수 있듯이 본 연구에 적용한 CN은 30개 지구별로 큰 차이가 나타나지 않은 문제가 있다. 이는 대상유역이 Fig. 1과 같이 매우 작은 유역일뿐만 아니라 지역도 경기도에 국한된 유역을 적용하여 지구별로 토양 특성이 유사하게 나타났기 때문이다. 이에 따라 자료간 상관도가 높아져서 요인분석으로 돌발홍수에 영향을 미치는 특별 요인을 분류하기 어려워 본 연구에서는 CN을 분석에서 제외하였다. 따라서 유로연장, 유역면적, 평균폭, 하도경사, 유역평균경사, 길이비, 면적비, 분기비 7개 인자만 분석에 적용하였다.

본 연구에서는 7개 유역특성인자 자료가 요인분석에 적합한지를 평가하기 위해 적합성 검토에 가장 많이 사용되는 KMO 표본적합도 점검을 이용하였다. 이는 MSA 값을 이용하는 방법으로 일반적으로 0.4를 기준으로 요인분석에 대한 자료의 적합성을 평가한다. 7개 유역특성인자에 대해 MSA는 0.5로 나타났기 때문에 자료는 요인분석에 적합한 것으로 나타났다. 또한 적합성 검증을 위해 추가로 Bartlett의 단위행렬 점점을 수행한 결과 7개 자료에 대해 근사카이제곱은 148.4, 자유도 21, 유의확률 0.000으로 나타났다. 이는 유의수준 0.01에서도 단위행렬이 아니라는 충분한 증거를 보여주기 때문에 요인분석을 적용하는데 무리가 없음을 나타낸다.

3.2.2 요인수 추출 및 요인의 회전

적합성 검토에 따라 결정된 7개 유역특성인자에 적합한 요인수를 결정하기 위해 요인의 설명력을 나타내는 고유값과 분산을 산정하였다. 그 결과 Table 2와 같이 요인 수가 3개까지 고유값이 1이상으로 나타났고, 이때 누적된 요인공통분산의 비율이 전체의 89.56%로 60.00%를 상회하는 것으로 나타났다.

Eigenvalue, Variance, and Cumulative Variance for the Number of Factor

Table 2에서 확인할 수 있듯이, 요인 1은 적용한 자료에 대해 40.75%, 요인 2는 30.19%, 요인 3은 18.62%의 설명력을 나타냈다. 즉, 요인 1이 전체 자료에 대해 가장 많은 설명력을 나타냈고, 이는 요인 3보다 2배 정도 설명력이 높게 나타났다. 요인에 따른 설명력을 쉽게 나타내기 위해 요인 수에 따른 고유값을 그림으로 나타내면 Fig. 2의 스크리도표와 같다.

Fig. 2

Scree Plot of the Number of Factor and Eigenvalue

Fig. 2에서 확인할 수 있듯이 요인수가 4-5일 때 스크리도표의 기울기가 급격하게 감소되는 것을 알 수 있다. 이에 따라 요인수가 4개일 때가 적합해 보이나 고유값을 검토하면 요인수가 3개일 때까지 1 이상으로 나타났기 때문에 최적의 요인수는 3개로 설정하였다.

요인분석에서는 변수들이 여러 요인에 대하여 유사한 요인 부하량을 나타내는 경우가 있기 때문에 이를 해결하여 변수들을 적정 요인에 분류하기 위해서는 요인을 회전시켜야 한다. 요인을 회전할 경우 각 변수에 대한 요인 부하량이 특정 요인에 대해서만 최대로 나타나기 때문에 최적으로 변수들을 분류할 수 있다. 본 연구에서는 회전축이 직각이 되도록 요인을 회전시키는 직각회전 방법을 사용하였다. 세 개 요인에 대한 유역특성인자들의 회전 전과 회전 후의 요인 부하량을 나타내면 Table 3과 같다.

Factor Loading Before/After Rotation

표에서 확인할 수 있듯이 본 연구에서 적용한 7개 유역특성인자에 대한 요인별 부하량은 회전 전후 크게 바뀌지 않은 것을 알 수 있다. 이는 선정한 인자의의 공통적 특성이 요인별로 비교적 뚜렷이 나타난 것을 의미한다. 결과를 보면 요인 1에는 면적비, 길이비, 분기비, 요인 2에는 유역면적과 평균폭, 요인 3에는 하도경사와 유역평균경사가 분류된 것

을 알 수 있다. 각 인자들의 요인 부하량은 특정 요인에 대해서만 0.7~0.9와 같이 크게 나타났고, 다른 요인에 대해서는 0.4 이하로 작게 나타났다. 아울러 요인 1은 지형형태학적 비율과 관련된 성분으로, 요인 2는 유역 크기와 관련된 성분으로, 요인 3은 경사와 관련된 성분으로 모두 통일한 특성을 나타내는 성분으로 분류된 것을 알 수 있다.

3.2.3 요인점수

본 연구에서는 요인분석으로 추출된 결과를 이용하여 군집분석을 수행하기 위해 30개 지구에 대한 요인점수를 산정하였다. 요인 점수는 각 변수들이 회전에 따라 결정된 최종 요인에 대해 갖는 점수로서, 요인별 가중치와 변수들의 값을 곱하여 산정할 수 있다. 본 연구에서는 요인별 가중치를 산정하고 Table 1에 나타난 30개 지구에 대한 자료 중 본 연구에서 선정한 7개 인자 자료를 이용하여 세 개 요인에 대한 요인 점수를 산정하였다. 그 결과를 나타내면 Table 4와 같다.

Factor Score of 30 Regions

표에서 확인할 수 있듯이 요인 1-3에 대한 점수는 표준화 된 값이기 때문에 음의 값과 양의 값이 모두 나타났다. 본 연구에서는 이와 같이 분류된 세 개 요인을 군집분석에 적용하였다.

3.3 군집분석을 이용한 대상 지역 분류

3.3.1 Ward 분석을 이용한 최적 군집수 결정

본 연구에서는 요인분석에서 결정된 Table 4의 세 개 요인에 대한 요인점수와 Table 1의 가능 범위 자료를 이용하여 군집분석을 수행하였다. 먼저, 계층적 군집분석의 Ward 방법을 이용하여 자료에 대한 적합한 군집 수를 결정하였다. 30개 지구에 대한 세 개 요인점수와 가능 범위 자료에 대해 군집이 형성되는 과정을 나타내면 Table 5와 같다.

Result of 30 Regions Clustering

Table 5에서 군집이 형성되는 단계별로 결합 군집에 나타난 1~30의 번호는 Table 1의 백둔천지구부터 장흥지구까지 30개 지구를 순서대로 나타낸 것이다. 여기서 계수값은 군집화 과정에서 나타난 군집 내의 이질성(heterogeneity)의 정도를 나타낸다. 이는 단계가 진행될수록 증가한다. 표에서 첫 단계는 6, 7번째 지구가 군집화된 것을 알 수 있다. 이는 Table 1에서 용계계곡지구와 산정호수지구를 나타내는 것으로 두 군집 간의 유클리드 거리가 다른 군집 간 거리보다 가장 작게 나타나 가장 먼저 분류된 것이다. 순서대로 29번째 단계까지 군집화가 진행이 되는데 이는 지구가 30개이기 때문이다. 군집화 과정을 나타낸 표에서 군집수를 결정할 때는 계수가 가장 급격히 증가하는 바로 전 단계에서 분류된 군집을 최종적인 군집수로 결정한다. Table 5에서는 초기 분리단계를 제외하고 28-29단계에서 계수의 증가폭이 가장 크게 나타났기 때문에 군집 수를 2개로 결정할 수 있다. 그러나 일반적으로 마지막 분류단계에서 계수가 급격히 증가하기 때문에 이를 고려하여 그 전 단계에서 분류된 군집수를 최종적인 군집수로 결정하게 된다. 이에 따라 본 연구에서는 최적의 군집수를 3개로 결정하였다. 이러한 결과는 Fig. 3과 같이 군집분석 결과를 쉽게 보여주는 나타내는 덴드로그램(dendrogram)을 통해서도 확인할 수 있다.

Fig. 3

Dendrogram of Ward Analysis Results

Fig. 3에서 확인할 수 있듯이 30개 지구에 대한 Ward 분석 결과 군집은 크게 3개로 분류될 수 있음을 알 수 있다. 즉, 백둔천지구부터 병지방지구까지(1~25) 군집 1, 흑천지구부터 서면지구까지(26~29) 군집 2, 장흥지구(30)가 군집 3으로 분류된 것을 알 수 있다. Ward 분석에서는 동일한 특성을 나타내는 지구를 분류하기보다 최적의 군집수를 결정하는 것이 목적이기 때문에 본 연구에서는 최적의 군집수를 3개로 결정하였다.

3.3.2 K-means 분석을 이용한 대상 지역 분류

본 연구에서는 Ward 분석에서 최적의 군집수가 세 개로 결정된 것을 이용하여 요인점수와 가능 범위 자료에 대해 K-means 분석을 수행하였다. K-means 군집분석은 분류하고자 하는 군집수를 알고 있을 때 유사한 특성을 지니는 자료들을 쉽게 K개의 그룹으로 분할할 수 있는 방법이다. 먼저, K-means 분석을 수행하기 위해 세 개 요인과 가능 범위에 대한 군집의 초기중심값을 나타내면 Table 6과 같다.

Origin Centroid of Range of Flash Flood Warning and Three Factors

표에서 알 수 있듯이 군집별 초기중심값은 요인별로는 대체로 군집 1-3으로 갈수록 크기가 증가하는 것으로 나타났다. 또한 가능 범위는 군집 1에서 가장 작게 나타났고, 군집 3에서 가장 크게 나타났다. 이 초기 군집중심값을 기준으로 각 요인 및 가능 범위와 해당군집의 중심점간 거리를 계산하여 가장 가까운 군집에 분류하게 된다. 30개 지구에 대한 소속군집 분류 결과와 군집중심간 거리를 나타내면 Table 7과 같다.

Distance Between K-Centroid Clustering of 30 Regions

Table 7에서 확인할 수 있듯이, 백둔천지구부터 어비계곡지구까지(1-20)는 군집 1에 분류되었고, 석산지구부터 서면지구까지(21-29)는 군집 2에 장흥지구(30)는 군집 3에 분류된 것을 알 수 있다. 이를 Fig. 3의 Ward 분석 결과와 비교하면 군집 1에 분류된 지구수가 감소하고 군집 2에 분류된 지구수가 증가한 것을 알 수 있다. 이와 같이 세 개의 군집으로 분류된 결과에 대한 최종 군집중심을 나타내면 Table 8과 같다.

Final Centroid of Range of Flash Flood Warning and Three Factors

Table 8의 결과를 Table 6과 비교하면 군집중심이 초기와 달라진 것을 알 수 있다. 이는 군집분석을 수행하는 과정에서 각 군집에 새로운 지구가 추가되었기 때문이다. 이에 따라 가능 범위에 대한 군집중심이 장흥지구가 포함된 군집 3을 제외하고 기준값이 바뀐 것을 알 수 있다. 이는 30개 지구를 세 개 군집으로 분류할 때 각 군집에 해당하는 가능 범위를 파악할 수 있게 해준다. 그 결과를 보면 군집 1인 백둔천지구부터 어비계곡지구까지는 가능 범위가 약 410 mm 미만이고, 군집 2인 석산지구부터 서면지구까지는 가능 범위가 410 mm 이상 1,000 mm 미만, 군집 3인 장흥지구는 가능 범위가 1,000 mm 이상인 것을 알 수 있다. K-menas 분석으로 세 개 군집으로 분류된 30개 지구를 그림으로 나타내면 Fig. 4와 같다.

Fig. 4

Clustering Analysis Result of 30 Regions

Fig. 4에서 ◌는 군집 1에 분류된 지구, ▲는 군집 2에 분류된 지구, ×는 군집 3에 분류된 지구를 나타낸다. 그림에서 확인할 수 있듯이 30개 지구에 대해 대체로 북쪽에 위치한 지구는 군집 1에 분류되었고, 중앙 부근과 남쪽에 위치한 지구의 일부가 군집 2에 분류된 것을 알 수 있다. 군집 3의 장흥지구는 서쪽 부근에 따로 분리되어 있는 것을 알 수 있다.

3.4 회귀분석 이용한 돌발홍수에 영향을 미치는 요인 분석

군집분석을 통해 가능 범위의 크기에 따라서 대상 지역이 세 개 군집으로 분류된 것을 확인하였지만, 각 군집에 해당하는 가능 범위가 어떤 요인의 영향을 받았는지를 확인할 필요가 있다. 이를 위해 본 연구에서는 세 개 요인을 독립변수로 설정하고, 가능 범위를 종속변수로 설정하여 다중회귀분석을 수행하였다. 먼저 세 개 요인과 가능 범위의 관계를 파악하기 위해 Fig. 5와 같이 산점도를 나타내었다.

Fig. 5

Plot of Factors and Range of Flash Flood Warning

Fig. 5에서 ○는 군집 1에 분류된 지구, △는 군집 2에 분류된 지구를 나타낸다. 군집 3에 분류된 지구는 장흥지구 한 개이고 가능 범위가 1,000 mm 이상으로 다른 지역과의 차이가 매우 크게 나타났기 때문에 그래프에 반영하여 나타내지는 않았다. 그림에서 확인할 수 있듯이, 요인 1과 2는 음의 상관관계가 있는 것처럼 나타났고, 요인 1과 3 및 요인 2와 3은 뚜렷하지는 않지만 양의 상관관계가 있는 것처럼 나타났다. 또한 요인 1은 가능 범위와 양의 상관관계, 요인 2와 3은 가능 범위와 음의 상관관계가 있는 것처럼 나타났다. 이와 같은 상관관계에 따라 회귀식은 Eq. (7)과 같이 나타났다.

(7)y^=439.92+45.97X146.39X293.53X3

여기서 y^는 회귀모형을 통해 산정된 가능 범위를 나타내고 X1, X2, 는 순서대로 세 개 요인에 대한 점수를 나타낸다. Fig. 5의 상관관계를 나타낸 그림에서도 확인할 수 있는 것처럼 세 개 요인에 대한 회귀계수는 요인 1에 대하여 양의 값, 요인 2와 3에 대하여 음의 값으로 나타났다. 또한 요인 1과 요인 2에 대한 회귀계수의 크기는 유사하게 나타났고, 요인 3의 경우 요인 1과 2보다 두 배 더 크게 나타났다. 위와 같이 결정된 회귀식의 적합성을 평가하기 위해 Table 4의 요인점수를 Eq. (7)에 적용하여 산정한 값과 가능 범위를 Fig. 6과 같이 서로 비교하여 나타내었다.

Fig. 6

Comparison of Range of Flash Flood Warning and Regression Result

Fig. 6에서 군집 3에 분류된 장흥지구는 다른 지역과의 값의 차가 크게 나타나 앞에서와 같이 따로 나타내지는 않았다. 그림에서 확인할 수 있듯이 회귀식으로 산정된 값은 군집 1의 경우 가능 범위보다 대체로 크게 나타났고, 군집 2는 가능 범위보다 작게 나타났다. 모형이 자료의 특성을 적절히 반영하고 있다면 이론적으로는 계산된 값과 가능 범위가 동일해야 한다. 그러나 Fig. 6의 경우 군집에 따라 값이 크거나 작게 나타났기 때문에 군집에 속한 특정 요인이 영향을 미치고 있음을 알 수 있다. 본 연구에서는 이러한 원인을 파악하기 위해 군집 1, 2에 속한 요인별 점수를 Fig. 7과 같이 박스도표를 이용하여 나타내었다.

Fig. 7

Box-Whisker Plot for the Factor Score of Cluster 1 and 2

Fig. 7에서 확인할 수 있듯이, 요인 1의 경우 군집 1에서는 요인점수가 –1.0 ~ –0.5의 값이 집중되어 있고, 군집 2에서는 0.5 ~ 1.0의 값이 집중되어 있는 것으로 나타났다. 이는 각 군집에 대해 요인들이 서로 다른 특성을 보이고 있고 이에 따라 군집 분류에 영향을 크게 미치고 있음을 나타낸다. 반면, 요인 2의 경우 군집 1에서는 요인점수가 –0.6 ~ –0.4의 값이 집중되어 있고, 군집 2는 0.1보다 작은 값과 큰 값의 비율이 유사하게 나타나 두 군집의 차이가 뚜렷하게 나타나지 않았다. 요인 3의 경우도 군집 1에서는 0.1보다 큰 값과 작은 값의 비율이 유사하게 나타났고, 군집 2는 –0.2 ~ –0.0의 값이 집중된 것으로 나타나 두 군집의 차이가 뚜렷하게 나타나지 않았다.

이러한 결과를 Fig. 6과 비교하면 군집 1은 요인 1의 점수가 크게 나타나 회귀식으로 산정한 값이 가능 범위보다 크게 나타난 것을 알 수 있다. 반면 군집 2는 요인 1의 점수가 작게 나타났기 때문에 회귀식으로 산정한 값이 가능 범위보다 작게 나타난 것이다. 군집 1은 군집 2보다 가능 범위가 작으므로 가능 범위가 작을 때는 요인 1의 값이 크게 나타나고, 가능 범위가 클 때는 요인 1의 값이 작게 나타남을 알 수 있다. 또한 요인 1은 면적비, 길이비, 분기비와 같이 비에 대한 성분으로 이루어진 값이기 때문에 가능 범위는 이에 영향을 크게 받음을 알 수 있다. 따라서 유역의 면적비, 분기비 길이비가 돌발홍수 발생에 영향을 크게 미치는 인자라고 판단할 수 있다.

4. 결론

본 연구에서는 돌발홍수 예경보에 영향을 주는 인자를 파악하기 위해 다변량 통계분석기법을 적용하여 수문학적 특성이 동질하게 나타나는 유역을 분류하였다. 가능한 인자로써 주요 유역특성인자와 돌발홍수 발령기준의 가능 범위를 고려하였다. 먼저, 요인분석을 이용하여 다양한 유역특성인자를 공통적인 특성에 따라 세 개 요인으로 분류하였다. 다음으로 군집분석을 통해 유역의 특성이 동일하게 나타나는 지역을 분류하였다. 마지막으로 회귀분석을 이용하여 각 군집에 영향을 주는 요인 및 돌발홍수 예경보에 영향을 미치는 인자를 결정하였다. 그 결과를 정리하면 다음과 같다.

  • 1) 요인분석에서는 다양한 유역특성인자 중 유로연장, 유역면적, 평균폭, 하도경사, 유역평균경사, 길이비, 면적비, 분기비의 7개 자료가 분석에 적합한 것으로 나타났다. 고유값을 분석한 결과 최적의 요인수는 세 개로 결정되었다. 요인 1은 면적비, 길이비, 분기비로 지형형태학적 비율과 관련된 성분으로, 요인 2는 유역면적과 평균폭과 같은 유역 크기와 관련된 성분으로, 요인 3은 하도경사와 유역평균경사와 같이 경사와 관련된 성분으로 분류되었다. 세 개 요인에 대한 요인점수는 표준화 된 값으로 지구에 따라 음의 값과 양의 값으로 나타났다.

  • 2) 요인과 가능 범위를 군집분석한 결과 Ward 분석에서는 최적의 군집수가 세 개로 결정되었다. K-means 분석에서는 군집 1에 백둔천지구부터 어비계곡지구까지 20개 지구가, 군집 2에 석산지구부터 서면지구까지 9개 지구가, 군집 3에 장흥지구가 분류된 것으로 나타났다. 군집중심은 초기상태와 비교하여 군집 결과에 따라 변화된 것으로 나타났다. 이에 따라 군집 1은 홍수예경보의 가능 범위가 가장 작은 유역들로 구성되었고 군집 3은 가장 큰 유역들로 구성되었다.

  • 3) 회귀분석 결과에서는 먼저 요인 1과 가능 범위는 양의 상관관계, 요인 2, 3과 가능 범위는 음의 상관관계가 있는 것으로 나타났다. 회귀식으로 산정한 값은 군집 1의 경우 가능 범위보다 크게 나타났고, 군집 2는 가능 범위보다 작게 나타났다. 이는 각 군집에 따라 요인이 미치는 영향이 다르기 때문인데, 요인 1이 군집 분류에 영향을 크게 미치는 것으로 나타났다. 요인 1은 면적비, 길이비, 분기비와 같이 지형형태학적 비율과 관련된 성분으로 이루어진 값으로 돌발홍수 발생에는 이들 유역특성인자가 크게 영향을 주는 것으로 나타났다.

상기와 같은 결과는 지역화 분석에 이용되는 다변량 통계분석기법을 통해 잘 확인할 수 있었다. 그러나 유역특성인자는 지역마다 다르고, 구축된 자료의 양과 자료의 스케일이 다르므로 유역을 동질한 수문학적 특성에 따라 분류하는 것은 간단한 문제가 아니다. 이는 본 연구에서 결정한 회귀식으로 산정한 값과 가능 범위가 일치하지 않음을 통해서도 짐작할 수 있다. 또한 본 연구에서는 제외하였지만 CN과 같이 토양 및 식생 특성을 반영하는 인자를 모두 고려할 경우 분류 결과는 다르게 나타날 것으로 판단된다. 따라서 향후 이러한 문제를 보완하여 유역을 분류할 수 있다면, 유역특성인자가 돌발홍수 발생에 미치는 영향을 제대로 파악할 수 있을 것이고, 돌발홍수 예경보시스템의 정도 향상을 기대할 수 있다.

감사의 글

본 연구는 국토교통부 물관리사업의 연구비지원(14AWMP-B082564-01)에 의해 수행되었습니다.

References

Ahn S, Kim S, Kim S. A study on hydrologic clustering for standard watersheds of Korea water resources unit map using multivariate statistical analysis. J. Korean Assoc. Geograp. Inform. Studies 2014. 17(1)KAGIS. p. 91–106. 10.11108/kagis.2014.17.1.091.
Carpenter T. M, Sperfslage J. A, Georgakakos K. P, Sweeney T, Fread D. L. National threshold runoff estimation utilizing GIS is support of operational flash flood warning systems. J. Hydrol 1999. 224(1)Elsevier; 21–44. 10.1016/s0022-1694(99)00115-8.
Cloutier V, Lefebvre R, Therrien R, Savard M. M. Multivariate statistical analysis of geochemical data as indicative of the hydrogeochemical evolution of ground water in a sedimentary rock aquifer system. J. Hydrol 2008. 353Elsevier. p. 294–313. 10.1016/j.jhydrol.2008.02.015.
Georgakakos K. P. Analytical results for operational flashflood guidance. J. Hydrol 2006. 317(1-2)Elsevier. p. 81–103.
Hargreaves G. H, Samani Z. A. Estimating potential evapotranspiration. J. Irrig. Drain. Div 1982. 108(3)ASCE. p. 223–230.
Hong S, Jung I, Park J, Lee M, Kim S. GIS-based design flood estimation of ungauged watershed. J. Korean Irrig. Drain. 2011. 18(2)KCID. p. 87–100.
Hwang J, Jeong D, Lee J, Kim Y. Application of monthly water balance models for the climate change impact assessment. J. Korea Water Resour. Assoc 2007. 40(2)KWRA. p. 147–158. 10.3741/JKWRA.2007.40.2.147.
Kang M, Jung C, Lee G. Extraction of primary factors influencing dam operation using factor analysis. J. Korea Water Resour. Assoc 2007. 40(10)KWRA. p. 769–781. 10.3741/JKWRA.2007.40.10.769.
Korea Institute of Civil Engineering and Building Technology (KICT). Development of Watershed Assessment Techniques for Healthy Water Cycle 2004. Ilsan. (in Korean):
Lee B, Jung I, Bae D. Parameter regionalization of semi-distributed runoff model using multivariate statistical analysis. J. Korea Water Resour. Assoc 2009. 42(2)KWRA. p. 149–160. 10.3741/JKWRA.2009.42.2.149.
Lee H, Moon Y. Application of rainfall runoff model for an ungauged catchment. J. Korean Soc. Civ. Eng 2007. 27(5B)KSCE. p. 489–498.
Lee H, Park K, Jung S, Choi S. Catchment similarity assessment based on catchment characteristics of GIS in Geum river catchments, Korea. J. Korean Soc. Geospa. Inform. Syst 2013. 21(3)KOGSIS. p. 37–46. 10.7319/kogsis.2013.21.3.037.
Lee S, Kang S. A parameter regionalization study of a modified Tank model using characteristic factors of watersheds. J. Korean Soc. Civ. Eng 2007. 27(4B)KSCE. p. 379–385.
Lee Y. The Comprehension of Factor Analysis 2002. Seoul, Korea: Sukjung Publisher.
Moon J, Jung C, Lee D. Parameter regionalization of Hargreaves equation based on climatological characteristics in Korea. J. Korea Water Resour. Assoc 2013. 46(9)KWRA. p. 933–946. 10.3741/JKWRA.2013.46.9.933.
Mwakalila S. Estimation of stream flows of ungauged catchment for river basin management. Phys. Chem. Earth 2003. 28Elsevier. p. 935–942. 10.1016/j.pce.2003.08.039.
Nam W, Kim T, Shin J, Heo J. Regional rainfall frequency analysis by multivariate techniques. J. Korea Water Resour. Assoc 2008. 41(5)KWRA. p. 517–525. 10.3741/JKWRA.2008.41.5.517.
Nandagiri L, Kovoor G. Performance evaluation of reference evapotranspiration equation across a range Indian climate. J. Irrig. Drain. Eng 2006. 132(3)ASCE. p. 238–249. 10.1061/(ASCE)0733-9437(2006)132:3(238).
National Disaster Management Institute (NDMI). Developing the Flash Flood Prediction and Decision- making Support System in Mountainous Area 2009. Ulsan. (in Korean);
National Emergency Management Agency (NEMA). Collection of Field Survey of Natural and Technical Disasters 2007. Seoul. (in Korean);
Rao A. R, Srinivas V. V. Regionalization ofwatersheds by hybrid-cluster analysis. J. Hydrol 2006. 318(1)Elsevier. p. 37–56.
Yokoo Y, Kazamaa S, Sawamotoa M, Nishimurab H. Regionalization of lumped water balance model parameters based on multiple regression. J. Hydrol 2001. 246(1)Elsevier. p. 209–222. 10.1016/s0022-1694(01)00372-9.
Zhang J, Hall M. J. Regional flood frequency analysis for the Gan-Ming River basin in China. J. Hydrol 2004. 296(1)Elsevier. p. 98–117.

Article information Continued

Fig. 1

Location of 30 Regions

Table 1

Basin Characteristics and Range of Flash Flood Warning

Region Channel width (m) Channel length (km) Basin area (km2) Basin mean width (km) Shape factor Channel Slope Basin mean slope (%) Stream length ratio Stream area ratio Bifur-cation ratio CN Range of flash flood warning (mm)
Baekduncheon 16.55 10.11 27.97 2.77 0.27 0.02 41.77 2.25 5.34 4.44 75.90 153.4
Tap-dong 12.48 2.56 7.21 2.82 1.10 0.05 32.82 1.12 3.87 3.38 78.00 158.5
Jungbae 19.41 6.43 19.73 3.07 0.48 0.02 29.30 1.92 3.81 2.27 71.59 219.9
Samil 16.36 6.98 17.32 2.48 0.36 0.09 35.56 1.97 3.72 3.11 79.30 232.3
Jiam 26.55 10.10 25.07 2.48 0.25 0.11 39.77 3.68 5.69 5.75 71.00 248.4
Yonggye 16.49 8.54 20.24 2.37 0.28 0.02 18.76 2.02 4.25 3.51 73.80 269.4
Sangjung 31.88 12.31 37.86 3.25 0.26 0.01 26.52 2.84 5.64 4.74 73.20 269.9
Umdun 15.85 8.61 17.70 2.06 0.24 0.07 40.55 2.37 3.73 3.07 77.60 270.9
Gyeongbancheon 29.31 8.85 13.63 1.54 0.17 0.04 36.15 3.65 5.50 4.64 73.54 273.1
Hwanggol 17.21 10.60 22.31 2.10 0.20 0.01 24.84 2.24 4.17 3.50 79.12 325.6
Dowon 15.32 9.51 30.45 3.20 0.34 0.06 37.24 3.18 5.69 4.69 74.30 336.3
Sanasa 23.56 9.37 20.74 2.21 0.24 0.01 30.89 2.52 4.68 3.72 77.65 338.6
Imchocheon 16.76 8.37 26.07 3.11 0.37 0.01 34.58 1.62 3.48 3.07 74.50 347.1
Deokdong 51.70 12.10 59.42 4.91 0.41 0.02 36.01 1.65 3.89 3.32 56.12 358.5
Godunchi 23.50 12.89 52.15 4.05 0.31 0.01 33.30 2.22 4.71 4.15 77.18 363.5
Yongmun 24.20 8.53 18.00 2.11 0.25 0.01 16.45 2.15 4.02 3.35 67.95 386.8
Seungancheon 33.72 13.07 30.11 2.31 0.18 0.03 37.72 3.17 5.90 4.81 75.40 387.4
Yongsugol 23.47 9.05 20.27 2.24 0.25 0.07 31.03 2.01 4.17 3.51 66.90 398.6
Gailcheon 13.41 6.47 11.68 1.80 0.28 0.09 36.41 2.19 3.54 2.88 73.90 404.8
Eobi 26.17 7.41 12.74 1.72 0.23 0.04 34.08 4.71 6.91 4.74 76.90 408.7
Seoksan 21.44 10.76 35.44 3.29 0.31 0.02 35.13 2.92 5.48 4.55 64.30 485.3
Angol 21.97 8.88 16.26 1.83 0.21 0.01 22.27 1.37 3.85 3.18 79.50 499.6
Sangwonsa 34.70 11.07 38.56 3.48 0.31 0.02 35.22 2.56 4.88 4.18 60.39 503.5
Beopheung 30.66 14.69 47.23 3.22 0.22 0.02 40.91 2.66 5.55 4.91 80.30 521.1
Byeongjibang 52.48 19.52 60.00 3.07 0.16 0.01 38.18 2.02 3.81 3.56 76.35 545.9
Heukcheon 35.19 10.65 28.01 2.63 0.25 0.01 28.34 2.87 5.31 4.47 73.26 639.9
Nomok 19.29 6.11 11.26 1.84 0.30 0.03 34.30 5.51 6.59 5.10 62.30 716.2
Danwol 24.00 5.33 12.31 2.31 0.43 0.02 30.22 2.22 4.98 4.24 60.37 786.1
Seomyeon 28.85 6.12 11.71 1.91 0.31 0.02 27.06 3.29 5.47 4.75 75.30 806.7
Jangheung 51.46 10.06 19.27 1.92 0.19 0.03 20.39 2.40 4.44 3.61 62.60 1541.8

Table 2

Eigenvalue, Variance, and Cumulative Variance for the Number of Factor

 Number of Factor   Eigenvalue   Variance(%)   Cumulative Variance(%) 
1 2.852 40.75 40.75
2 2.113 30.19 70.93
3 1.304 18.62 89.56
4 0.325 4.65 94.20
5 0.196 2.80 97.00
6 0.173 2.47 99.47
7 0.037 0.53 100.00

Fig. 2

Scree Plot of the Number of Factor and Eigenvalue

Table 3

Factor Loading Before/After Rotation

Before Rotation After Rotation
1 2 3 1 2 3
Stream area ratio 0.939 0.175 -0.232 0.983 -0.023 -0.011
 Stream length ratio   0.934   -0.045   -0.097   0.934   0.105   0.091 
Bifurcation ratio 0.891 0.292 -0.116 0.904 -0.233 0.118
Basin area -0.181 0.932 -0.018 0.020 0.948 -0.053
Basin mean width -0.326 0.879 0.073 -0.150 0.928 0.001
Channel slope 0.224 -0.375 0.833 -0.049 -0.378 0.860
Basin mean slope 0.340 0.462 0.726 0.255 0.415 0.787

Table 4

Factor Score of 30 Regions

Region  Factor 1   Factor 2   Factor 3 
Baekduncheon 0.407 0.631 0.426
Tap-dong -1.241 -0.476 0.669
Jungbae -1.331 -0.022 -0.424
Samil -1.220 -0.611 1.832
Jiam 1.265 -0.232 2.248
Yonggye -0.608 -0.633 -1.449
Sangjung 0.802 0.739 -1.051
Umdun -0.951 -0.571 1.647
 Gyeongbancheon  0.958 -0.954 0.452
Hwanggol -0.506 -0.535 -0.990
Dowon 0.786 0.509 0.949
Sanasa -0.090 -0.329 -0.525
Imchocheon -1.148 0.523 -0.184
Deokdong -0.908 2.615 0.091
Godunchi -0.010 1.845 -0.313
Yongmun -0.713 -0.937 -1.693
Seungancheon 1.074 0.190 0.244
Yongsugol -0.761 -0.610 0.758
Gailcheon -1.267 -1.161 1.797
Eobi 1.907 -1.024 0.136
Seoksan 0.711 0.919 -0.219
Angol -1.063 -0.876 -1.309
Sangwonsa 0.183 1.113 -0.095
Beopheung 0.864 1.485 0.236
Byeongjibang -0.581 1.677 0.052
Heukcheon 0.599 0.122 -0.931
Nomok 2.242 -0.978 -0.060
Danwol 0.094 -0.524 -0.444
Seo-myeon 0.889 -0.907 -0.857
Jangheung -0.384 -0.988 -0.995

Table 5

Result of 30 Regions Clustering

 Step   Cluster   Heterogeneity   First Step of the Cluster   Next Step 
1 2 1 2
1 6 7 2.1 0 0 6
2 16 17 6.4 0 0 18
3 11 12 11.0 0 0 11
4 8 9 15.9 0 0 6
5 22 23 27.0 0 0 14
6 6 8 38.6 1 4 21
7 14 15 51.7 0 0 19
8 19 20 65.8 0 0 10
9 1 2 81.2 0 0 25
10 18 19 126.7 0 8 18
11 11 13 190.9 3 0 13
12 3 4 271.0 0 0 17
13 10 11 441.8 0 11 19
14 21 22 619.3 0 5 20
15 28 29 831.5 0 0 24
16 24 25 1141.1 0 0 20
17 3 5 1479.1 12 0 21
18 16 18 1827.4 2 10 23
19 10 14 2606.4 13 7 23
20 21 24 4280.6 14 16 26
21 3 6 6664.0 17 6 25
22 26 27 9577.1 0 0 24
23 10 16 17046.8 19 18 26
24 26 28 31049.8 22 15 28
25 1 3 46261.2 9 21 27
26 10 21 115951.9 23 20 27
27 1 10 303324.7 25 26 29
28 26 30 821237.7 24 0 29
29 1 26 2080927.4 27 28

Fig. 3

Dendrogram of Ward Analysis Results

Table 6

Origin Centroid of Range of Flash Flood Warning and Three Factors

Cluster
1 2 3
Factor 1 0.41 0.89 -0.38
Factor 2 0.63 -0.91 -0.99
Factor 3 0.43 -0.86 -0.99
 Range of Flash Flood Warning   153.35   806.65   1541.80 

Table 7

Distance Between K-Centroid Clustering of 30 Regions

 No.  Region  Cluster   Distance 
1 Baekduncheon 1 154.2
2 Tap-dong 1 149.1
3 Jungbae 1 87.7
4 Samil 1 75.3
5 Jiam 1 59.2
6 Yonggye 1 38.3
7 Sangjung 1 37.8
8 Umdun 1 36.7
9  Gyeongbancheon  1 34.5
10 Hwanggol 1 18.1
11 Dowon 1 28.7
12 Sanasa 1 31.0
13 Imchocheon 1 39.6
14 Deokdong 1 51.0
15 Godunchi 1 55.9
16 Yongmun 1 79.3
17 Seungancheon 1 79.8
18 Yongsugol 1 91.0
19 Gailcheon 1 97.2
20 Eobi 1 101.2
21 Seoksan 2 126.3
22 Angol 2 112.0
23 Sangwonsa 2 108.1
24 Beopheung 2 90.5
25 Byeongjibang 2 65.7
26 Heukcheon 2 28.3
27 Nomok 2 104.6
28 Danwol 2 174.5
29 Seomyeon 2 195.1
30 Jangheung 3 0.0

Table 8

Final Centroid of Range of Flash Flood Warning and Three Factors

Cluster
1 2 3
Factor 1 -0.18  0.44  -0.38 
Factor 2 -0.05  0.23  -0.99 
Factor 3 0.23  -0.40  -0.99 
 Range of Flash Flood Warning   307.57   611.58   1541.80 

Fig. 4

Clustering Analysis Result of 30 Regions

Fig. 5

Plot of Factors and Range of Flash Flood Warning

Fig. 6

Comparison of Range of Flash Flood Warning and Regression Result

Fig. 7

Box-Whisker Plot for the Factor Score of Cluster 1 and 2