J. Korean Soc. Hazard Mitig Search

CLOSE


J. Korean Soc. Hazard Mitig. > Volume 26(1); 2026 > Article
포항지진 피해 데이터 기반 기계학습을 활용한 건축물 지진피해 추정방법 연구

Abstract

In the event of a large-scale earthquake, it is difficult to promptly estimate damage, making it challenging to establish an effective response strategy. To address these limitations, this study developed a preliminary earthquake damage assessment model for buildings using machine learning based on empirical damage data from the 2017 Pohang Earthquake. Six machine-learning models were established, and resampling techniques such as SMOTE (Synthetic Minority Oversampling Technique) and random sampling were applied for performance comparison and analysis to mitigate the chronic class imbalance problem of the dataset. The results indicate that the application of random sampling generally improves the model performance, with tree-based ensemble models achieving significantly high recall and AUC (Area Under the Curve) values. These findings suggest that the proposed model has a strong potential as an effective damage assessment tool for reliably detecting damaged buildings with minimal false negatives.

요지

대규모 지진 발생 시 신속한 지진피해 추정이 곤란하여 대응 전략 수립에 어려움이 있다. 본 연구는 이러한 한계를 극복하고자 2017년 포항지진의 실증적 피해 데이터를 바탕으로 기계학습(Machine Learning) 기반 건축물 지진피해 평가 모델을 개발하였다. 총 6가지 기계학습 모델을 구축하였으며, 데이터의 클래스 불균형 문제를 해결하기 위해 SMOTE와 Random Sampling과 같은 Resampling 기법을 적용하여 각 모델 성능을 비교⋅분석 하였다. 그 결과 Random Sampling 기법 적용 시 모델 성능이 전반적으로 향상되었으며, 특히 트리 기반 앙상블 모델에서 높은 재현율과 AUC 값을 기록하였다. 이는 피해 건축물을 누락 없이 탐지하기 위한 기초자료로서 본 모델이 높은 활용 가능성을 나타낸 것으로 판단된다.

1. 서 론

2017년 11월 15일 포항시 북구 북쪽 8 km 지점에서 규모 5.4의 지진이 발생하였다. 이 지진은 한반도 내륙에서 발생한 대표적인 지진으로 진앙지가 도심지와 인접하고, 7 km 정도로 얕아 다수의 건물과 시설물이 손상을 입었다(MOIS, 2018). 특히 건축물 파손, 외벽 탈락, 균열 등 다양한 형태의 손상이 광범위하게 발생하였으며, 피해 분포가 공간적으로 불균질하게 나타났다. 이처럼 지진은 단시간에 광범위한 지역에 피해를 유발하게 되므로 초기 대응의 속도와 효율성이 피해 확산을 막는 핵심 요인이 된다. 그러나 기존의 피해평가 방식은 현장조사나 전문가 경험에 의존하는 경우가 많아, 대규모 피해 상황에서는 신속성⋅객관성⋅일관성 확보에 한계가 존재한다. 이러한 한계를 극복하기 위해 최근에는 기계학습을 활용하여 지진피해 데이터를 기반으로 한 피해예측 연구가 활발히 시도되고 있다.
기계학습은 방대한 양의 데이터를 기반으로 데이터 간의 숨겨진 패턴을 자동으로 학습하고, 미래 결과에 대한 예측문제를 해결하는 기술로서, 지진피해와 같이 복잡하고, 비선형적인 문제에 효과적으로 적용 가능하다(Xie et al., 2020). 기계학습 알고리즘은 크게 지도학습, 비지도학습, 강화학습 등으로 분류되며, 이 중 지도학습은 과거 데이터로부터 건축물 지진피해 등급을 예측하는 유용한 방법이 될 수 있다. 대표적인 기계학습 알고리즘은 KNN, Logistic Regression, Random Forest, Balanced Random Forest, AdaBoost, Gradient Boosting 등이 있다. 이러한 알고리즘은 다양한 건축물 특성과 최대 지반 가속도(Peak Ground Acceleration, PGA), 최대 지반 속도(Peak Ground Velocity, PGV)와 같은 지진강도 지표(Intensity Measure, IM)를 입력값으로 하여 피해등급이나 손상확률을 빠르게 추정할 수 있다는 점에서 실무 적용성이 크다.
현재 국내외에서 기계학습 기반 건축물 피해판정 연구는 꾸준히 시도되고 있다. Han and Kim (2020)은 9.12 경주지진 발생 시 건축물의 지진 취약성을 평가하기 위해 지질공학, 물리, 구조적 요인 관련 11개의 변수를 선정하여 실제 피해건축물의 위치를 종속변수로 한 기계학습 기반 해석을 수행하였고, 이를 지도로 표출하여 행정동 별 지진피해 등급을 도출하였다. Nguyen et al. (2022)은 468개 유한요소모델과 240개의 지반운동 기록을 조합하여 응답을 분석한 후 기계학습 기반 긴급 지진위험도 평가 기법과 GUI를 개발하였다. Kang et al. (2024)은 내진설계 도입 이전에 건설된 RC건축물의 높은 취성파괴 가능성을 고려하여, 유한요소 해석 기반 기계학습 모델을 통해 하중 조건과 보강 상세 변화에 따른 내진 성능을 신속하고 정확하게 예측하고, 성능 등급별 최적 모델을 제시하였다. Lee et al. (2025)은 국내의 필로티 형식 RC건물의 내진성능을 예측하기 위해 초기 단계의 변위기반 손상 임계값을 기반으로 응답 및 손상을 추정하는 기계학습 모델을 제안하였다.
하지만 기존 국내외 선행연구는 주로 구조해석과 같은 시뮬레이션에 의존하고 있어, 개별 건축물에 대한 해석모델 구축과 데이터 도출 과정의 복잡성으로 인해 지진 피해 판정 도구로 직접 활용하는 데 명백한 한계가 존재한다. 또한, 동일한 구조 형식의 건축물이라 할지라도 진앙 거리, 건축 연도 등 다양한 변수에 따라 손상 정도가 달라지므로, 모든 물리적 변수를 고려한 시뮬레이션 데이터 생성은 과도한 계산 비용을 유발한다. 이러한 공학적 난점을 고려할 때, 국내의 실증적 지진피해 데이터를 활용한 예측 모델은 현장 조사의 정성적 판단을 보완하고, 피해판정의 정확성과 신속성을 제고할 수 있는 효과적인 대안이 될 수 있다.
따라서 본 연구는 포항지진 당시 수집된 피해조사 데이터를 기반으로 다양한 기계학습 모델을 구축하고, Resampling 기법을 적용하여 클래스 불균형 문제를 해결함으로써, 구조물의 피해판정을 예측하고자 한다. 이를 통해 지진 발생 이후 피해 건축물에 대한 피해등급을 신속하고 객관적으로 판정할 수 있는 정량적 근거를 마련하고, 향후 피해평가의 일관성과 신뢰성을 제고하기 위한 데이터 기반 평가체계 구축의 기초자료를 제시하는 것을 목표로 한다.

2. 배경 이론

2.1 기계학습 모델링 기법

본 연구에서는 포항지진 데이터를 기반으로 기계학습을 활용한 건축물 피해등급 예측하기 위하여 KNN, Logistic Regression, Random Forest, Balanced Random Forest, AdaBoost, 그리고 Gradient Boosting을 이용하였다. 이들은 서로 다른 학습 원리를 가지며, 데이터 불균형 및 비선형성을 포함한 다양한 조건에서의 예측 성능을 비교⋅검증하기 위해 선정되었다.
KNN (K-Nearest Neighbors)은 분포 가정을 하지 않고, 인접 표본 간 거리를 이용하여 분류를 수행하는 모델이다(Cover and Hart, 1967; Altman, 1992). Logistic Regression은 입력 변수의 선형 결합을 시그모이드 함수를 통해 확률로 변환하는 통계적 분류 모델로, 최대우도법을 통해 계수를 추정한다(Cox, 1958; Hosmer et al., 2013). Random Forest는 트리기반 앙상블 모델로, 다수결 투표를 통해 기준 성능 비교 모델로 사용되었다(Breiman, 2001). Balanced Random Forest는 다수 클래스의 일부를 무작위로 제거하여 클래스 간 균형을 확보함으로써 피해 건축물과 같은 소수 클래스의 탐지 성능을 향상시킨다(Chen et al., 2004). AdaBoost는 오분류 표본의 가중치를 재할당하여 모델의 학습 방향을 보정한다(Freund and Schapire, 1997). 마지막으로 Gradient Boosting은 잔차를 기반으로 순차적 학습을 수행하여 비선형 관계가 강한 데이터에 적합하다(Friedman, 2001; Chen, 2016).
그러나 어떠한 알고리즘도 모든 문제에서 최적의 성능을 보장하지는 않는다. 실제 성능은 데이터의 비선형성, 노이즈 수준, 차원 특성 등 내재적 속성에 따라 달라진다(Caruana and Niculescu-Mizil, 2006; Domingos, 2012). 따라서 지진 피해 데이터와 같이 복잡하고 고차원적인 문제에서는 단일 모델에 의존하기보다 다양한 알고리즘을 적용하고, 그 성능을 실증적으로 비교⋅평가하는 체계적 접근이 필요하다. 본 연구는 이러한 특성을 고려하여, 다양한 알고리즘의 성능을 실증적으로 비교⋅평가 하였다.

2.2 데이터 리샘플링 기법

포항지진 피해조사 자료는 피해건축물의 비율이 전체의 극히 일부에 불과한 전형적인 불균형 데이터이다. 이와 같이 데이터 불균형 심한 경우 소수 클래스가 중요함에도 불구하고 이를 제대로 탐지하지 못하고 다수 클래스에 편향된 정확도를 산출한다(Ghosh et al., 2024). 이로 인해 모델이 다수 클래스에 편향될 가능성이 높기 때문에, 본 연구에서는 SMOTE (Synthetic Minority Oversampling Technique)와 Random Sampling을 각각 적용하여 데이터 불균형 문제를 해결하고자 하였다.
SMOTE는 소수 클래스 표본과 인접 표본간의 벡터 공간을 보간하여 합성 데이터를 생성하는 방식으로, 소수 클래스의 학습 표본을 확충한다. 다만, 경계 부근의 합성 표본은 노이즈를 유발할 수 있어 과적합의 위험이 있다(Chawla et al., 2002; He and Garcia, 2009).
Random Sampling은 다수 클래스의 표본 일부를 무작위로 제거하여 데이터 균형을 확보하며, 원본 분포의 왜곡 없이 학습 효율을 향상시킬 수 있다(Ali et al., 2019).
Resampling 선택은 데이터 특성에 따라 달라지며, 다수 클래스의 중복도가 높을 경우 Undersampling이, 소수 클래스가 희소할 경우 Oversampling이 유리하다(Chen et al., 2004; Weiss, 2004). 본 연구에서는 두 기법 모두를 적용하여 데이터 불균형을 완화하였으며 실제 피해 분포를 가장 잘 반영하는 적정 기법을 도출하였다.

2.3 모델 성능 평가 지표

기계학습의 성능을 평가하기 위해 가장 많이 활용되는 것은 분류행렬(Confusion matrix)기반의 지표분석이다. 분류 행렬은 Fig. 1과 같이 TP (True Positive), TN (True Negative), FP (False Positive), FN (False Negative)의 네 요소로 구성된다(Pearson, 1894).
Fig. 1
Concept of the Confusion Matrix
kosham-2026-26-1-167-g001.jpg
본 연구에서는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-score, ROC (Receiver Operating Characteristic), AUC (Area Under the Curve)를 활용하였으며, 각 지표의 정의 및 세부계산식은 일반적으로 알려진 기준을 따른다(Bradley, 1997; Fawcett, 2006). 지진피해 예측의 목적상 심각한 피해 건축물의 누락을 최소화하는 것이 가장 중요하므로, 본 연구에서는 재현율을 핵심 지표로 설정하였다. 즉, 피해사례를 ‘피해없음’으로 잘못 분류하는 FP를 최소화하는 모델을 우수 모델로 간주하였다. 이를 바탕으로 각 예측모델을 비교⋅분석 하였다.

3. 모델 설계

3.1 학습데이터 수집

본 연구의 입력자료는 2017년 포항에서 발생한지진 후 피해등급 선정 기준을 적용하여 평가된 건축물 피해판정 기록을 활용하였다. 국내 사유시설 피해판정은 「재난 및 안전관리 기본법」 제66조(재난지역에 대한 국고보조 등의 지원), 「자연재난 구호 및 복구 비용 부담기준 등에 관한 규정」 제4조(재난복구 비용 등의 부담기준), 「자연재난조사 및 복구계획수립 요령」 제2조(피해조사 및 복구계획수립 요령)등의 기준을 따른다. 건축물은 Table 1에 명기된 기준에 따라 소파⋅반파⋅전파의 등급으로 피해를 판정하게 된다(NDMI, 2021).
Table 1
Criteria for Seismic Damage Assessment of Private Facilities in Korea (NDMI, 2021)
Category Assessment Guidelines
Severe damage When the main structural components-columns, walls, and roof- are so severely damaged that the structure becomes unusable unless reconstructed
 - When columns, walls, roofs, etc. are completely destroyed, rendering the building unusable without reconstruction
 - When replacement or repair of damaged parts alone is insufficient for restoring the building to its original function, requiring complete reconstruction
Moderate damage When the main structural components
 -columns, walls, and roof- are damaged that the structure becomes unusable unless repaired
 - When columns, walls, roofs, etc. are partially damaged, but the building remains habitable if only the damaged parts are replaced or repaired, corresponding to “major repair” under the Building Act
Minor damage When cracks occur in the main structural components
 -columns, walls, and roof- rendering the dwelling uninhabitable unless repaired
본 연구는 표본의 신뢰도를 확보하고 판정의 일관성을 제고하기 위해 포항시 북구의 건축물을 대상으로 하였다. 국토교통부 건축데이터 민간개방 시스템-세움터에서 제공하는 건축물대장과 재난관리업무포털(NDMS)의 건축물 피해조사 결과를 취합하였으며, Table 2는 그 결과의 일부분에 해당한다. 포항지진 당시 건축물 중 준공 완료 및 데이터 수집이 가능한 4,494건을 1차 추출하였고, 그 중 전파 67건, 반파 171건이었으며, 나머지는 소파에 해당한다.
Table. 2
A Subset of Structural Data of Pohang-si Buk-gu during the Pohang Earthquake
No Address Area (m2) Total_Area (m2) Building_Name Height (m) Year Damage
1 92.92 92.92 Brick masonry structures 0 1990 No damage
2 102.38 96.78 Reinforced concrete structures 3.8 2004 No damage
3 626.4 626.4 Lightweight steel structures 0 1996 No damage
4 226.6 226.6 Lightweight steel structures 5.15 2010 No damage
5 1,430 1,430 Steel structures 11.7 2010 No damage
6 660 660 Steel structures 11.7 2010 No damage
7 64.3 123.8 Steel structures 8.2 2011 No damage
8 100.65 96.06 Brick masonry structures 9.6 1996 No damage
9 54.15 54.15 Block masonry structures 0 1981 Moderate damage
10 54.31 54.31 Block masonry structures 0 1980 Moderate damage

3.2 데이터 전처리

예측력이 높은 기계학습 알고리즘을 도출하기 위해서는 유의미한 데이터의 수집 뿐만 아니라, 데이터의 이산화, 이상치 및 잡음 제거, 결측 데이터 처리 및 데이터 정규화 등의 데이터 전처리가 선행되어야 한다(Doughetry, 2012; Garcia et al., 2015; Singh and Singh, 2020).
먼저, 지진피해 예측을 위한 입력변수 선정을 위해 선행연구를 검토하였다. HAZUS-MH에서는 건축물 취약도 산정을 위한 입력변수로 구조유형, 층수, 건축연도, 연면적, 건물 용도 등을 정의하고 있다(FEMA, 2018). 또한 Bhatta and Dang (2024)은 RC 건물을 대상으로 층수, 구조형식, 높이 등 건물 특성과 PGA, PGV 등의 지진동 변수를 결합하여 피해 예측 모델을 제시하였다. 그리고 Nemutlu et al. (2025)은 층수, 연면적, 구조유형, 표층 30 m에 대한 시간 평균 전단파 속도(Vs30) 등을 고려하여 구조특성과 부지특성의 영향을 분석하였다. 이 연구들은 구조형식, 높이, 면적, 연식, 거리 등이 피해예측의 핵심 변수 임을 제시하였다. 이에 따라 본 연구에서는 ① 진앙-건축물 간 거리, ② 건축면적, ③ 연면적, ④ 건축물 형태, ⑤ 높이, ⑥ 건축연식을 입력변수로 설정하고, 피해유무를 목표 변수로 정의하였다. 다만, 개별 건물 수준의 Vs30과 포항지진 당시의 PGA 자료는 충분히 확보되지 않아 해당 변수들을 입력변수에 포함하지 않았다.
데이터 누락 혹은 건축물 높이가 “0.0 m” 등의 신뢰도가 떨어지는 데이터를 제외하여 최종적으로 3,199건의 데이터만을 사용하였다. 이때 전파는 22건, 반파는 76건으로 이상치 제외 전보다 줄어들었다. 진앙지와 건축물 위치 사이의 거리는 건축물 주소를 GeoCode를 활용하여 위경도 좌표로 변경 후 진앙과의 거리로 산출하였다. 건축물의 해석 차원을 줄이고, 계산 효율성을 향상시키기 위해 건축물 형태는 Table 3과 같이 전체 17가지의 세부분류를 강구조, 조적조, 목구조, 철근콘크리트구조, 기타 구조 총 5가지의 대표분류로 재분류하였다. 피해유무는 ‘피해있음’ 클래스와 ‘피해없음’ 클래스 2가지 방식으로 분류하였으며, ‘피해있음’ 클래스에는 전파와 반파 피해를 포함하였고, 나머지는 ‘피해없음’ 클래스로 분류하였다.
Table 3
Reclassification by Structural Type
Main Category Sub-category
Steel Structures Steel structures, Lightweight steel structures, Pre-engineered building structures (PEB), Other steel structures
Masonry Structures Masonry structures, Brick masonry structures, Block masonry structures
Wooden Structures General wooden structures, Log structures, Other wooden structures
Reinforced Concrete Structures Steel reinforced concrete structures, Steel concrete structures, Reinforced concrete structures, Precast concrete structures
Other Structures Other structures
건축물 형태와 피해유무는 문자열 형태로 지정되었기 때문에 One-hot encoding 기법을 활용하여 수치형 벡터로 변환하였다. One-hot encoding은 문자나 단어를 벡터로 표현하는 방식으로, 가령 건축물 형태가 강구조 형태로 지정된 경우 [1, 0, 0, 0, 0]으로, 피해유무 여부에서 피해있음의 경우 [1, 0]으로 지정하였다.
입력변수의 단위 차이로 인한 편향된 학습 결과를 방지하기 위해 진앙거리, 1층 면적, 연면적, 연식을 Min-Max Scaler를 활용하여 정규화하였다. Min-Max Scaler는 Eq. (1)에 따라 정규화되지 않은 데이터를 사전에 정의된 하한값과 상한값 사이로 선형 스케일링하는 방법이다. 여기서 min과 max는 각각 I번째 특성의 최소값과 최대값을 나타낸다(Singh and Singh, 2020). 데이터를 변환하기 위한 하한과 상한은 각각 nMinnMax로 표기되며, 본 논문에서는 nMax는 1, nMin는 0으로 정규화하여, 데이터가 0과 1사이의 값을 갖도록 하였다.
(1)
xi,n'=xi,nmin(xi)max(xi)min(xi)(nMaxnMin)+nMin

3.3 불균형 데이터 처리

지진피해 데이터로 활용 가능한 3,187건 중 전파와 반파의 개수는 98건으로 피해없음 클래스에 대한 과도한 데이터 편중이 발생하였다. 이러한 데이터 불균형을 처리하기 위해 전체 데이터를 Training set과 Test set으로 분리하였으며, 전체 데이터 3,187건 중에 Training set는 총 2,230건, Test set은 총 957건이었다. Training set 중 피해있음 클래스는 68건, 피해없음 클래스는 2,162건이었고, SMOTE와 Random Sampling 적용 결과 Table 4와 같이 클래스 균형을 이루는 것을 확인 할 수 있었다.
Table 4
The Details of Imbalanced Data Resampling in the Training Set
Resampling Damage No damage
None 68 2,162
SMOTE 2,162 2,162
Random Sampling 68 68

3.4 피해판정 예측모델

본 연구에서 검토한 모델들은 각기 다른 접근법을 대표하며, 데이터 불균형 문제를 완화하기 위한 Resampling 기법과 함께 적용되었다. 이를 통해 본 연구에서는 이러한 다양한 기법들의 특징과 성능을 종합적으로 비교⋅분석하여 최적의 모델을 선정하고자 한다. 모델 성능 평가의 핵심 지표는 재현율이 된다. 피해등급의 평가는 일부 정상 건물이 피해 건물로 분류되는 오분류가 발생하더라도, 심각한 피해 건물을 정상으로 판정하는 치명적 오류를 최소화하는 데 우선적인 목적이 있다. 이에 따라 피해 사례의 누락을 최소화하는 탐지 능력을 최우선으로 고려하며, 다양한 기법을 종합적으로 평가하여 지진피해 등급 예측의 정확성과 일반화 성능을 극대화 할 수 있는 최적의 방법론을 도출하고자 한다.
따라서, 건축물 지진피해 등급 예측을 위한 최적 기계학습 모델을 제시하기 위해 Fig. 2와 같은 학습절차를 구성하였다. 먼저 전처리가 완료된 데이터에서 Train set 데이터를 Resampling 전 원본 데이터(None), SMOTE, Random Sampling 방법을 통해 데이터 보강 혹은 제거하는 등의 불균형 데이터 처리를 수행하였다. Resampling 후 KNN, Logistic Regression, Random Forest, Balanced Random Forest, AdaBoost, Gradient Boosting 6가지의 기계학습 모델을 통해 각각의 예측모델을 도출하였다. 개별 예측 모델의 성능을 평가하기 위해 분류행렬을 구성하였고, 정확도, 정밀도, 재현율, F1 지수, ROC 곡선과 AUC를 확인하였다.
Fig. 2
Flowchart of Developing ML Model
kosham-2026-26-1-167-g002.jpg

4. 해석결과

4.1 분류행렬 분석 결과

개별 기계학습 적용한 후 분류행렬 결과는 Table 5에 정리되어 있다. 원본 데이터를 사용한 결과, Logistic Regression과 Balanced Random Forest를 제외한 대부분의 모델에서 TP 값이 매우 낮게 나타났으며, 이는 피해건축물에 대한 탐지 능력이 부족함을 의미한다.
Table 5
Comparison of ML Models based on Confusion Metrics
Resampling Machine learning methods TP FN FP TN
None KNN 2 24 2 929
Logistic Regression 14 12 269 662
Random Forest 3 23 3 928
Balanced Random Forest 14 12 151 780
AdaBoost 2 24 0 931
Gradient Boosting 4 22 6 925
SMOTE KNN 16 10 163 768
Logistic Regression 15 11 275 656
Random Forest 8 18 49 882
Balanced Random Forest 8 18 54 877
AdaBoost 14 12 209 722
Gradient Boosting 14 12 135 796
Random Sampling KNN 16 10 262 669
Logistic Regression 14 12 303 628
Random Forest 21 5 281 650
Balanced Random Forest 21 5 275 656
AdaBoost 18 8 337 594
Gradient Boosting 23 3 325 606
SMOTE 적용 결과, KNN, AdaBoost, Gradient Boosting에서 TP가 증가혀여 피해 탐지 능력이 개선되었으나, 동시에 FP도 같이 증가하였다. 이는 SMOTE가 소수 클래스 표본을 증가시키면서 민감도가 증가된 반면, 과적합 현상이 발생하면서 비피해 건축물이 피해로 오분류된 것으로 해석된다.
반면, Random Sampling의 경우 전반적으로 TP 예측성능이 크게 향상되었으며, 특히 Gradient Boosting의 경우 TP가 23건으로 모든 모델에서 가장 우수한 성능을 보였다. Random Forest와 Balanced Random Forest도 피해있음 클래스 예측에 효과적이었다. 다만, SMOTE와 마찬가지로 다수 클래스 데이터의 일부 제거로 인해 FP가 일정 수준 증가하는 것을 확인할 수 있었다.
종합적으로 살펴보면, 원본 데이터는 오분류가 적은 반면, 예측 능력도 떨어졌으며, Resampling 적용 시 예측능력이 향상된 반면, 오분류도 같이 증가하는 과적합 문제가 발생하는 등의 신뢰성 부분에는 한계가 있었다. 다만, 본 연구는 심각한 피해건축물의 누락을 최소화하고, 탐지 성능을 극대화할 수 있는 데이터 기반 피해판정 모델을 구축하는데 있으므로, FP 증가를 감수하더라도 TP 탐지율이 높은 더 유효하다고 볼 수 있다. 이러한 관점에서 Random Sampling을 적용한 Gradient Boosting 모델이 가장 높은 탐지 성능을 보였다. 이는 다수 클래스의 동질성이 높아 일부 데이터 제거가 성능 저하로 이어지지 않았고, 오히려 SMOTE 적용 시 합성 표본이 과적합과 노이즈를 유발해 일부모델에서 성능이 낮아지는 결과를 나았다고 볼 수 있다.

4.2 각 방법별 성능비교

피해 판정 예측 성능을 확인하기 위해 정확도, 정밀도, 재현율, F1 지수, ROC curve 및 AUC 값을 도출하였고, Table 6Fig. 3과 같이 나타내었다.
Table 6
Performance Estimation of ML Models under the Different Resampling Methods
Resampling Machine learning methods Accuracy Precision Recall F1-score AUC
None KNN 0.973 0.500 0.077 0.133 0.696
Logistic Regression 0.706 0.049 0.538 0.091 0.683
Random Forest 0.973 0.500 0.115 0.188 0.747
Balanced Random Forest 0.830 0.085 0.538 0.147 0.787
AdaBoost 0.975 1.000 0.077 0.143 0.719
Gradient Boosting 0.971 0.400 0.154 0.222 0.759
SMOTE KNN 0.819 0.089 0.615 0.156 0.754
Logistic Regression 0.701 0.052 0.577 0.095 0.691
Random Forest 0.930 0.140 0.308 0.193 0.771
Balanced Random Forest 0.925 0.129 0.308 0.182 0.775
AdaBoost 0.769 0.063 0.538 0.112 0.744
Gradient Boosting 0.846 0.094 0.538 0.160 0.764
Random Sampling KNN 0.716 0.058 0.615 0.105 0.705
Logistic Regression 0.671 0.044 0.538 0.082 0.640
Random Forest 0.701 0.070 0.808 0.128 0.786
Balanced Random Forest 0.707 0.071 0.808 0.130 0.792
AdaBoost 0.639 0.051 0.692 0.094 0.685
Gradient Boosting 0.657 0.066 0.885 0.123 0.784
Resampling Machine learning methods Accuracy Precision Recall F1-score AUC
None KNN 0.973 0.500 0.077 0.133 0.696
Logistic Regression 0.706 0.049 0.538 0.091 0.683
Random Forest 0.973 0.500 0.115 0.188 0.747
Balanced Random Forest 0.830 0.085 0.538 0.147 0.787
AdaBoost 0.975 1.000 0.077 0.143 0.719
Gradient Boosting 0.971 0.400 0.154 0.222 0.759
SMOTE KNN 0.819 0.089 0.615 0.156 0.754
Logistic Regression 0.701 0.052 0.577 0.095 0.691
Random Forest 0.930 0.140 0.308 0.193 0.771
Balanced Random Forest 0.925 0.129 0.308 0.182 0.775
AdaBoost 0.769 0.063 0.538 0.112 0.744
Gradient Boosting 0.846 0.094 0.538 0.160 0.764
Random Sampling KNN 0.716 0.058 0.615 0.105 0.705
Logistic Regression 0.671 0.044 0.538 0.082 0.640
Random Forest 0.701 0.070 0.808 0.128 0.786
Balanced Random Forest 0.707 0.071 0.808 0.130 0.792
AdaBoost 0.639 0.051 0.692 0.094 0.685
Gradient Boosting 0.657 0.066 0.885 0.123 0.784
Fig. 3
ROC Curve of ML Models under the Different Methods
kosham-2026-26-1-167-g003.jpg
먼저 원본 데이터를 활용한 경우, 전반적으로 정확도는 높은 수준을 기록하였으나, 재현율이 낮아 피해 사례 탐지에 한계가 있었다. 특히 KNN과 AdaBoost는 정확도가 각각 0.973과 0.975로 매우 높은 값을 나타냈으나, 재현율은 0.077로 피해 판정 민감도가 현격히 떨어지는 것을 확인할 수 있었다. Logistic Regression과 Balanced Random Forest는 피해 사례 검출 능력 면에서 일정 성과를 보여주기는 하였으나, 0.1 이하의 낮은 정밀도가 나타났다. 이는 FP가 다수 발생하여 정상 사례 분류 성능이 저하된 결과이다.
SMOTE를 적용한 경우, 소수클래스가 인위적으로 보강되면서 대부분 모델에서 재현율이 개선되었다. 일부 모델에서는 FP 증가로 인한 정밀도 저하가 확인되었다. 한편, Random Sampling의 경우, 전반적으로 TP 예측 능력이 크게 향상되었으며, 특히 Gradient Boosting이 재현율 0.885로 가장 높은 성능을 보였다. 그러나 피해사례 비중이 인위적으로 확대되면서 일부 모델에서 정밀도와 F1-score는 다소 낮아지는 경향을 보였다. 이는 피해 판정 민감도의 증가로 인해 오분류가 확대된 결과로 해석된다. 또한 SMOTE는 인접 샘플 간 보간을 통해 새로운 데이터를 생성하는 과정에서 실제 피해 사례의 불균질한 분포를 충분히 반영하지 못했을 가능성이 있다. 반면 Random Sampling은 기존의 실제 데이터 분포를 유지한 상태에서 표본 수를 균형화하므로, 모델이 포항지진의 실제 피해 특성을 보다 직접적으로 학습할 수 있었던 점이 성능 향상으로 이어진 것으로 판단된다.
Fig. 3은 ROC curve 및 각 모델 별 AUC 값을 나타낸다. 먼저 원본 데이터를 사용한 경우 Balanced Random Forest와 Gradient Boosting이 상대적으로 우수한 성능을 보였으며, Logistic Regression과 KNN은 낮은 성능을 보였다. 이는 데이터 불균형으로 인해 단순 분류 모델들이 소스 클래스에 해당하는 피해 사례를 효과적으로 학습하지 못하여 나타난 것으로 해석된다.
SMOTE를 적용하면, 전반적으로 AUC 값이 향상되었으며 특히, KNN은 원본 데이터를 사용한 경우보다 성능이 크게 개선되었고, Random Forest와 Balanced Random Forest에서도 비교적 안정적인 성능 향상이 관찰되었다. 이는 SMOTE가 소수 클래스인 ‘피해있음’ 데이터를 효과적으로 보완하여 단순 분류기뿐만 아니라 앙상블 모델에서도 성능 개선을 유도한 결과로 해석된다.
Random Sampling도 AUC가 0.640~0.792 범위로 산출되었으며, 특히 Random Forest, Balanced Random Forest, Gradient Boosting과 같은 트리 기반 앙상블 모델에서 분류 성능이 가장 안정적이고, 우수한 성능을 보였다. 이는 데이터 불균형이 완화되면서 모델이 피해 사례의 특성을 보다 효과적으로 학습할 수 있었기 때문으로 해석된다.
본 연구목적은 지진 발생 이후 피해등급 판정의 객관성과 신뢰성을 제고하는데 있다. 따라서 일부 정상 건축물이 피해로 잘못 분류되더라도 심각한 피해 건축물의 누락을 최소화하는 탐지 민감도의 확보가 더 중요하다. 이러한 관점에서 Random Sampling 기반 트리 앙상블 모델인 Random Forest, Balanced Random Forest, Gradient Boosting이 적합한 것으로 판단된다. 다만, 높은 정확도와 재현율, AUC에도 불구하고 불균형 데이터에 따른 낮은 정밀도와 F1 지수는 개선이 필요하다. 또한 본 연구에서는 포항지진 데이터를 중심으로 분석을 수행하였기 때문에 Vs30과 PGA 등이 입력변수로 활용되지 않은 한계가 있다. 향후 경주지진 피해 자료를 포함한 다양한 지진피해 자료와 Vs30, PGA 등의 입력변수가 추가된다면, 보다 정확하고 일관된 피해 등급 판정모델로 고도화할 수 있을 것으로 기대된다.

5. 결 론

2017년 발생한 포항지진은 진앙이 도심과 인접하여 광범위한 피해를 유발하였다. 이러한 사례는 기존 현장조사 중심의 피해평가 방식이 대규모 재난 발생 신속성과 객관성 확보에 한계가 있음을 보여준다.
따라서 신속한 피해판정을 위해 포항지진 피해 데이터를 활용하여 KNN, Logistic Regression, Random Forest, Balanced Random Forest, AdaBoost, Gradient Boosting 총 6가지 기계학습 피해판정 모델을 구축하였다. 입력변수로는 진앙지와의 거리, 건축면적, 연면적, 구조유형, 높이, 건축연식 총 6개의 변수를 사용하였으며, 데이터 불균형 문제를 고려하기 위해 원본 데이터, SMOTE, Random Sampling 세 가지 Resampling 기법을 적용하였다.
분석 결과 원본 데이터는 높은 정확도를 보였으나, 낮은 재현율로 인해 피해 사례 누락 위험이 있었다. SMOTE는 소수 클래스에 대한 탐지력이 개선되었고, 재현율을 크게 향상시켰으나, 정밀도가 저하되는 한계점이 나타났다. 반면, Random Sampling을 사용한 경우, 특히 트리 기반 앙상블 모델인 Random Forest, Balanced Random Forest, Gradient Boosting에서 재현율과 AUC에서 가장 우수한 성능을 나타냈으며, 피해사례 탐지율 확보 측면에서 가장 적합한 대안으로 판단되었다.
본 연구 결과는 실제 포항지진 피해조사 데이터를 활용하여 기계학습 기반 피해예측 모델을 구축하였으며, 기존의 구조해석 기반 시뮬레이션 데이터를 사용한 연구들과 달리 실증 피해 데이터를 직접 활용했다는 점에서 차별성이 있다. 또한 지진 발생 후 피해등급을 신속하고 일관되게 산정할 수 있는 방법론을 제시하였으며, 향후 데이터 기반 피해평가체계 및 재난 대응 의사결정 지원에 활용될 수 있다. 다만 본 연구는 Vs30, PGA 등 지반 특성을 포함하지 못한 한계가 있다. 향후 경주지진과 같은 추가적인 국내 지진 사례와 지반 특성을 반영한 입력변수가 확장된다면, 보다 정확하고 신뢰도 높은 기계학습 기반 지진피해 예측 모델을 구축할 수 있을 것으로 기대된다.

감사의 글

본 연구는 행정안전부 국립재난안전연구원의 지원(“제4기 단층을 활용한 지진지해 평가기술 연구”, “NDMI-PR-2025-08-04”)에 의해 수행되었습니다. 이에 감사드립니다.

References

1. Ali, H, Salleh, M.N.M, Hussain, K, Ahmad, A, Ullah, A, Muhammad, A, et al (2019). A review on data preprocessing methods for class imbalance problem. International Journal of Engineering and Technology, Vol. 8, No. 3, pp. 390-397.
crossref pdf
2. Altman, N.S (1992). An introduction to kernel and nearest- neighbor nonparametric regression. The American Statistician,, Vol. 46, No. 3, pp. 175-185.
crossref
3. Bhatta, S, and Dang, J (2024). Machine learning-based classification for rapid seismic damage assessment of buildings at a regional scale. Journal of Earthquake Engineering, Vol. 28, No. 7, pp. 1861-1891.
crossref
4. Bradley, A.P (1997). The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition, Vol. 30, No. 7, pp. 1145-1159.
crossref
5. Breiman, L (2001). Random forests. Machine Learning, Vol. 45, No. 1, pp. 5-32.
crossref pmc pdf
6. Caruana, R, and Niculescu-Mizil, A (2006). An empirical comparison of supervised learning algorithms. Proceedings of the 23rd International Conference on Machine Learning (ICML), pp. 161-168.
crossref
7. Chawla, N.V, Bowyer, K.W, Hall, L.O, and Kegelmeyer, W.P (2002). SMOTE:Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, Vol. 16, pp. 321-357.
crossref pmc pdf
8. Chen, C, Liaw, A, and Breiman, L (2004). Using random forest to learn imbalanced data (Technical report 666).. University of California, Berkeley, Department of Statistics..

9. Chen, T (2016). XGBoost:A scalable tree boosting system. Cornell University..

10. Cover, T, and Hart, P (1967). Nearest neighbor pattern classification. IEEE Transactions on information Theory, Vol. 13, No. 1, pp. 21-27.
crossref pmc
11. Cox, D.R (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society:Series B (Methodological), Vol. 20, No. 2, pp. 215-242.
crossref pdf
12. Domingos, P (2012). A few useful things to know about machine learning. Communications of the ACM, Vol. 55, No. 10, pp. 78-87.
crossref
13. Doughetry, G (2012). Pattern recognition and classfication:An introduction. Springer Science &Business Media..

14. Fawcett, T (2006). An introduction to ROC analysis. Pattern Recognition Letters, Vol. 27, No. 8, pp. 861-874.
crossref
15. FEMA (2018). Hazus-MH 2.1 technical manual:Earthquake model, Washington, D.C.

16. Freund, Y, and Schapire, R.E (1997). A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, Vol. 55, No. 1, pp. 119-139.
crossref
17. Friedman, J.H (2001). Greedy function approximation:A gradient boosting machine. Annals of Statistics, pp. 1189-1232.
crossref
18. Garcia, S, Luengo, J, and Herrera, F (2015). Data precessing in data mining. Cham, Switzerland: Springer International Publishing, 72.

19. Ghosh, K, Bellinger, C, Corizzo, R, Branco, P, Krawczyk, B, and Japkowicz, N (2024). The class imbalance problem in deep learning. Machine Learning, Vol. 113, No. 7, pp. 4845-4901.
crossref pdf
20. Han, J.H, and Kim, J.S (2020). Seismic vulnerability assessment and mapping for 9.12 gyeongju earthquake based on machine learning. Korean Society and Remote Sensing, Vol. 36, pp. 1367-1377.

21. He, H, and Garcia, E.A (2009). Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, Vol. 21, No. 9, pp. 1263-1284.
crossref pmc
22. Hosmer, D.W, Lemeshow, S, and Sturdivant, R.X (2013). Applied logistic regression. (3rd ed.). Wiley.

23. Kang, T.W, Kang, J.D, Oh, K.Y, and Shin, J.U (2024). Machine learning-based rapid seismic performance evaluation for seismically-deficient reinforced concrete frame. Journal of the Earthquake Engineering Society of Korea, Earthquake Engineering Society of Korea, Vol. 28, pp. 193-203.
crossref
24. Lee, G.Y, To, Q.B, Jo, H.R, Shin, J.U, and Lee, K.H (2025). Effectiveness of data-driven section shape ratios for seismic performance-based artificial intelligence of piloti-type buildings. Journal of the Earthquake Engineering Society of Korea, Earthquake Engineering Society of Korea, Vol. 29, pp. 77-84.
crossref
25. MOIS (2018). White papaer on the pohang earthquake. Korea (포항지진백서, 2018, 대한민국, 행정안전부)..

26. NDMI (2021). Casebook on seismic damage investigation of private facilities.. Korea (사유시설 지진피해 조사 사례집, 2021, 대한민국, 행정안전부)..

27. Nemutlu, Ö.F, Özçelik, S.T.A, and Freeshah, M (2025). A machine learning framework for regional damage assessment using multi-station seismic parameters:Insights from the 2023 kahramanmaraşearthquakes. Buildings, Vol. 15, No. 18, pp. 3326.
crossref
28. Nguyen, H.D, LaFave, J.M, Lee, Y.J, and Shin, M (2022). Rapid seismic damage-state assessment of steel moment frames using machine learning. Engineering Structures, Vol. 252, pp. 113737.
crossref
29. Pearson, K (1894). Contributions to the mathematical theory of evolution. Philosophical Transactions of the Royal Society of London. A, Vol. 185, pp. 71-110.

30. Singh, D, and Singh, B (2020). Investigating the impact of data normalization on classification performance. Applied Soft Computing, Vol. 97, pp. 105524.
crossref
31. Weiss, G.M (2004). Mining with rarity:A unifying framework. SIGKDD Explorations Newsletter, Vol. 6, No. 1, pp. 7-19.
crossref
32. Xie, Y, Sichani, M.E, Padgett, J, and DesRoches, R (2020). Machine learning applications in earthquake engineering:Literature review and case studies. In 17th World Conference on Earthquake Engineering.



ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
AUTHOR INFORMATION
Editorial Office
1014 New Bldg., The Korea Science Technology Center, 22 Teheran-ro 7-gil(635-4 Yeoksam-dong), Gangnam-gu, Seoul 06130, Korea
Tel: +82-2-567-6311    Fax: +82-2-567-6313    E-mail: master@kosham.or.kr                

Copyright © 2026 by The Korean Society of Hazard Mitigation.

Developed in M2PI

Close layer
prev next