기상요인을 활용한 머신러닝 기반 겨울철 교통사고 위험 예측: 경기도 5개 ASOS 관측지점 사례 분석

Machine-Learning-Based Prediction of Winter Traffic-Accident Risk Using Meteorological Factors: A Case Study of Five ASOS Stations in Gyeonggi-do, South Korea

Article information

J. Korean Soc. Hazard Mitig. 2025;25(6):379-389
Publication date (electronic) : 2025 December 31
doi : https://doi.org/10.9798/KOSHAM.2025.25.6.379
* 정회원, 호서대학교 미세먼지 및 탄소중립연구소 연구교수(E-mail: tnwkdnjs2012@naver.com)
* Member, Research Professor, Fine Dust and Carbon Neutrality Research Institute, Hoseo University
** 정회원, 호서대학교 재난안전시스템학과 석사과정(E-mail: zip_321@naver.com)
** Member, Master’s Course, Department of Disaster Safety Systems, Hoseo University
*** 정회원, 선문대학교 건설시스템안전공학과 교수(E-mail: hydrokes@sunmoon.ac.kr)
*** Member, Professor, Department of Construction Systems Safety Engineering, Sunmoon University
**** 정회원, 호서대학교 토목공학과 교수(E-mail: gunhuic@gmail.com)
**** Member, Professor, Department of Civil Engineering, Hoseo University
**** 교신저자, 정회원, 호서대학교 토목공학과 교수(Tel: +82-41-54-5114, Fax: +82-41-540-5798, E-mail: gunhuic@gmail.com)
**** Corresponding Author, Member, Professor, Department of Civil Engineering, Hoseo University
Received 2025 October 21; Revised 2025 October 21; Accepted 2025 October 30.

Abstract

본 연구는 겨울철 기상요인이 교통사고 발생에 미치는 영향을 분석하고, 이를 기반으로 사고 발생 위험을 예측할 수 있는 머신러닝 기반 모델을 개발하는 것을 목적으로 한다. 연구 대상지는 종관기상관측소(ASOS)가 위치한 경기도 5개 지역(동두천, 파주, 양평, 이천, 수원)으로 선정하였다. 2015년부터 2023년까지의 겨울철 교통사고 자료는 경찰청 교통사고분석시스템(TAAS)에서 수집하였으며, 기상 자료는 기상청 종관기상관측자료를 활용하였다. 종속변수는 사고 발생 유무를 등급화하여 구축하였으며, 독립변수는 기온, 일사량, 풍속, 전운량, 습도 등 총 10개의 기상요인을 포함하였다. 예측 모델은 Softmax Regression, Random Forest, XGBoost 세 가지 알고리즘으로 구성하였으며, 예측 정확도와 변수 중요도 분석을 통해 모델 성능을 비교하였다. 연구 결과, Random Forest가 모든 지역에서 가장 높은 예측 정확도를 보였으며, 기온 외에도 일사량과 풍속, 전운량 등의 기상요인이 사고 발생에 유의한 영향을 미치는 것으로 나타났다. 본 연구는 기상요인 기반 도로 안전 관리 및 겨울철 재난 대응 전략 수립의 기초자료로 활용될 수 있다.

Trans Abstract

This study aimed to develop a machine-learning-based predictive model for winter traffic-accident risk using meteorological variables and analyze the influence of weather factors on accident occurrence. The study area consisted of five cities in Gyeonggi-do, South Korea—Dongducheon, Paju, Yangpyeong, Icheon, and Suwon—where automated surface observing system (ASOS) stations are located. Winter traffic-accident data from 2015 to 2023 were collected from the traffic accident analysis system (TAAS), and meteorological observations were obtained from the Korea Meteorological Administration. The dependent variable was constructed based on accident-occurrence levels; ten meteorological variables, including temperature, solar radiation, wind speed, humidity, and cloud cover, were the independent variables. Softmax Regression, Random Forest, and XGBoost models were employed for prediction, and their performances were compared in terms of prediction accuracy and feature importance. The results revealed that the Random Forest model demonstrated the highest predictive performance across all regions. In addition, solar radiation, wind speed, and cloud cover significantly influenced accident occurrence beyond the widely assumed impact of temperature alone. These findings highlight the potential of machine-learning models as decision-support tools for winter road-safety management and proactive accident-prevention policies.

1. 서 론

최근 기후변화로 인한 기상이변이 전 세계적으로 증가하면서, 우리나라에서도 대설 및 도로결빙에 따른 교통사고 위험성이 크게 높아지고 있다. 대설은 태풍 및 호우 등 풍수해에 이어 경제적 피해가 큰 자연재난으로, 2024년 11월에는 경기 남부를 중심으로 약 4,509억 원의 피해가 발생한 바 있다(MPSS, 2024). 특히 도로결빙으로 인한 교통사고는 일반 사고보다 치사율이 약 1.7배 높으며, 2018년부터 2022년까지 발생한 결빙 사고의 79%는 12~1월에 집중되었다(Newsis, 2023).

겨울철 교통사고에 대한 관심이 증가하면서, 기상요인이 사고 발생에 미치는 영향을 규명하고 이를 예측하려는 연구가 활발히 수행되어 왔다. 기상요인과 사고 상관성 분석 연구에서는 Lee et al. (2015)이 기상자료 기반 사고 영향 요인을 도출하였고, Lim and Kim (2020)Lee et al. (2022)은 노면온도⋅기온 등을 활용한 결빙 및 피해 예측을 수행하였다. 또한 Kim et al. (2018)은 대설 피해 요인을, Lee et al. (2017)Lee et al. (2019)은 기상⋅도로정보 기반 노면 상태를 분석하여 기온⋅복사⋅도로 구조가 사고와 연관됨을 보고하였다.

머신러닝 기반 사고 예측 연구도 활발히 이루어졌다. Nam et al. (2021)Kim and Cho (2025)은 다양한 알고리즘(Random Forest, XGBoost, KNN, DNN 등)을 비교하여 사고 심각도 또는 사상자 수를 예측하였으며, Mirzahossein et al. (2022)Lee et al. (2024)은 신경망 및 Random Forest를 활용해 교통사고 심각도 분석을 수행하였다. 최근에는 결빙 및 블랙아이스 특화 연구로, Jang (2024)Na et al. (2021)이 기상⋅공공데이터를 활용한 블랙아이스 예측 및 위험지수를 제안하였고, Kuşkapan et al. (2024)은 경사⋅노면조건과 사고의 관계를, Lee et al. (2017)Lee et al. (2019)은 도로 상태 예측에 적용하였다.

그러나 이러한 연구들은 주로 사고 심각도나 사상자 수 예측 또는 특정 도로구간 분석에 집중되어 있으며, 지역별 기상특성과 ‘사고 발생 유무(등급)’을 동시에 반영한 예측 연구는 부족하다. 따라서 본 연구는 경기도 5개 ASOS 관측지점을 대상으로 기상요인 기반 다중분류 사고위험 예측모형을 구축하고자 한다.

이에 본 연구는 교통사고 다발지역인 경기도 내 종관기상관측소(ASOS)가 위치한 5개 시⋅군(파주, 동두천, 수원, 이천, 양평)을 대상으로, 기상요인에 따른 겨울철 교통사고 발생 유무(위험 등급)를 예측하는 머신러닝 기반 모델을 구축하였다. 2015-2023년 겨울철 교통사고 자료(TAAS)와 동기간 ASOS 기상요인을 통합하여 Softmax Regression, Random Forest, XGBoost 세 가지 모델의 예측 성능을 비교하고, 변수 중요도를 통해 사고 유발에 영향을 미치는 핵심 기상인자를 도출하였다.

본 연구의 차별성은 다음과 같다. 첫째, 기존의 사고 심각도 중심이 아닌 발생 유무(등급) 예측에 초점을 맞추어 정책적 의사결정에 즉시 활용 가능한 산출물을 제시한다. 둘째, 동일한 모형 체계를 ASOS 5개 지역에 일관되게 적용함으로써 지역별 기상 특성이 예측 성능과 중요 변수에 미치는 차이를 정량 비교하였다. 셋째, 세 가지 머신러닝 기법의 체계적 비교를 통해 실제 운용을 위한 최적 예측체계의 근거를 제공하였다. 이러한 접근은 겨울철 교통사고의 사전 경보 및 제설⋅안전 관리 전략 수립에 기초자료로 기여하며, 향후 적설⋅노면온도 등 추가 변수 및 교통량⋅도로 구조 등 비기상 인자를 통합한 고도화로 확장될 수 있다.

2. 방법론

2.1 Softmax Regression

Softmax Regression은 로지스틱 회귀분석처럼 단순히 이진 분류를 위한 모델이 아닌, 여러 개의 다중 클래스를 분류하기 위한 다항 로지스틱 회귀이다. Softmax 함수는 로지스틱 회귀분석의 확장으로, 다중 클래스 분류(multi-class classification) 문제를 다루기 위해 1970년대 후반에 도입되었다. Nelder and Wedderburn (1972)은 Generalized Linear Models (GLM) 이론을 통해 로지스틱 회귀의 확장을 다루었고, 이 이론에서 Softmax 함수는 다중 클래스를 분류하기 위한 중요한 도구로 등장했다. Softmax 회귀는 기계 학습에서 딥러닝(Deep Learning) 및 신경망(Neural Networks)과 결합되면서 더욱 정확한 기법으로 발전하기 시작했다. Softmax Regression은 해당 클래스에 대한 점수를 선형적으로 계산하고, 함수로 확률 값을 변환하기에 간단하고 직관적이다. 모든 클래스에 대해 확률 분포를 동시에 예측할 수 있기에 다중 분류에도 적합하다. 이 외에도 모델을 훈련시킨 후 추론 시에 계산이 상대적으로 빠르고 효율적인 장점이 있다. Fig. 1은 Softmax 회귀분석의 구조체계를 나타낸다.

Fig. 1

Softmax Regression Analysis Structure

2.2 Random Forest

Random Forest는 의사결정트리의 과적합 문제, 데이터의 분포가 일정하지 않을 시 발생하는 노이즈현상 등의 단점을 개선하여 개발된 모델이다. Random Forest는 구축된 데이터에서 무작위 추출 후 feature를 선택한 후에 선택된 feature를 이용해 전체 데이터에서 샘플링하여 트리를 구축한다. 이러한 작업을 반복하여 결정트리를 만들고 이를 분석하는 과정을 거친다. Random Forest는 과적합을 일으키는 부분만 제거하기 때문에 과적합 문제를 일으킬 가능성이 낮고, 전체 모델 성능 또한 올라가는 가장 큰 장점이 있다. 또한 서로 다른 특성의 트리들을 무작위(Random)로 구성하는 임의성을 지니며, 서로가 연관되지 않는 독립적인 비상관적인 특징을 지닌다는 장점이 있다. 이 외에도 결측치를 다루기 쉬워 대용량 데이터 처리에 효과적이고 구축한 데이터 중 상대적으로 중요한 변수를 선정 및 순위를 구하는 것이 가능한 장점 등이 있다. Random Forest의 구조체계의 이해를 위해 Fig. 2로 나타내었다.

Fig. 2

Random Forest Structure

2.3 XGBoost

회귀 모델 방식 중 하나인 의사결정 트리는(Decision Trees) 과적합이 쉽게 이루어지는 단점이 있다. 따라서 병렬처리로 작업을 진행하고 과적합을 최소화하며, 의사결정 트리의 모델에 잔차를 학습시키는 부스팅 기법을 적용한 머신러닝 모델이 XGBoost라고 보면 된다. XGBoost는 Gradient Boosting framework를 사용해서 상대적으로 약한 결정 트리를 강력한 예측으로 결합하는 방식이다. 또한 트리에 불필요한 노드를 제거하기 때문에 더 간단하고 해석하기 쉬운 모델을 만들 수 있다는 장점이 있다. XGBoost의 구조체계의 이해를 위해 Fig. 3에 시각화 하였다.

Fig. 3

XGBoost Structure

2.4 머신러닝 예측모형의 구축 및 적용 절차

본 연구의 예측 모형은 동일한 기상자료를 입력변수로, 교통사고 발생 등급(Class A~C)을 종속변수로 설정하여 구축되었다. 전체 자료는 모델의 일반화 성능을 확보하기 위하여 무작위로 학습용(70%)과 검증용(30%) 데이터로 분할하였으며, 사고 등급 간 불균형이 발생하지 않도록 계층적 표본추출 방식을 적용하였다. 각 머신러닝 알고리즘은 동일한 데이터셋 구조와 분류 등급 체계를 기반으로 학습되었으며, 모델 간 성능 비교가 가능하도록 입력 변수, 평가 지표, 데이터 구성 조건을 동일하게 유지하였다.

Softmax 회귀모형은 다중 클래스 분류 구조로 적용하여 각 기상요인에 대한 선형 조합을 기반으로 사고 등급별 발생 확률을 계산하였다. 학습 과정에서는 모델 수렴 조건과 정규화 항을 고려하여 과적합을 방지하였으며, 분류 결과는 예측 확률 중 가장 높은 등급으로 결정하였다.

Random Forest는 다수의 결정트리를 무작위 특성 조합으로 생성한 후, 각 트리의 투표 결과를 집계하여 최종 등급을 산출하였다. 학습 시에는 부트스트랩 표본을 기반으로 트리를 반복 생성하였으며, 트리의 개수와 노드 분리 시 고려되는 변수 수는 예측 성능과 안정성을 고려하여 설정하였다. 또한 각 변수의 중요도는 예측 정확도 감소(Mean Decrease Accuracy)와 지니 불순도 감소(Mean Decrease Gini)를 통해 정량화하였다.

XGBoost는 기초 결정트리를 순차적으로 학습시키면서 오분류된 사례를 보완해 나가는 방식으로 적용하였다. 분류 문제 특성에 맞게 다중 클래스 손실함수를 사용하였으며, 학습률, 최대 트리 깊이, 반복 학습 횟수 등 주요 하이퍼파라미터는 기준값을 유지하되 검증 자료의 성능 변화를 통해 과적합 여부를 점검하였다. 변수 중요도는 Gain 지표를 활용하여 각 기상요인이 손실 감소에 기여한 정도로 산정하였다.

모형 성능 평가는 검증 데이터에 대한 분류 정확도(Accuracy), 혼동행렬(Confusion Matrix), 변수 중요도 지표를 중심으로 수행하였다. 이를 통해 세 가지 모델의 예측력과 적용 가능성을 비교하고, 겨울철 교통사고 발생에 영향을 미치는 주요 기상 요인을 도출하였다.

3. 데이터 구축 및 분석

3.1 대상지역 선정

본 연구는 겨울철 기상요인과 교통사고 발생 간의 상관성을 정량적으로 분석하고 예측모형을 구축하기 위해 연구 대상 지역을 선정하였다. 우선, 전국 교통사고 현황을 파악하기 위해 경찰청 교통사고분석시스템(TAAS)에서 제공하는 2015년부터 2023년까지의 겨울철 교통사고 자료를 수집 및 분석하였다. 분석 결과, 경기도는 동기간 총 208,850건의 교통사고가 발생하여 전국 17개 광역지방자치단체 중 가장 높은 사고 발생 빈도를 보였다. 이러한 결과는 기상 조건 변화에 취약한 대도시⋅도심 외곽⋅내륙 산지형 지역이 혼재된 경기도가 겨울철 도로결빙 위험 평가의 적합한 연구 대상임을 시사한다.

또한 겨울철 교통사고는 낮은 기온과 결빙, 기상 악화 등 환경 요인의 영향을 직접적으로 받기 때문에, 정확한 사고 원인 진단과 예측을 위해서는 기상 관측 자료의 신뢰성이 중요하다. 이에 따라 본 연구는 기상청의 종관기상관측시스템(ASOS)이 설치된 경기도 내 5개 시군(동두천, 파주, 양평, 이천, 수원)을 최종 연구대상 지역으로 선정하였다. 이들 지역은 기상자료의 연속성과 신뢰성이 확보되어 있으며, 경기 북부 내륙, 동부 산지, 남부 평야 등 상이한 기후⋅지형 특성을 반영하여 지역 간 비교 분석이 가능하다는 점에서 연구 목적에 부합한다. 연구 대상 지역의 공간적 위치는 Fig. 4에 나타내었다.

Fig. 4

General Weather Observation Area: Dongducheon, Paju, Yangpyeong, Icheon, Suwon

3.2 종속변수 및 독립변수 구축

본 연구에서는 기상요인 기반 겨울철 교통사고 예측 모델을 구축하기 위해 종속변수와 독립변수를 체계적으로 구성하였다. 종속변수는 예측 대상인 교통사고 발생 특성을 반영하기 위해 일별 사고 건수를 기반으로 정의하였다. 교통사고 자료는 경찰청에서 운영하는 교통사고분석시스템(TAAS)으로부터 2015년 12월부터 2023년 2월까지의 겨울철(12월-2월) 자료를 수집하였다. 본 연구에서는 기상자료와의 연계성을 확보하기 위해 기상청 종관기상관측소(ASOS)가 설치된 경기도 5개 시⋅군(동두천, 파주, 양평, 이천, 수원)을 분석 대상으로 선정하였으며, 해당 지역에서 동일 기간 동안 발생한 교통사고 데이터를 추출하였다.

TAAS 자료는 일 단위 사고 건수로 구성되며, 본 연구에서는 머신러닝 기반 분류 모델의 학습 안정성을 고려하여 사고가 발생한 일자만을 분석에 포함하였다. 이는 사고가 전혀 없었던 0건 데이터가 다수 포함될 경우 종속변수의 분포가 한쪽으로 치우치는 데이터 불균형 문제가 나타나고, 예측 모델 학습 성능을 저하시킬 수 있기 때문이다. 분석 결과, 연구기간 동안 겨울철 교통사고는 수원에서 19,708건으로 가장 많이 발생하였으며, 파주 6,826건, 이천 4,144건, 양평 1,891건, 동두천 1,428건 순으로 집계되었다. 이러한 결과는 지역별 교통량 규모와 기상 특성 차이가 사고 발생 빈도에 영향을 미친 것으로 해석될 수 있으며, Fig. 5는 연구 대상 지역별 사고 발생 분포를 시각적으로 보여준다.

Fig. 5

Distribution of Winter Traffic Accidents in the Five ASOS Observation Regions of Gyeonggi-do (2015-2023)

독립변수는 교통사고 발생과 직접적 또는 간접적으로 관련 있는 기상요소를 중심으로 선정하였다. 기상자료는 기상청 종관기상관측시스템(ASOS)의 일 단위 관측값을 활용하였으며, 최저기온, 평균습도, 최저습도, 강수량, 평균이슬점온도, 일사량, 지면온도, 평균풍속, 증기압, 전운량 등 총 10개의 변수를 구축하였다(Table 1). 이러한 기상요소는 도로 결빙과 미끄럼 사고에 직접적인 영향을 미치는 주요 요인으로 알려져 있으며, 특히 최저기온은 결빙 여부를 결정하는 핵심 변수이고, 풍속과 전운량은 노면 온도 변화와 시정 저하를 통해 교통사고를 유발할 수 있다. 또한 지면온도와 일사량은 노면 해빙 및 재결빙 과정과 밀접한 관련이 있어 교통안전 측면에서 중요한 설명변수로 활용된다.

10 Meteorological Factors That Affect Road Ice

기상자료와 사고자료는 서로 다른 출처에서 수집되므로 시간 단위 일치와 자료 정합성을 확보하는 전처리 과정이 필요하였다. 본 연구에서는 ASOS 관측자료를 일 단위로 변환하여 사고자료와 시계열 구조를 통일하였으며, 결측값은 전체 데이터의 3% 미만에서 발생하여 평균 대체법(mean imputation)을 적용하였다. 한편, 겨울철 교통사고의 주요 원인으로 널리 알려진 적설심과 최심신적설 데이터를 변수 후보군에 포함하여 분석을 검토하였으나, 실제 적용에서는 제외하였다. 이는 경기도 ASOS 관측지점에서 제공되는 적설 관련 자료의 결측률이 50% 이상으로 매우 높고, 관측 주기 및 데이터 연속성이 지역별로 상이하여 시간적⋅공간적 일관성이 확보되지 않았기 때문이다. 특히 적설 자료는 관측 누락과 0 cm 처리 사례가 혼재되어 있어, 이를 그대로 학습 데이터에 포함할 경우 데이터 왜곡과 예측 편의(bias)를 유발하여 모형의 신뢰성을 저하시킬 위험이 있다. 따라서 본 연구에서는 모형의 통계적 타당성과 예측 안정성을 확보하기 위해 적설 관련 변수는 분석에서 제외하였다. 다만 적설은 겨울철 교통사고 발생에 중요한 영향 요인이므로, 향후 고해상도 적설자료 확보 또는 재분석이 가능한 기상 재분석 자료도입을 통해 모형 확장 연구의 핵심 변수로 재활용할 계획이다.

3.3 데이터 전처리 및 분류 방법

본 연구에서는 기상요인을 활용한 겨울철 교통사고 예측 모델을 구축하기 위해 수집된 데이터를 머신러닝 분석 목적에 맞게 전처리하였다. 먼저, Softmax Regression, Random Forest, XGBoost 모델을 적용하기 위해 전체 데이터를 학습용(training set) 70%와 검증용(test set) 30%로 분할하였다. 이는 과적합(overfitting)을 방지하고 예측 결과의 일반화 성능을 확보하기 위한 표준적인 자료 분할 방식으로, 다수의 선행연구에서도 70:30 또는 80:20 비율이 적정한 분할 기준으로 활용되고 있다(Kosheleva et al., 2020; Vrigazova, 2021).

수집된 교통사고 자료는 연속형 변수인 사고 건수 형태로 구성되어 있으나, 본 연구는 사고 발생 위험 수준을 분류하는 현업 적용형 모형 개발을 목적으로 하므로 다중 분류(multi-class classification) 방식으로 예측 문제를 구성하였다. 이를 위해 사고 건수를 일정 기준에 따라 세 개의 등급(Class A-C)으로 구간화하였다. 분류 기준은 지역별 사고 발생 규모와 데이터 분포 편향을 고려하여 설정하였다.

ASOS 기반 5개 지역별 사고 건수 분포를 분석한 결과, 지역 간 사고 규모 차이가 존재하므로 각 지역의 데이터 특성을 반영하여 다음과 같이 사고 등급을 정의하였다. 동두천과 양평은 사고 발생 규모가 상대적으로 작아 1~3건을 각각 A, B, C등급으로 분류하였고, 이천은 2건 미만 A등급, 3건 B등급, 4건 이상을 C등급으로 구분하였다. 수원은 사고 발생 빈도가 높아 10건 미만을 A등급, 10~12건을 B등급, 13건 이상을 C등급으로 설정하였다. 파주의 경우 3건 이하를 A등급, 4~5건을 B등급, 6건 이상을 C등급으로 구분하였다. 또한, 5개 지역 데이터를 통합 분석할 경우에는 사고 건수 2건 이하를 A등급, 3~6건을 B등급, 7건 이상을 C등급으로 변환하여 분석에 활용하였다.

이와 같은 등급화(classification) 과정은 연속형 사고 건수를 그대로 사용할 경우 발생할 수 있는 데이터 불균형과 극단값(outlier) 문제를 완화하고, 모형의 예측 안정성과 학습 효율성을 높이기 위한 조치이다. 특히 기상자료와 결합되는 경우 사고 건수 분포가 특정 값에 편중되는 현상이 발생할 수 있으므로, 구간화된 등급 변환을 통해 클래스 간 균형(class balance)을 확보하였으며, 이는 머신러닝 기반 분류 모델의 학습 성능 향상에 기여하였다.

4. 분석 결과

4.1 모델 성능 평가

본 연구에서는 경기도 내 5개 지역(동두천, 수원, 양평, 이천, 파주)을 대상으로 겨울철 교통사고 위험 등급을 예측하기 위하여 Softmax Regression, Random Forest, XGBoost 세 가지 머신러닝 기법을 적용하였다. Figs. 6~8의 혼동행렬과 Fig. 9의 예측 정확도 비교 결과를 통해 각 모델의 성능 차이를 분석하였다.

Fig. 6

Confusion Matrices of Random Forest Model for Winter Traffic Accident Risk Classification in Five ASOS Observation Regions and the Integrated Dataset

Fig. 8

Confusion Matrices of Softmax Regression Model for Winter Traffic Accident Risk Classification in Five ASOS Observation Regions and the Integrated Dataset

Fig. 9

Comparison of Classification Accuracy among Three Machine Learning Models (Softmax Regression, Random Forest, and XGBoost) for Winter Traffic Accident Prediction Across Five Regions and the Integrated Dataset

Fig. 7

Confusion Matrices of XGBoost Model for Winter Traffic Accident Risk Classification in Five ASOS Observation Regions and the Integrated Dataset

모델 성능 비교 결과, 전반적으로 트리 기반 알고리즘인 Random Forest와 XGBoost가 Softmax Regression보다 우수한 예측 정확도를 보였다. 특히 Random Forest는 모든 지역에서 가장 안정적인 예측 성능을 유지하였으며, 동두천(86%), 파주(84%)에서 가장 높은 정확도를 기록하였다. XGBoost 또한 동두천(85%), 파주(83%)에서 유사한 성능을 보였으며, 양평과 이천에서도 두 모델은 각각 70~72% 수준으로 비슷한 정확도를 나타냈다. 반면 Softmax Regression은 모든 지역에서 가장 낮은 정확도를 보였으며, 특히 수원에서는 58%로 가장 낮았다. 5개 지역 데이터를 통합한 전체 분석에서도 Random Forest와 XGBoost는 68%의 정확도로 동일한 성능을 보였으나 Softmax는 63%에 그쳤다(Fig. 9).

혼동행렬 분석을 통해 확인한 오분류 패턴에서는 세 모델 모두 인접 등급(Class A↔B, B↔C) 간 오분류가 주로 발생하였다. 이는 겨울철 교통사고 위험이 기상 조건 변화에 따라 연속적으로 이동하는 경향을 반영하는 결과로 해석된다. 한편 Softmax Regression은 고위험 등급(Class C)을 상대적으로 과소 예측하는 경향을 보였으며, 실제 C 등급을 B 등급으로 분류하는 사례가 다수 확인되었다. 반대로 XGBoost는 일부 지역에서 고위험 등급을 다소 과대 예측하는 특성을 보여 위험 상황 판단에 민감하게 반응하는 경향을 보였다. Random Forest는 전 지역에서 정분류가 가장 고르게 분포하였으며, 과소⋅과대 예측의 편향이 가장 적은 모델로 나타났다(Figs. 6~8).

지역별 특징을 비교하면, 동두천과 파주에서는 기온 변화와 결빙 환경이 분명하게 작용하여 세 모델 모두 비교적 높은 분류 정확도를 보였다. 반면 수원은 교통량이 많고 도시 구조가 복잡한 지역 특성으로 인해 비기상적 요인이 크게 작용하는 것으로 판단되며, 이에 따라 세 모델 모두 상대적으로 낮은 분류 성능을 보였다. 이는 기상요인만으로는 설명할 수 없는 사고 발생 변동성이 존재함을 의미하며, 향후 교통량, 도로기하 등의 보조 변수를 결합한 확장 모델이 필요함을 시사한다.

종합적으로 볼 때, Random Forest는 높은 정확도와 안정적인 분류 성능을 동시에 보여 연구 대상 지역 전체에서 가장 적합한 예측 모델로 판단된다. XGBoost는 특정 지역에서 높은 민감도를 보이며 위험 탐지 능력이 우수하나 지역별 데이터 편차에 따라 다소 불안정한 분류 결과를 보였다. Softmax Regression은 모델 해석이 용이하다는 장점에도 불구하고 복합적 패턴을 포착하는 능력이 제한적이어서 보조적 비교 모델로 활용하는 것이 적절할 것으로 판단된다.

4.2 머신러닝 기반 변수 중요도 해석

Random Forest 기반 변수 중요도 분석 결과(Figs. 10~11), 겨울철 도로 교통사고 발생은 특정 기상 요인에 공통적으로 영향을 받는 동시에, 지역별 특성에 따라 기여도가 다르게 나타났다. 전반적으로 일사량(Insolation)과 지면온도(Surface Temperature)는 모든 지역에서 높은 중요도를 보이며, 결빙의 형성과 해빙 과정에 직접적인 영향을 미치는 핵심 변수임이 확인되었다. 특히 동두천과 수원에서는 일사량이 가장 높은 중요도를 기록하였으며, 양평⋅이천⋅파주에서도 상위권에 위치하였다. 이는 일사 에너지 부족과 복사 냉각 조건이 지속될 경우 노면 결빙이 장기화되어 사고 위험이 증가한다는 기존 이론과 부합한다.

Fig. 10

Heatmap of Random Forest Variable Importance (Mean Decrease Accuracy) Across Five Regions. Darker Cells Indicate Higher Variable Importance, and Numerical Values Represent the Estimated Importance Scores

Fig. 11

Heatmap of Random Forest Variable Importance (Mean Decrease Gini) Across Five Regions. Dark Shading Denotes Stronger Importance, and Values Inside the Cells Correspond to the Calculated Gini-Based Importance

다만, Figs. 1011에서도 확인되듯 변수별 영향력은 지역에 따라 다르게 나타났다. 양평과 이천에서는 전운량(Total Cloud)과 증기압(Vapor Pressure)이 상대적으로 높은 중요도를 갖는 반면, 파주에서는 지면온도와 일사량의 영향력이 가장 두드러졌다. 이는 산악⋅내륙형 기후에서는 습윤 대기와 구름량 변화가 결빙의 발생이나 해소에 영향을 미치는 반면, 북서풍 영향이 큰 파주에서는 한랭 건조 공기의 유입으로 지표 냉각이 빠르게 진행된다는 점을 반영한다. 한편 최저기온(Min Temp)과 강수량(Precipitation)은 대부분 지역에서 상대적으로 낮은 중요도를 보여 단일 변수로는 설명력이 제한적임을 시사하며, 겨울철 사고가 열⋅복사⋅수분 조건의 상호작용 결과임을 나타낸다.

한편 XGBoost 기반 변수 중요도 분석(Fig. 12)은 Random Forest와 상이한 변수 구조를 보여준다. 모든 지역에서 최저기온(Min Temp)이 가장 높은 Gain 값을 기록하며, 사고 발생 예측에 대한 지배적인 영향력을 나타냈다. 동두천, 양평, 이천, 파주의 경우 최저기온의 기여도가 0.30~0.48의 범위까지 나타나며, 기온 하강으로 인해 제동성 악화 및 미끄러짐 사고 위험이 증가하는 메커니즘을 명확히 반영한다. 수원 또한 상대적으로 온난한 기후임에도 최저기온이 가장 중요하게 나타나, 기온은 모든 지역에서 공통적으로 고려해야 할 핵심 인자임을 보여준다.

Fig. 12

Heatmap of XGBoost-Based Feature Importance (Gain) Across Five Stations. Darker Shading Indicates Higher Contribution of Each Meteorological Variable to the Model Improvement. Numerical Values Represent Estimated Gain Scores

다만 XGBoost 결과에서는 Random Forest와 달리 일사량(Insolation)의 중요도는 전체적으로 매우 낮게 평가되었으며, 평균습도(Avg Humidity), 이슬점온도(Avg Dewpt Temp), 지면온도(Surface Temp) 등이 보조적 역할을 나타냈다. 이는 단기 예측 성능 중심의 Gradient Boosting Tree 계열 모델은 복사 조건보다는 기온 기반 변수에 더욱 민감하게 반응함을 의미한다.

5. 결 론

본 연구에서는 기상요인을 기반으로 겨울철 교통사고 발생 위험을 예측하기 위해 경기도 내 종관기상관측소(ASOS)가 설치된 5개 지역(동두천, 수원, 양평, 이천, 파주)을 대상으로 Softmax Regression, Random Forest, XGBoost 세 가지 머신러닝 기법을 적용하였다. 교통사고와 기상자료는 2015년부터 2023년까지 9년간의 동기간 자료를 구축하여 활용하였으며, 교통사고 건수를 등급화하여 다중 분류 기반 예측모형을 구현하였다.

모형 비교 결과, Random Forest와 XGBoost는 대부분 지역에서 안정적이고 우수한 예측 성능을 보였으며, 특히 Random Forest는 모든 지역에서 가장 높은 예측 정확도를 기록하였다(최대 89%, 평균 74%). 반면 Softmax Regression은 선형 모델 특성으로 인해 기상요인과 교통사고 간의 비선형적 상관구조를 충분히 반영하지 못해 상대적으로 낮은 성능을 보였다. 이는 기상환경의 변화가 사고 발생에 미치는 영향이 복합적⋅비선형적으로 작용함을 시사하며, 겨울철 사고 예측 문제에 트리 기반 앙상블 학습 접근법이 적합하다는 점을 확인하였다.

변수 중요도 분석 결과, Random Forest와 XGBoost 모두 최저기온(Minimum Temperature)을 공통적으로 가장 중요한 변수로 도출하였으며, 이는 동절기 교통사고가 노면 결빙에 의해 크게 영향을 받는다는 기존 연구 흐름과 일치한다. 또한 Random Forest에서는 일사량(Insolation)과 풍속(Wind Speed)이 추가적으로 높은 중요도를 보였으며, 일사량 감소와 노면 열환경 변화가 결빙 위험 증가로 이어질 수 있음 을 뒷받침하였다. 반면 XGBoost에서는 평균습도(Average Humidity)와 평균이슬점온도(Average Dewpoint Temperature)가 상위 변수로 분석되어 수분 조건 역시 사고 발생 가능성을 결정짓는 주요 기상요인임을 확인하였다. 이는 겨울철 교통사고가 단일 기상요인보다 열환경(temperature)과 수분환경(humidity) 간 복합 메커니즘에 의해 발생한다는 점을 시사한다.

한편, 본 연구는 몇 가지 한계점을 가진다. 첫째, 적설심(Snow Depth)과 최심신적설(Maximum Snowfall) 등의 눈 관련 변수는 관측 공백과 결측률 문제로 분석에 포함하지 못하였다. 이러한 변수는 겨울철 노면 미끄럼과 결빙위험을 설명하는 핵심 요인으로 알려져 있으므로, 해당 자료가 확보될 경우 예측력은 보다 향상될 것으로 판단된다. 둘째, 본 연구는 기상요인에 한정하여 분석을 수행하였으나, 노면 온도, 결빙지수, 도로표면 마찰계수와 같은 노면 환경 변수가 추가될 경우 모델의 설명력이 크게 개선될 가능성이 있다. 셋째, 교통량, 평균속도, 도로기하구조(곡선반경⋅종단경사), 터널⋅교량 유무, 제설 투입 이력 등 사고 발생에 영향을 미치는 비기상 요인이 반영된다면 사고위험 등급의 지역별 차이를 보다 정교하게 해석할 수 있을 것이다.

또한 본 연구는 지역 단위의 정적 모델링을 기반으로 하였으나, 계절 내 변동성⋅시간대별 특성을 반영한 동적 예측 구조를 적용할 경우 사고 가능성을 보다 세밀하게 예측할 수 있을 것으로 기대된다. 예를 들어 출퇴근 시간대의 기온 하강 패턴, 야간 복사냉각 효과, 강설 직후 재결빙 구간 예측 등 시간 종속적 사고위험 요인을 반영하면 실효성이 크게 향상될 것으로 판단된다.

본 연구에서 구축한 예측모형과 변수 중요도 해석 결과는 실제 정책적 활용성을 갖는다. 예측된 사고위험은 사전 결빙 정보, 도로전광표지(VMS)⋅내비게이션 안내, 제설 자원 우선투입과 같은 선제적 대응에 활용될 수 있으며, 반복적으로 위험이 높은 지점은 결빙 취약구간 지정 및 시설 개선의 근거로 활용될 수 있다. 이처럼 본 연구는 겨울철 도로 안전관리의 과학적 의사결정 및 지역 맞춤형 관리체계 구축에 기여할 수 있을 것으로 기대된다.

감사의 글

본 연구는 행정안전부 기후변화 대응 AI기반 풍수해 위험도 예측기술개발 사업의 지원을 받아 수행된 연구임(2022-MOIS61-003).

References

1. Jang J.H. 2024;A study on black ice prediction technique based on weather data for efficient night road patrols on national highways:Focusing on boosting machine learning algorithms. Journal of the Korean Society of Transportation 42(3):297–312.
2. Kim G.Y, Joo H.T, Kim H.J. 2018;A study on the determinants of damage from heavy snow disasters:Focusing on heavy snow disasters from 2005 to 2014. Journal of the Korea Academia-Industrial Cooperation Society 19(2):125–136.
3. Kim J.H, Cho N.W. 2025;Development of machine learning-based traffic accident severity prediction model and analysis of accident factors. Journal of Korean Institute of Information Technology 14(2):72–81.
4. Kosheleva O, Kolesnikov S, Kreinovich V. 2020. Why 70/30 or 80/20 relation between training and testing sets:A pedagogical explanation. Departmental Technical Reports (CS), 1209 University of Texas at El Paso.
5. Kuşkapan E, Çodur M.Y, Sahraei M.A. 2024;Investigation of the effect of slope and road surface conditions on traffic accidents occurring in winter months:Spatial and machine learning approaches. Applied Sciences 14(24):11629.
6. Lee H.J, Lee K.W, Jung G.H. 2022;Development of prediction technology for damage caused by road icing in Gangwon-do. Journal of Korean Society of Hazard Mitigation 22(5):193–200.
7. Lee J.H, Ahn S.H, Jung S.M. 2017;A study on development of integrated road weather model for traffic accident prevention. Proceedings of the 19th Korea Road Association Conference :92.
8. Lee K.J, Jung I.G, Noh Y.H, Yoon S.G, Cho Y.S. 2015;An analysis of the impact of road weather factors on traffic accidents. Journal of the Korean Data Analysis Society 26(3):661–668.
9. Lee M.W, Kim Y.K, Jeon Y.J, Shin Y.H. 2019;Random forest based prediction of road surface conditions using spatio-temporal characteristics. Journal of the Korean Society of Transportation 37(4):338–349.
10. Lee S.M, Yoon B.J, Lwin W.Y. 2024;Studying the comparative analysis of highway traffic accident severity using the random forest method. Journal of the Society of Disaster Information 20(1):156–168.
11. Lim H.S, Kim S.T. 2020;A study on road freezing prediction applying a road surface freezing judgment model. Journal of the Korea Academia-Industrial Cooperation Society 37(6):1507–1516.
12. Ministry of Public Safety and Security (MPSS). 2024;The 2024 annual natural disaster report Ministry of Public Safety and Security (MPSS, in Korean)
13. Mirzahossein H, Sashurpour M, Moghaddam Gilani V.N. 2022;Presentation of machine learning methods to determine the most important factors affecting road traffic accidents on rural roads. Frontiers of Structural and Civil Engineering 16(5):657–666.
14. Na J.H, Yoon S.H, Oh H.J. 2021;Black ice occurrence section prediction model based on public data from the Ministry of Land, Infrastructure and Transport. Journal of the Korea Information Processing Society 10(7):257–262.
15. Nam M.W, Park D.S, Jang Y.J, Lee H.C. 2021;Predicting the number of traffic accident casualties using machine learning:Focusing on public data from Seoul. Journal of Korea Computer Information Society 29(1):27–30.
16. Nelder J.A, Wedderburn R.W.M. 1972;Generalized linear models. Journal of the Royal Statistical Society:Series A (General) 153(3):370–384.
17. Newsis. 2023. Traffic accidents caused by road icing show 1.7 times higher fatality rate;79% occur in Dec-Jan (October 1, 2025) Retrieved from https://www.newsis.com/view/NISX20241212_0002994971.
18. Vrigazova B. 2021;The proportion for splitting data into training and test set for the bootstrap in classification problems. Business Systems Research 12(1):228–242.

Article information Continued

Fig. 1

Softmax Regression Analysis Structure

Fig. 2

Random Forest Structure

Fig. 3

XGBoost Structure

Fig. 4

General Weather Observation Area: Dongducheon, Paju, Yangpyeong, Icheon, Suwon

Fig. 5

Distribution of Winter Traffic Accidents in the Five ASOS Observation Regions of Gyeonggi-do (2015-2023)

Table 1

10 Meteorological Factors That Affect Road Ice

Number Weather factors Unit Data source
1 Average humidity % Automated SurfaceObserving System(ASOS)
2 Minimum humidity
3 Lowest temperature (°C)
4 Average dew point temperature
5 Surface temperature
6 Precipitation (mm)
7 Wind speed (m/s)
8 Insolation (MJ/m2)
9 Vapor pressure (hPa)
10 Total cloud cover -

Fig. 6

Confusion Matrices of Random Forest Model for Winter Traffic Accident Risk Classification in Five ASOS Observation Regions and the Integrated Dataset

Fig. 7

Confusion Matrices of XGBoost Model for Winter Traffic Accident Risk Classification in Five ASOS Observation Regions and the Integrated Dataset

Fig. 8

Confusion Matrices of Softmax Regression Model for Winter Traffic Accident Risk Classification in Five ASOS Observation Regions and the Integrated Dataset

Fig. 9

Comparison of Classification Accuracy among Three Machine Learning Models (Softmax Regression, Random Forest, and XGBoost) for Winter Traffic Accident Prediction Across Five Regions and the Integrated Dataset

Fig. 10

Heatmap of Random Forest Variable Importance (Mean Decrease Accuracy) Across Five Regions. Darker Cells Indicate Higher Variable Importance, and Numerical Values Represent the Estimated Importance Scores

Fig. 11

Heatmap of Random Forest Variable Importance (Mean Decrease Gini) Across Five Regions. Dark Shading Denotes Stronger Importance, and Values Inside the Cells Correspond to the Calculated Gini-Based Importance

Fig. 12

Heatmap of XGBoost-Based Feature Importance (Gain) Across Five Stations. Darker Shading Indicates Higher Contribution of Each Meteorological Variable to the Model Improvement. Numerical Values Represent Estimated Gain Scores