快速检索
  气象   2024, Vol. 50 Issue (3): 331-343.  DOI: 10.7519/j.issn.1000-0526.2023.043001

论文

引用本文 [复制中英文]

刘淑贤, 张立生, 刘扬, 等, 2024. 基于机器学习的热带气旋灾害等级评估模型构建及其活动特征分析[J]. 气象, 50(3): 331-343. DOI: 10.7519/j.issn.1000-0526.2023.043001.
[复制中文]
LIU Shuxian, ZHANG Lisheng, LIU Yang, et al, 2024. Construction of Tropical Cyclone Disaster Grade Assessment Model Based on Machine Learning and Analysis of Its Activity Characteristics[J]. Meteorological Monthly, 50(3): 331-343. DOI: 10.7519/j.issn.1000-0526.2023.043001.
[复制英文]

资助项目

国家气象中心青年基金项目(Q202212)、国家气象中心气象现代化建设专项(QXXDH202226)和国家重点研发计划(2019YFC1510204)共同资助

第一作者

刘淑贤,主要从事气象灾害风险评估研究. E-mail: liushuxian@cma.gov.cn

通信作者

刘扬,主要从事气象灾害风险评估研究. E-mail: liuyang@cma.gov.cn.

文章历史

2022年11月28日收稿
2023年11月30日收修定稿
基于机器学习的热带气旋灾害等级评估模型构建及其活动特征分析
刘淑贤 1, 张立生 1, 刘扬 1, 王维国 1, 杨琨 1, 张源达 2,3    
1. 国家气象中心, 北京 100081
2. 中国气象科学研究院, 北京 100081
3. 南京信息工程大学, 南京 210044
摘要:在全球变暖的背景下, 热带气旋(TC)作为影响我国最严重的自然灾害之一, 其活动特征及灾害损失评估研究受到了广泛关注。采用组合赋权和k-means等方法, 分析了2000年以来登陆我国的TC及灾害损失特征, 并构建了基于机器学习的TC灾害等级评估模型。结果表明: 从总体趋势来看, 登陆我国的TC频数在逐年减少, 但登陆风速的最大值却在缓慢增加; 广东、浙江、福建、广西受灾较为严重, 但整体上全国综合灾情指数呈下降趋势; 与传统的随机森林、支持向量机、朴素贝叶斯算法相比, LightGBM(Light Gradient Boosting Machine)在TC灾害评估中效果最佳, 准确率值为0.91, 其中致灾因子是模型中最关键的因素, 其次是防灾减灾能力、暴露度和脆弱性指标。
关键词热带气旋    灾害等级评估    机器学习    LightGBM(Light Gradient Boosting Machine)    
Construction of Tropical Cyclone Disaster Grade Assessment Model Based on Machine Learning and Analysis of Its Activity Characteristics
LIU Shuxian1, ZHANG Lisheng1, LIU Yang1, WANG Weiguo1, YANG Kun1, ZHANG Yuanda2,3    
1. National Meteorological Centre, Beijing 100081;
2. Chinese Academy of Meteorological Sciences, Beijing 100081;
3. Nanjing University of Information Science and Technology, Nanjing 210044
Abstract: Tropical cyclone (TC), one of the worst natural disasters in China, has garnered a lot of interests for both its activity characteristics and disaster loss assessment, especially in the context of global warming. In this paper, the combined weighting and k-means clustering methods are used to analyze the spatial and temporal characteristics of TC and its disaster loss in China since 2000. In addition, the disaster grade assessment model of TC based on machine learning algorithm is also constructed. The results show that the frequency of TC landing in China is in a trend of decreasing year by year, but the maximum landing wind speed has been slowly strengthening. Guangdong, Zhejiang, Fujian and Guangxi provinces are seriously affected by TC, but overall, the comprehensive disaster index shows a downward trend. Compared with the classic RF, SVM and NB algorithms, LightGBM (Light Gradient Boosting Machine) has the best performance in assessing the TC disaster loss, and the accuracy can reach 0.91. Moreover, the disaster-inducing factor is the most critical factor in the assessment model, followed by the disaster prevention and mitigation, exposure and vulnerability indicators.
Key words: tropical cyclone(TC)    disaster grade assessment    machine learning    LightGBM(Light Gradient Boosting Machine)    
引言

热带气旋(tropical cyclone, TC)是世界上最严重的自然灾害之一,伴随TC产生的极端大风、暴雨、巨浪和风暴潮天气往往会对人类生命财产和沿海生态系统等造成严重破坏(Dube et al, 2009; 牛海燕等, 2011; 张娇艳等, 2011; Krapivin et al, 2012; 魏章进等, 2017)。平均而言,全球每年大约会形成90个TC,每年因TC造成的损失约为260亿美元(Mendelsohn et al, 2012; Bakkensen and Mendelsohn, 2019)。我国濒临世界上最大的TC发源地西北太平洋,每年受TC侵扰频繁(刘彤和闫天池, 2011; 丑洁明等, 2022)。根据统计,1994—2013年因TC造成的灾害占我国气象灾害总数的37%,导致了21%的人口死亡和17%的直接经济损失,其灾害强度和损失程度仅次于洪涝灾害(吴吉东等, 2014)。自2010年以来,TC给我国带来的直接经济损失每年都高达数百亿甚至上千亿元(金蕊等, 2020)。在全球变暖的背景下,相关研究表明TC的频率会保持不变或降低,但其平均强度和造成的影响程度可能会大幅升级(Bender et al, 2010; Moon et al, 2019; Knutson et al, 2020)。因此,对TC活动特征及灾害损失评估研究一直是我国防灾减灾工作的重点之一(殷洁等, 2013; 温姗姗等, 2017; 丑洁明等, 2018; 向纯怡等,2022庄瑶等, 2022钱奇峰等,2023)。

TC灾害损失主要是由致灾因子的危险性、承灾体和孕灾环境的暴露度和脆弱性、防灾减灾能力等因素决定,目前已经进行了大量研究来检验这些因素在TC灾害损失评估中所起的作用,但相关结论仍存在较大的不确定性。一些研究认为社会经济发展对TC灾害损失的影响更大。Schmidt et al(2010)使用非线性最小二乘算法Levenberg-Marquardt研究了社会经济和气候变化对美国TC损失的影响,结果表明由社会经济因素导致的损失变化大约是气候因素的3倍。Yonson et al(2018)使用统计方法评估社会经济的脆弱性、暴露度和致灾因子对TC造成的死亡人数的影响,并发现死亡人数似乎更多地受到贫困发生率的影响,而不是TC过程中的降水量。还有一些则认为由气候变化引起的TC强度变化对灾害损失的影响更大。Ye et al(2020)使用负二项式回归模型量化了由TC引起的直接经济损失与TC最大风速、资产价值和人均国内生产总值(gross domestic product, GDP)之间的关系,发现TC最大风速对经济损失的影响要大于资产价值和人均GDP。

虽然这些传统的统计回归模型在解决低维、弱非线性问题方面取得了一定成果,但是由于TC灾害损失是一个复杂、高维和强非线性问题,传统统计模型不能很好地预测。有效的自然灾害损失评估模型应包括较为全面的综合因素,并反映因素与灾害损失之间复杂的非线性关系(Sun et al, 2021)。机器学习(machine learning, ML)算法在解决复杂的非线性问题上已经取得了显著的效果,并具有较好的可控性和可扩展性,已经被成功应用于灾害监测和影响评估研究中(冯倩和刘强, 2017; 刘扬和王维国, 2020; 周康辉等, 2021; 杨绚等, 2022)。

机器学习模型可以分为单模型和集成模型。单模型基于一种模型独立进行训练和验证,主要包括支持向量机(support vector machine, SVM)、神经网络(neural network, NN)、决策树(decision tree, DT)、朴素贝叶斯(naive Bayes, NB)等。叶小岭等(2011)以浙江省为例,选取台风致灾因子、区域差异等指标作为解释变量,以台风造成的经济、人口、耕地、房屋损失作为预测变量,建立了台风损失预测的反向传播神经网络(back propagation neural network, BPNN)模型。集成机器学习模型就是将多个单模型组合成一个强模型,该强模型能取所有单模型之长,达到相对的最优性能,常用的集成模型包括随机森林(random forest, RF)、梯度提升决策树(gradient boosting decision tree, GBDT)、XGBoost(extreme gradient boosting)等。相比各基模型之间独立训练,结果为简单投票或平均的RF算法,在基于Boosting的GBDT算法中,新决策树在每次迭代中学习所有先前树的错误残差,从而生成更强大的基础模型(Friedman, 2001; Richardson et al, 2007; Chen and Guestrin, 2016)。Zhang et al(2019)采用BPNN、一维卷积神经网络、DT、RF和XGBoost,拟合泥石流触发因素与灾害损失之间的关系,发现基于GBDT的改进模型XGBoost的精度要显著高于RF和其他单模型。2017年,微软提出了XGBoost的改进算法LightGBM(Light Gradient Boosting Machine),该算法更加快速和准确,是GBDT最成功和最先进的实现(Ke et al, 2017),其在灾害损失预测方面具有较大的潜力。

随着研究的深入,虽然高拟合模型的数量逐渐增加,但选择合适的模型仍然具有挑战性,因此,TC灾害损失评估模型的构建和优化仍需要不断地被验证和评估,从而选择出最优模型。此外,单一灾害损失指标不足以评估TC对社会经济等方面的综合影响,需要构建较为客观的综合灾害指标以反映TC造成的综合影响。本文旨在对TC及其灾害损失特征进行统计分析,并将TC综合灾害损失与TC物理特征、社会经济等因素联系起来,建立基于集成机器学习算法的TC灾害等级评估模型,为TC的灾害防御提供重要参考依据。

1 数据和方法 1.1 数据样本和指标体系建立

本文选取了2000—2021年TC影响我国不同省(自治区、直辖市)的492个个例作为样本,考虑的TC灾害损失指标主要包括直接经济损失、死亡人口、受灾面积和倒塌房屋,并从致灾因子(H)、暴露度和脆弱性(V)、防灾减灾能力(R)3个方面,构建TC灾害的影响因素指标体系(表 1)。其中,致灾因子主要考虑了TC过程中最大日降水量、暴雨站点比例、极大风速、大风站点比例4个指标。关于承灾体的暴露度和脆弱性,主要从农业、交通、经济、房屋建筑等方面考虑了农作物播种面积、公共汽电车运营线路总长度、地区生产总值、房屋施工面积等7个指标。此外,从抗台工程能力、监测预警能力、医疗救护能力、社会应对台风能力4个方面分别选取了防护林造林面积、电话和互联网、每万人医疗机构床位数、人均GDP等5个具有代表性的指标衡量应对TC的防灾减灾能力(张颖超等, 2015)。

表 1 数据类别及来源 Table 1 Categories and sources of samples
1.2 数据处理方法 1.2.1 直接经济损失的去通货膨胀调整

考虑到通货膨胀的影响,直接比较不同年份的直接经济损失是不可取的。因此,有必要消除通货膨胀的影响得到实际直接经济损失,其计算方式为:

$ \begin{array}{l} {\rm{实际直接经济损失}} =\\ \ \ \ \ \ \ \ \ \ \ {\rm{直接经济损失/GDP平减指数}} \end{array} $ (1)

式中GDP平减指数来源于世界银行(http://data.worldbank.org/datacatalog/world-development-indicators)(图 1)。

图 1 2000—2021年中国GDP平减指数变化趋势 Fig. 1 Trend of China's GDP deflator from 2000 to 2021
1.2.2 综合灾情指数构建

由于不同指标变量的单位和量级不同,对数据进行归一化处理:

$ X_{i j}^*=\left(X_{i j}-X_{\min }\right) /\left(X_{\max }-X_{\min }\right) $ (2)

式中:XijXij*分别为归一化处理前、后第i个样本中灾情指标j的值,XminXmax分别代表最小值和最大值。

为了对死亡人口、实际直接经济损失、受灾面积、倒塌房屋这4项灾情指标进行综合定量评价,本研究利用主、客观相结合的组合赋权法确定各指标相应权重。具体而言,本文采用的主观赋权法为专家打分法(王秀荣等, 2018),客观赋权法为熵值法,两种方法的组合权重为:

$ w_j=\frac{\sqrt{\alpha_j \beta_j}}{\sum\limits_{j=1}^4 \sqrt{\alpha_j \beta_j}} $ (3)

式中:wj为指标j的组合权重,αj为专家打分法所得权重,βj为熵值法计算所得权重。

表 2所示,最终确定死亡人口、实际直接经济损失、倒塌房屋、受灾面积这4项损失指标的权重值wj=(0.33, 0.27, 0.21, 0.19)(j=1, 2, 3, 4)。综合灾情指数Di计算公式如下:

$ D_i=\lg \left(\sum\limits_{j=1}^4 w_j \times X_{i j}^* \times 100\right) $ (4)
表 2 综合灾情指数中各灾情指标的组合权重 Table 2 Combined weight of each disaster index for the calculation of comprehensive disaster index
1.2.3 TC灾害损失等级分类

k-means算法作为聚类算法中的典型代表之一,其聚类效果已经被各领域广泛应用和认可,其中k为类别数,means为均值。k-means算法通过预先设定的k值及每个类别的初始质心对相似数据点进行划分归类,并通过划分后的均值不断迭代优化以获得最优的聚类结果。在王国复(2021)提出的台风灾害调查与风险评估方法(以下简称台风灾害普查)中,根据台风灾害指数(R)的分布特征,将台风灾害分为高(R≥ave+s)、较高(ave+0.5sR < ave+s)、中(ave-0.5sR < ave+0.5s)、较低(ave-sR < ave-0.5s)和低(R < ave-s)5个等级,其中ave和s分别表示均值和标准差。

对1.2.2小节得到的综合灾情指数进行等级分类,分别按照k-means聚类方法和台风灾害普查中的分类方法进行对比分析。为了便于对两种方法进行比较,在k-means方法中将k值设为5,根据综合灾情指数划分为低[0~0.28)、较低[0.28~0.49)、中[0.49~0.63)、较高[0.63~0.77)、高[0.77~1]5类。从k-means和台风灾害普查两种方法的分类结果可以看出(表 3),k-means较台风灾害普查方法增加了21个高、35个较高、43个较低等级的分类个数,减少了50个中和49个低等级的分类个数,即k-means方法增加了灾害等级强度大的分类个数,而减少了位于中间强度的分类个数。进一步对典型TC个例的分类结果进行分析,例如,0102号台风飞燕造成浙江22人死亡,实际直接经济损失达1.31亿元,在k-means方法中其灾害等级被认定为较高,但在台风灾害普查方法中仅为中;0119号台风利奇马造成浙江1人死亡,受灾面积为0.07万hm2,在k-means方法中其灾害等级被认定为较低,但在台风灾害普查方法中却为低;1409号台风威马逊造成云南37人死亡,实际直接经济损失达34.1亿元,在k-means方法中其灾害等级被认定为高,但在台风灾害普查方法中仅为较高,可以发现k-means方法的灾害等级分类结果更加符合实际灾害损失情况。

表 3 k-means和台风灾害普查方法的各等级分类结果对比 Table 3 Comparison of the classification results between k-means and typhoon disaster census

因此,基于以人为本的防灾减灾理念,本文选择k-means方法进行TC灾害等级分类。同时为了保证每一类的样本数量足够多,以便在机器学习模型中取得较好的训练效果,在构建TC灾害损失评估模型时将k值设为3类,并利用k-means算法将样本的综合灾情指数分为低[0~0.46)、中[0.46~0.69)、高[0.69~1]3个等级(图 2)。

图 2 基于k-means的TC灾情等级分类 注:数字1、2、3分别代表TC灾害损失的低、中、高等级。 Fig. 2 Comprehensive disaster grade based on k-means
1.3 TC灾害等级评估模型建立

在单模型机器学习算法中,NB仅适应于样本独立且均匀分布的情况,而SVM则在解决非线性问题时效果较差。相比之下,包含多模型的集成机器学习算法具有避免过拟合、计算快速和准确等优势,已成为解决大量机器学习问题的最先进方法。

集成机器学习模型基本可以分为两类:Bagging和Boosting,RF为基于Bagging的经典模型,而GBDT则为基于Boosting的典型代表。Boosting与Bagging之间最大的区别在于:①对于样本选择,Bagging算法为有放回的均匀取样,且各轮训练集之间相互独立,而Boosting算法中训练集不变,但会根据上一轮的分类结果对样本权重进行调整;②关于预测函数,Bagging算法中所有预测函数权重相等,其预测结果为所有弱分类器结果的投票或平均,而Boosting中每个弱分类器具有不同的权重,分类误差小的分类器将会有较大的权重。

作为目前GBDT算法最成功和最先进的实现,在LightGBM算法中,新决策树在每次迭代中学习所有先前树的错误残差,从而生成更强大的基础模型。因此,与各基模型之间独立训练、结果为简单投票或平均的RF算法相比,LightGBM往往表现出更加优越的性能(Wang et al, 20172022)。

本文将TC灾害损失的影响因素指标如致灾因子(H)、暴露度和脆弱性(V)、防灾减灾能力(R)作为特征变量,反映综合灾害损失的等级分类作为预测变量分别输入到4种机器学习模型(LightGBM、RF、SVM、NB)中进行训练和检验(图 3)。具体实现步骤如下。

图 3 基于机器学习的TC综合灾害等级评估模型流程图 Fig. 3 Flow chart of comprehensive grade assessment of TC disaster based on machine learning

(1) 数据集。从总样本中随机选择80%作为训练集(交叉验证集),剩下的20%作为测试集(不参与训练)。为了增强模型的鲁棒性、确保泛化误差的稳定性,本文采用了5倍交叉验证法对模型进行训练和调参以得到最优模型。具体而言,将训练集等分为5份,不重复地每次选择其中1份作为验证集,其他4份作为训练集来进行模型的调参。

(2) 模型评估。采用查准率(Precision)、准确率(Accuracy)、召回率(Recall)、F1-score指标对模型结果进行定量评估和比较。

2 结果与讨论 2.1 登陆我国TC的时空特征分析

我国海岸线长、海洋疆域辽阔,沿海城市和岛屿众多,且沿海地区人口密集、经济发达。在全球变暖的背景下,TC频繁发生且登陆我国沿海,对我国沿海地区的经济发展和居民安全造成了较大的威胁。因此,了解登陆我国TC的年际和年代际变化等活动特征是十分必要的。图 4给出了2000—2021年TC登陆我国沿海地区的空间分布。从图中可以看出,2000年以来TC登陆我国的沿海地区包括广东、广西、海南、台湾、福建、浙江、上海、江苏、山东、辽宁等,且南方沿海地区的登陆频数要远高于北方沿海地区。其中,TC登陆频数最多为广东(64个),其次是台湾(44个)、福建(40个)、海南(35个)和浙江(21个)。

图 4 2000—2021年登陆我国的TC频数分布 Fig. 4 Distribution of total frequency of TC landing in China from 2000 to 2021

登陆频数和登陆风速是评估TC活动特征的重要指标。图 5给出了登陆我国的TC频数的月际和年际变化。结果表明,登陆我国沿海地区的TC主要集中出现在6—10月,其中7月、8月、9月最为频繁,登陆频数分别为59、52、44个(图 5a)。2000年以来共有162个TC登陆我国,平均每年登陆频数为7个。整体而言,自2000年以来登陆我国的TC频数呈现波动下降趋势(图 5b)。

图 5 2000—2021年登陆我国的TC频数随(a)月份和(b)年份的变化 Fig. 5 Variation of the frequency of TC landing in China with (a) month and (b) year from 2000 to 2021

根据TC的6个等级划分:热带低压(风力6~7级,TD)、热带风暴(风力8~9级,TS)、强热带风暴(风力10~11级,STS)、台风(风力12~13级,TY)、强台风(风力14~15级,STY)和超强台风(风力≥16级,SuperTY),本研究对2001—2021年登陆我国的TC等级进行年代际变化分析。从3年TC强度频数分布(图 6)中可以看出,登陆我国的TC中,TD、TS、STS的登陆频数整体上随时间呈现出缓慢增加趋势(图 6中棕色虚线);而TY、STY、SuperTY登陆频数呈现较为明显的下降趋势(图 6中蓝色虚线)。

图 6 2001—2021年登陆我国TC等级的3年平均频数分布 Fig. 6 3-year average frequency of the grade of TC landing in China from 2001 to 2021

为了进一步评估TC登陆强度,分析2000—2021年我国TC登陆风速箱线图,如图 7所示。就登陆风速的平均值而言,2005年、2012年、2015年的登陆风速值较大,均超过了36 m·s-1,其中2015年的登陆风速值最大,为38.4 m·s-1。对于登陆风速的最大值而言,在2014年达到了70 m·s-1。整体来看,登陆风速的平均值呈下降趋势,而最大值呈上升趋势,且伴随较大异常值的出现,说明在全球变暖的背景下,近年来登陆我国的TC强度的极端性有所加强。

图 7 2000—2021年我国TC登陆风速箱线图 注:箱体内红色短线、菱形分别代表中位数、平均值,箱体上、下两端分别代表上、下四分位数,沿虚线上、下两端分别代表最大值和最小值。 Fig. 7 Box plot of the wind speed of TC landing in China from 2000 to 2021
2.2 TC灾害损失特征分析

如2.1节所述,近年来在全球变暖的背景下气候表现异常,登陆我国的TC频数虽然整体上逐年减少,但其登陆风速的最大值却呈缓慢上升趋势,并伴有较大异常值的出现,具有一定的突发性和极端性。因此,分析我国TC灾害损失的时空分布特征,对科学认识TC灾害,提高风险防范能力具有重要的指导意义。

图 8给出了2000—2019年TC主要影响地区的灾情分布情况,包括受灾面积、倒塌房屋、实际直接经济损失以及死亡人口。由图可见,整体而言,各省份之间灾害损失的总体强度和受灾种类都存在分布不均匀的特征,除受灾较为严重的广东、浙江、福建、广西外,其他地区的受灾情况差异较小,且广东、浙江、福建、广西的受灾面积、倒塌房屋、实际直接经济损失基本都远大于其他地区。

图 8 2000—2019年TC主要影响地区的灾情分布 Fig. 8 Distribution of disaster loss in major region affected by TC from 2000 to 2019

图 9给出了死亡人口、倒塌房屋、受灾面积、直接经济损失以及综合灾情指数的年际变化趋势,其中图中虚线代表各指标的线性拟合。由图可见,直接经济损失呈现明显上升趋势,而在去除通货膨胀因素后,实际直接经济损失则呈缓慢上升趋势。除直接经济损失外,TC灾害造成的死亡人口、倒塌房屋、受灾面积、综合灾情指数均为下降趋势。具体而言,死亡人口、倒塌房屋和综合灾情指数均在2006年达到最大值,且其数值明显高于其他年份,是其他年份数值的2~3倍,其中死亡人数为1522人,倒塌房屋数为72.3万间。这是因为在2006年,出现了几次灾害较为严重的TC个例,如0604号台风碧利斯造成了843人死亡,以及384亿元的直接经济损失;0608号台风桑美造成了483人死亡和196.6亿元的直接经济损失。综上所述,虽然近年来TC强度和频率都在增加,但是除直接经济损失外,死亡人口、倒塌房屋、受灾面积和综合灾情指数都在降低,这可能与我国对TC的预测体系和防御措施在不断加强,以及居民的防灾减灾意识逐渐提升有关。

图 9 2000—2019年我国由TC造成的(a)死亡人口,(b)倒塌房屋,(c)受灾面积,(d)直接经济损失及(e)综合灾情指数的年际变化趋势 Fig. 9 Interannual trend of (a) death population, (b) collapsed houses, (c) affected area, (d) direct economic loss and (e) comprehensive disaster index caused by TC in China from 2000 to 2019
2.3 基于机器学习的TC灾害等级评估

通过上文分析可以得到,气候异常背景下,登陆我国的TC强度具有一定的极端性,且其造成的灾害损失具有时空分布不均匀的特征,不同省份之间存在较大的差异。因此,构建综合考虑TC物理特征和社会经济因素的灾害损失评估模型是十分必要的。如1.3节所述,本文采用4种机器学习算法对TC灾害等级评估进行对比分析。为了使模型的表现性能最佳,选择7个参数对LightGBM模型进行调整,其中参数调整范围如表 4所示。然后,使用网格搜索来找到最佳参数组合,这意味着模型需要被迭代调整37 500(5×5×5×5×3×4×5)次。本文选用Log loss达到最小值时的参数模型作为最优模型,最佳参数组合见表 4。此外,将LightGBM的参数“is_unbalance”设定为“true”,用于处理数据集中类别标签存在不平衡的情况,从而使得模型的泛化性能更强。其他3种机器学习模型的最优参数组合已省略。

表 4 LightGBM的参数调整范围及最优模型参数组合 Table 4 Range and optimal combination of parameters in LightGBM

在经过参数调整得到最优模型后,对4种机器学习算法的TC灾害等级预测结果进行了评估和比较(表 5)。结果表明,单模型算法SVM和NB中各项结果评估指标均远小于集成模型算法RF和LightGBM。且与基于Bagging思想的RF相比,基于Boosting的LightGBM表现最佳,除查准率之外,其余3个指标值均在0.90及以上,准确率达到了0.91,召回率为0.93,F1-score为0.90。由此说明,LightGBM算法非常适于TC灾害损失预测,在灾害评估方面具有广泛应用前景。

表 5 基于4种机器学习算法的TC灾害损失预测结果评估 Table 5 Prediction assessment of TC disaster based on four machine learning algorithms

为了增强模型的解释能力,理解指标在预测TC灾害等级中的相对重要性,基于LightGBM模型的“feature_importances”工具包给出了每项指标的分裂次数(图 10),可用来衡量各指标的相对重要性,结果表明:

图 10 不同指标在模型中的分裂次数 注:指标名称见表 1 Fig. 10 Split numbers of different indexes in model

(1) 整体来看,就重要性指标的平均值而言,致灾因子(24)>防灾减灾能力(14)>暴露度和脆弱性(10);就最大值而言,致灾因子、防灾减灾能力、暴露度和脆弱性指标分别排在了第一、第二、第五位。这说明致灾因子在TC灾害等级评估中具有非常重要的指示意义,对灾害损失等级分类的识别能力要明显高于暴露度和脆弱性以及防灾减灾能力。

(2) 致灾因子的4个指标均排在了前八位中,关于大风的2个指标(极大风速H3、大风站点比例H4)的平均值(28)要高于降水的2个指标(最大日降水量H1、暴雨站点比例H2)的平均值(21),说明TC过程中大风对灾害损失的影响要大于暴雨的影响。其中,极大风速(H3)和暴雨站点比例(H2)分别位于第一、第三位,其重要性指标显著高于其他特征变量,充分代表了致灾因子的危险性和在TC灾害等级评估中的重要性。

(3) 防灾减灾能力指标的重要性排序相对比较分散,除互联网R3和人均GDP R4排在了后三位外,防护林造林面积R5排在了第九位,电话R2和每万人医疗机构床位数R1则排在了前四位,说明我国近年来在医疗、通信等方面的发展进步已经为灾害防御和灾后恢复提供了重要保障。

(4) 相比之下,承灾体和孕灾环境的暴露度和脆弱性指标表现不佳,其中最重要的2个指标为农作物播种面积V4和房屋竣工面积V6。虽然TC主要影响的是我国经济快速发展而农作物播种面积相对较小的华南、华东等地区(上海、江苏、浙江、福建、广东等),但通过本文得到的特征重要性排序结果可以看出,农作物播种面积V4的重要程度要大于地区生产总值V1,对于该结论有两点解释:①近20年来我国中东部地区主要省份农作物播种面积的标准差(0.29)要高于地区生产总值(0.256)(图略),也就是说,相比地区生产总值,农作物播种面积的差异更能体现不同省份之间的差异;②经济发展一方面会使承灾体的暴露度增加,另一方面却可以提升所在地区的防灾减灾能力,降低了承灾体的易损性,而农作物播种面积的增大只能使得承灾体的暴露度增加,因此农作物播种面积在进行TC灾害等级评估时所起到的作用相对较大。

将本研究中基于LightGBM的TC灾害等级评估模型(以下简称方法一)与王秀荣等(2018)提出的台风灾害等级评判模型(以下简称方法二)进行结果对比,并选取一些典型TC个例进行分析。例如,0313号台风杜鹃造成广东44人死亡,实际直接经济损失达40.7亿元,受灾面积为26万hm2,在方法一中, 其灾害损失等级被评估为高,而在方法二中被认定为中;0707号台风帕布造成广东4人死亡, 实际直接经济损失达30亿元,倒塌房屋为1.56万间,0917号台风芭玛造成海南4人死亡,实际直接经济损失达2.9亿元,受灾面积2.96万hm2,在方法一中分别将2次个例评估为高和中灾,但在方法二中2次个例均为小灾,并未体现出2次个例在直接经济损失等方面的差异。由此可见,基于LightGBM的评估模型(方法一)具有较高的灾害等级分辨度,且其评估结果更加符合实际灾害损失情况。

3 结论与展望

通过分析2000年以来登陆我国的热带气旋(TC)及其灾害损失的时空分布特征,建立了基于机器学习算法的TC灾害等级评估模型,主要得到以下结论:

(1) 登陆我国的TC频数呈现缓慢下降趋势,且低强度TC的数量逐年增多,高强度TC的数量显著减少。进一步分析得到,虽然TC登陆风速的平均值整体呈下降趋势,但登陆风速的最大值却在缓慢增加,并伴有较大异常值的出现,说明在全球变暖的背景下,登陆我国TC的突发性和极端性在增强。

(2) 结合熵值法和专家打分法对死亡人口、倒塌房屋、实际直接经济损失、受灾面积赋予权重并得到综合灾情指数,其指标权重大小排序为死亡人口(0.33)>倒塌房屋(0.27)>实际直接经济损失(0.21)>受灾面积(0.19)。通过分析我国TC灾害损失的时空分布特征得到,受灾较为严重的主要为广东、浙江、福建、广西等地,且除实际直接经济损失外,倒塌房屋、死亡人口、受灾面积及综合灾情指数都呈下降趋势。

(3) 基于机器学习算法LightGBM、RF、SVM、NB,将致灾因子、暴露度和脆弱性、防灾减灾能力作为特征变量,TC灾害等级作为预测变量进行模型训练和评估。结果表明,在4种机器学习算法中,LightGBM的预测结果准确性远远高于其他算法,其准确率(Accuracy)、查准率(Precision)、召回率(Recall)、F1-score分别达到了0.91、0.88、0.93、0.90,在灾害评估方面具有广泛应用前景。

(4) 通过对各特征变量的相对重要性指标进行排序分析,发现致灾因子是TC灾害损失评估中最关键的因素,且TC过程中大风对灾害损失的影响要大于暴雨的影响;其次是防灾减灾能力指标,由此可以看出近年来我国在医疗、通信等方面的发展进步已经为灾害防御和灾后恢复提供了重要保障;相比之下,暴露度和脆弱性指标的重要性较低,说明在全球变暖导致的TC灾害极端性增强和我国日益增长的防灾减灾能力背景下,来自社会经济因素影响下的暴露度和脆弱性指标的重要性已有所减弱。

本文利用熵值法、专家打分法和k-means聚类法等,采用主、客观相结合的方法确定指标权重并进行灾害等级分类,并采用LightGBM集成机器学习模型,克服了单模型中过拟合、泛化能力差等局限性。同时,本研究综合考虑了TC物理特征和社会经济等方面因素,从致灾因子、暴露度和脆弱性、防灾减灾能力3个方面构建特征变量,对TC造成的综合灾害损失进行评估,有别于单一的TC特征分析及单一的灾害损失模型构建,所得结果具有实际参考价值。但还存在样本数量不够、研究区域空间分辨率较低等问题,在后续的研究中,将进一步增加样本数量以及提高样本空间分辨率,并根据社会经济的发展对模型加以改进和完善。

参考文献
丑洁明, 班靖晗, 董文杰, 等, 2018. 影响广东省的热带气旋特征分析及灾害损失研究[J]. 大气科学, 42(2): 357-366. Chou J M, Ban J H, Dong W J, et al, 2018. Characteristics analysis and assessment of economic damages caused by tropical cyclones in Guangdong Province[J]. Chin J Atmos Sci, 42(2): 357-366 (in Chinese).
丑洁明, 董文杰, 徐洪, 等, 2022. 影响中国沿海区域的热带气旋及其经济损失评估[J]. 气象与环境科学, 45(3): 1-10. Chou J M, Dong W J, Xu H, et al, 2022. Assessment on economic losses of tropical cyclone disasters affecting China's coastal areas[J]. Meteor Environ Sci, 45(3): 1-10 (in Chinese).
冯倩, 刘强, 2017. 基于SVM-BP神经网络的风暴潮灾害损失预评估[J]. 海洋环境科学, 36(4): 615-621. Feng Q, Liu Q, 2017. Pre-assessment for the loss caused by storm surge based on the SVM-BP neural network[J]. Mar Environ Sci, 36(4): 615-621 (in Chinese).
金蕊, 余晖, 吴志伟, 等, 2020. 次季节-季节尺度热带气旋活动研究和预测技术进展[J]. 大气科学学报, 43(1): 238-254. Jin R, Yu H, Wu Z W, et al, 2020. Sub-seasonal to seasonal prediction of tropical cyclone activity in the Western North Pacific: a review[J]. Trans Atmos Sci, 43(1): 238-254 (in Chinese).
刘彤, 闫天池, 2011. 我国的主要气象灾害及其经济损失[J]. 自然灾害学报, 20(2): 90-95. Liu T, Yan T C, 2011. Main meteorological disasters in China and their economic losses[J]. J Nat Dis, 20(2): 90-95 (in Chinese).
刘扬, 王维国, 2020. 基于随机森林的暴雨灾害人口损失预估模型及应用[J]. 气象, 46(3): 393-402. Liu Y, Wang W G, 2020. Assessing model of casualty loss in rainstorms based on random forest and its application[J]. Meteor Mon, 46(3): 393-402 (in Chinese).
牛海燕, 刘敏, 陆敏, 等, 2011. 中国沿海地区近20年台风灾害风险评价[J]. 地理科学, 31(6): 764-768. Niu H Y, Liu M, Lu M, et al, 2011. Risk assessment of typhoon disasters in China coastal area during last 20 years[J]. Sci Geogr Sin, 31(6): 764-768 (in Chinese).
钱奇峰, 董林, 许映龙, 等, 2023. 2022年西北太平洋和南海台风活动特征和预报难点分析[J]. 气象, 49(10): 1254-1266. Qian Q F, Dong L, Xu Y L, et al, 2023. Analysis on the characteristics and forecast difficulties of the typhoons over the Northwest Pacific and the South China Sea in 2022[J]. Meteor Mon, 49(10): 1254-1266 (in Chinese).
王国复, 2021. 气象灾害调查与风险评估[J]. 城市与减灾, (2): 5-9. Wang G F, 2021. Meteorological disaster investigation and risk assessment[J]. City Disas Reduc, (2): 5-9 (in Chinese).
王秀荣, 张立生, 李维邦, 2018. 台风灾害综合等级评判模型改进及应用分析[J]. 气象, 44(2): 304-312. Wang X R, Zhang L S, Li W B, 2018. Improvement and application analysis of the comprehensive grade evaluation model of typhoon disaster[J]. Meteor Mon, 44(2): 304-312 (in Chinese).
魏章进, 马华铃, 唐丹玲, 2017. 基于改进熵值法的台风灾害风险趋势评估[J]. 灾害学, 32(3): 7-11. Wei Z J, Ma H L, Tang D L, 2017. Trend assessment of typhoon disasters based on the improved entropy method[J]. J Catastrophol, 32(3): 7-11 (in Chinese).
温姗姗, 翟建青, Thomas F, 等, 2017. 1984—2014年影响中国热带气旋的经济损失标准化及其变化特征[J]. 热带气象学报, 33(4): 478-487. Wen S S, Zhai J Q, Thomas F, et al, 2017. Variation of normalized economic losses from influential tropical cyclones in China for 1984-2014[J]. J Trop Meteor, 33(4): 478-487 (in Chinese).
吴吉东, 傅宇, 张洁, 等, 2014. 1949—2013年中国气象灾害灾情变化趋势分析[J]. 自然资源学报, 29(9): 1520-1530. Wu J D, Fu Y, Zhang J, et al, 2014. Meteorological disaster trend analysis in China: 1949-2013[J]. J Nat Resour, 29(9): 1520-1530 (in Chinese).
向纯怡, 许映龙, 高拴柱, 等, 2022. 2021年西北太平洋台风活动特征和预报难点分析[J]. 气象, 48(9): 1195-1208. Xiang C Y, Xu Y L, Gao S Z, et al, 2022. Analysis of the characteristics and forecast difficulties of typhoon over the Western North Pacific in 2021[J]. Meteor Mon, 48(9): 1195-1208 (in Chinese).
杨绚, 张立生, 王铸, 2022. 基于机器学习算法的县域台风灾害经济损失风险评估[J]. 热带气象学报, 38(5): 651-661. Yang X, Zhang L S, Wang Z, 2022. Risk assessment for typhoon economic losses in county-based units using machine learning[J]. J Trop Meteor, 38(5): 651-661 (in Chinese).
叶小岭, 刘程波, 张颖超, 等, 2011. 基于BP神经网络的浙江台风损失预测[J]. 信息技术, (10): 59-61. Ye X L, Liu C B, Zhang Y C, et al, 2011. Damage forecasting of typhoon in Zhejiang Province based on BP ANN[J]. Inform Technol, (10): 59-61 (in Chinese).
殷洁, 戴尔阜, 吴绍洪, 等, 2013. 中国台风强度等级与可能灾害损失标准研究[J]. 地理研究, 32(2): 266-274. Yin J, Dai E F, Wu S H, et al, 2013. A study on the relationship between typhoon intensity grade and disaster loss in China[J]. Geogr Res, 32(2): 266-274 (in Chinese).
张娇艳, 吴立广, 张强, 2011. 全球变暖背景下我国热带气旋灾害趋势分析[J]. 热带气象学报, 27(4): 442-454. Zhang J Y, Wu L G, Zhang Q, 2011. Tropical cyclone damages in China under the background of global warming[J]. J Trop Meteor, 27(4): 442-454 (in Chinese).
张颖超, 王璐, 熊雄, 等, 2015. 基于SPA的福建省抗台风减灾能力评估[J]. 灾害学, 30(2): 85-88. Zhang Y C, Wang L, Xiong X, et al, 2015. Evaluation of typhoon disaster prevention and mitigation ability in Fujian Province based on set pair analysis[J]. J Catastrophol, 30(2): 85-88 (in Chinese).
中国气象局, 2000-2020. 中国气象灾害[M]. 北京: 气象出版社. China Meteorological Administration, 2000-2020. Yearbook of Meteorological Disasters in China[M]. Beijing: China Meteorological Press (in Chinese).
周康辉, 郑永光, 韩雷, 等, 2021. 机器学习在强对流监测预报中的应用进展[J]. 气象, 47(3): 274-289. Zhou K H, Zheng Y G, Han L, et al, 2021. Advances in application of machine learning to severe convective weather monitoring and forecasting[J]. Meteor Mon, 47(3): 274-289 (in Chinese).
庄瑶, 鲍瑞娟, 张容焱, 等, 2022. 福建热带气旋灾害精细化危险性评估[J]. 应用气象学报, 33(3): 319-328. Zhuang Y, Bao R J, Zhang R Y, et al, 2022. Refined risk assessment of tropical cyclone disasters in Fujian[J]. J Appl Meteor Sci, 33(3): 319-328 (in Chinese).
Bakkensen L A, Mendelsohn R O, 2019. Global tropical cyclone damages and fatalities under climate change: an updated assessment[C]//Collins J M, Walsh K. Hurricane Risk. Switzerland: Springer: 179-197.
Bender M A, Knutson T R, Tuleya R E, et al, 2010. Modeled impact of anthropogenic warming on the frequency of intense Atlantic hurricanes[J]. Science, 327(5964): 454-458. DOI:10.1126/science.1180568
Chen T Q, Guestrin C, 2016. XGBoost: A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco: ACM: 785-794.
Dube S K, Jain I, Rao A D, et al, 2009. Storm surge modelling for the Bay of Bengal and Arabian Sea[J]. Nat Hazards, 51(1): 3-27. DOI:10.1007/s11069-009-9397-9
Friedman J H, 2001. Greedy function approximation: a gradient boosting machine[J]. Ann Statist, 29(5): 1189-1232. DOI:10.1214/aos/1013203450
Ke G L, Meng Q, Finley T, et al, 2017. LightGBM: A highly efficient gradient boosting decision tree[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc. : 3149-3157.
Knutson T, Camargo S J, Chan J C L, et al, 2020. Tropical cyclones and climate change assessment: Part Ⅱ: projected response to anthropogenic warming[J]. Bull Amer Meteor Soc, 101(3): E303-E322. DOI:10.1175/BAMS-D-18-0194.1
Krapivin V F, Soldatov V Y, Varotsos C A, et al, 2012. An adaptive information technology for the operative diagnostics of the tropical cyclones; solar-terrestrial coupling mechanisms[J]. J Atmos Sol-Terr Phys, 89: 83-89. DOI:10.1016/j.jastp.2012.08.009
Mendelsohn R, Emanuel K, Chonabayashi S, et al, 2012. The impact of climate change on global tropical cyclone damage[J]. Nat Clim Change, 2(3): 205-209. DOI:10.1038/nclimate1357
Moon I J, Kim S H, Chan J C L, 2019. Climate change and tropical cyclone trend[J]. Nature, 570(7759): E3-E5. DOI:10.1038/s41586-019-1222-3
Richardson M, Dominowska E, Robert R, 2007. Predicting clicks: estimating the click-through rate for new ADS[C]//Proceedings of the 16th International Conference on World Wide Web. Banff: ACM: 521-530.
Schmidt S, Kemfert C, Höppe P, 2010. The impact of socio-economics and climate change on tropical cyclone losses in the USA[J]. Reg Environ Chang, 10(1): 13-26. DOI:10.1007/s10113-008-0082-4
Sun H, Wang J, Ye W T, 2021. A data augmentation-based evaluation system for regional direct economic losses of storm surge disasters[J]. Int J Environ Res Public Health, 18(6): 2918. DOI:10.3390/ijerph18062918
Wang D H, Zhang Y, Zhao Y, 2017. LightGBM: an effective miRNA classification method in breast cancer patients[C]//Proceedings of the 2017 International Conference on Computational Biology and Bioinformatics. Newark: ACM: 7-11.
Wang D N, Li L, Zhao D, 2022. Corporate finance risk prediction based on LightGBM[J]. Inform Sci, 602: 259-268. DOI:10.1016/j.ins.2022.04.058
Ye M Q, Wu J D, Liu W H, et al, 2020. Dependence of tropical cyclone damage on maximum wind speed and socioeconomic factors[J]. Environ Res Lett, 15(9): 094061. DOI:10.1088/1748-9326/ab9be2
Yonson R, Noy I, Gaillard J C, 2018. The measurement of disaster risk: an example from tropical cyclones in the Philippines[J]. Rev Dev Econ, 22(2): 736-765.
Zhang Y H, Ge T T, Tian W, et al, 2019. Debris flow susceptibility mapping using machine-learning techniques in Shigatse Area, China[J]. Remote Sens, 11(23): 2801.