快速检索
  气象   2021, Vol. 47 Issue (1): 82-93.  DOI: 10.7519/j.issn.1000-0526.2021.01.008

论文

引用本文 [复制中英文]

王可心, 包云轩, 朱承瑛, 等, 2021. 随机森林回归法在冬季路面温度预报中的应用[J]. 气象, 47(1): 82-93. DOI: 10.7519/j.issn.1000-0526.2021.01.008.
[复制中文]
WANG Kexin, BAO Yunxuan, ZHU Chengying, et al, 2021. Forecasts of Road Surface Temperature in Winter Based on Random Forests Regression[J]. Meteorological Monthly, 47(1): 82-93. DOI: 10.7519/j.issn.1000-0526.2021.01.008.
[复制英文]

资助项目

2018年度交通运输行业重点科技项目(2018-MS4-102)和2018年度云交设计公司自立科技项目(ZL-2018-04)共同资助

第一作者

王可心,主要从事交通气象的研究.E-mail:kexin_one@163.com

通信作者

包云轩,主要从事交通气象、大气环境、气象与农业防灾减灾的领域的研究.E-mail:baoyunxuan@163.com.

文章历史

2019年12月26日收稿
2020年6月30日收修定稿
随机森林回归法在冬季路面温度预报中的应用
王可心 1,2,3, 包云轩 1,2,3, 朱承瑛 2, 陈粲 1,2,3, 袁成松 1,2    
1. 南京信息工程大学气象灾害预报预警与评估协同创新中心,南京 210044
2. 中国气象局交通气象重点开放实验室,南京 210009
3. 南京信息工程大学应用气象学院,南京 210044
摘要:基于宁宿徐高速公路三个交通气象站2015—2018年冬季逐10 min实时观测资料,使用随机森林回归模型预报这三个站的未来1 h冬季路面温度,分析了该模型在冬季路面温度预报中的可行性和适用性。研究结果表明:随机森林回归法可以被用来预报高速公路冬季路面温度,不同类型的交通气象站点的特征输入方案和参数调试标准存在差异;与简单特征相比,引入的复合特征能更好地补充解释交通气象站所处的环境和气象要素,且其对普通路面交通气象站和靠近桥梁、水体的交通气象站的区分度更高,故引入复合特征的随机森林回归模型可以被用来预报高速公路冬季路面温度,且其在对普通路面交通气象站和靠近水体、桥梁的交通气象站的预报效果较好,而对服务区交通气象站的预报效果略差;袋外误差率的降低并不代表预报精度的提高;引入复合特征的随机森林回归模型不论在何种天气状况下,均可用于各不同类型交通气象站冬季路面温度的预报,雨雪天时的预报效果最佳,阴天其次,晴天略差。
关键词冬季路面温度    机器学习    随机森林    CART回归树    预报效果评估    
Forecasts of Road Surface Temperature in Winter Based on Random Forests Regression
WANG Kexin1,2,3, BAO Yunxuan1,2,3, ZHU Chengying2, CHEN Can1,2,3, YUAN Chengsong1,2    
1. Collaborative Innovation Center on Forecast and Evaluation of Meteorological Disaster, Nanjing University of Information Science and Technology, Nanjing 210044;
2. Key Laboratory of Transpotation Meteorology, CMA, Nanjing 210009;
3. School of Applied Meteorology, Nanjing University of Information Science and Technology, Nanjing 210044
Abstract: Based on the data of three traffic meteorological stations set on Nanjing-Suqian-Xuzhou Expressway observed every ten minutes during 2015-2018, the random forests regression is used to forecast the road surface temperature in the next hour in winter and the feasibility and applicability of the models were analyzed. The results are as follows. The random forests regression method can be used to predict the road surface temperature of the expressway in winter, and the feature input scheme and the parameter debugging are different in different types of traffic meteorological stations. Compared with the simple features, the complex features can replenish and explain the environment and meteorological elements of the traffic meteorological stations better, and they have a higher degree of differentiation between the ordinary road traffic meteorological stations and the traffic meteorological stations near the bridge and water. Thus, the model has a good forecast effect on the general road traffic meteorological stations and the traffic meteorological stations near the water and bridges, but a little poor forecast effect on the traffic meteorological stations in the service areas. The reduction of the average error rate out of bag does not mean the improvement of the prediction accuracy. The random forest regression model simulated from the complex features can be used to predict the road surface temperature of different types of traffic weather stations in winter no matter in what weather conditions. The forecast effect is the best in rainy and snowy days, followed by in ouvercast days, but slightly worse in sunny days.
Key words: road surface temperature in winter    machine learning    random forests regression    classification and regression tree    evaluation of prediction result    
引言

路面低温是沥青路面收缩开裂的主要原因(冯蕾等,2017),也是路面结冰的先决条件(董天翔等,2018)。对于车流量巨大、车速较快的沥青高速公路来说,无论路面开裂还是结冰,都极易引发交通事故(马晶昊等,2017)。因此,准确预报路面低温,既能提升气象部门的业务技术和科研水平,也能提高道路养护部门的工作效率,更重要的是能提醒司机行车安全,保障人民的生命财产安全。

目前关于路面温度预报的方法主要包括理论分析法和统计分析法两大类(秦健和孙立军,2005)。理论分析法基于能量平衡方程和热传导公式,建立数值预报模型,进而实现路面温度的预报。该方法最先由Barber(1957)使用。此后,国内外许多学者(刘熙明等,2004牛生杰等,2011吕晶晶等,2013Crevier and Delage, 2001Kangas et al,2015Meng,2018)在不同区域使用并改进了此方法,均获得了较好的效果。虽然理论分析法能从本质上揭露各种环境因素和气象因素对路面温度的影响,普适性较强,但是由于理论模型输入的变量较多,许多变量尤其是热学参数难以获取,导致理论模型的精确性受到了约束(秦健和孙立军,2005)。

基于数学公式的统计分析法,正好弥补了理论分析法精确性不高的缺点。它从纯数学的角度揭示了环境因素和气象因素与路面温度场的表面关系,进而建立起路面温度预报模型(秦健和孙立军,2005)。该模型输入变量多来自气象资料和路面资料,易于获取且变量数量较少,预报精度也较高,是路面温度预报研究中不可或缺的方法。在早期路面温度预报中,简单的回归统计模型使用较多,其中用的最多的是多元线性回归模型(马宁等,2015曲晓黎等,2010Diefenderfer et al,2015田华等,2009黄立葵等,2005李蕊等,2011),此外也有学者用到了逐步线性回归模型(Kršmanc et al,2013)、正弦函数模型(王琨和郝培文,2017)、自回归求和移动平均(ARIMA)统计模型(汤筠筠和郭忠印,2018)等简单统计模型。随着大数据时代的到来,有学者开始将机器学习引入路面温度预报。早期学者多选择使用神经网络来预报路面温度(王佳和郭春燕,2017Xu et al,2017)。董天翔等(2018)首次引入支持向量机模型将路面温度进行分类,实现了路面低温预警,但该方法只能对路面温度进行分类,不能预报具体的路面温度数值。Liu et al(2018)开发了一个集成式的机器学习模型——ELM-RBF模型预报了北京机场高速公路路面温度,并取得了较好的效果。机器学习方法种类繁多,国内对其的使用起步较晚,故关于这方面的研究依然存在不足。

本文基于2015—2018年冬季江苏省高速公路交通气象监测系统(AWMS)中新沂河站(M9414)、重岗山服务区站(M9357)和宿迁南站(M9412)的实时观测资料,使用以Bagging方式集成的,以CART回归树为核心函数的随机森林回归模型,预报这三个交通气象站点未来1 h的冬季路面温度,以期为以后使用机器学习预报冬季高速公路路面温度提供参考依据。

1 材料与方法 1.1 研究区及数据资料概况

本研究选择位于宁宿徐高速公路上的新沂河站(M9414)、重岗山服务区站(M9357)和宿迁南站(M9412)三个交通气象站(图 1)为研究站。宁宿徐高速公路位于江苏省西北部,沿线属温带季风气候,冬季气温在0℃上下波动,时有路面结冰发生。从江苏省交通运输厅近两年发布的冬季全省高速路况来看,结冰期间,宁宿徐高速公路常被定性为特级管制路段。

图 1 交通气象站地理位置分布示意图 Fig. 1 Geographical distribution diagram of traffic meteorological stations

所选的这三个交通气象站均位于宁宿徐高速宿迁市路段上,站点间距适中,既不会互相造成影响,又能保证其受到相同的气候系统控制,使其具有相似的气候大背景。但由于纬度和地理位置的不同导致其局地气象因子和环境要素存在显著的差异:新沂河站靠近桥梁,地势开阔,四周以水体、植被为主,对应路段降温散热速度较快,局地气象和环境要素相对简单;重岗山服务区站靠近高速公路服务区,车流量和人流量都较大,四周以建筑、路面和植被为主,可能存在“热岛效应”,其局地气象和环境要素相对复杂;而宿迁南站则为普通的高速公路路面站点,局地气象和环境要素复杂程度介于上述二者之间。

本研究基于上述三个交通气象站的实时观测资料进行建模。采用的数据资料均来自江苏省高速公路交通气象监测系统(AWMS),其中包括了三个交通气象站2015—2018年冬季(每年的12月至次年2月)逐10 min实时观测资料,样本资料足以满足机器学习的训练量。观测要素包括能见度、气温、相对湿度、降水量、2 min平均风速、2 min平均风向、路面温度、10 cm处路基温度。考虑到交通气象站周围环境要素复杂,为保证数据的科学性和有效性,事先对所有数据做了包括阈值控制、时间序列订正、异常值剔除等质量控制。

1.2 方法介绍 1.2.1 随机森林(RF)

随机森林是利用自助式抽样方法(bootstrap),有放回地从原始训练集中随机抽取样本(周志华,2016),基于这些随机抽取的样本分别构建CRAT回归树。随机森林样本集的选取和输入特征的选取都具有较强的随机性,加上多棵决策树的构建,使其能有效避免过拟合模型,是一种有监督的集成式机器学习方法(刘扬和王维国,2020)。其建模思路(图 2)主要分为两部分:

图 2 随机森林回归算法示意图 Fig. 2 Algorithm diagram of random forests regression

(1)从原始训练集中有放回地随机抽取数据组成多个样本集S(S>1);

(2) 使用CART函数,对抽取的样本集S建立对应的回归树模型。

其预测思路为:输入的特征会接受随机森林中每棵回归树模型的预测,进而得到S个预测值,这些预测值的平均值即为最终预测结果,其公式(Ao et al,2019)为:

$ Y = \frac{1}{S}\sum\limits_1^S {{F_S}(\mathit{\boldsymbol{X}})} $ (1)

式中:Y为预测结果,X为输入的特征数据向量,S为回归树模型个数,FS(X)为单个CRAT回归树模型,其公式(Breiman et al,1984张松林,1987李航,2012)为:

$ F(\mathit{\boldsymbol{X}}) = \sum\limits_{t = 1}^t {{C_t}I(\mathit{\boldsymbol{X}} \in {R_t})} $ (2)

式中:Rt为以不同特征的最优切分变量划分后的单元域;I(XRt)为逻辑值,若XRt,则I(XRt)=1,否则I(XRt)=0;Ct为单元域Rt内包含的所有输出值的平均值,t为单元域标号。此式的本质是先判断输入变量属于哪个单元域,然后返回该单元域的预测值。

由于随机森林每建一棵树,都使用随机且有放回的抽样方式进行采样,故在每个回归树模型建成之后,都有约三分之一的样本未参与到建模中,这部分样本即为袋外样本(OOB)(Rahman et al,2006)。基于此,随机森林的内部估计不需要引进交叉验证法和独立测试集无偏估计法,使用袋外样本估计即可进行随机森林的内部估计。

本研究使用随机森林的平均袋外误差率OOB来进行参数调试,其公式(Wolpert and Macready, 1999)为:

$ \overline {OOB} = \frac{1}{k}\sum\limits_{i = 1}^k {OO{B_i}} $ (3)
$ OO{B_i} = \frac{1}{n}\sum\limits_{j = 1}^n {{{({y_j} - {{\hat y}_j})}^2}} $ (4)

式中:k为随机森林中树的个数,i为森林中回归树模型的序号,OOBi为第i个回归树模型的袋外误差率,n为袋外样本数,j为袋外样本序号,yj为真实值,$ {{{\hat y}_j}} $为预测值。通常认为能使袋外误差率趋近于稳定时的参数为模型的优选参数。

1.2.2 模型评估指标

使用平均绝对误差(MAE)、均方根预测误差(RMSE)(Chang,2014)以及预测值误差绝对值在3℃以内的预报准确率(Accuracy)(Liu et al,2018)这三个指标来评估模型的预报效果。这三个指标的计算公式分别为:

$ MAE = \frac{1}{n}\sum\limits_{i = 1}^n {|{{\hat y}_i} - {y_i}|} $ (5)
$ RMSE = \sqrt {\frac{1}{n}\sum\limits_{i = 1}^n {{{({{\hat y}_i} - {y_i})}^2}} } $ (6)
$ Accuracy = \frac{{num(|{{\hat y}_i} - {y_i}| \le 3)}}{n} $ (7)

式中:yi为真实值,$ {{{\hat y}_i}} $为预测值,n为测试集样本量,i为样本序号,num(|$ {{{\hat y}_i}} $-yi|≤3)为预测值误差绝对值在3℃以内的样本数量。

1.2.3 变量预处理

由于能见度与2 min平均风向与其他变量存在数量级差异,加上CART回归树既能处理连续变量也能处理离散变量,同时也为了简化建模过程中的计算,加快模型运行速率,故对这两个变量做了如下基本处理:对能见度取10为底的对数(沈大庆,2015);通过联系研究区实际风向及其对地区水热影响的情况,将2 min平均风向以整数形式作了离散化处理。

由于CART回归树在进行二叉树分裂的过程中,总是遍历所有特征的所有切分量,进而找到某一最优切分特征的切分量进行分裂。而在这个过程中,模型并未考虑特征的自身变化和特征间的交互作用带来的影响(李文娟等,2018)。所以,我们尝试引入几个复合特征来表征特征间的交互作用以及特征随时间的变化情况,它们分别为:用来表征热量传输方向的气温与10 cm路基温度之间的差;用来表征降水在一段时间内持续性影响的1 h累积降水量;分别用来表征温度、相对湿度和10 cm路基温度随时间变化的1 h气温变化量、1 h相对湿度变化量和1 h的10 cm路基温度变化量。

2 结果与分析

考虑到输入的特征个数有限,加上当前对路面温度的预报更趋向于短时临近预报,故本研究主要以冬季未来1 h的路面温度为预报研究对象。三个交通气象站点2015—2017年的逐10 min冬季数据为建模用的测试集,2018年的逐10 min冬季数据为验证集。

2.1 模型参数调试

基于Bagging方式集成而来的随机森林回归法包含了大量参数。本研究的输入特征较少,无需增加限制特征的参数;训练集样本数量在硬件内存可控范围内,也无需增加限制样本的参数。由此,回归树模型的个数(Ntree)是影响建模的关键参数。图 3是随机森林回归模型中,模型平均袋外误差率与树模型个数变化的关系图,其中图 3a为以简单特征建模时的调参结果,图 3b为引入了复合特征建模时的调参结果。

图 3 简单特征(a)和复合特征(b)建模对平均袋外误差率与回归树模型个数的关系 (黑线为OOB =1.5℃的趋势线) Fig. 3 Relationship between the average rates out of bag (OOB) and numbers of regression tree models (a) simple features, (b) complex features (Black line is the trend line with OOB =1.5℃)

通常预报误差绝对值在3℃以内,可以认为预报值是准确的(Xu et al,2017Liu et al,2018),结合实际调参过程中平均袋外误差率数值变化情况,做了OOB=1.5℃的趋势线(图 3中黑色实线)作为参数选择的参考趋势线。由图 3可知,即便输入特征存在差异,但随着树模型个数的增加,三个交通气象站的平均袋外误差率变化趋势基本一致:均存在一个明显的拐点,树模型个数增加至拐点过程中,平均袋外误差率呈直线式下降,降速和降幅显著,而当树模型个数达到拐点后,平均袋外误差率降速和降幅均显著减缓, 甚至趋近于不变。

虽然平均袋外误差率变化趋势差异不大,但不同交通气象站以及同类气象站不同输入特征方案下的平均袋外误差率数值仍存在较大差异。表 1为不同特征输入方案下OOB参考值对应的树模型个数(考虑到图 3b数值变化的实际情况,对引入了复合特征的建模方案,增加了OOB < 1℃的参数标准)。结合图表可知,在使用简单特征调参时,仅M9414交通气象站的平均袋外误差率达到1.0℃以下。引入了复合特征以后,三个交通气象站的平均袋外误差率都达到1.0℃以下,甚至M9414交通气象站的平均袋外误差率能达到0.5℃以下。对比同样参考标准下树模型个数可以发现,引入了复合特征的模型的树模型个数大幅度减少,其中M9357交通气象站的减少率约为70%,M9412交通气象站的减少率约为63%,M9414交通气象站的减少率约为29%。可见,引入的复合特征对M9357和M9412交通气象站的树模型个数的减少作用明显强于对M9414交通气象站的减少作用。

表 1 不同OOB参考值对应的树模型个数 Table 1 Numbers of regression tree models corresponding to different OOB values
2.2 模型预报结果分析

表 2是基于表 1的参数进行建模以后,计算得到的各模型评估指标结果。以期从宏观角度比较不同特征输入方案下预报模型的效果。

表 2 基于随机森林回归模型预报三个交通气象站未来1 h冬季路面温度的评估结果 Table 2 Evaluations on winter road surface temperature forecasts in the next hour of the three traffic meteorological stations based on random forests regression

在相同的平均袋外误差率参考标准下,引入了复合特征建模后的M9414交通气象站预报模型的MAE和RMSE降幅均超过0.5℃,Accuracy增加了5.5%;M9412交通气象站预报模型的MAE和RMSE降幅约为0.4℃,Accuracy增加了2.2%;M9357交通气象站预报模型的MAE和RMSE降幅均小于0.3℃,Accuracy并未增加,反而还减少了约1%。从预报效果来看,M9412交通气象站的简单特征随机森林预报模型预报效果最优,M9414交通气象站其次,M9357交通气象站最差。而引入复合特征以后,M9414交通气象站的预报效果最好,M9412交通气象站其次,M9357交通气象站预报效果依然最差。

在相同的特征输入方案下,OOB越小,模型的复杂度越高。其中,M9357交通气象站预报模型的树模型个数增加了90个,MAE和RMSE减少了约0.1℃,Accuracy增加了2.5%。M9412和M9414交通气象站预报模型的树模型个数分别增加了250和30个,但二者的MAE、RMSE和Accuracy与高平均袋外误差率时的预报模型预测精度基本一致。

进一步绘制了个交通气象站的路面温度真实值和预测值对应的散点分布(图 4图 5,图中黑色实线为路面温度真实值与预测值数值一样的等值线),以期从微观角度分析预报值的偏差情况。

图 4 M9357(a),M9412(b),M9414(c)三个交通气象站简单特征建模后的预测值与真实值对比 (黑线为路面温度真实值与预测值数值一样的等值线) Fig. 4 Comparison between the true values and the predicted values simulated from simple features (a) M9357, (b) M9412, (c) M9414 (Black line means the values of the observation of road surface temperature are same with forecasts)

图 5 M9357(a,b),M9412(c,d)和M9414(e,f)三个交通气象站引入复合特征建模后的预测值与真实值对比 (a, c, e) OOB < 1.5℃, (b, d, f) OOB < 1℃ Fig. 5 Comparison between the true values and the predicted values simulated from complex features at M9357 (a, b), M9412 (c, d) and M9414 (e, f) (a, c, e) OOB < 1.5℃, (b, d, f) OOB < 1℃

从简单特征随机森林回归模型的散点在等值线附近的分布(图 4)来看,M9412交通气象站落于趋势线上的点最多,0.0℃以下路面温度段的点离散程度最小,0.0~15.0℃路面温度段的点离散程度最大,其中存在少量离散程度超过3.0℃的点,等值线下部的点略多于上部的点,说明该段路面温度预报值略低于真实值,而15.0℃以上路面温度段的预报值明显偏低,预报效果较其余温度段差(图 4b);M9414交通气象站落于等值线上的点略少于M9412交通气象站,全路面温度段的点离散情况表现为“中间大,两头小”,在等值线两侧的分布较均匀,离散程度超过3.0℃的点的数量较少(图 4c);M9357交通气象站落于等值线上的点最少,全路面温度段的点离散情况呈“S”型,5.0~7.0℃路面温度段的点分布最均匀,5.0℃以下路面温度段的点集中分布在等值线上方,预测值多偏大,7.0℃以上路面温度段的点集中分布在等值线下方,预测值多偏小。全温度段离散程度超过3.0℃的点的数量为三个交通气象站中最多的(图 4a)。

从引入了复合特征的随机森林回归模型的散点在等值线附近的分布来看(图 5),同站点不同平均袋外误差率下的点离散程度和分布情况差异并不大。与图 4相比,三个交通气象站落于等值线上的点数量明显增加,点的离散程度有所减小。M9412和M9414交通气象站点在等值线两侧的分布更加均匀,预报值误差显著减小。而M9357交通气象站的点由原先的“S”型离散分布变为直线式的离散分布,全温度段的点多集中在等值线上方,预报值偏差方向基本一致,均偏大。

考虑到冬季路面温度预报是冬季路面结冰预报的基础,本研究根据表 2图 4图 5的结果选择出各站点的最佳预报方案,统计了这三个站点在最佳预报方案下0℃及以下路面温度的分级预报准确率状况。统计发现,靠近服务区的交通气象站0℃以下路面温度预报误差在绝对值1℃以内的占74.6%,绝对值为1~2℃的占15.0%,绝对值为2~3℃的占3.8%;靠近桥梁和水体的交通气象站0℃以下路面温度预报误差在绝对值1℃以内的占93.7%,绝对值为1~2℃的占5.9%,绝对值为2~3℃的占0.2%;普通路面交通气象站0℃以下路面温度预报误差在绝对值1℃以内的占90.6%,绝对值为1~2℃的占8.6%,绝对值为2~3℃的占0.5%。可见,对三类交通气象站0℃及以下的路面温度预报结果的误差多集中在绝对值1℃以内。

结合宏观和微观两方面的结果来看,随机森林回归方法可以被用来预报高速公路冬季路面温度。简单特征随机森林回归模型对普通路面交通气象站的预报效果最好,对靠近水体和桥梁的交通气象站预报效果次之,对服务区交通气象站预报效果最差。而引入了复合特征的随机森林回归模型对靠近水体和桥梁的交通气象站的预报效果最好,对普通路面交通气象站的预报效果次之,对服务区交通气象站的预报效果最差。

2.3 不同天气状况下模型预报效果的比较分析

从2018年冬季数据中挑出24 h内路面温度出现小于0.0℃且无缺测的晴天(2018年12月27日20时至28日20时)、阴天(2018年12月26日20时至27日20时)和雨雪天(2019年1月5日20时至6日20时)各一个个例,目的是分析在不同天气状况下随机森林回归模型的预报效果。

2018年12月27日20时至28日20时有霜且出现结冰现象,白天日照时数达7.2 h,属于晴朗天气(图 6表 3)。由图 6可以发现,三个交通气象站的路面温度变化规律基本相似,夜间路面温度低于0.0℃,并持续降低,在08时左右达到最低值,白天路面温度高于0.0℃,至14—15时达到最高值后又开始下降。

图 6 2018年12月27日20时至28日20时晴天M9357(a),M9412(b)和M9414(c)三个交通气象站实测值与三类模型预测结果的对比 Fig. 6 Comparison between the true values and the predicted values from the models on the sunny day at M9357 (a), M9412 (b) and M9414 (c) from 20:00 BT 27 to 20:00 BT 28 December 2018

表 3 2018年12月27日20时至28日20时晴天模型预测的评估结果 Table 3 Evaluation on the predicted values of the models on the sunny day from 20:00 BT 27 to 20:00 BT 28 December 2018

就预报结果来看,使用简单特征建模的随机森林回归模型在预报M9357交通气象站的时候误差较大,预报准确率不足65%,图 6a中可以看出,其预报结果的变化趋势已远远偏离真实值变化趋势。而其对M9412和M9414交通气象站的预报效果明显优于M9357交通气象站,甚至M9414交通气象站的预报准确率达到100%。而从图 6b6c中可以发现,两个交通气象站的预报值在部分时段存在明显的偏差,但偏差多在3℃以内。结合图表可知,引入了复合特征的随机森林回归模型极大程度地提高了三个交通气象站路面温度的预报效果。尤其是对M9357交通气象站的预报,除08—16时的预报结果偏差较大,其余时间段吻合度均较高。此外,在对M9412和M9414交通气象站进行预报时,引入了复合特征的随机森林回归模型也弥补了使用简单特征建模的随机森林回归模型预报效果不理想的时段。

2018年12月26日20时至27日20时出现结冰现象,白天日照时数为0.0 h,属于阴天天气(图 7表 4)。由图 7可以发现,三个交通气象站凌晨至上午出现路面温度低于0℃的现象,该现象在M9412和M9414交通气象站的持续时间类似,而在M9357交通气象站的持续时间较长,下午及夜间路面温度都在0℃以上,且该时间段内存在明显的路面温度峰值。

图 7图 6,但为2018年12月26日20时至27日20时阴天 Fig. 7 Same as Fig. 6, but for the overcast day from 20:00 BT 26 to 20:00 BT 27 December 2018

表 4表 3,但为2018年12月26日20时至27日20时阴天 Table 4 Same as Table 3, but for the overcast day from 20:00 BT 26 to 20:00 BT 27 December 2018

就预报结果来看,M9412和M9414交通气象站的预报效果较好,三种预报模型预报的路面温度与实际路面温度变化趋势相似,预报误差较小,数值吻合度较高。而就M9357交通气象站路面温度预报结果来看,引入复合特征后的随机森林模型预报效果显著优于使用简单特征建模的随机森林回归模型,由图 7a可以发现,引入复合特征后的随机森林模型除在08—16时的预报值与真实值的吻合度均较高。

2019年1月4日晚至5日白天的持续性降水、降雪和雨夹雪一直延续到1月5日晚,故2019年1月5日20时至6日20时出现积雪和结冰现象。当日空气相对湿度全天都高于85%,最高达到96%,属于雨雪天气(图 8表 5)。三个交通气象站变化趋势相似,夜间路面温度在0℃上下波动,M9414交通气象站波动程度最大,白天温度高于0℃,且有明显的路面温度峰值。

图 8图 6,但为2019年1月5日20时至6日20时雨雪天 Fig. 8 Same as Fig. 6, but for the rainy and snowy day from 20:00 BT 5 to 20:00 BT 6 January 2019

表 5表 3,但为2019年1月5日20时至6日20时雨雪天 Table 5 Same as Table 3, but for the rainy and snowy day from 20:00 BT 5 to 20:00 BT 6 January 2019

就预报结果来看,使用简单特征建模的随机森林回归模型对三个交通气象站的预报值基本都偏高,但偏差绝对值均在3 ℃以内,就评估指标而言预报效果不差。而引入了复合特征后的随机森林模型在一定程度上提高了预报精度,降低了偏差。但是从图 8可以看出,M9357交通气象站的预报值普遍偏高,只在16—20时区间内预报值与真实值高度吻合;M9412交通气象站的预报值与真实值吻合度较高,仅在13—16时期间预报值偏高;M9414交通气象站的预报值与真实值的吻合度略不及M9412交通气象站,在02—10时预报值出现偏高现象。

统观三类天气状况下的各交通气象站的冬季路面温度预报情况可以发现,引入复合特征的随机森林回归模型不管在何种天气状况下,均可用于各不同类型交通气象站冬季路面温度的预报。但是,模型对雨雪天时路面温度的预报效果最佳,阴天其次,晴天最差。

3 讨论

本研究建立的随机森林预报模型的复杂度主要包括输入特征和树模型个数两部分,而这两部分与模型的调参过程息息相关。而从前文的分析中可以发现,增加输入特征本质上是补充解释交通气象站周围环境和气象要素的影响,进而会增加随机森林模型内每棵CART回归树的复杂度,随着每棵树模型复杂度的增加,森林内树模型个数就会有所减少,进而使得随机森林模型有所简化,模型的平均袋外误差率会有所降低。而在输入特征不变的情况下,增加树模型的个数,即增加随机森林模型的复杂度,模型的平均袋外误差率也会有所降低。

从预报结果来看,由于普通路面交通气象站和靠近桥梁和水体的交通气象站周围的气象环境要素变化较靠近服务区的交通气象站点来说相对简单,故增加了复合特征以后的特征输入方案能更好地识别这两类交通气象站,因此该模型在预报这两个交通气象站冬季路面温度时的效果较好。与前两类交通气象站不同,由于服务区内人员及商户密集,有很多车辆停放,造成大量人为排放,加上水泥下垫面特性以及服务区散热不良等,靠近服务区的交通气象站除受到固有的气象环境要素影响以外,还会受到服务区内“热岛效应”的影响,而在本研究中给出的两类特征输入方案关于服务区交通气象站“热岛效应”的描述性特征存在不足,已有的气象因子无法准确解释“热岛效应”的强弱程度对路面温度造成的影响,导致其预报效果稍逊色于前两类交通气象站。而许多学者的研究也表明(Belk,1992Chanman and Thornes, 2005Thornes et al,2005Weller and Thornes, 2001),路面温度除了受气象因子的影响外,还会受到地形、道路材料、交通特性等因素的影响。因此,还需引入更多可以表征和解释站点周围环境的变量来改善模型。

与目前的路面温度预报研究结果相比,许多学者(马宁等,2015曲晓黎等,2010Diefenderfer et al,2015田华等,2009黄立葵等,2005)选择的多元线性回归的预报准确率基本在85%左右(李兰兰等,2016朱承瑛等,2009),Liu et al(2018)比较的ELM、ELM-RBF以及GBELM-RBF三类机器学习方法的预报准确率,只有最后一种的预报准确率达到80%以上。而从上文的预报结果中可以发现,随机森林对各交通气象站点的预报准确率都高于其他统计方法,甚至在0℃及以下路面温度的预报中预报误差绝对值在1℃的预报准确率也高于部分统计方法。可见,虽然随机森林法在预报冬季路面温度中仍存在不足之处,但其预报精度在当前的各类统计预报方法中表现不俗。

就不同天气条件下的路面温度及预报效果来看,三个交通气象站的路面温度的变化幅度均以雨雪天最小,阴天次之,晴天最大。而相同天气状况下,服务区交通气象站的路面温度日变化幅度小于靠近桥面交通气象站的路面温度日变化幅度,普通路面交通气象站的路面温度日变化幅度最大,这些与王婧等(2018)的结论基本一致。就预报结果而言,引入复合特征的预报模型优于使用简单特征的预报模型,且其对普通路面交通气象站和靠近水体、桥梁的交通气象站的预报效果较好,而对服务区交通气象站的预报效果相对差一点。宏观上基于评估指标而言,模型对雨雪天时路面温度的预报效果最佳,阴天次之,晴天略差,但微观上基于数值吻合度而言,阴天数值吻合度最高,晴天次之,雨雪天最差。

综合调参和预报结果来看,袋外误差率的提高并不代表预报精度的提高。如果增加的输入特征可以较好地解释交通气象站附近的环境气象要素,则选择合适的袋外误差率参考标准,即可达到较好的预报精度,若其对环境气象要素的解释存在较大不足,则还需要增加树模型的个数才能有较高的预报精度。

4 结论与展望

本文根据江苏省高速公路交通气象监测系统(AWMS)中宁宿徐高速公路上分别代表普通路面交通气象站、靠近水体和桥梁的交通气象站及服务区交通气象站的宿迁南站、新沂河站和重岗山服务区站的实时观测资料,使用随机森林模型,预报了这三个交通气象站点未来1 h的冬季路面温度,并对不同特征输入方案下的参数调试和不同天气下的预报结果作了比较,得到如下结论:

(1) 随机森林回归法可以用来预报高速公路冬季路面温度,但它的特征输入方案和参数调试方案因交通气象站点类型的不同而存在差异。

(2) 引入的复合特征能更好地补充解释交通气象站所处的环境和气象要素,且其对路面交通气象站和靠近桥梁和水体的交通气象站的区分度更高,而对服务区交通气象站的解释存在不足。可见对于服务区交通气象站来说,引入的复合特征缺乏代表性和对其环境、气象要素的解释性。

(3) 袋外误差率的提高并不代表预报精度的提高,准确、全面的输入特征辅以恰当的树模型个数是模型预报精度的决定性因素。

(4) 引入复合特征的随机森林回归模型不管在何种天气状况下,均可用于各不同类型交通气象站冬季路面温度的预报。它对普通路面交通气象站和靠近桥梁、水体的交通气象站预报效果优于对服务区交通气象站的预报效果。而对于同类型交通气象站来说,雨雪天时的预报效果最佳,阴天其次,晴天最差。

需要指出的是,从预报结果来看,所选的随机森林回归模型可以被用来预报高速公路冬季路面温度。但是,本研究使用的随机森林模型仅使用了简单的算术平均值作为输出结果,而这样的做法对于具有正负差异的路面温度来说,显然不是最优的结果输出方式。故在以后的研究中,我们将试图引入集合预报的思想改进随机森林算法,以提高预报精度。此外,随机森林回归预报模型在不同类型站点上适用性的评估,仅是根据研究中选定的输入特征方案下得到的预报结果推论而来,其普适性还需要更多的同类型站点加以验证比对。

参考文献
董天翔, 包云轩, 袁成松, 等, 2018. 三种统计预报模型在江苏省道路低温预警中的应用[J]. 气象科技, 46(4): 773-784. Dong T X, Bao Y X, Yuan C S, et al, 2018. Application of three statistical forecast models in early warning of low-temperature on road surface in Jiangsu and their comparison[J]. Meteor Sci Technol, 46(4): 773-784 (in Chinese).
冯蕾, 王晓峰, 何晓凤, 等, 2017. 基于INCA和METRo的江苏省路面高温精细化预报[J]. 应用气象学报, 28(1): 109-118. Feng L, Wang X F, He X F, et al, 2017. Fine forecast of high road temperature along Jiangsu Highways based on INCA System and METRo model[J]. J Appl Meteor Sci, 28(1): 109-118 (in Chinese).
黄立葵, 贾璐, 万剑平, 等, 2005. 沥青路面温度状况的统计分析[J]. 公路工程, 30(3): 8-9, 57. Huang L K, Jia L, Wan J P, et al, 2005. Statistical analysis of asphalt pavement temperature profile[J]. Highway Eng, 30(3): 8-9, 57 (in Chinese). DOI:10.3969/j.issn.1674-0610.2005.03.003
李航, 2012. 统计学习方法[M]. 北京: 清华大学出版社. Li H, 2012. Statistical Methods[M]. Beijing: Tsinghua University Press (in Chinese).
李兰兰, 宋永鹏, 韩国泳, 2016. 泰安高速公路路面温度特征及预报模型[J]. 山东气象, 36(2): 58-63. Li L L, Song Y P, Han G Y, 2016. Characteristics and prediction models of road surface temperature on Tai'an Expressway[J]. J Shandong Meteor, 36(2): 58-63 (in Chinese). DOI:10.3969/j.issn.1005-0582.2016.02.011
李蕊, 牛生杰, 汪玲玲, 等, 2011. 三种下垫面温度对比观测及结冰气象条件分析[J]. 气象, 37(3): 325-333. Li R, Niu S J, Wang L L, et al, 2011. Comparison of three kinds of underlying surface temperatures and analysis of the road icing meteorological conditions[J]. Meteor Mon, 37(3): 325-333 (in Chinese). DOI:10.3969/j.issn.1009-0827.2011.03.012
李文娟, 赵放, 郦敏杰, 等, 2018. 基于数值预报和随机森林算法的强对流天气分类预报技术[J]. 气象, 44(12): 49-58. Li W J, Zhao F, Li M J, et al, 2018. Forecasting and classification of severe convective weather based on numerical forecast and random forest algorithm[J]. Meteor Mon, 44(12): 49-58 (in Chinese).
刘熙明, 喻迎春, 雷桂莲, 等, 2004. 应用辐射平衡原理计算夏季水泥路面温度[J]. 应用气象学报, 15(5): 623-628. Liu X M, Yu Y C, Lei G L, et al, 2004. Using radiant balance theory to calculate concrete road-surface temperature in summer[J]. J Appl Meteor Sci, 15(5): 623-628 (in Chinese). DOI:10.3969/j.issn.1001-7313.2004.05.012
刘扬, 王维国, 2020. 基于随机森林的暴雨灾害人口损失预估模型及应用[J]. 气象, 46(3): 393-402. Liu Y, Wang W G, 2020. Assessing model of casualty loss in rainstorms based on random forest and its application[J]. Meteor Mon, 46(3): 393-402 (in Chinese).
吕晶晶, 牛生杰, 周悦, 等, 2013. 冬季高速公路路桥温度变化规律及能量平衡分析[J]. 大气科学学报, 36(5): 546-553. Lv J J, Niu S J, Zhou Y, et al, 2013. Characteristics of bridge and road surface temperature changes in winter and energy budget analysis[J]. Trans Atmos Sci, 36(5): 546-553 (in Chinese). DOI:10.3969/j.issn.1674-7097.2013.05.004
马晶昊, 廖春花, 张永锋, 2017. 长沙公路路面温度变化特征及预报模型[J]. .科技广场, (2): 22-25. Ma J H, Liao C H, Zhang Y F, 2017. Variation characteristics of road surface temperature on highway of Changsha and its prediction model[J]. Sci Mosaic, (2): 22-25 (in Chinese).
马宁, 程雅茹, 武万里, 等, 2015. 福银高速公路宁夏段夏季路面最高温度变化分析及预报模型建立[J]. 宁夏大学学报(自然科学版), 36(4): 392-399. Ma N, Cheng Y R, Wu W L, et al, 2015. Analysis on the variation of road surface highest temperature on Ningxia section of Fu-Yin Freeway in the summer and the establishment of its forecast model[J]. J Ningxia Univ (Nat Sci Ed), 36(4): 392-399 (in Chinese). DOI:10.3969/j.issn.0253-2328.2015.04.022
牛生杰, 李蕊, 吕晶晶, 等, 2011. 三种下垫面温度及结冰预报模型研究[J]. 地球物理学报, 54(4): 909-917. Niu S J, Li R, Lv J J, et al, 2011. Research on a numerical model for predicting three types of underlying surface temperature and ice[J]. Chin J Geophys, 54(4): 909-917 (in Chinese). DOI:10.3969/j.issn.0001-5733.2011.04.004
秦健, 孙立军, 2005. 国外沥青路面温度预估方法综述[J]. 中外公路, 25(6): 19-23. Qin J, Sun L J, 2005. Summary of temperature prediction methods of asphalt pavement in foreign countries[J]. J China Foreign Highway, 25(6): 19-23 (in Chinese). DOI:10.3969/j.issn.1671-2579.2005.06.006
曲晓黎, 武辉芹, 张彦恒, 等, 2010. 京石高速路面温度特征及预报模型[J]. 干旱气象, 28(3): 352-357. Qu X L, Wu H Q, Zhang Y H, et al, 2010. Characteristics of road suface temperature on Jingshi freeway and the establishment of its forecast model[J]. Arid Meteor, 28(3): 352-357 (in Chinese). DOI:10.3969/j.issn.1006-7639.2010.03.019
沈大庆, 2015. 应用数学[M]. 北京: 国防工业出版社. Shen D Q, 2015. Applied Mathematics[M]. Beijing: National Defense Industry Press (in Chinese).
汤筠筠, 郭忠印, 2018. 基于自回归求和移动平均的冬季路温短临预测[J]. 同济大学学报(自然科学版), 45(12): 1824-1829. Tang J J, Guo Z Y, 2018. Pavement temperature short-impending prediction based on ARIMA in winter[J]. J Tongji Univ (Nat Sci), 45(12): 1824-1829 (in Chinese).
田华, 吴昊, 赵琳娜, 等, 2009. 沪宁高速公路路面温度变化特征及统计模型[J]. 应用气象学报, 20(6): 737-744. Tian H, Wu H, Zhao L N, et al, 2009. Characteristics and statistical model of road surface temperature on Huning Expressway[J]. J Appl Meteor Sci, 20(6): 737-744 (in Chinese). DOI:10.3969/j.issn.1001-7313.2009.06.012
王佳, 郭春燕, 2017.G6高速内蒙段冬季公路路面温度变化特征以及预报模型[C]//第34届中国气象学年会S11创新驱动智慧气象服务——第七届气象服务发展论坛文集.北京: 中国气象学会. Wang J, Guo C Y, 2017.Characteristics and prediction model of road surface temperature in winter in Inner Mongolia section of G6 Expressway[C].Meteorological Service Development Forum(in Chinese).
王婧, 朱承瑛, 袁成松, 等, 2018. 冬季扬溧高速路桥面的低温差异性特征研究[J]. 热带气象学报, 34(2): 279-288. Wang J, Zhu C Y, Yuan C S, et al, 2018. Study on low temperature differences between road surface and bridge surface on Yangzhou-Liyang Expressway in winter[J]. J Trop Meteor, 34(2): 279-288 (in Chinese).
王琨, 郝培文, 2017. 不同层位沥青路面温度预估模型[J]. 长安大学学报(自然科学版), 37(6): 24-30. Wang K, Hao P W, 2017. Prediction model of temperature in different layers of asphalt pavement[J]. J Chang'an Univ (Nat Sci Ed), 37(6): 24-30 (in Chinese). DOI:10.3969/j.issn.1671-8879.2017.06.004
张松林, 1987. CART——分类与回归树方法介绍[J]. 火山地质与矿产, 18(1): 67-75. Zhang S L, 1987. An introduction to the methodology of CART——classification and regression trees[J]. Volcanol Min Res, 18(1): 67-75 (in Chinese).
周志华, 2016. 机器学习[M]. 北京: 清华大学出版社. Zhou Z H, 2016. Machine Learning[M]. Beijing: Tsinghua University Press (in Chinese).
朱承瑛, 谢志清, 严明良, 等, 2009. 高速公路路面温度极值预报模型研究[J]. 气象科学, 29(5): 645-650. Zhu C Y, Xie Z Q, Yan M L, et al, 2009. Study on the numerical prediction model of extreme temperature on speedway-surface[J]. J Meteor Sci, 29(5): 645-650 (in Chinese). DOI:10.3969/j.issn.1009-0827.2009.05.012
Ao Y L, Li H Q, Zhu L P, et al, 2019. The linear random forest algorithm and its advantages in machine learning assisted logging regression modeling[J]. J Petrol Sci Eng, 174: 776-789. DOI:10.1016/j.petrol.2018.11.067
Barber E S, 1957. Calculation of maximum pavement temperatures from weather reports[J]. Highway Res Board Bull, 168(1): 1-8.
Belk D G, 1992.Thermal mapping for a highway gritting network[D].Sheffueld: The University of Sheffield.
Breiman L, Friedman J, Olshen R, et al, 1984. Classification and Regression Trees[M]. Belmont: Wadsworth.
Chang K T, 2014. Intruduction to Geographic Information System[M]. New York: McGraw-Hill Higher Education.
Chapman L, Thornes J E, 2005. The influence of traffic on road surface temperatures:implications for thermal mapping studies[J]. Meteor Appl, 12(4): 371-380. DOI:10.1017/S1350482705001957
Crevier L P, Delage Y, 2001. METRo:a new model for road-condition forecasting in Canada[J]. J Appl Meteor, 40(11): 2026-2037. DOI:10.1175/1520-0450(2001)040<2026:MANMFR>2.0.CO;2
Diefenderfer B K, Al-Qadi I L, Diefenderfer S D, 2015. Model to predict pavement temperature profile:development and validation[J]. J Transp Eng, 132(2): 162-167.
Kangas M, Heikinheimo M, Hippi M, 2015. RoadSurf:a modelling system for predicting road weather and road surface conditions[J]. Meteor Appl, 22(3): 544-553. DOI:10.1002/met.1486
Kršmanc R, Slak A Š, Demšar J, 2013. Statistical approach for forecasting road surface temperature[J]. Meteor Appl, 20(4): 439-446. DOI:10.1002/met.1305
Liu B, Yan S, You H L, et al, 2018.An ensembled RBF extreme learning machine to forecast road surface temperature[C]//Proceedings of the 16th IEEE International Conference on Machine Learning and Applications.Cancun: IEEE.
Meng C L, 2018. A numerical forecast model for road meteorology[J]. Meteor Atmos Phys, 130(4): 485-498. DOI:10.1007/s00703-017-0527-8
Rahman M, Zhu J P, Cheng Y T, 2006. Effect of bias and variance on estimation and classification error for prediction[J]. J Data Anal, 1(3): 113-135.
Thornes J E, Cavan G, Chapman L, 2005. XRWIS:the use of geo-matics to predict winter road surface temperatures in Poland[J]. Meteor Appl, 12(1): 83-90. DOI:10.1017/S135048270500157X
Weller J, Thornes J E, 2001. An investigation of winter nocturnal air and road surface temperature variation in the West Midlands, UK under different synoptic conditions[J]. Meteor Appl, 8(4): 461-474. DOI:10.1017/S1350482701004078
Wolpert D H, Macready W G, 1999. An efficient method to estimate Bagging's generalization error[J]. Mach Learn, 35(1): 41-55. DOI:10.1023/A:1007519102914
Xu B, Dan H C, Li L, 2017. Temperature prediction model of asphalt pavement in cold regions based on an improved BP neural network[J]. Appl Therm Eng, 120: 568-580. DOI:10.1016/j.applthermaleng.2017.04.024