全国网格化多模式集成空气质量预报的初步建立

精细化无缝隙网格预报专栏

引用本文 [复制中英文]

张天航, 迟茜元, 张碧辉, 等, 2020. 全国网格化多模式集成空气质量预报的初步建立[J]. 气象, 46(3): 381-392. DOI: 10.7519/j.issn.1000-0526.2020.03.009.

ZHANG Tianhang, CHI Xiyuan, ZHANG Bihui, et al, 2020. Development of Gridding Multi-Model Ensemble Air Quality Forecast in China[J]. Meteorological Monthly, 46(3): 381-392. DOI: 10.7519/j.issn.1000-0526.2020.03.009.

[复制英文]

资助项目

国家重点研发计划(2016YFC0203301)、中国气象局气象预报业务关键技术发展专项(YBGJXM2018-7A)和国家气象中心青年基金(Q201808)共同资助

第一作者

张天航，主要从事空气质量预报和检验研究.Email：sharp@mail.iap.ac.cn。

通信作者

张碧辉，主要从事环境气象预报和检验研究.Email：bihui_zhang@qq.com.

文章历史

2019年4月29日收稿
2020年1月12日收修定稿

Contents Abstract Full text Figures/Tables PDF

全国网格化多模式集成空气质量预报的初步建立

张天航 , 迟茜元 , 张碧辉 , 张恒德 , 江琪 , 王继康 , 饶晓琴 , 谢超 , 吕梦瑶 , 安林昌 , 南洋

国家气象中心，北京 100081

2019年4月29日收稿；2020年1月12日收修定稿

资助项目：国家重点研发计划(2016YFC0203301)、中国气象局气象预报业务关键技术发展专项(YBGJXM2018-7A)和国家气象中心青年基金(Q201808)共同资助

第一作者：张天航，主要从事空气质量预报和检验研究.Email：sharp@mail.iap.ac.cn

通信作者：张碧辉，主要从事环境气象预报和检验研究.Email：bihui_zhang@qq.com

摘要：为降低单个模式预报的不确定性和提高多模式集成空气质量预报系统的精细化程度，利用Cressman插值初步建立了我国0.25°×0.25°网格化污染物实况。结合4套空气质量数值预报模式，通过均值集成、权重集成和多元线性回归集成分别逐格点建立了集成预报。在预报当天各单一模式和集成方法前50 d预报效果评估基础上，建立了最优集成预报。对2018年12月19—22日一次重污染过程中集成预报的PM2.5浓度评估结果显示：在污染较重时刻，最优集成预报与观测之间的归一化平均偏差(NMB)值在重污染地区保持在-20%~40%，对污染程度为良及以上区域的预报范围相较于单个模式更接近观测。整个过程中，最优集成在大部分污染区域与观测之间的NMB值为-20%~20%，均方根误差(RMSE)值为35~75 μg·m-3，相关系数(R)值大于0.4。相较于所有单一模式和其他集成方法，最优集成在全国最多的格点有着较高的总体评分。在污染最重区域的8个城市，最优集成预报的污染过程平均开始和结束时间分别比观测时间早1.8和6.9 h。未来需融合卫星反演和地表观测来提高网格化污染物实况的精细化程度，利用降尺度、主客观融合和滚动订正等方法进一步提高网格化多模式集成空气质量预报的准确率。

关键词：网格化多模式集成空气质量预报

Development of Gridding Multi-Model Ensemble Air Quality Forecast in China

ZHANG Tianhang, CHI Xiyuan, ZHANG Bihui, ZHANG Hengde, JIANG Qi, WANG Jikang, RAO Xiaoqin, XIE Chao, LYU Mengyao, AN Linchang, NAN Yang

National Meteorological Centre, Beijing 100081

Abstract: To decrease the forecast uncertainties of single models and improve the refinement of multi-model ensemble air quality forecast system, the gridding observed pollutant concentration with resolution of 0.25°×0.25° was firstly established by using Cressman interpolation method. Then, combined with four numerical air quality forecast models, the mean, weighted and multiple linear regression ensembles were established in each grid, respectively. Finally, based on the evaluation results of single models and ensemble methods in previous 50 days, an optimal ensemble was established. The evaluation results of PM2.5 concentrations during a heavy pollution process in 19-22 December 2018 showed that in the case of heavy pollution, the NMB values between the optimal ensemble forecast and observations could also be maintained between -20% and 40%. And the forecast coverage area with good and above pollution by the optimal ensemble was closer to observation than those of single models. During the whole process, the NMB, root mean squared error (RMSE) and R values between forecasted PM2.5 concentrations by the optimal ensemble and observation were from -20% to 20%, from 35 to 75 μg·m-3 and higher than 0.4, respectively, in most polluted areas. Among all single models and ensemble methods, number of girds over China with high total scores was the largest in optimal ensemble. In the eight cities located in the most polluted region, the average onset and end times of the pollution process by optimal ensemble forecast was 1.8 and 6.9 h earlier than observation, respectively. Therefore, we propose that pollutant concentrations retrieval by satellite and surface observation should be fused to improve the refinement of gridding observed pollutant concentrations. And the methods of scale reduction, subjective and objective fusion and rolling correction should be used to further improve the forecast accuracy of gridding multi-model ensemble air quality forecast.

Key words: gridding multi-model ensemble air quality forecast

引言

空气质量的好坏反映了空气污染的程度，与人体健康息息相关(Cheng et al，2013；周骥等，2018)。同时，作为空气质量重要组成的PM_2.5和PM₁₀浓度是雾、霾和沙尘等天气现象和等级的重要判据(张小曳等，2006；吴兑等，2010)。当前，多数机构对外发布的空气质量预报的时空分辨率较低，无法满足人们对于精细化定制服务的需求。因此，发展更准确、更高时空分辨率的网格化空气质量预报产品是国家级环境气象业务单位的发展趋势。

空气质量数值预报模式可以提供网格化空气质量预报，但由于现阶段模式中初始场、驱动气象场、气溶胶的排放和生命周期中物理化学过程的不确定性等因素，单个模式预报的污染物浓度和观测之间存在较大误差。相关的评估结果显示，我国各级气象局发展的空气质量数值预报系统预报的PM_2.5浓度和观测之间的偏差为-30.2%~49%(赵秀娟等，2016；杨关盈等，2017；Zhou et al，2017；刘琳等，2018)。

多模式集成是降低单个模式预报不确定性的有效手段。瞿元昊等(2018)基于中国和欧洲7个空气质量数值预报模式提出了优化的权重集成预报。相较于预报效果最好的单个模式，其预报的2016年6月至2017年5月上海市日均PM_2.5浓度的污染的预兆评分(TS)提高了0.28。张天航等(2019b)将多种集成方法相结合，提出了一种最优集成预报方法，其预报的2015—2016年全国PM_2.5浓度和观测之间的归一化平均偏差(NMB)在±10%之内。此外，也有一些研究将多模式集成方法应用至O₃预报中。吴剑斌等(2017)利用和瞿元昊等(2018)类似的方法对2015年9月至2016年5月全国1529个国家级环境监测站点的O₃浓度进行了多模式集成预报。结果显示集成预报的O₃浓度和观测之间的相关系数相较于单个模式提高0.11以上。姚雪峰等(2018)将基于活动区间的多模式超级集成应用至2015年长三角26个站点O₃预报中。结果表明，与均值集成、消除偏差的均值集成和滑动训练期的超级集成相比，该集成方法使预报和观测之间的均方根误差(RMSE)降低了20%~23%。现阶段由于网格化污染物实况匮乏和计算能力的限制，多模式集成空气质量预报多针对站点进行。

网格化污染物实况是网格化多模式集成空气质量预报的基础。利用卫星反演的气溶胶特性来估算地面颗粒物实况已成为未来的发展趋势(Ma et al，2016; Zhang and Li, 2015；Fang et al，2016)。但由于估算方法中关键变量的不确定性较大，较难获取夜间浓度，现阶段利用其形成网格化颗粒物实况业务产品的难度较高。此外，利用卫星反演资料估算地表气体浓度的研究也较少。那么在网格化空气质量集成预报发展的初期，将地面观测的站点污染物浓度插值为网格化实况不失为一种高效的方法。

所以，本文利用Cressman插值方法，初步建立了网格化污染物实况。再利用多种集成方法分别建立了集成预报。最终在实时预报效果评估基础上，初步得到了多模式最优集成空气质量预报。旨在探索多模式集成预报方法在网格预报上的可行性，为未来精细化环境气象智能网格预报打下基础。

1 资料介绍 1.1 网格化污染物实况

网格化污染物实况是网格化多模式集成空气质量预报的基础，但目前没有形成一套标准的方法来制作网格化实况。基于后续网格化多模式集成计算机时的考虑，本文利用常用的Cressman插值方法，将中国环境监测总站发布的全国约1500多个站点观测的6种污染物(PM_2.5、PM₁₀、O₃、SO₂、NO₂和CO)逐小时浓度插值为0.25°×0.25°网格化实况。基于保证插值之后全国范围无缺省值的原则，将插值半径设置为7.5°、5°、3°、1°和0.25°。图 1显示了重污染时刻站点观测和插值的网格化PM_2.5质量浓度。可以看出插值的网格化PM_2.5质量浓度从空间分布和量级上均反映出了站点观测在汾渭平原、河北南部、河南、山东西部、湖北北部、四川盆地、吉林北部等地的中度及以上污染。但网格化实况对重污染区个别数值偏低的站点PM_2.5质量浓度高估程度较重，例如河南北部个别站点观测浓度为0~35 μg·m^-3，插值后为150~250 μg·m^-3，精细化程度有待改进。从全国站点插值和观测的散点图(图 2)可以看出，绝大多数站点的插值和直接观测的PM_2.5浓度差异较小，但由于插值精细化程度问题，少数站点上存在较大差异。整体来说二者之间相关系数为0.97，拟合函数斜率为1.04，说明利用Cressman插值可以初步提供网格化污染物实况。

图 1 2018年12月21日01时插值的网格化(填色图)和站点观测(圆形点)的PM_2.5质量浓度(单位：μg·m^-3) Fig. 1 Interpolated gridding (colouring map) and site observed (circular points) PM_2.5 mass concentrations (unit: μg·m^-3) at 01:00 BT 21 December 2018

图 2 2018年12月21日01时插值的网格化和站点观测的PM_2.5质量浓度散点图 Fig. 2 Scatter plot of interpolated gridding and site observed PM_2.5 mass concentrations at 01:00 BT 21 December 2018

1.2 空气质量数值预报模式

本文所用空气质量数值模式预报资料分别来自中国气象局4个国家级或区域级环境气象业务中心，包括国家级中国化学天气预报平台系统(CUA- CE)、华北区域环境气象预报系统(BREMPS)、华东区域大气环境模式系统(RAEMS)、华南区域中心发展的由全球以及区域同化和预报增强系统(GRAPES)驱动的交互式多尺度空气质量模式(CMAQ), 以下分别简写为CUACE、NNC、ENC和SNC模式。各模式预报区域和各参数设置见表 1。本文选用2018年12月19—22日过程期间各模式0~72 h时效预报资料。

表 1 各空气质量数值预报模式参数 Table 1 Parameters of numerical air quality forecast models

为了和网格化实况空间分辨率保持一致，利用双线性插值将所有数值模式预报结果插值为0.25°×0.25°分辨率。

2 集成方法

针对每种污染物、每个格点和每个预报时次，整体集成方法分为三个阶段(图 3)：(1)多方法集成期。利用预报时刻前50 d观测资料和各模式预报资料分别使用均值集成(mean)、权重集成(weighted)和多元线性回归集成(MLR)建立集成预报；(2)实时预报效果评估期。利用预报当天前50 d观测资料和各单一模式与集成方法的预报结果，基于3种评估指标(NMB、RMSE和R)，得到各单一模式和集成方法的综合评分；(3)最优集成期。将各格点综合评分最高方法的当天预报结果作为最优集成(best)预报，最后组成全国最优集成预报。

图 3 多模式集成空气质量预报系统流程图 Fig. 3 Flow chart of multi-model ensemble air quality forecast system

2.1 均值集成

该集成为各单一模式的简单平均，公式如下：

$ {F_{{\rm{mean }}}} = \frac{1}{n}\sum\limits_{i = 1}^n {{F_i}} $

(1)

式中：n为区域模式的数量，取值为4；i为第i个区域模式；F_mean和F_i分别为均值集成和第i个模式预报的污染物质量浓度，单位：μg·m^-3。

2.2 权重集成

权重集成将各单一模式预报时刻前50 d预报和观测值间的偏差作为权重系数，公式如下：

$ \begin{array}{l} F{\rm{ wighted }} = \sum\limits_{i = 1}^n {{W_i}} {F_i} = \\ \sum\limits_{i = 1}^n {\frac{{\frac{1}{{|Av{g_i} - Av{g_{{\rm{obs }}}}|}}}}{{\sum\limits_{i = 1}^n {\frac{1}{{|Av{g_i} - Av{g_{{\rm{obs }}}}|}}} }}} \times {F_i}, \end{array} $

(2)

式中：n为区域模式的数量，取值为4；F_wighted为权重集成预报的污染物质量浓度，单位：μg·m^-3；W_i为第i个模式的权重系数；Avg_obs和Avg_i分别为预报时刻前50 d观测值和第i个模式预报的PM_2.5质量浓度均值，单位：μg·m^-3。

2.3 多元线性回归集成

多元线性回归集成中，观测值被设置为因变量，各单一模式预报值被设置为自变量，预报时刻前50 d样本用于建模，公式如下：

$ F_{\mathrm{MLR}}=\sum\limits_{i=1}^{n} a_{i} F_{i}+a_{0} $

(3)

式中：n为区域模式的数量，取值为4；F_MLR为多元线性回归集成预报的污染物浓度，单位：μg·m^-3；a_i为训练阶段回归求解的第i个模式的权重系数；a₀为常数项。

2.4 最优集成

将最优集成作为本集成系统最终出口的目的是为预报员提供唯一稳定客观参考。在各单一模式和集成方法短期内预报效果波动不大的前提下，对其预报当天前50天预报效果进行实时评估，将综合评分最高的方法作为当天的最优集成预报。所采用的评估指标包括|NMB|、RMSE和R，公式如下：

$ \left| {NM{B_j}} \right| = \left| {\frac{{\sum\limits_{k = 1}^m {\left({{F_{j, k}} - OB{S_k}} \right)} }}{{\sum\limits_{k = 1}^m O B{S_k}}} \times 100\% } \right| $

(4)

$ RMS{E_j} = \sqrt {\frac{1}{m}\sum\limits_{k = 1}^m {{{\left({{F_{j, k}} - OB{S_k}} \right)}^2}} } $

(5)

$ {R_j} = \frac{{\sum\limits_{k = 1}^m {\left({{F_{j \cdot k}} - \bar F} \right)} \left({OB{S_k} - \overline {OBS} } \right)}}{{\sqrt {\sum\limits_{k = 1}^m {{{\left({{F_{j \cdot k}} - \bar F} \right)}^2}} {{\left({OB{S_k} - \overline {OBS} } \right)}^2}} }} $

(6)

式中：j为被评估的第j种方法，共7种，包括CUACE、NNC、ENC、SNC、Mean、Weighted和MLR；m为评估所用历史数据天数，取值为50 d，k为第k天；F_{j, k}为第j种方法第k天预报的污染物质量浓度，单位：μg·m^-3；OBS_k为第k天观测的污染物质量浓度，单位：μg·m^-3；和OBS分别为预报和观测的平均污染物质量浓度，单位：μg·m^-3。

针对每个评估指标，把所有7种方法按照指标好坏程度排序，最差至最好分别得0~6分，如|NMB|越小表示偏差越小，预报效果也越好，所以将所有方法中|NMB|最小的记为6分，|NMB|最大的记为0分。每种方法各指标得分如下：

$ Point{ _{\left| {NM{B_j}} \right|}} = Sort{\left({\left| {NM{B_{j = 1, 2, \ldots, 7}}} \right|} \right)_j} $

(7)

$ Point {_{RMS{E_j}}} = Sort\left({\left| {RMS{E_{j = 1, 2, \ldots, 7}}} \right|} \right) $

(8)

$ Poin{t_{{R_j}}} = Sort{\left({\left| {{R_{j = 1, 2, \ldots, 7}}} \right|} \right)_j} $

(9)

式中：Sort和Point分别为各方法在每个评估指标的排位和得分。

将所有单一模式和集成方法的3个评估指标得分相加，选择总体评分最高方法作为当天最优集成预报，其计算方法如下：

$ Point{_{{\rm{total}}{_j}}} = Point{_{|NMB{|_j}}} + Point{_{RMS{E_j}}} + {{\mathop{ Point}\nolimits} _{{R_j}}} $

(10)

$ {F_{{\rm{Best }}}} = {F_{{\rm{Max }}\left({{\rm{ Point}}{{\rm{ }}_{{\rm{ota}}{{\rm{l}}_{_j = 1.2, \ldots .., 7}}}}{\rm{ }}} \right.}} $

(11)

式中：Point_{total_j}为第j种方法的总体评分；F_Best为最优集成预报的污染物质量浓度，单位：μg·m^-3；Max是取所有方法总体评分最高的函数。

3 效果评估

张天航等(2019b)已评估了类似多模式集成方法的长期表现，针对2018年12月19—22日发生在华北中南部、汾渭平原和四川盆地等地的一次重污染过程评估全国网格化多模式集成空气质量预报的表现，并着重分析过程中主导AQI值的PM_2.5浓度的预报效果。

3.1 预报当天前50 d

预报当天前50 d预报效果评估是当天最优集成预报的基础。以2018年12月19日20时前50 d预报效果评估为例(图 4)。在华北地区，CUACE、NNC和ENC模式有预报范围重合区域。ENC模式预报的PM_2.5质量浓度与观测值最为接近，NNC模式在局部地区高估了一个污染等级，而CAUCE模式的高估程度更大、范围更广。在华中和华南地区，CUACE、ENC和SNC模式有预报范围重合区域。ENC模式的预报效果最佳，SNC模式对PM_2.5质量浓度略有高估，CAUCE模式对华中地区PM_2.5质量浓度高估了1~2个污染等级，幅度较大。总的来说，在我国东部地区，CAUCE模式高估了观测的浓度，ENC模式则表现良好。由各单一模式和集成方法预报和观测的PM_2.5质量浓度均值对比可知，类似CUACE模式，Mean集成较大幅度高估了华北、华中等地的PM_2.5质量浓度，高估程度为1~2个污染等级。Weighted集成结果则与ENC、NNC模式相近，对我国东部PM_2.5浓度量级的预报较好，但对空间分布的预报不够准确。单个模式中仅有CUACE模式覆盖到了我国西部地区。在新疆和内蒙古中西部等地，CUACE模式较大地低估了颗粒物浓度，但在西藏地区与观测结果差异较小。这是由于目前业务运行的CUACE/Haze-fog模式并未考虑自然沙尘气溶胶，因此该模式的预报结果在新疆和内蒙古中西部等沙尘源区有所低估，而对于较少受沙尘影响的西藏地区的预报则更加准确。

图 4 2018年12月19日20时前50 d各模式和各集成预报的PM_2.5平均质量浓度(a，单位：μg·m^-3)以及与观测值间的|NMB|(b，单位：%)、RMSE(c，单位：μg·m^-3)、R(d)和总体评分(e) Fig. 4 Observed and forecasted average PM_2.5 mass concentrations (a, unit: μg·m^-3) by single models and ensemble methods and the |NMB| (b, unit :%), RMSE (c, unit: μg·m^-3), R (d) and total scores between them (e) in previous 50 d before 20:00 BT 19 December 2018

MLR集成对我国中东部污染等级为良的预报的空间分布在所有方法中最接近观测值，但对轻度污染的覆盖范围的预报偏小。同时MLR集成还预报出了新疆地区良及以上的PM_2.5质量浓度，虽与观测值仍有一定差距，但较CUACE模式和其他集成方法已大幅改善。

从各方法与观测之间的|NMB|值来看。CUACE模式和SNC模式在华中地区与观测之间的偏差较大，|NMB|值在部分地区超过了80%。Mean集成和Weighted集成的|NMB|在我国中东部地区较为接近，但Weighted集成在华中地区偏差小于Mean集成。MLR集成的预报偏差在全国范围内都控制在0~40%内，且大部地区要低于20%，还有效降低了CUACE模式、Mean集成和Weighted集成在西部地区的偏差。此外，在西藏地区，MLR集成相较于CUACE模式对预报偏差的改善幅度较大，预报和观测之间的|NMB|值从CUACE模式的80%~100%，下降至了MLR集成的0~40%。

就预报和观测间的RMSE值而言，CUACE模式预报的RMSE值最高，在华北、华中及新疆的部分地区超过了115 μg·m^-3。ENC模式、NNC模式、SNC模式、Mean集成和Weighted集成在东部地区的RMSE值都小于75 μg·m^-3，但在新疆地区RMSE值较高。MLR集成在全国大部地区的RMSE要低于35 μg·m^-3，仅在华北、华中和新疆的少数地区为35~75 μg·m^-3，是所有方法中最低的。

从预报和观测值间的R可以看出，Mean集成、Weighted集成和MLR集成与观测值间的R在华北、华中和华东的大部地区均大于0.6，表现出较强正相关，在我国其余大部分地区为0.2~0.6。此外，MLR集成在西部地区的R值要高于其他模式和集成方法。

从各方法的总体评分上来看，CUACE模式在西部地区评分较高，全部达到了15分以上，东部评分整体偏低。ENC模式在华北、华东、华中部分地区表现良好，评分最高可达15~16分。NNC模式和SNC模式整体表现欠佳，达到15分以上的区域较少。各集成方法在我国西部地区的评分整体较高，尤其是MLR集成在西部绝大多数区域的评分都超过了18分，高于其他集成方法。而在东部地区，三种集成方法的总体评分较为接近。但是全国整体来说，集成后的总体评分高于单一模式，说明集成预报是提高单一模式预报准确率的有效手段。

图 5显示了预报时刻前50 d，每个评估指标得分最高方法的全国分布，其中每个格点总体评分最高的方法即为该格点当天的最优集成预报方法。从|NMB|指标来看，我国西部和北部大部地区得分最高的方法是MLR集成，而在东部评分最高的预报方法则各不相同。针对R的得分最高预报方法在西部大部分地区仍是MLR集成，少部分地区为CUACE模式；在我国东部地区，以Mean集成和ENC模式为主。RMSE得分最高的方法在全国大部分地区为MLR集成，少部分地区为Mean集成和Weighted集成。总体评分指标得分最高的方法在我国东部和东北地区以三种集成方法为主，河北中南部以NNC模式为主，全国其他区域为MLR集成。这说明没有任何一种预报方法在全国任意格点均表现出最好的预报效果。这也是建立最优集成预报的意义所在：能综合各方法在不同格点上的优势，以解决不同地区总体评分最高预报方法有所不同的问题，进一步提高预报准确率。

图 5 2018年12月19日20时前50 d每个指标得分最高的方法 (a)|NMB|，(b)RMSE，(c)R，(d)总体评分 Fig. 5 Methods with highest scores at each evaluation index in previous 50 d before 20:00 BT 19 December 2018 (a) |NMB|, (b) RMSE, (c) R, (d) total score

3.2 未来3 d

在3.1节前50 d预报效果评估的基础上，得到了2018年12月19日20时每个格点起报的最优集成预报，本节对比了污染较重时刻和整个污染过程期间各单一模式和各集成方法的预报效果。

3.2.1 污染较重时刻

污染较重时刻的预报效果反映了预报方法对峰值的预报能力。图 6展示了2018年12月21日01时观测和各方法预报的PM_2.5质量浓度和NMB值。其中，预报值为各方法2018年12月19日20时起报第29小时值。

图 6 2018年12月21日01时观测和各方法预报的PM_2.5质量浓度(a，单位：μg·m^-3)和NMB值(b，单位：%) Fig. 6 Observed and forecasted PM_2.5 mass concentrations (a, unit: μg·m^-3) by single models and ensemble methods and the NMB (b, unit: %) between them at 01:00 BT 21 December 2018

CAUCE模式较大高估了华北北部、四川盆地和华中地区的PM_2.5质量浓度，且对轻度及以上污染范围预报偏大，与观测值间的NMB值在华北、华东和华中地区为-40%~80%，且没有预报出新疆地区的污染情况。NNC模式对华北地区的预报效果与CAUCE模式接近，但高估程度不如CUACE模式严重；而ENC模式则与CUACE模式相反，即对污染区域PM_2.5质量浓度的预报值偏低，NMB值在为-60%~0%，污染区域预报偏小。SNC模式对PM_2.5浓度的预报在华中部分地区偏高，NMB值最高达到60%，而在华南地区则整体低估。总的来说，在该时刻污染最重的华北地区，CAUCE模式和NNC模式对污染均有不同程度的高估，而ENC模式的预报浓度则偏低。

由于Mean集成和Weighted集成的预报效果对单个模式的表现依赖程度较高，虽然较单个模式对污染的程度和范围有所改善，但仍在局地较大高估了观测值(NMB值高于60%)。在华北和华中地区，MLR集成和Best集成与观测之间的NMB值大部分在-20%~20%，少数局地在20%~40%，相较于单个模式以及Mean集成和Weighted集成有较大幅度改善。对污染程度为良(PM_2.5质量浓度为35~75 μg·m^-3)区域的预报范围更大，更接近观测值。但MLR集成预报的华北地区PM_2.5质量浓度较实况略有偏低，不及Best集成效果好。此外，虽然MLR集成和Best集成预报的新疆地区污染程度为良的区域范围接近观测，但却高估了天山北部和南疆盆地西部的PM_2.5浓度。

3.2.2 3 d整体

本次重污染过程主要持续时间为12月19—22日。本节评估了12月19日20时起报的未来3 d(重污染主要持续时段)各方法的整体预报效果(图 7)。从3 d均值来看，各模式均能预报出大部分PM_2.5浓度高值区，主要为京津冀中南部、汾渭平原、四川盆地和湖北西北部等地。其中，CAUCE模式高估了华北北部、华中和华东部分地区的PM_2.5浓度，低估了华南地区的PM_2.5浓度，对四川盆地高PM_2.5浓度的预报值偏高，但污染范围偏小。ENC模式和NNC模式分别低估和高估了华北地区的PM_2.5浓度，SNC模式高估了华中地区的PM_2.5浓度。总的来说，在华北地区，CAUCE模式和NNC模式高估了PM_2.5浓度，而在华中地区，CAUCE模式和SNC模式存在类似的高估情况。相反，ENC模式对华北和华中地区的PM_2.5浓度有所低估。而在我国西部地区，CAUCE模式仍低估了1~2个污染等级。Mean集成和Weighted集成较单个模式在我国东部地区的预报结果更加接近于观测值。这两种集成预报结果均高估了华北地区的PM_2.5浓度，在四川盆地的预报效果则与CUACE模式类似，说明这两种集成方法较依赖于单个模式，对预报效果的改善能力有限。MLR集成预报相较于单个模式、Mean集成和Weighted集成，在东部地区预报效果改善幅度较大，西部地区的低估程度有所改善，但在部分地区存在一定程度的高估。最优集成结合了各单一模式和集成方法在不同站点上的优势，在本次污染最重的河南预报的PM_2.5浓度相对于MLR集成更高，也更加接近于观测，说明对峰值的预报能力有了进一步的提高。

图 7 2018年12月19日20时起报未来3 d各模式和各集成预报的PM_2.5平均质量浓度(a，单位：μg·m^-3)以及与观测值间的NMB(b，单位：%)、RMSE(c，单位：μg·m^-3)、R(d)和总体评分(e) Fig. 7 Observed and forecasted average PM_2.5 mass concentrations (a, unit: μg·m^-3) by single models and ensemble methods, NMB (b, unit: %), RMSE (c, unit: μg·m^-3), R (d) and total score between them (e) for the next 3 days beginning at 20:00 BT 19 December 2018

从各方法预报和观测之间NMB值来看，在华北中南部地区，CUACE模式高估了观测值的20%~80%，ENC模式的NMB值为-40%~20%，NNC模式的NMB值为-40%~60%，ENC模式与观测值最为接近。在长三角地区，CAUCE模式和NNC模式较大高估了观测值，ENC模式的预报效果更为接近观测值。在四川盆地，SNC模式预报和观测值之间的NMB值为-40%~20%，优于CAUCE模式。从集成结果来看，Mean集成和Weighted集成预报和观测值间的NMB值在大部分区域较为接近，但在华中地区Mean集成的NMB值为-20%~60%，Weighted集成的NMB值为-20%~20%，Weighted集成预报效果有所改善。MLR集成和Best集成的预报效果改善幅度最大，NMB值在我国东部大部区域为-20%~20%，但在新疆北部地区存在较大高估。

就预报和观测值间的RMSE而言，CAUCE模式和ENC模式的RMSE在华北南部和华中部分地区出现了超过115 μg·m^-3的高值，同样NNC模式在华北南部的RMSE也相对偏高。SNC模式的RMSE大部分均低于75 μg·m^-3，低于其他单个模式。Mean集成和Weighted集成的RMSE在华北南部、新疆部分地区呈高于75 μg·m^-3的高值。MLR集成和Best集成的RMSE整体最小，全国大部分地区小于35 μg·m^-3，在本次过程重污染区的大部分地区为35~75 μg·m^-3，且相较于Mean集成和Weighted集成，新疆地区的RMSE有所降低。

从预报和观测值间的R可以看出，MLR集成和Best集成与观测值间的R在华北大部分地区均高于0.6，表现出强相关性，在华中和华南大部分地区为0.4~0.6。相对于各单一模式和其他集成方法，在全国更多地区表现出强相关性，体现了这两种集成方法对污染物浓度变化趋势较高的预报能力。

总体评分上来说，我国东部大部分地区单个模式的评分要低于各集成模式，而MLR集成和Best集成评分又显著高于Mean集成和Weighted集成。但MLR集成在污染最重的河南地区低至9分以下，预报效果不佳。总体而言，Best集成在全国最多的区域有着更高的总体得分，说明最优集成能够有效提升综合预报效果。

综上所述，MLR集成和Best集成能较大幅度改善本次污染过程中PM_2.5浓度的预报效果，但Best集成在全国更多的区域有着较高的总体评分，且对于污染最重的河南地区预报效果更佳。

由于PM_2.5轻度污染的阈值为75 μg·m^-3。所以针对某一城市，PM_2.5浓度大于(小于)75 μg·m^-3被定义为一个过程的开始(结束)。表 4展示了本次过程中污染最重区域河北南部和河南北部各城市Best集成预报的污染过程开始和结束时间与观测的偏差。可以看出受静稳形势和本地排放影响，该区域大部分城市的过程开始时间在18日19—21时，Best集成预报的开始时间比观测早了0~4 h。仅在新乡，预报的过程开始时间比观测晚了1 h。在所有城市，集成预报的平均开始时间比观测仅早了1.8 h，误差较小。说明集成预报对静稳形势下污染物的累积过程预报较好。受北方冷空气影响，23日03—13时，本次污染过程自北向南逐渐减弱消散。集成预报的过程结束时间比观测早了3~10 h，平均值为6.9 h。说明集成预报的本次冷空气到达时间偏早，对环流形势改变引起的污染物浓度变化的预报能力需要进一步提升。

表 2 最优集成预报的各城市污染过程开始和结束时间与观测的偏差 Table 2 Biases between best ensemble forecast and observed onset and end time of the pollution process in each city

4 结合未来环境智能网格预报的讨论

中国气象局智能网格预报发展规划中对环境气象的要求是建立全国5 km分辨率精细化网格雾、霾、沙尘预报。网格化多模式集成空气质量预报是其中的重要环节，在此就其现阶段存在的问题和未来发展计划进行讨论。

(1) 目前，通过直接插值得到的污染物实况精细化程度还不能满足要求。未来可通过卫星反演的气溶胶和气体特征估算地表污染物浓度，再融合地面站点污染物浓度观测，最后基于地形和下垫面特征进一步调整，得到更为精准的网格化污染物浓度实况。其中利用卫星资料反演夜间污染物浓度是一大难点。

(2) 由于计算机时和次网格技术发展的限制，现在所用各空气质量数值预报模式的空间分辨率均达不到5 km的要求，从一定程度上影响了集成预报的准确率。未来可考虑用降尺度手段间接提高现有空气质量数值预报的空间分辨率(曹勇等，2016)。

(3) 多元线性回归集成虽然能在一定程度上提升单一模式对我国西部受沙尘区域污染物浓度的预报能力，但和观测相比还存在较大误差。国家气象中心同时也发展了一套多模式集成沙尘网格预报，未来可考虑将其融合进网格化多模式集成空气质量预报中，以提升其对沙尘过程的预报能力。

(4) 目前，国家气象中心每天发布未来3 d空气污染气象条件主观预报，其对2018年全国轻度及以上污染的TS评分为0.23~0.34(张天航等，2019a)。未来可考虑将其融合进网格化多模式集成空气质量预报中，进一步提高后者的预报效果。

(5) 未来可考虑基于网格化污染物实况对多模式集成空气质量预报进行逐小时滚动订正，以提高短临期的预报效果。

5 结论

对2018年12月19—22日一次重污染过程中网格化多模式集成的表现评估有如下结果。

(1) 通过对19日20时预报前50 d各单一模式、Mean集成、Weighted集成和MLR集成预报效果评估，得到当天最优集成在我国东部和东北地区格点应以Mean集成、Weighted集成和MLR集成为主，在河北中南部格点以NNC模式为主，全国其他区域格点为MLR集成。

(2) 对污染较重时刻(2018年12月21日01时)的评估结果显示，Best集成相较于单个模式对重污染的预报效果有较大幅度改善。在重污染地区预报与观测之间的NMB值大部分在-20%~20%，少数局地在20%~40%，且对污染程度为良及以上区域的预报范围更接近观测值。

(3) 对污染过程整体的评估结果显示，Best集成在所有单一模式和集成方法中的综合预报效果最好，在最多的格点有着较高的总体评分。在大部分污染区域，其与观测之间的NMB值为-20%~20%，RMSE为35~75 μg·m^-3，R大于0.4。此外，在污染最重区域的8个城市，Best集成预报的污染过程平均开始和结束时间分别比观测时间早1.8和6.9 h。说明集成预报对静稳形势下污染物的累积过程预报较好，但对环流形势改变引起的污染物浓度变化的预报能力需要进一步提升。

参考文献

曹勇, 刘凑华, 宗志平, 等, 2016. 国家级格点化定量降水预报系统[J]. 气象, 42(12): 1476-1482. Cao Y, Liu C H, Zong Z P, et al, 2016. State-level gridded quantitative precipitation forecasting system[J]. Meteor Mon, 42(12): 1476-1482 (in Chinese). DOI:10.7519/j.issn.1000-0526.2016.12.005

刘琳, 白永清, 林春泽, 等, 2018. 华中区域空气质量数值预报系统评估及气溶胶辐射效应的模拟研究[J]. 气象, 44(9): 1179-1190. Liu L, Bai Y Q, Lin C Z, et al, 2018. Evaluation of regional air quality numerical forecasting system in central China and its application for aerosol radiative effect[J]. Meteor Mon, 44(9): 1179-1190 (in Chinese).

瞿元昊, 许建明, Brasseur G, 等, 2018. 利用多模式最优集成方法预报上海PM2.5[J]. 环境科学学报, 38(9): 3449-3456. Qu Y H, Xu J M, Brasseur G, et al, 2018. Application of OCF on PM2.5 forecast in Shanghai[J]. Acta Sci Circumst, 38(9): 3449-3456 (in Chinese).

吴兑, 汤仕文, 邓雪娇, 等, 2010.霾的观测和预报等级: QX/T 113-2010[S].北京: 气象出版社. Wu D, Tang S W, Deng X J, et al, 2010.Observation and forecasting levels of haze: QX/T 113-2010[S].Beijing: China Meteorological Press(in Chinese).

吴剑斌, 肖林鸿, 晏平仲, 等, 2017. 最优化集成方法在城市臭氧数值预报中的应用研究[J]. 中国环境监测, 33(4): 213-230. Wu J B, Xiao L H, Yan P Z, et al, 2017. Application of optimal consensus forecast in urban ozone prediction[J]. Environ Monit China, 33(4): 213-230 (in Chinese).

杨关盈, 邓学良, 吴必文, 等, 2017. 基于CUACE模式的合肥地区空气质量预报效果检验[J]. 气象与环境学报, 33(1): 51-57. Yang G Y, Deng X L, Wu B W, et al, 2017. Verification of CUACE model in Hefei, Anhui Province[J]. J Meteor Environ, 33(1): 51-57 (in Chinese). DOI:10.3969/j.issn.1673-503X.2017.01.007

姚雪峰, 葛宝珠, 王自发, 等, 2018. 改进的超级集成预报方法在长江三角洲地区O3预报中的应用[J]. 大气科学, 42(6): 1273-1285. Yao X F, Ge B Z, Wang Z F, et al, 2018. Application of improved super ensemble forecast method for O3 and its performance evalu- ation over the Yangtze River Delta region[J]. Chin J Atmos Sci, 42(6): 1273-1285 (in Chinese).

张恒德, 张庭玉, 李涛, 等, 2018. 基于BP神经网络的污染物浓度多模式集成预报[J]. 中国环境科学, 38(4): 1243-1256. Zhang H D, Zhang T Y, Li T, et al, 2018. Forecast of air quality pollutants' concentrations based on BP neural network multi-model ensemble method[J]. China Environ Sci, 38(4): 1243-1256 (in Chinese).

张天航, 迟茜元, 饶晓琴, 等, 2019a. 2018年国家级空气质量主客观预报TS评分对比检验[J]. 环境工程技术学报, 9(3): 213-222. Zhang T H, Chi Q Y, Rao X Q, et al, 2019a. Verification of national subjective and objective air quality forecast in 2018 by TS score[J]. J Environ Eng Technol, 9(3): 213-222 (in Chinese).

张天航, 王继康, 张恒德, 等, 2019b. 一种最优多模式集成方法在我国重污染区域PM2.5浓度预报中的应用[J]. 环境工程技术学报, 9(5): 520-530. Zhang T H, Wang J K, Zhang H D, et al, 2019b. Application of a best multi-model ensemble method in PM2.5 forecast in heavily polluted regions of China[J]. J Environ Eng Technol, 9(5): 520-530 (in Chinese).

张小曳, 汤洁, 王亚强, 等, 2006.沙尘暴天气监测规范: GB/T 20476—2006[S].北京: 中国标准出版社. Zhang X Y, Tang J, Wang Y Q, et al, 2006.Technical regulations of sand and dust storm monitoring: GB/T 20476-2006[S].Beijing: China Standards Press(in Chinese).

赵秀娟, 徐敬, 张自银, 等, 2016. 北京区域环境气象数值预报系统及PM2.5预报检验[J]. 应用气象学报, 27(2): 160-172. Zhao X J, Xu J, Zhang Z Y, et al, 2016. Beijing regional environmental meteorology prediction system and its performance test of PM2.5 concentration[J]. J Appl Meteor Sci, 27(2): 160-172 (in Chinese).

周骥, 孙庆华, 许建明, 等, 2018. 上海地区不同PM2.5污染过程对炎症应激影响的差异性[J]. 气象, 44(12): 1612-1617. Zhou J, Sun Q H, Xu J M, et al, 2018. Effects of different PM2.5 pollution processes on inflammatory stress in Shanghai Area[J]. Meteor Mon, 44(12): 1612-1617 (in Chinese). DOI:10.7519/j.issn.10000526.2018.12.011

Cheng Z, Jiang J K, Fajardo O, et al, 2013. Characteristics and health impacts of particulate matter pollution in China(2001-2011)[J]. Atmos Environ, 65: 186-194. DOI:10.1016/j.atmosenv.2012.10.022

Fang X, Zou B, Liu X P, et al, 2016. Satellite-based ground PM2.5 estimation using timely structure adaptive modeling[J]. Remote Sens Environ, 186: 152-163. DOI:10.1016/j.rse.2016.08.027

Ma Z W, Hu X F, Sayer A M, et al, 2016. Satellite-based spatiotemporal trends in PM2[J]. 5 concentrations:China, 124(2): 184-192.

Zhang Y, Li Z Q, 2015. Remote sensing of atmospheric fine particulate matter(PM2.5) mass concentration near the ground from satellite observation[J]. Remote Sens Environ, 160: 252-262. DOI:10.1016/j.rse.2015.02.005

Zhou G Q, Xu J M, Xie Y, et al, 2017. Numerical air quality forecasting over eastern China:an operational application of WRF-Chem[J]. Atmos Environ, 153: 94-108. DOI:10.1016/j.atmosenv.2017.01.020