2. 兰州大学大气科学学院
2. Atmospheric Science Academy of Lanzhou University
降水是各种尺度的天气系统共同作用的结果,其形成机制非常复杂,具有非线性的特点,MOS、卡尔曼滤波、神经元网络等方法被广泛应用到降水预报中,以提高降水预报准确率。近年来,能处理非线性问题的SVM(Support Vector Machine)方法[1-2]被引入非线性特征十分明显的大气科学领域,已取得了初步的成果[3-8]。但已有的关于SV M方法在降水预报的应用中,主要是该方法在某一地区的局部应用[3, 7-8],能否推广应用到全国、如何推广应用到全国,需要进一步的探讨。
本文基于T213数值模式预报产品,在全国范围内选取了72个站点的降水作为预报对象,利用SVM方法,进行大量交叉验证,选出最优的参数,建立降水预报模型,并用独立的样本对模型进行了检验;再通过分析样本的贴近度来分析预报因子,改进预报模型,以提高模型的预报效果。
1 资料选取及处理在全国选取72个气象站的日降水量作为预报对象,并读取这72个站2003—2005年4—9月以及2006年4月1日至7月31日逐日08—08时观测的降水量。选取了对应段内T213数值预报产品作为主要的预报因子,将T213的基本要素及其通过动力诊断得出的反映降水的扩充物理量,用双线形插值的方法插值到对应的72个站点上,建立起所需要的站点因子库;再通过计算相关系数,在不同层次、不同时次的因子中选出一批与实况降水量相关系数较大的因子,然后按相关系数由大到小的顺序排列,选取100个左右的预报因子,这些因子中包含有从00、12、24到48小时预报时效的因子。
这样就形成了72站2003—2005年4—9月、2006年4月1日至7月31日共600个左右的历史学习训练样本集。
另外以2006年8月1日至9月30日共60个样本作为独立检验样本集。
2 降水预报模型的建立及模型的检验SVM方法的基本思想[1-2]是升维和线性化,通过非线性映射(核函数),把样本空间映射到一个高维乃至于无穷维的特征空间,在特征空间中,应用线性学习机的方法解决样本空间中的高度非线性问题。在整个求解过程中不需要知道非线性映射的显式表达式,而是通过支持向量(关键样本)来表达预报因子与预报对象的关系。
这里用SVM两类分类方法[2],在建模之前,先对预报对象进行分类:
由于西北地区降水较少,因此将西北9站(乌鲁木齐、克拉玛依、酒泉、民勤、兰州、呼和浩特、盐池、太原、银川)日降水量≥1mm标定为正样本(+1类)、日降水量<1mm标定为负样本(-1类);其余站63站日降水量≥10mm标定为正样本(+1类)、日降水量<10mm标定为负样本(-1类)。再对每个站全部样本的每一个因子按公式(1)分别做归一化处理,使每个因子的数据在[0, 1]之间,这样避免了预报因子之间量级的差异。
$ a = \frac{{x - {x_{\min }}}}{{{x_{\max }} - {x_{\min }}}} $ | (1) |
式(1)中xmax和xmin分别为因子的最大和最小值。
选取最常用的径向基核函数,即
从全部600个样本中随机抽取的10%样本作为检验样本,其余样本作为建模样本,C、g给定的初值分别为100和0.005,再按一定的步长递增(分别为5和0.005),对每个站进行1000次随机交叉验证,从中选出最高Ts评分值对应的参数C、g。然后以2003—2005年4—9月、2006年4月1日至7月31日共600个左右的训练样本集分别建立各站的降水预报模型,再用60个独立的样本来检验预报模型的预报能力,即预报2006年8月1日至9月30日期间逐日的降水,部分站预报评分结果见表 1;T213模式的直接输出的降水预报(简记DMO)评分检验也在表 1中。
独立样本检验的结果(表 1)表明,SVM建立的模型对降水有较好的预报能力,且比T213模式直接输出的降水预报的Ts评分高,这些站的降水预报模型可以投入业务试运行。
3 贴近度分析及模型的改进贴近度是在训练样本数据集中引入的一种相似性度量函数,它刻画两个训练样本之间的相似或贴近的程度。它是分析训练数据集的一种方法。
设样本向量为xi=(xi1, …, xin)和xj=(xj1, …, xjn),且经过了归一化处理,则它们在样本空间的贴近度为:
$ N\left( {{x}_{i}},{{x}_{j}} \right)=\frac{2\left( {{x}_{i}}\cdot {{x}_{j}} \right)}{\left( {{x}_{i}}\cdot {{x}_{i}} \right)+\left( {{x}_{j}}\cdot {{x}_{j}} \right)} $ | (2) |
这里通过经向基核函数
$ N\left( {{x}_{i}}, {{x}_{j}} \right)=\frac{2\left( \psi \left( {{x}_{i}} \right)\cdot \psi \left( {{x}_{j}} \right) \right)}{\left( \psi \left( {{x}_{i}} \right)\cdot \psi \left( {{x}_{i}} \right) \right)+\left( \psi \left( {{x}_{j}} \right)\cdot \psi \left( {{x}_{j}} \right) \right)} $ | (3) |
式(3)表示在特征空间中两个训练样本的相似或贴近的程度,完全相同的两个样本的贴近度为1,区别最大的两个样本的贴近度为0,一般两个训练样本的贴近度介于0和1之间。
由于72站中正、负样本数不同,组成样本的因子也各不相同,所以经计算所得到的样本间的贴近度也不同,表 2给出了各站贴近度的变化范围(在最小值和最大值之间)。表 1与表 2对比分析发现,表 1中SVM模型预报Ts评分较高的站对应着表 2中该站同类样本(正样本与正样本、负样本与负样本)之间的样本的贴近度较大、正负样本间的贴近度较小。而SVM模型预报Ts评分低(表 3中改进前)的站同类样本之间的样本的贴近度小、正负样本间的贴近度大。
这里重点对比分析SVM模型在独立检验时Ts评分较低、同类样本之间的样本的贴近度小、正负样本间的贴近度大的站,从而实现预报因子的筛选。
SVM方法要求同类样本的贴近度尽可能大,不同类样本的贴近度尽可能小。以下是对20站中同类样本贴近度小、不同类样本贴近度较大的样本中各因子分析的结果,这些因子在样本中应该剔出。它们大致可以分为下面6类:
(1) 一些较复杂的热力、动力因子。如螺旋度、Q矢量、动力综合因子、锋生函数、位涡及湿位涡有关的量、风的垂直切变、风向、K指数、SI指数、Ky指数、温度的指数、比湿的指数、U、V的指数等。
(2) 层次高的因子。如200hPa相当位温、假相当位温的垂直切变、50hPa的U、V,150hPa的温度及其梯度。
(3) 近地层因子(特别是热带地区)。如2米的温度、湿度,海平面气压、地面气压及变压,10米的风,1000hPa的变温、变高等。
(4) 高低层差值和累积量。如200hPa与850hPa的高度差,400、300、200hPa垂直速度的累积量,700、600、500hPa温度的累计量,地面到600hPa水汽通量及水汽通量散度等。
(5) 同一层次、同一要素、同一性质的因子太多。如700hPa温度的平方、立方和e指数,相对湿度、比湿的平方、立方和e指数被同时选作因子等。
(6) 海拔高度以下的因子,如高山站海平面气压、地面气压、850hPa的风等。
用贴近度计算分析后,去掉一些因子,各站筛选后的预报因子个数各不相同(表略),用筛选后的因子重新组成新的训练建模样本集,再进行1000次随机交叉验证,得到最优的参数C、g,从而得到改进后的预报模型。改进后的预报模型对2006年8月1日至9月30日逐日降水的预报效果的检验见表 3,表 3也给出了同一时段内SVM模型改进前降水预报、T213模式直接输出的降水预报(DMO)结果的检验。
由表 3可知,改进后模型的Ts评分基本上比改进前的Ts评分和T213模式直接输出的降水预报Ts评分高,表明改进后的模型对降水有一定的预报能力,但仍有少数站的预报效果较差。
4 实时预报试验效果的检验2007年8月1日开始,SVM方法建立的降水预报模型在国家气象中心投入业务试运行,对于Ts评分>0.25的站,用原来的预报因子(100个左右)组成的样本集建模;对于Ts评分≤0.25的站,则用贴近度分析后筛选的因子组成的样本集建模。为了增强所建模型的稳定性,实时业务运行时,增加了建模样本的长度,这里使用了2003—2005年4—9月、2006年4月1日至7月31日共600个左右的原训练样本集和2006年8月1日至9月30日独立检验的60个的样本,即建模训练样本的长度为2003—2006年4—9月660个样本的历史资料。共有72个站的降水预报模型在2007年7月31日至9月30日进行了业务试运行,部分站预报检验结果见表 4,表 4也给出了同一时段内T213模式直接的降水预报(DMO)结果的检验。
实时业务试运行的结果(表 4)也表明SVM建立的模型对降水具有预报能力,其Ts评分和预报准确率也基本上高于T213模式直接输出的降水预报,相对而言,SVM方法的漏报较多,而T213模式的空报较多。
由表 1、表 3及表 4可知,SVM对降水有一定的预报能力,特别是东北和华南地区,即对于建模、独立检验、预报试验时Ts评分较高的站,预报模型可以投入业务试运行。
5 讨论对2006—2007年8—9月预报检验可知,SVM建立的模型在在东北和华南预报效果较好。但仍存在以下问题:
(1) 从建模和预报检验的情况来看,有些地区(如西部地区、沿长江流域等)Ts评分一直很低,如何筛选因子,提高预报准确率需要进一步探讨。当然也可能与T213模式本身在这些地区预报误差较大有关。
(2) 模型稳定性问题。2006年预报检验时Ts评分较高,2007年预报试验时却不高,表明模型稳定性差,需要增加更多的建模样本资料。
[1] |
Vapnik V N. The Nature of Statistical Learning Theory[M]. New York: Springer Verlag, 2000.
|
[2] |
陈永义, 俞小鼎, 高学浩, 等. 处理非线性分类和回归问题的一种新方法(Ⅰ)—支持向量机方法简介[J]. 应用气象学报, 2004, 15(3): 345-354. |
[3] |
冯汉中, 陈永义. 处理非线性分类和回归问题的一种新方法(Ⅱ)——支持向量机方法在天气预报中的应用[J]. 应用气象学报, 2004, 15(3): 355-365. |
[4] |
李智才, 马文瑞, 李素敏, 等. 支持向量机在短期气候预测中的应用[J]. 气象, 2006, 32(5): 57-61. DOI:10.7519/j.issn.1000-0526.2006.05.010 |
[5] |
熊秋芬, 顾永刚, 王丽. 支持向量机分类方法在天空云量预报中的应用[J]. 气象, 2007, 33(5): 20-26. DOI:10.7519/j.issn.1000-0526.2007.05.003 |
[6] |
冯汉中, 陈永义. 支持向量机回归方法在实时业务预报中的应用[J]. 气象, 2005, 31(1): 41-44. |
[7] |
Qiufen XIONG, Jie GAO, Huanzhu LIU, et al. Physical Analysis of Precipitation Factors Based on SVM Method[C]. The 9th Japan-China Symposium on Statistics. Sapporo, Japan. 2007.
|
[8] |
王建生, 熊秋芬. 支持向量机方法在单站降水预报中的应用探讨[J]. 暴雨灾害, 2007, 26(2): 159-162. |