快速检索
  气象   2007, Vol. 33 Issue (12): 53-61.  

研究论文

引用本文 [复制中英文]

王雨, 闫之辉, 2007. 降水检验方案变化对降水检验评估效果的影响分析[J]. 气象, 33(12): 53-61.
[复制中文]
Wang Yu, Yan Zhihui, 2007. Effect of Different Verification Schemes on Precipitation Verification and Assessment Conclusion[J]. Meteorological Monthly, 33(12): 53-61.
[复制英文]

文章历史

2006年3月01日收稿
2007年10月29日收修定稿
降水检验方案变化对降水检验评估效果的影响分析
王雨 , 闫之辉     
国家气象中心,北京 100081
摘要:为了实现对中尺度模式降水预报产品的合理化统计检验,在我国现有观测系统条件下,研究了24小时加密降水观测实况对降水统计检验评分的影响。过去的标准检验系统观测站为400站,分为9个区,目前业务试运行的加密检验系统采用的观测站为2510站,分为33个区。同时对国外常用的统计检验量ETS评分进行了初步的研究。通过对2005年7—8月我国近年来引进或自主发展的T213L31、HLAFS25、MM5、MESO-GRAPES 60km和30km模式,WRF20km模式,以及日本及德国的全球模式的降水预报产品的统计学检验,主要得到如下结论:(1)加密检验系统和标准检验系统在站点分布和分区形式上有较大的差别,新旧检验系统对各模式和预报员全国降水预报的评估结论在大雨以下各级降水评估方面差别不大,结论基本相似,除中雨预报外,加密系统的TS评分均略低于标准检验的结果。暴雨以上评分的差别较大,其中部分模式的两个检验系统的预报偏差差别很大,说明暴雨以上的天气系统多为中小尺度系统,其发生的频率在加密系统中的反映可能更合理一些。(2)新的检验量ETS,对于全国这样较大的检验分区而言,大雨以下各级降水评分在量值上要小于TS评分,暴雨以上则比较接近,但其在多模式对比检验中所得的排序结论与TS和技巧评分相近,部分小雨空报较多的模式的评分有较大差别。(3)无论是加密检验,还是标准检验,各级降水检验中表现最好的模式是相同的。(4)分区相同、预报种类不同时,加密检验与标准检验的差别不同。对T213模式而言,两者在暴雨和大暴雨的预报偏差上的差别更显著一些,部分分区检验结论相反。而对预报员的预报而言,差别并不显著,检验结论一致。
关键词降水预报    加密检验    标准检验    
Effect of Different Verification Schemes on Precipitation Verification and Assessment Conclusion
Wang Yu, Yan Zhihui    
National Meteorological Center, Beijing 100081
Abstract: Multitudinous precipitation predictions are verified and assessed during July and August 2005. These products include the forecast of forecasters in Central Meteorological Office and NWP models, such as T213l31, HLAFS25, MM5, MESO-GRAPES 60km and 30km model, WRF20km, as well as Japanese and German global model outputs. Different kinds of rainfall verification schemes and statistical verification variables are used. The results show that the verification conclusions of different verification schemes on 8 kinds of NWP models and forecaster's rainfall prediction from light rain to heavy rain are near each other, whereas there are obvious differences on observation stations distribution between dense verification and standard verification. TS of dense verification system is lower than that of standard verification system. But for torrential rain and severe rain, bias of two verification systems are obviously different. The reason is that most of the weather systems resulting in torrential rain are meso-scale or micro-scale weather systems, their frequency is similar with dense verification observation.For whole country, ETS is less than TS for the rainfall under heavy rain, and is near for the rainfall over torrential rain. However, the sort of verification results on ETS for kinds of models is similar with TS or SS score except for light rain. Not only for dense verification, but also for standard verification, the best product of all verified forecasts is the same for all classes. If the area is the same, but the forecasts are different, the differences between dense verification and standard verification are different. For T213L31 model, the dense verification biases of some areas for torrential rain are obviously different from standard verification, but for forecaster's prediction, the results of two verification systems are similar.
Key words: precipitation forecast    standard verification    dense verification    
引言

中国位于东亚季风区,季风的年季变化明显,每年汛期(6—8月)旱涝灾害时有发生[1-3],降水预报的方法研究成为气象科研的重点。在众多的降水预报方法中,数值预报已表现出对客观定量降水预报的巨大潜力,成为目前业务预报领域最具影响力的预报方法[4]。但究竟哪个模式对中国的降水天气预报得更好?预报员如何在众多模式中选取正确的结果用于实际业务预报?靠人工检验显然力所不及。

为了客观评估模式的定量降水预报能力,必须有一整套模式降水预报的检验评估方法。但由于降水这个要素具有的小尺度、非连续等独特性质,降水预报检验在国际上仍是一个公认的难题,至今为止没有一个客观统计检验量或检验方法能单独地全面描述降水预报的性能[5]

我国的降水检验业务系统开始于国家气象中心较早的LAFS模式,随着我国有限区模式的发展,检验指标站先后从30个站扩展到100个站[6]、200个站、400个站[7]。这些实况站多是我国有悠久观测历史的国家基准站或基本站,观测历史较长,资料较完整准确,观测质量较高,且分布合理,代表性好。但在实际工作中我们也发现了标准检验系统存在选站较粗的问题,对于中尺度天气系统降水的检验可能会有一定的疏漏[8]

最近几年,我国加强了观测系统的建设,广泛开展了自动观测站观测,降水检验观测由几百个站增加到两千多站,使对一般中尺度模式预报性能的评估成为可能。2002年春季,国家气象中心建立了基于新的加密观测体系的降水检验系统。2005年春季,在原加密检验系统的基础上,开展了按省分区的检验试验,试图从行政分区上评价各种降水预报的预报效果,以增加检验结果的实用性和针对性。

尽管我国很早就开始发展针对降水预报的检验系统,最早的降水预报评分开始于1988年,但只局限于简单地使用评分统计量,而每个检验量的特征和意义很少有人关注。过去有一些检验结果的比较研究,对于某一个或几个模式的检验结果做比较[9-14],但检验方法的比较则十分少见。

为了分析多套检验系统对不同预报(预报员预报或数值预报模式预报)检验结果的差异,对各种预报给出客观的检验评价结论,对于部分检验量所表现的特征进行详细的分析,便于预报员、模式开发人员和管理人员在实际工作中参考,开展了加密与标准观测、国内不同检验量与国外检验量的比较工作。

1 检验方法及资料 1.1 检验实况站的选取和分区方法

我国降水预报检验系统的分区是参考气候中心根据气候特点对全国进行的8个气候分区[15],分别是东北区、新疆区、西北地区东部、华北、青藏高原中南部、西南地区东部、长江中下游和华南区。尽管400站检验的实况站较少,但8个分区在全部检验站中所占的比例比较均匀,站点最少的青藏高原区也占全部检验站的7.25%,站点最多的长江中下游地区所占的比例是18.75%, 基本与该区在全部检验站点的面积成比例。各区在全国的检验中的比重相对比较合理,每一个检验站具有较好的代表性,其长期的检验评估结果基本能反映出一般大尺度天气系统降水预报的预报性能。而且分区充分考虑了降水的气候分布特点,每个分区的降水影响系统是大体相近的,在做降水个例检验时,可以针对某一天气系统对某一区域的预报情况做更详细的分析。

加密站分布与精选的400站分布有很大的不同。最少的青藏高原区仅占全国检验站的3.4%,而最多的长江中下游地区占27.22%, 分配比例并不十分合理。此外并非所有的检验站都能每天准时到报,实际跟踪的结果表明,2513站中每天最少有2277站到报,占参加检验总站数的90.6%,最多有2301站到报,占总站数的91.6%。长江中下游、华北和西南地区东部3区的站数约占总站数的67%,其它5个区的和约为33%。

考虑到分区检验在实践应用中存在的问题,2005年春季我们开发了按国家划分的省市自治区来进行降水检验分区的检验系统。按省分区的一个最大好处是实用性比较强,我国的天气预报分区是按中央—省—地区—县四级逐步订正的,每个省都有相对独立的业务和行政体系,新的分区与实际上的业务分区更加接近,每个省可以根据各模式对自己省的检验结果决定模式的使用,更适用于以管理为目的的检验。但这种分区的一个最大不足在于像内蒙古这样长条状分布的省份往往跨多个气候区,涉及多个天气系统的影响,若从天气系统来统计检验评分,可能会有一些困难。弥补这个不足的方法可以对这个省再根据气候特点做更细致的分区,这项工作可由自治区气象局再做研究。

1.2 统计检验量的选取

在国家气象中心的400站标准降水检验系统中,降水检验使用6个检验量,分别是TS评分、漏报率、空报率、预报效率、预报偏差和技巧评分。其中技巧评分的求取用到了检验站1951—1980年30年的分级降水气候概率。对于加密观测站来说,由于很多站建站很晚,没有长期的降水气候概率,技巧评分难于计算。后来,在国际交流中发现一些国家检验系统中多采用ETS评分,可有效去除随机降水概率对评分的影响,同时也可以避免使用气候概率,于是在最新开发的按省市自治区分区的加密检验系统中引入ETS评分。但在研究中发现,该评分有自身的局限性,并不完全适合不同分区的降水性能比较。ETS评分的具体计算公式如下:

公平TS评分:

$ ETS = \frac{{{N_A} - R\left( a \right)}}{{\left( {{N_A} + {N_B} + {N_C} - R\left( a \right)} \right)}} $ (1)

其中:$R\left( a \right) = \frac{{\left( {{N_A} + {N_B}} \right)\left( {{N_A} + {N_C}} \right)}}{{\left( {{N_A} + {N_B} + {N_C} + {N_D}} \right)}} $

公式中NANBNCND表 1定义。

表 1 降水的检验分类表

根据定义,ETS评分的理想评分是1,取值范围是-1/3~1, 0表示没有技巧。但由于对空报和漏报都有惩罚,所以不能区分预报误差的来源。一般而言,该评分低于TS评分,降水较多的区ETS评分会显著低于TS评分。

1.3 用于检验的预报资料

参加本文检验的模式有我国近年来引进或研制开发的T213L31、HLAFS25(简称HLAFS)、MM5、MESO-GRAPES60km和30km模式,以及日本及德国的全球模式。实况资料的时间为2005年7月和8月每天08—08时的24小时累计降水,全球模式的预报为与实况相对应的每天20时起报的36及60小时的24小时累计降水预报,区域模式的预报为与实况对应的每天08时起报的24及48小时的24小时累计降水预报。除了模式检验外,还对2005年7月和8月中央台发布的主观综合区域降水预报做了检验,一方面是想看看主观与客观预报之间的差距,另一方面也是想分析一下主观预报还有哪些值得改进的地方。所有的检验结果由于检验系统本身存在的局限性,并不一定能全面而精确地评述每一个模式的预报性能,只能是从长时间的平均状态给大家一个参考。

2 不同检验方案检验结果对比分析 2.1 标准检验与加密检验全国区检验结果对比分析

2005年夏季,台风、暴雨、强对流天气、高温干旱等灾害天气频发。其中7—8月降水特点十分突出,先是淮河流域在7月上中旬出现了持续性强降水;稍后,势力强大、影响广泛的台风海棠、天鹰、麦莎和珊瑚先后登陆我国,给我国东、南部沿海地区带来强降水。此外,8月中旬东北华北也出现了强暴雨天气。面对这样一个天气复杂多变的夏季,认真分析和比较一下我国各个业务运行及试运行的模式对降水分布的预报能力是十分必要的,同时,我们也对在我国预报员中广泛应用的德国和日本的降水预报做了相同的检验比较。

表 2可知,降水检验方案的变化对于降水效果的评估是有一定影响的。首先表现在TS评分的变化上。除区域模式(MM5模式除外)和T213的中雨、WRF20km模式的大雨和大暴雨及日本和德国模式的暴雨外,其它模式和降水级别加密检验的TS评分均较标准站检验的评分低,尤其是小雨评分各模式均一致偏低。不过,暴雨以下各级降水TS评分相差不大,各模式加密检验和标准检验的偏差基本在标准检验评分的20%以下,但暴雨和大暴雨的评分差别较大,德国模式大暴雨的加密评分不到标准检验评分的一半。

表 2 2005年7—8月各模式和预报员24/36小时降水预报全国区累加检验结果

除大暴雨预报外,各模式和预报员的预报在各级降水评分的排位基本相同,相差不大。无论是加密检验,还是标准检验,评分第一的预报种类是相同的,除中雨评分外,预报员均处于各种预报的第一位,日本模式在中雨级别评分中均处于第一位。但处于第二位和第三位的预报种类略有不同。对于标准检验来说,小雨评分列2、3位的是日本模式和T213模式,而加密检验则是T213和日本的模式,二者的排序互换了位置。列标准检验中雨TS评分第二、三位的分别是预报员的预报和MM5模式,加密检验则是预报员的预报和WRF模式。列标准检验大雨评分二、三位的是GRAPES30km模式和MM5模式,在相应的加密检验中则是WRF模式和GRAPES60km模式。对于暴雨评分,加密和标准检验列二、三位的都是MM5模式和GRAPES60km模式。对于大暴雨,MM5模式均列标准检验和加密检验的第二位,德国模式列标准检验的第三位,而两个GRAPES中尺度模式并列加密检验第三位。此外,除大雨和大暴雨评分外,两种检验中TS评分最低的两种预报也是基本相同的。

除大暴雨外,各级评分前三位的预报种类是类似的。也就是说,尽管检验方案中实况资料的变化会引起具体评分的差异,但对模式预报能力的整体评价,尤其是多模式在不同方案检验评分中的排序大体是类似的。

此外,对于小雨预报,除预报员和GRAPES60km模式外,其它预报加密检验的漏报率低于标准检验;加密检验的空报率均高于标准检验的,预报偏差则均较标准检验略有增大;而所有预报的预报效率均较标准检验低。说明当检验站加密后,全国有无降水预报的难度也在增加,TS评分和预报效率因为空报增多而略有降低。

对于中雨预报,有两种预报的加密检验的漏报率较标准检验增加了,分别是预报员和德国的预报,其它模式预报则略有降低。加密检验的空报率高于标准检验的有预报员、日本和MM5模式3种预报,其它模式略有降低。除德国模式的预报偏差较标准检验略有降低外,其它模式预报偏差增大。所有模式的预报效率均略有降低。

对于大雨预报,只有GRAPES60km和WRF模式的漏报率较标准检验略有降低,其它模式预报漏报均在增多。空报率只有WRF和HLAFS模式略有降低,其它预报也在增加。预报效率的评分均较标准检验降低。除GRAPES60km和WRF模式外,预报偏差均略有下降。

对于暴雨预报,除日本预报外,各预报加密检验漏报率略高于标准检验;空报率均在增大,预报效率均在降低;预报偏差较标准检验的明显降低。除全球模式和HLAFS模式外,各模式预报面积与实况面积更为接近。说明实际上我国东部暴雨的发生要较标准检验所能描述的暴雨要多得多,暴雨的中小尺度特征较大雨以下各级降水更明显。对于暴雨预报能力的评价应建立在更高精度资料的基础上。

对于大暴雨预报,除HLAFS外,加密检验的漏报率高于标准检验;预报员、T213、日本及WRF的空报率略有降低,但其它模式的空报率也略有增大。日本、MM5和WRF的预报效率略有增大,其它模式仍是略有降低或与标准检验持平。预报偏差只有GRAPES30km和HLAFS模式略有增大,较以前明显偏小改进较大,其它预报的预报偏差明显降低,其中有明显改善的是预报员、T213、WRF及GRAPES60km的预报。

综上所述,尽管加密检验站点分布较标准检验不十分合理,也基本能反映模式的总体预报能力,两种检验在大雨以下各级降水检验评分中差别不是十分显著。但对于暴雨以上的评分,尤其是预报偏差的差异十分明显,说明暴雨以上的降水多受中小尺度天气系统的影响,加密实况反映的暴雨发生频率与实际暴雨发生的频率更接近。WRF20km模式在加密检验中的排序要好于标准检验的,说明其对我国东部的降水预报略好于其它模式。无论是加密检验,还是标准检验,对于24/36小时降水预报而言,除中雨预报外,其它各级降水TS评分以预报员的预报最高,中雨是日本的评分最高。

2.2 新检验量ETS与TS评分和技巧评分SS的比较

在最新开发的加密检验系统中,我们引入了在美国降水检验业务系统中广泛使用的检验量ETS。加密检验的ETS评分与加密检验的TS评分以及标准检验系统中TS评分和SS评分的差别见图 1。从图中可知,四者在小雨评分中差别较大,ETS明显低于两种检验的TS评分和标准检验的技巧评分,而且其评分的排位顺序与TS评分和技巧评分的差别也很大,尤其是日本的预报排序差别最大,由TS评分第三位降为ETS评分第八位,而WRF20km模式由TS排位第六升为ETS排位第二,GRAPES30km模式由TS评分排位第七升到ETS评分第三。总体看来,凡是预报偏差较大的模式的TS评分排位在ETS评分排位中均有所下降,而预报偏差与实况接近的预报的排位则有所上升。除预报员的预报外,加密检验和标准检验中雨的TS评分十分接近,多数模式的加密评分甚至略好于标准检验,但ETS评分明显低于TS和技巧评分。大雨的ETS与技巧评分相近,量值差别不大,仍低于TS评分。暴雨的ETS评分高于标准检验的技巧评分,但低于TS评分。加密检验的大暴雨ETS评分与TS评分基本相同,而标准检验的TS评分和技巧评分也基本相同;除WRF模式外,加密检验评分低于标准检验的评分。此外,加密检验的TS评分低于标准检验同级别降水的TS评分;不论是哪一个级别的降水,对全国而言,4种评分最高的预报是相同的,除小雨预报外,4种检验评分最低的预报也是相同的。此外,除小雨预报外,其它级别降水各种预报4种评分的排序差别不大,最多相差1~2位,有些预报空报较多使TS评分排位较高的预报在ETS评分中排位下降,或由于预报偏差与实况接近而使原本在TS评分中排位较低的模式在ETS评分排序时有所上升。因此,从长时间平均来讲,对于全国这样一个比较大的区域而言,无论用4种评分中的哪一个来比较不同模式降水预报的能力,所得排序结论是类似的,只是在量值上有一些差别。但是当检验区域变小时,由于不同预报的预报偏差的差别较大,TS与ETS评分的结论则可能完全不一样。这在分省检验中表现更为突出。

图 1 2005年7—8月预报员及各模式全国24/36小时预报标准及加密检验TS、ETS、SS评分比较 a.小雨,b.大雨,c.暴雨
2.3 加密检验与标准检验分区相同时T213及预报员检验评分的差别

为了更细致地考察加密检验与标准检验的差别,分析引起两者全国范围暴雨以上预报偏差差别较大的原因,我们又对T213和预报员的预报按标准检验分区的方法对加密检验做了新的分区,重新计算了检验评分。

表 3可知,对于T213模式而言,加密检验与标准检验除西北地区东部暴雨的TS评分差别较大外,其它各区各级降水的TS评分相差不大。但从中雨开始,加密检验多数分区的预报偏差均较标准检验要小,偏小最显著的是暴雨及大暴雨两级降水,其中对东北地区、西北地区东部、西南地区东部和长江中下游地区而言,标准检验的结论是暴雨预报较实况略偏多,而加密检验则表明对该区的暴雨预报明显偏少或略偏少。根据天气学检验,加密检验关于长江中下游地区降水量偏小的结论更可靠一些。但对于我国西部地区的检验结论还是标准检验的与天气学检验的结论相一致。对大部分过程而言,T213对我国西部降水预报以偏大为主。

表 3 2005年7—8月T21336小时降水预报标准与加密检验各区降水评分表

表 4分析来看,对预报员的预报而言,TS评分也只有西北地区东部的暴雨评分差别较大,其它各区各级降水TS评分差别不大。但与T213不同的是,预报员除了大暴雨这级评分的预报偏差两种检验差别较大外,其它各区及各级降水的预报偏差差别不大,结论相近,预报误差基本是以偏大为主的。

表 4 2005年7—8月预报员24小时降水预报标准与加密检验各区降水评分表
3 小结

随着数值预报更高分辨率模式的发展,对定量降水预报评估系统提出了更高的要求。为了满足更精细降水预报评估的需求,在新的观测系统的基础上开发了加密降水检验系统。经过对多模式2个月的并行试验检验结果分析表明:

(1) 新旧系统在站点分布和分区形式上有较大的差别,新旧检验系统对各模式和预报员全国降水预报的评估结论在大雨以下各级降水评估方面差别不大,结论基本相似,除中雨预报外,加密系统的TS评分均略低于标准检验的。暴雨以上评分的差别较大,其中部分模式的两个检验系统的预报偏差大相径庭,说明暴雨以上的天气系统多为中小尺度系统,其发生的频率在加密系统中的反映可能更合理一些。

(2) 新的检验量ETS,对于全国这样较大的检验区而言,大雨以下各级降水评分在量值上要小于TS评分,暴雨以上则比较接近。除小雨预报外,其在多模式对比检验中所得的排序结论与TS和技巧评分相近,略有差别。当两种预报TS评分相同时,如果其中一种预报偏差较大,ETS评分比另一种预报低很多。

(3) 无论是加密检验,还是标准检验,各级降水检验中表现最好的模式是相同的。

(4) 分区相同时,预报种类不同,加密检验与标准检验的差别不同。对T213模式而言,两者在暴雨和大暴雨的预报偏差上的差别更显著一些,而对预报员的预报而言,差别并不显著。

参考文献
[1]
陈艺敏, 钱永甫. 西太平洋暖池海温对华南前汛期降水影响的数值试验[J]. 热带气象学报, 2005, 21: 13-23. DOI:10.3969/j.issn.1004-4965.2005.01.002
[2]
李春晖, 梁建茵, 吴尚森. 近百年广州汛期降水变化特征及其影响因子[J]. 热带气象学报, 2004, 20: 365-374. DOI:10.3969/j.issn.1004-4965.2004.04.004
[3]
姚愚, 严华生, 程建刚. 主汛期(6~8月)副高各指数与中国160站降雨的关系[J]. 热带气象学报, 2004, 20(6): 651-661.
[4]
曾智华, 马雷鸣, 梁旭东, 等. MM5数值预报引入GRAPES三维变分同化技术在上海地区的预报和检验[J]. 应用气象学报, 2004, 15(5): 534.
[5]
国家气象中心. 气象学中常用检验方法概述[M]. 北京: 气象出版社, 1991: 2-5.
[6]
国家气象中心. 有限区数值预报业务系统[M]. 北京: 国家气象中心, 1994: 184-211.
[7]
黄卓. 气象预报产品质量评分系统[M]. 北京: 中国气象局预测减灾司, 2001: 9-11.
[8]
王雨, 闫之辉. 2004年汛期(5—9月)主客观降水预报检验[J]. 热带气象学报, 2006, 331-339. DOI:10.3969/j.issn.1004-4965.2006.04.004
[9]
王雨, 李延香. 2001年主汛期国家气象中心主客观降水预报对比检验[J]. 大气科学研究与应用, 2002, 23(2): 99-110.
[10]
王雨. 2002年国家气象中心主客观降水预报检验综述[J]. 大气科学研究与应用, 2003, 25(2): 89-96.
[11]
王雨. 若干数值模式对2003年夏季青藏高原中南部降水预报检验[J]. 高原气象, 2004, 23(增): 53-57.
[12]
王雨. 2003年主汛期及淮河强降水过程中外数值模式降水预报检验[J]. 天气与气候, 2004, 3(1): 78-87.
[13]
管成功, 王克敏, 陈晓红. 2002—2005年T213数值降水预报产品分析检验[J]. 气象, 2006, 32(8): 70-76. DOI:10.7519/j.issn.1000-0526.2006.08.012
[14]
王雨. 2002年主汛期国家气象中心主客观降水预报对比检验[J]. 气象, 2003, 29(5): 21-25. DOI:10.7519/j.issn.1000-0526.2003.05.005
[15]
中国科学院自然区划工作委员会. 中国自然区划[M]. 北京: 科学出版社, 1959: 170-215.