快速检索
  气象   2012, Vol. 38 Issue (9): 1135-1139.  

技术交流

引用本文 [复制中英文]

余予, 李俊, 任芝花, 等, 2012. 标准序列法在日平均气温缺测数据插补中的应用[J]. 气象, 38(9): 1135-1139. DOI: .
[复制中文]
YU Yu, LI Jun, REN Zhihua, et al, 2012. Application of Standardized Method in Estimating Missing Daily Mean Air Temperature[J]. Meteorological Monthly, 38(9): 1135-1139. DOI: .
[复制英文]

资助项目

国家重点基础研究发展计划(2010CB951600)、中国科学院战略性先导科技专项子课题(XDA05090100) 和国家气象信息中心青年基金项目“中国地面历史气温序列插补”共同资助

第一作者

余予,从事气象资料处理分析与评估方面的工作.Email:yuyu@cma.gov.cn

文章历史

2011年8月04日收稿
2011年11月14日收修定稿
标准序列法在日平均气温缺测数据插补中的应用
余予 1, 李俊 2, 任芝花 1, 张志富 1    
1. 国家气象信息中心,北京 100081
2. 中国气象局预报与网络司,北京 100081
摘要:利用标准序列法,对1971—2000年我国2000多个国家级地面气象站日平均气温进行了插补试验,并用交叉检验方法进行验证,对比了相关性最好和距离最近两种邻近站选取方案的插补结果。试验表明,相关性最好方案的插补精度优于距离最近方案,利用前一方案进行插补时,只需要选择与待插补站日平均气温序列相关性最高的4个邻近站参与计算即可。插补试验结果表明,平均绝对误差约为0.42℃。插补值与实际观测值之间的绝对误差、均方根误差、两者之差在±0.5℃范围内的样本比例,均与邻近站平均距离呈较好的指数关系。
关键词标准序列法    日平均气温    缺测数据插补    
Application of Standardized Method in Estimating Missing Daily Mean Air Temperature
YU Yu1, LI Jun2, REN Zhihua1, ZHANG Zhifu1    
1. National Meteorological Information Centre, Beijing 100081;
2. Department of Forecasting and Information System, CMA, Beijing 100081
Abstract: Based on the daily mean air temperature from 1971 to 2000 observed by more than 2000 national surface stations in China, a standardized method was employed to carry out missing data estimation experiment, and the results were verified by cross-validation. Two schemes, the relation optimal scheme and the closest station scheme, which were both used to pick up the adjacent stations, were compared. It showed that the relation optimal scheme was better than the other, and only 4 adjacent stations that are most closely related to the estimated station were necessary for estimation. The results indicated that estimate values in average deviate from true values by 0.42℃. The absolute mean error and root mean square error between the estimation and the actural measurements and the sample ratio with the differences falling in ±0.5℃ were all shown good exponential relationships with the average adjacent station distance.
Key words: standardized method    daily mean air temperature    missing data estimation    
引言

长期完整的气温日值序列,是大气环流模式、陆面过程模型等模式所需要的输入参数,并且是进行气候统计分析和气候变化研究的基础。但是,由于站址迁移、台站撤并、观测仪器故障以及其他历史原因等,造成气温观测数据缺测或长时间序列中断,从而引起台站日气温序列不完整,而序列的不完整将对气候变化及其趋势研究、气候评估及影响评价产生影响[1]。因此,有必要对缺测的台站日气温资料进行估值计算,即对不完整的气温序列进行插补。

早在20世纪50年代,么枕生[2]即提出了气温观测序列的订正问题。屠其璞[3]对气温序列的延长和插补进行了相关分析与研究。近年来,我国研究人员利用一维车贝雪夫多项式展开、线性回归、逐步回归、偏最小二乘回归等方法对我国部分地区的气温月、年值资料进行了恢复性试验[4-7]。此外,江志红等[8-9]、张永领等[10]对区域的气温场资料进行了插补研究。对台站观测的气温序列进行插补时,如果某站出现非连续的日气温缺测,可利用缺测日前后的气温数据进行插值计算,但是如果出现连续数日的气温缺测,应用该方法将造成较大误差[11]。标准序列法[12]是一种利用周边台站观测值进行插补的方法,它假设对于在同一气候区域内的所有站点,某日气温与该日多年平均气温的距平都是相似的。DeGaetano等[13]对该方法进行了改进,并基于美国东北部近400站的气温资料,对日最高、最低气温缺测值进行了插补。王海军等[14]利用DeGaetano等的方法,利用湖北省蔡甸站周边7个台站的资料,对该站非缺测的日平均、最高、最低气温进行了插补试验,取得了较好的插补效果。

本文利用DeGaetano等的标准序列法,对1971—2000年我国2000多个国家级地面气象台站的日平均气温进行插补试验,并用交叉检验方法[15]验证其结果。使用标准序列法插补时,关键在于插补邻近站的选取。本文分别采用了“相关性最好”和“距离最近”两种邻近站选取方案,对比了两种方案的插补效果,同时对邻近站数的选择进行了讨论,并分析了不同台站其插补误差的大小与其邻近站平均距离之间的关系。

1 资料与方法 1.1 资料

本文利用了中国地面2400台站气候资料日值数据集(2.0版)中的日平均气温数据,该数据已经通过气候界限值、台站气候极值、内部一致性和时间一致性等质量控制方法的检验。从地面2400台站日平均气温缺测率统计分析来看(见图 1),1970年前缺测相对较多,平均每月约有37站左右资料的缺失,20世纪90年代由于某些台站未将地面月报文件上报国家气象信息中心,造成了部分站整月缺测。为了较好地检验插补效果,选用了1971—2000年30年日平均气温序列进行插补试验。

中国气象科学数据共享服务网,http://cdc.cma.gov.cn.

图 1 地面2400台站日平均气温缺测率和应有台站数变化 Fig. 1 The missing data rate of daily mean air temperature observed by 2400 national surface stations and its number change
1.2 插补方法

本文采用的插补方法为标准序列法[12],计算时,首先假设待插补站某年中的第i日日平均气温缺测,然后利用邻近站日气温标准化距平,对插补站的气温值进行估计,该方法可表示为:

${{Z}_{j}}=\frac{{{X}_{j}}-{{{\bar{X}}}_{j}}}{{{S}_{j}}}$ (1)
${{Z}_{\text{avg}}}=\frac{1}{n}\sum\limits_{j=1}^{n}{{{Z}_{j}}}$ (2)
${{X}_{i}}={{Z}_{\text{avg}}}{{S}_{i}}+{{{\bar{X}}}_{i}}$ (3)

式(1)~(3) 中,Z表示标准化序列,Zavg为邻站平均标准化序列,j代表第j个邻近站,Xjj站第i日日平均气温,XjSj分别为j站第i日日平均气温的多年(本文中即为30年)平均值和标准差,n表示邻近站站数,Xi表示第i日待插补日气温,XiSi分别为待插补站第i日日气温多年的平均值和标准差。

在插补前,首先建立了待插补站的邻近站表Cls_sta0。在选择邻近站时,以待插补站为中心,在距其220 km的范围内进行搜索,并且备选站的海拔高度应满足:

h0<2500 m时,|h-h0| ≤200 m

h0≥2500 m时,|h-h0| ≤500 m

式中,h0h分别为待插补站和备选站的海拔高度。选择与待插补站距离最近的20个站为该站的邻近站,若邻近站数不足20个,以实际数为准。

在插补试验中,基于邻近站表Cls_sta0设计了相关性最好(RO方案)和距离最近(CS方案)两种不同的邻近站选取方案。采用RO方案时,需首先计算各邻近站与待插补站日平均气温序列的相关系数,然后选取相关性最高的n个邻近站参与计算;而CS方案则选取与待插补站距离最近的n个邻近站参与计算。

1.3 检验方法

本文采用交叉检验方法对上述两种邻近站选取方案的结果进行对比分析,并用平均绝对误差(MAE)、均方根误差(RMSE)、插补值与实际观测值误差在±0.5℃范围内的样本比例(p)3项指标来考查插补精度和插补效果。当邻近站数为n时,MAEnRMSEnpn的计算公式分别为:

$MA{{E}_{n}}=\frac{1}{m}\sum\limits_{i=1}^{m}{|{{x}_{ei}}-{{x}_{oi}}|}$ (4)
$RMS{{E}_{n}}=\sqrt{\frac{1}{m}\sum\limits_{i=1}^{m}{{{({{x}_{ei}}-{{x}_{oi}})}^{2}}}}$ (5)
${{p}_{n}}=\frac{{{m}_{p}}}{m}\times 100%$ (6)

式中,xei为第i日插补值,xoi为第i日实际观测值,m为插补天数,mp为插补值与实际观测值误差在±0.5℃范围内的天数。MAERMSE的值越小,且比例p越大,则表明插补精度越高。

2 结果分析

针对1971—2000年2088个国家级台站的日平均气温,分别采用RO和CS两种邻近站选取方案进行了插补试验。基于插补结果,分别统计了每个待插补站其邻近站数为n时的MAERMSE和比例p三项指标。

参考《中国气候总论》[16]将全国大致划分为5个气候区(图 2),在5个气候区中,分别随机选择了邻近站数相对较多的1个待插补站点,以上述统计指标p为例,给出了采用两种方案的不同插补精度,如图 34所示。当采用RO方案时,5个站的比例p随邻近站数增加均先增大后减小,呈现单峰变化。采用CS方案时,比例p随邻近站数的变化不尽相同,53691站的比例p随着邻近站数的增加变化不大,而58705站的比例p呈现出了多个峰值。对比发现,采用CS方案时5个站的比例p的最大值,比RO方案均有不同程度的减小。此外还可以看出,采用RO方案时,比例p在邻近站数为3~4时,即达到相对最大值,而采用CS方案时,比例p随邻近站数的变化没有规律性,达到相对最大值时的邻近站站数取值不固定。

图 2 我国5个气候区划分和部分待插补站点及其邻近站分布 Fig. 2 Five climate regions in China as well as distributions of some estimated stations and their adjacent stations

图 3 采用RO方案时比例p随邻近站数的变化 Fig. 3 Variations of proportion p with adjacent station number in relation to optimal scheme (RO)

图 4 采用CS方案时比例p随邻近站数的变化 Fig. 4 Variations of proportion p with adjacent station number in relation to closest station scheme (CS)

对所有被插补的台站,分别统计了MAERMSE达到相对最小,比例p达到相对最大时的邻近站数取值,同样以比例p为例给出了两种方案的对比结果,如图 5所示。当采用RO方案,约47.5%的台站当其邻近站数取为3或4时,比例p达到相对最大,约88.1%的台站邻近站数取值在2~6之间比例p达到相对最大。而采用CS方案,约72.3%的台站邻近站数取值在2~6之间时,比例p达到相对最大。由此可见,采用RO方案时的邻近站数取值相对比较集中。对比MAERMSE两项指标,也有类似的结论。

图 5 比例p为相对最大时的台站数占总数的百分比随邻近站数取值的变化 Fig. 5 Variations of station number ratio with adjacent station number when p obtains its relative maximum

当邻近站数取为4(2~6的中值)时,对完成插补台站的MAERMSE和比例p进行了分区统计,并对比了两种方案的差异,结果在表 1中给出。在5个不同气候区采用RO方案的3项指标的平均值均好于CS方案,并且各气候区中超过85%的台站的3项指标RO方案优于CS方案。因此认为RO方案比CS方案的插补精度更高,在实际插补过程中应采用这一方案。对比不同气候区的插补精度可以看出,气候区5内的台站气温插补精度相对较高,MAE为0.340℃,而气候区2内的台站气温插补精度相对较低,MAE为0.672℃,这与不同气候区内台站的疏密有一定关系,将在第3节进行讨论。

表 1 两种方案的插补精度指标对比 Table 1 Comparison of 3 estimation indices in 2 schemes

综上所述,在实际使用标准序列法进行气温插补时,应选用RO方案,并且对于备选邻近站数较多的待插补站点,并不需要利用所有的邻近站资料来进行插补,只需要选择与待插补站相关系数最高的4个邻近站资料参与计算,这样得到的插补结果具有相对较高的插补精度。

3 邻近站距离对插补效果的影响

表 1分区统计结果和图 3可以看出,利用标准序列法对不同台站日平均气温的插补精度存在差异。一般来说,如果邻近站与待插补站的距离较近且海拔高度相差不大时,两者的日平均气温序列相关性较高,利用标准序列法做插补计算,可以得到较高的插补精度。假设插补计算某站第i日日平均气温时,最相关的4个邻近站与待插补站的平均距离为di,则完成对m天日平均气温插补后的邻近站平均距离dmean为:

${{d}_{\text{mean}}}=\frac{1}{m}\sum\limits_{i=1}^{m}{{{d}_{i}}}$ (7)

对2000多个国家级台站应用RO方案进行插补试验后的MAERMSE和比例p, 这3项插补精度指标,与dmean求取拟合关系式,如图 6所示。可以看出,MAERMSEdmean增加呈e指数增大,而比例pdmean增加呈e指数减小,3项插补精度指标与dmean的相关性约为0.8左右,通过了显著性检验。这样,由图 6中的3个拟合关系式,可以初步估计不同邻近站不同平均距离情况下的插补精度。但是,图 6中的关系式是通过对大量插补样本进行统计后的结果拟合而成,不适用于对单个插值结果进行精度评估。

图 6 MAERMSE、比例pdmean之间的拟合关系 Fig. 6 Fitting relationships between MAE, RMSE and p versus dmean
4 结论

基于我国地面2000多台站日值气候资料,利用标准序列法,进行了日平均气温插补试验,得到以下结论:

(1) 当利用标准序列法进行日平均气温插补时,采用相关性最好方案选取邻近站的插补结果优于距离最近方案。

(2) 对插补站某年第i日日平均气温进行插补时,选取与待插补站历史同期日平均气温序列相关性最高的4个邻近站参与插补计算,这样得到的插补值具有较高的精度。从我国地面2000多台站日平均气温插补试验结果来看,插补值与实际观测值的平均绝对误差为0.424℃,均方根误差为0.551℃。

(3) 采用相关性最好方案时,MAERMSE、比例p与实际插补时所用的邻近站和待插补站的平均距离dmean有较好的相关性,MAERMSEdmean的增加呈e指数增大,比例pdmean增加呈e指数减小。

参考文献
Stooksbury D E, Idso C D, Hubbard K G, 1999. The effects of data gaps on the calculated monthly mean maximum and minimum temperatures in the continental United States:A spatial and temporal study[J]. J Climate, 12(5): 1524-1533. DOI:10.1175/1520-0442(1999)012<1524:TEODGO>2.0.CO;2
么枕生, 1957. 中国境内农业指标温度的出现日期、持续日数与积算温度[J]. 地理学报, 23(2): 183-203.
屠其璞, 1980. 气温序列的延长和插补[J]. 气象, 6(5): 14-16. DOI:10.7519/j.issn.1000-0526.1980.05.006
张秀芝, 孙安健, 1996. 利用车贝雪夫多项式进行资料缺测插补的研究[J]. 应用气象学报, 7(3): 344-352.
涂诗玉, 陈正洪, 2001. 武汉和宜昌缺测气温资料的插补方法[J]. 湖北气象, 3: 11-13. DOI:10.3969/j.issn.1004-9045.2001.01.004
黄嘉佑, 刘小宁, 李庆祥, 2004. 夏季降水量与气温资料的恢复试验[J]. 应用气象学报, 15(2): 200-206.
李庆祥, 黄嘉佑, 鞠晓慧, 2008. 上海地区最高气温资料的恢复试验[J]. 热带气象学报, 24(4): 349-353.
江志红, 丁裕国, 屠其璞, 1999. 基于PC-CCA方法的气象场资料插补试验[J]. 南京气象学院学报, 22(2): 141-148.
江志红, 丁裕国, 屠其璞, 1999. 气象场序列几种插补方案的对比试验[J]. 南京气象学院学报, 22(3): 352-359.
张永领, 丁裕国, 高全洲, 等, 2006. 一种基于SVD的迭代方法及其用于气候资料场的插补试验[J]. 大气科学, 30(3): 526-532.
Kemp W P, Burnell D G, Everson D O, et al, 1983. Estimating missing daily maximum and minimum temperatures[J]. J Climate Appl Meteor, 22(9): 1587-1593. DOI:10.1175/1520-0450(1983)022<1587:EMDMAM>2.0.CO;2
Steurer P, 1985. Creation of a serially complete data base of high quality daily maximum and minimum temperature[M]. Washington D C: National Climate Center, NOAA.
DeGaetano A T, Eggleston K L, Knapp W W, 1995. A method to estimate daily maximum and minimum temperature observations[J]. J Appl Meteor, 34(2): 371-380. DOI:10.1175/1520-0450-34.2.371
王海军, 涂诗玉, 陈正洪, 2008. 日气温数据缺测的插补方法试验与误差分析[J]. 气象, 34(7): 83-91. DOI:10.7519/j.issn.1000-0526.2008.07.012
Allen R J, DeGaetano A T, 2001. Estimating missing daily temperature extremes using an optimized regression approach[J]. Int J Climatol, 21(11): 1305-1319. DOI:10.1002/(ISSN)1097-0088
张家诚, 1991. 中国气候总论[M]. 北京: 气象出版社, 257-274.