基于空间一致性的双套站数据选取方法探索

技术交流

引用本文 [复制中英文]

温华洋, 华连生, 金素文, 等, 2013. 基于空间一致性的双套站数据选取方法探索[J]. 气象, 39(8): 1069-1075. DOI: 10.7519/j.issn.1000-0526.2013.08.014.

WEN Huayang, HUA Liansheng, JIN Suwen, et al, 2013. Data Processing Methods of Double Automatic Stations Based on Space Consistency Check[J]. Meteorological Monthly, 39(8): 1069-1075. DOI: 10.7519/j.issn.1000-0526.2013.08.014.

[复制英文]

资助项目

公益性行业(气象)科研专项(GYHY201006055)、国家自然科学基金项目(41205126) 和安徽省气象局气象科技发展基金(KM201208) 共同资助

第一作者

温华洋，主要从事资料质量控制、评估相关研究.Email:wenhy12@163.com。

文章历史

2012年3月20日收稿
2012年12月09日收修定稿

Contents Abstract Full text Figures/Tables PDF

基于空间一致性的双套站数据选取方法探索

温华洋 ¹, 华连生 ¹, 金素文 ¹, 徐光清 ¹, 汪腊宝 ², 胡雯 ²

1. 安徽省气象信息中心, 合肥 230031；
2. 安徽省气象局, 合肥 230031

2012年3月20日收稿；2012年12月09日收修定稿

资助项目：公益性行业(气象)科研专项(GYHY201006055)、国家自然科学基金项目(41205126) 和安徽省气象局气象科技发展基金(KM201208) 共同资助

第一作者：温华洋，主要从事资料质量控制、评估相关研究.Email:wenhy12@163.com

摘要：国家级台站自动气象站双套运行后，将双套站产生的多套数据处理为一套数据的算法成为双套站投入业务运行前必须解决的重要问题。文章从数据“热备份”角度提出了基于空间一致性的主备法，在此基础上进一步从统计学基本原理以及保证数据连续角度提出了基于空间一致性的差值订正合成法两种数据处理算法。利用安徽省休宁站逐小时气温资料对两种算法结果的完整性和差异性进行了评估，评估使用的方法包括缺测率、差值均值、差值标准差、差值的一致率、超差率和粗差率等。评估结果表明：算法均能很好地保证数据的完整性；算法结果均与“真值”较为接近，基本能够反映大气真实情况，基于差值订正的“合成法”结果更优。最后利用新疆库车、安徽安庆等5个台站资料对算法涉及到的空间一致性方法进行了评估，结果表明该方法总体效果较好，尤其在相对湿度、气压和气温上具有很好的判别效果，而风速可能受局地地形或参考站选取影响效果略差。

关键词：双套站算法数据选取空间一致性气温

Data Processing Methods of Double Automatic Stations Based on Space Consistency Check

WEN Huayang¹, HUA Liansheng¹, JIN Suwen¹, XU Guangqing¹, WANG Labao², HU Wen²

1. Anhui Meteorological Information Centre, Hefei 230031;
2. Anhui Meteorological Bureau, Hefei 230031

Abstract: Since national automatic weather stations were run in dual sets, the algorithm to make multiple sets of data generated by the double automatic stations into one set of data has become an important issue that must be resolved before the double stations are put into operation. This article presents the master and slave law based on the space consistency from the standpoint of the data of "hot spare", and also presents two data processing algorithms based on revised synthesis method according to spatial consistency difference from basic statistical principles and the angle to ensure that the data are continuous. We evaluate the integrity and differences of the results by the two algorithms using the hourly temperature data from Xiuning Station. Many assessment methods are used including missing rate, the mean of difference values, the standard deviation of difference values, the consistency rate of difference, ultra-slip and coarse slip etc. The results show that both of the two algorithms can guarantee the integrity of the data well, and the results of these algorithms are closer to the "true value" and also can reflect the true situation of the atmosphere. Comparatively, however, the result based on the difference between the revised synthesis is better. Finally, the double station observation data collected from Kuche, Anqing and other three stations are used to assess the spatial consistency method which involves the algorithm. It is indicated that this method is effective in general. Especially, it has a better discriminant ability in humidity, pressure and temperature, but is less effective in distinguishing wind speed, which may be affected by local topography or the impact of selected reference stations.

Key words: double automatic stations algorithm data processing space consistency temperature

引言

2010年安徽省气象局牵头承担国家级台站自动气象站双套运行试点建设工作，在安徽的休宁、新疆的库车、河北的南宫等10个台站建设双套自动站(双套站均为第二代新型自动站，两套仪器分别记为A和B站，原观测场运行自动站为第一代自动站，记为本站)，并于2010年10月陆续投入试验运行。实行自动站双套运行后，气温、气压、相对湿度和风向风速等要素均产生两套数据，如何将两套数据处理为一套完整准确的观测数据成为双套站投入运行后必须解决的重要问题。

目前国内外鲜有关于双套站数据处理方法的相关研究，相类似的研究主要集中在多传感器数据融合方面(Hall et al, 1997；王军等，2004)，这些研究成果广泛应用于战场监视、自动飞行器导航、机器人、医疗诊断、图像处理和复杂工业过程控制等领域。涉及到的处理方法包括加权平均(潘泉等，2003)、估计理论(Mutambara, 1998)、卡尔曼滤波(周锐等，1998)和统计决策理论(Kamberova et al, 1996)等方法。美国国家气候数据处理中心给出USCRN三套气温传感器仪器决策处理的较为经典的成熟算法，但该算法需要每个时次传感器通风风扇速度(speed of fan)资料，而目前布设的双套自动站采用的仪器无相关数据，因此无法直接利用相关算法处理双套站数据。而事实上双套自动站运行后主要考虑如何从两套中选取一套，或者如何给予两套数据不同的权重，合成为一套完整准确的数据。本文从以上两个角度，借助周边台站的数据对双套站采集的气温、气压、相对湿度和风速等要素数据选取合成方法进行了探索，获得了一些有益的结论，为历史数据的处理分析等提供参考。

1 资料说明

使用的资料为2010年10月至2011年3月安徽休宁、安庆、歙县和新疆库车、莫索湾5个台站以及对应台站双套站的逐小时观测资料。此外使用到的参考站资料包括安徽的屯溪、黟县、怀宁、枞阳、东至、青阳，新疆的拜城、新和、沙雅和轮台10个台站。本站以及周边台站资料均经过台站、省级和国家级严格的三级质量控制后资料，而双套站数据则只经过初步的质量控制，质量控制的方法包含气候界限值检验、气候极值检验、时间一致性和内部一致性检验等(窦以文等，2008；何志军等，2010；刘小宁等，2006；任芝花等，2007；2010)，将双套站没有通过初步质量控制的数据设定为缺测。

2 算法简介

当A、B站差值超过一定阈值时，表明了其中至少一套仪器出现了故障，需要利用空间一致性检验判断。其阈值根据中国气象局(2010)第二代新型自动站功能规格书仪器探测精度的最大允许误差确定(气温为±0.2℃，气压为±0.3 hPa，相对湿度为±3%，风速为±0.5 m·s^-1)。对于空间一致性检验，近年来讨论较多，如刘小宁等(2006)采用空间回归检验的方法，在降水、风速等空间变化较大的要素上检验的效果较好，主要适用于单一要素的检验，任芝花等(2010)提出了适用于全国小时降水的空间一致性检测方法，该方法需要较多的临近站才能给出准确的判断，计算相对复杂。而本文采用的空间一致性判别方法有别于以上方法，主要从要素跳跃幅度的接近程度进行考察判定，具有计算简单，参考站选取较为灵活的特点，具体判断方法如下：

设两套仪器观测的两组数据为{a}与{b}，记算法新数据为z，本站观测数据为{c}，周边n个参考台站数据为{d₁, d₂, …, d_n}，参考台站合成数据为{s}，$s = \frac{1}{n}\sum\limits_{k = 1}^n {{d_k}} $。第i时刻各序列对应数据a_i，b_i和s_i。其中$\Delta a = \frac{{{a_{i - 1}} - {a_{i - 4}}}}{3} - \left({a - {a_{i - 1}}} \right) = \frac{4}{3}{a_{i - 1}} - \frac{1}{3}{a_{i - 4}} - {a_i}, $$\Delta b = \frac{4}{3}{b_{i - 1}} - \frac{1}{3}{b_{i - 4}} - {b_i} $，$\Delta s = \frac{4}{3}{s_{i - 1}} - \frac{1}{3}{s_{i - 4}} - {s_i} $，即Δa，Δb和Δs分别表示在i时刻a_i、b_i和s_i前面3个时次前后时次变化均值与当前时次变化值的差值。令Δas=|Δa-Δs|，Δbs=|Δb-Δs|，即a_i，b_i相对于参考数据s_i在i时刻跳跃幅度的大小。考虑到数据均通过了初步的质量控制，没有通过质量控制的数据已被设为缺测，若Δas≤Δbs，则表明相对于b_i，a_i在i时刻与参考台站跳跃幅度更为接近，认为a_i正确的可能性更高，否则认为b_i与参考台站跳跃幅度更为接近，b_i正确的可能性更高。

其中参考站一般选取3~5个，并按照如下原则选取：拔海高度差不超过500 m，纬度相近、经度相近，一般相距不超过100 km；历史数据相关系数通过显著性水平检验(α=0.01)，且尽可能的大。

2.1 基于空间一致性的主备法(简记“主备法”)

该算法思想是若A、B站差值在正常阈值内则将双套站中某一套仪器(如A站)的资料作为传输资料，而另外一套(B站)则作为“热备份”资料，即备用资料；当A、B两站差值异常时，利用前文所述空间一致性判断，若A站数据异常时直接使用B站数据替换，最终形成一套完整数据。

以选择A站为主站，气温为例(根据探测仪器最大允许误差给出气温差值阈值为±0.4℃，气压则为±0.6 hPa，相对湿度±6%，风速为±1 m·s^-1)：

(1) 当|a_i-b_i|≤0.4时，取z_i=a_i；

(2) 当|a_i-b_i|>0.4时，则认为A、B两站其中一套数据出现异常，在周边台站中选取3~5个参考站，进行空间一致性判断(要求a_i与b_i及前四个时刻数据完整且差值≤0.4，否则i向前顺移，直到同时有4组连续的a_j与b_j均完整，且a_j与b_j的差值均≤0.4，下同)：若Δas≤Δbs，则z_i=a_i，否则z_i=b_i。

(3) 若a_i与b_i其中一个缺测，按照如下方法处理:若a_i缺测，z_i=b_i；否则z_i=a_i。

(4) 若a_i与b_i均缺测，则z_i缺测。

2.2 基于空间一致性的差值订正合成法(简记“合成法”)

合成法算法思想认为均值更接近于统计上的“真值”，即数据差值在正常阈值内将两套仪器的平均值作为实时业务传输资料，当数据差值异常时，利用空间一致性判断，选取正确数据，并利用差值均值对该数据进行订正，以保持合成数据的连续性。最终形成一套完整数据。算法如下：

(1) 当|a_i-b_i|≤0.4时，取z_i=(a_i+b_i)/2；

(2) 当|a_i-b_i|>0.4时，若Δas≤Δbs，${z_i} = {a_i} - \frac{1}{2}\Delta $，否则，${z_i} = {b_i} - \frac{1}{2}\Delta $；其中$\Delta = \frac{1}{4}\sum\limits_{j = i - 4}^{i - 1} {\left({{a_j} - {b_j}} \right)} $，即Δ表示A、B两个序列i时刻前4个时次的差值均值；

(3) 若a_i与b_i其中一个缺测，按照如下方法处理:若a_i缺测，${z_i} = {b_i} + \frac{1}{2}\Delta $；否则若b_i缺测，${z_i} = {a_i} - \frac{1}{2}\Delta $；

(4) 若a_i与b_i均缺测，则z_i缺测。

3 算法结果及评估

算法评估的主要思路：以休宁本站观测资料为“真值”，考察双套站算法数据的完整性以及与“真值”的差异性，涉及空间一致性判断则利用屯溪、歙县、黟县自动站数据构建参考序列。

休宁站2010年10月双套站资料出现大量的异常数据情况(主要是数据传输问题)，如B站在10月12—18日数据偏离本站较多，10月25日后出现大量缺测等异常现象(仅以气温为例见图 1)，而2010年11月至2011年3月数据则相对正常(文中所用资料为气象时资料，即10月实际为9月30日21时至10月31日20时。故各图形从30日21时开始，下同)。

图 1 休宁双套站与本站2010年10月逐小时气温比较 Fig. 1 Comparison of hourly temperature of the double automatic stations in Xiuning with the native automatic stations in October 2010

3.1 完整性评估

表 1给出了双套站、本站以及算法数据的完整性，从表 1看算法结果和A、B站同时缺测的结果一致，两站算法均很好的保证了数据的完整性。且10月及2算法的缺测率低于本站(因电力故障9月30日21时至10月1日08时缺测12次, 2月24日15—17时仪器调试缺测3次)，双套站在保证数据完整性，减少数据缺测率的优势有所体现。

表 1 休宁双套站逐小时数据缺测次数比较 Table 1 Comparison of the frequency of hourly temperature missing data of Xiuning double automatic stations

3.2 差异性评估

对算法评估的方法包括与本站数据差值的平均值、差值标准差、一致率(邓天宏等，2005)、粗差率(中国气象局气象信息中心，1999)和超差率等(连志鸾, 2005; 王颖等，2002; 余君等，2008)。

特别的是，根据新型自动气象站功能规格书中规定的仪器测量性能要求定义超差率。其公式如下：

$ {T_r} = \frac{t}{n} \times 100\% $

其中T_r为超差率，n为有效观测次数，即除缺测以外的观测样本数，t为超差次数，即差值超过最大允许误差(中国气象局，2010)2倍的次数。

主备法选择不同站作为主站将对结果产生影响，故分别用以A为主站(简记A主站)、以B为主站(简记B主站)和合成法结果同时与本站数据进行比较，图 2给出了10月双套站算法结果与本站数据的比较。总体上看三者均与本站结果接近。算法对图 1中10月12—18日的异常数据段得到了纠正，同时B站10月25—31日缺测的数据，算法也进行了补充。

图 2 休宁站2010年10月双套站各种算法的逐小时气温结果与本站比较 Fig. 2 Comparison of hourly temperatures of Xiuning double automatic stations with this automatic station by different algorithms in October 2010

进一步给出了本站与算法结果的差值图(见图 3)。从图上可知，10月B主站与本站差值有5个小时值超过了0.4℃。以5日09时为例，A站为14.7℃, B站为14.6℃，A、B两站差值在0.4℃以内，认为两个值均无异常，则B主站结果为14.6℃，此时休宁本站为15.1℃，B主站与本站相差0.5℃，合成法数据为14.6℃与本站相差0.5℃，均在差值阈值之外(考虑有较多差值为0.1℃的现象，采用通常的“四舍五入”则出现全部取A、B较大值的情况，故采用“四舍六入，五看奇偶”的方法)。而A主站结果为14.7℃与本站则相对接近，其他4个时次也有类似情况。本文将A、B两站差值在差值阈值内的，而A站或B站与本站差值在差值阈值之外的情况，归结于与本站仪器与双套站仪器探测性能存在差异有关，而显然算法无法解决该类仪器性能问题。

图 3 休宁站2010年10月双套站各种算法的逐小时气温结果与本站差值 Fig. 3 Difference values of hourly temperatures between Xiuning double automatic stations and this automatic stations in October 2010

图 4给出了2010年11月至2011年3月A、B两站的差值统计描述，去掉缺测剩余的3624个样本两者气温差值极差为0.6℃，最大值为0.3℃，最小值为-0.3℃。根据算法均不需要调用空间一致性判断。故只给出算法结果与本站差值的统计描述见表 2。

图 4 2010年11月至2011年3月休宁双套站A、B差值统计描述 Fig. 4 Statistical description of the difference values of Xiuning double automatic stations from November 2010 to March 2011

表 2 休宁2010年10月至2011年3月双套站各种算法的逐小时气温结果与本站差值的统计描述 Table 2 Statistical description of hourly temperature by different algorithms from double automatic stations and the difference value of this automatic stations from October 2010 to March 2011

月份	算法	均值/℃	标准差/℃	一致率/%	超差率/%	粗差率/%
10	A主站	0.07	0.121	95.50	0.14	2.59
	B主站	0.03	0.131	95.09	0.68	1.91
	合成法	0.05	0.127	95.36	0.41	1.64
11	A主站	0.10	0.103	95.83	0.42	0.83
	B主站	0.01	0.107	97.50	0.14	1.39
	合成法	0.06	0.109	96.39	0.14	1.25
12	A主站	0.13	0.121	90.46	1.34	1.48
	B主站	0.04	0.136	93.41	1.21	1.21
	合成法	0.09	0.132	92.07	1.34	1.61
1	A主站	0.17	0.134	82.80	3.49	2.42
	B主站	0.17	0.134	83.47	3.63	3.90
	合成法	0.17	0.134	83.20	3.63	3.90
2	A主站	0.17	0.124	82.89	2.53	1.34
	B主站	0.15	0.125	84.97	2.08	2.53
	合成法	0.16	0.125	83.48	2.53	2.68
3	A主站	0.14	0.109	90.05	1.34	2.55
	B主站	0.12	0.108	91.94	0.67	2.02
	合成法	0.13	0.109	90.73	1.08	2.28

从表 2的结果看，算法结果与本站均较为接近，其差值均值均在0.2℃以内，标准差均在0.15℃以内，一致率的最小也达到了82%，最高的达到了97.5%；超差率大多在2%以下，最大为3.63%；粗差率大多在3%以下，最大为3.90%。综合以上统计量，B主站与本站最为接近，合成法次之，A主站略差。考虑到“主备法”在选择主站时存在“主观性”或者说“随机性”，故认为合成法的结果更优。

3.3 空间一致性效果评估

为评估本文所用的空间一致性检验方法的效果，以本站观测数据为“真值”，判断算法数据的准确性。使用的资料包含了新疆的库车、莫索湾以及安徽的安庆、歙县和休宁5站的气温、气压、相对湿度和风速等要素。要说明的是为了检验空间一致性的检验效果这些双套站的数据没有经过质量控制。

表 3和表 4分别给出各台站以及各要素利用该方法做出正确判断的比例。总体上，5个台站4个要素共出现了790组异常值，占所有观测数据组的1.3%，方法对其中686个值做出正确判断，占86.8%。从两地区的异常值来看，新疆地区异常值较少，可能与仪器性能较为稳定有关系(与安徽各站使用的仪器生产商不同)，其中莫索湾站距离周边国家站均较远，无合适的台站作为参考站，但由于4个要素均没有出现异常值，无法检验空间一致性效果；库车站仅气压出现部分异常值，其检验效果(74.7%)低于表 4中气压的总体效果(91.2%)，可能与周边台站稀疏，参考站距离较远有一定关系。安徽地区异常值较多，休宁站和歙县站均较多，主要与试运行初期相关软硬件仪器不稳定有关系。

表 3 空间一致性判别效果评估(分台站) Table 3 Impact assessment of spatial consistency discrimination (according to stations)

表 4 空间一致性判别效果评估(分要素) Table 4 Impact assessment of spatial consistency discrimination (according to elements)

对于各台站而言，方法在休宁站效果最好，对其中96%组数据做出正确判断，而歙县和库车较差不足75%。从要素上看，气温的异常值最少，风速最多；而方法对90%以上相对湿度、气压和气温等要素数据组做出正确判断，但风速判别效果较差，准确率不足70%。可能与风速容易受台站探测环境或局地地形影响有关，也有可能与选择的参考站有一定关系。

综上述，空间一致性在相对湿度、气压和气温等要素上具有很好的判别能力，而风速可能受局地地形或参考站选取影响效果略差。台站稀疏地区空间一致性的判别效果可能略差。

4 小结

(1) 两种算法都很好地保证了数据的完整性，算法结果与本站均较为接近，其中“合成法”结果更优。“主备法”的优点是数据均为原始观测值，但在主站选择是存在一定的随机性(亦可通过前期的运行情况的评估进行选择)，且当主站数据异常时，可能出现数据不连续的情况。“合成法”结果更接近于“真值”，且考虑了数据的连续性，也许更能反映大气的真实状况。但由于不是原始观测值，使用该类数据可能存在一定的风险。

(2) 在双套站仪器其中一套出现异常时，本文的空间一致性方法可以很好地判断双套站中哪套仪器数据出现异常，尤其对气压、气温和相对湿度的检验效果较好，且有计算简单，参考站选取较为灵活的特点，但存在使用不同周边台站作为参考站以及不同要素对其结果可能会有影响的问题。

(3) 下一步将从时间、空间和要素上扩大样本量，进一步考察算法的可行性，并结合目前业务现状进一步完善算法。

参考文献

邓天宏, 米鸿涛, 王安国, 等, 2005. 自动气象站资料评估方法及应用[J]. 河南气象, (3): 44-46.

窦以文, 屈玉贵, 陶士伟, 等, 2008. 北京自动气象站实时数据质量控制应用[J]. 气象, 34(8): 77-81. DOI:10.7519/j.issn.1000-0526.2008.08.012

何志军, 封秀燕, 何德利, 等, 2010. 气象观测资料的四方位空间一致性检验[J]. 气象, 36(1): 118-122.

连志鸾, 2005. 自动站与人工站观测记录的差异分析[J]. 气象, 31(3): 48-52. DOI:10.7519/j.issn.1000-0526.2005.03.011

刘小宁, 鞠晓慧, 范邵华, 2006. 空间回归检验方法在气象资料质量检验中的应用[J]. 应用气象学报, 17(1): 37-43. DOI:10.11898/1001-7313.20060106

潘泉, 于听, 程咏梅, 等, 2003. 信息融合理论的基本方法与进展[J]. 自动化学报, 29(4): 599-615.

任芝花, 熊安元, 2007. 地面自动站观测资料三级质量控制业务系统的研制[J]. 气象, 33(1): 19-24. DOI:10.7519/j.issn.1000-0526.2007.01.003

任芝花, 赵平, 张强, 等, 2010. 适用于全国自动站小时降水资料的质量控制方法[J]. 气象, 36(7): 123-132. DOI:10.7519/j.issn.1000-0526.2010.07.019

王军, 苏剑波, 席裕庚, 2004. 多传感器融合综述[J]. 数据采集与处理, 19(1): 72-77.

王颖, 刘小宁, 2002. 自动站与人工观测气温的对比分析[J]. 应用气象学报, 13(6): 741-748.

余君, 牟容, 2008. 自动站与人工站相对湿度观测结果的差异及原因分析[J]. 气象, 34(12): 96-102. DOI:10.7519/j.issn.1000-0526.2008.12.013

中国气象局气象信息中心. 1999. 对比观测期间监测资料评估技术方法.

中国气象局. 2010. 第二代新型自动气象站功能规格书.

周锐, 申功勋, 房建成, 等, 1998. 基于信息融合的目标图像跟踪[J]. 电子学报, 26(12): 89-91. DOI:10.3321/j.issn:0372-2112.1998.12.020

Hall D L, Linas L J, 1997. An introduction to multi-sensor data fusion[J]. In Proceeding of the IEEE, 85(1): 6-23. DOI:10.1109/5.554205

Kamberova G M, Elbaum R.1996.Statistical decision theory for mobile robotics: theory and application. Proceedings of the 1996 IEEE International Conference on Multi-sensor Fusion and Integration for Intelligent Systems.

Mutambara A G O, 1998. Decent grade imitation and control for multisensory system[M]. CRC Press.

U.S. National Climate Date Center. Official USCRN Temperature Algorithm.http://www.ncdc.noaa.gov/crn/officialtemp.html.