快速检索
  气象   2007, Vol. 33 Issue (10): 102-109.  

技术交流

引用本文 [复制中英文]

王海军, 杨志彪, 杨代才, 等, 2007. 自动气象站实时资料自动质量控制方法及其应用[J]. 气象, 33(10): 102-109.
[复制中文]
Wang Haijun, Yang Zhibiao, Yang Daicai, et al, 2007. The Method and Application of Automatic Quality Control for Real Time Data from Automatic Weather Stations[J]. Meteorological Monthly, 33(10): 102-109.
[复制英文]

资助项目

国家科技基础条件平台工作项目(2005DKA31700)、中国气象局气象新技术推广重点项目(CMATG2006Z03)及武汉区域气象中心重点项目(QY-Z-200708)

文章历史

2006年12月04日收稿
2007年8月10日收修定稿
自动气象站实时资料自动质量控制方法及其应用
王海军 1, 杨志彪 2, 杨代才 1, 龚贤创 1    
1. 湖北省气象信息与技术保障中心,武汉 430074
2. 湖北省气象局
摘要:利用气候极值范围检查、内部一致性检查、时间一致性检查、空间一致性检查,对自动气象站的实时资料进行了自动质量控制。为了降低气象要素误检率,还研制了单站大幅降温事件检测方法。应用上述质量控制方法, 对湖北省2005年7月—2006年9月共15个月近80个自动气象站数据进行了质量控制,错误检出率为0.48‰。经自动质量控制后,特别是采用基于空间插值方法的空间一致性检查后,实时气象数据质量有较大程度提高。最后分析了错误随时间、项目及台站的分布情况。试验表明,湖北省81站1个时次数据可以在2分钟内完成质量控制,能保证实时业务运行时效。
关键词自动气象站    数据质量控制    实时资料    空间插值    
The Method and Application of Automatic Quality Control for Real Time Data from Automatic Weather Stations
Wang Haijun1, Yang Zhibiao2, Yang Daicai1, Gong Xianchuang1    
1. Hubei Meteorological Information and Technology Support Center, Wuhan 430074;
2. Hubei Meteorological Bureau
Abstract: The automatic quality control for real time data of automatic weather stations is made by using the climatic extreme range check, internal consistency check, time consistency check and spatial consistency check. In order to reduce the number of false check for meteorological element, a method which can check the sudden drop of temperature in single station is developed. Using the data of automatic weather stations in Hubei Province, the data are checked and the checked rate of error is 0.48‰. The data quality has been largely improved by using the above-mentioned method, especially spatial consistency check method based on the spatial interpolation. During the testing period, the quality control for an hour dada of 81 weather stations in Hubei Province can be completed within 2 minutes.
Key words: automatic weather stations    data quality control    real time data spatial interpolation    
引言

随着我国气象部门“三站四网”建立,自动气象站已逐步取代人工站。自动站数据以两种方式向省气象局传输,一是每天每小时上传的逐小时资料,二是每月上旬传输的月数据A文件[1]。对每小时一次的数据称为实时资料,而月数据A文件为非实时资料[1]。自动站实时资料已完全融入到了气象业务、科研、服务工作中,其质量也倍受关注。

国外有许多学者对气象资料质量控制方法做过研究[2-3],王新华等[4]、任芝花等[5]对非实时资料做过质量控制,然而对自动站实时资料进行系统的质量控制未见文献报道。WMO[6]认为,自动站资料实时质量控制应在两个层面进行,一是在观测台站进行基本质量控制;第二是在数据处理中心进行,数据处理中心除采用综合时间一致性、内部一致性检查外,还应对仪器传感器失效、长期漂移进行评估。根据我国气象业务体制,除基层台站进行基本质量控制外,省级应对自动站实时资料进行全面系统质量控制。

按照气象业务科研服务实际情况,省级实时资料质量控制可分为两个阶段,第一阶段(QC1)为每小时进行一次,不需人工干预,计算机自动完成,其控制后数据直接传输到国家气象信息中心和省级实时气象资料使用部门;另一个阶段(QC2)就是在QC1基础上,质量控制人员利用计算机质量控制后生成的疑误信息进行人工判断,最后决定数据质量,供业务科研使用。本文主要探讨省级QC1质量控制方法,其原理同样适用QC2。

1 误差分类和疑误信息标注 1.1 误差类型

气象数据误差按产生原因,分为4种类型,即系统误差、粗大误差、随机误差、微气象误差。

(1) 系统误差:对同一被测量进行多次测量,误差大小或符号保持恒定,或按一定规律变化,这类误差称为系统误差。如自动气象站仪器零点漂移就属于系统误差,该工作放在QC2完成。

(2) 粗大误差:明显偏离真值的误差为粗大误差。对人工观测系统而言粗大误差多由观测者疏忽引起。在自动观测系统中,粗大误差主要由自动站观测仪器异常及在数据编码、处理、传输。存储及解码等业务流程中产生。本文主要讨论该类误差的自动检测方法。

(3) 随机误差:在相同条件下对同一被测量进行多次测量,由于受到大量微小随机因素影响,测量误差大小和符号没有一定规律,且无法估计,即为随机误差。随机误差是无法避免的,其总体服从正态分布。

(4) 微气象误差[6]:是由小尺度天气系统扰动引起,由于观测系统时空分辨率原因,这些天气系统一般不会被完全观测到。但当观测到这种天气系统时,其观测数据和周围台站同时间相比,就是异常值。本文探讨的单站大幅降温事件就属于该类误差范围。在气象数据质量控制时,要特别注意不要把其当作错误数据剔除。

1.2 疑误信息标注

Shafer[2]按数据的疑误类型对数据进行标注,分为10种,对应10类质量控制码(0~9)。考虑到实时资料实际情况,QC1只设置4个质量控制码(0~3),0表示正确,1表示可疑,2表示警告,3表示数据错误,数据质量随着控制码数值的增加而降低。质量控制码与检查方法有关,即对同一数据,每种方法都有相应控制码,最后综合各种方法,确定每个数据最后的质量控制码。

2 方法

QC1中实时资料质量控制与非实时资料及QC2相比有以下特点:(1)响应速度要快,由于每小时进行一次,故所有方法必须在数分钟内定时执行完;(2)质量控制过程不能人工干预,全自动完成。所以实时资料质量控制方法必须简洁实用有效,且不能使用过多前期数据。根据以上原则,下面讨论实时资料质量控制方法,即气候极值范围检查、内部一致性检查、时间一致性检查、空间一致性检查。此外,为了降低误检率,还将探讨单站大幅降温事件检测方法。

2.1 气候极值范围检查

气象资料进行气候极值检查前一般要经过界限值和要素允许值范围检查[4],考虑到实时资料时效性,将气候极值检查和界限值结合在一起进行,即气候极值范围检查。该方法设计的关键是合理选择极值上下界值,如上下界范围太大,就和要素允许值范围检查一样,过小就会出现误检。为此参照工程设计中气象要素极值设计的方法,取要素设计值的置信区间上(下)限为气候极值的上(下)界值。通常置信区间上(下)限为给定设计频率(如1%)最大(小)值加上(减去)2倍的标准差。为简便起见,每种要素极值采用乘以一个放大系数来代替通过概率分布函数推求的极值。降水和相对湿度极值范围取固定值,分别为0~300mm/h、0~100%。其他要素取值按式(1)计算。

(1)

Ei+Ei-分别为各要素第i月上下界值,Emax, iEmin, i分别为第i月各要素从建站到2005年最大最小值(全省范围内)。α为范围放大因子,与要素的变率有关,通过对湖北省历史资料的分析,取值为0.1~0.15,如气温、5~320cm地温为0.1,0cm地温取值为0.15。σ为要素的标准差。「」、「」分别表示向下和向上取整。在QC1中,一个要素每月全省一组参数,QC2过程中每站一组参数。历史资料中有些要素没有极值(如浅层地温),其极值从定时值中挑选。

通过式(1)即可计算全省范围内各要素各月的上下界值(数据表略)。对于超过极值上下界的数据,质量控制码直接标注为3,表示其为错误数据。

2.2 内部一致性检查

有些气象观测要素相互之间关系密切,其变化规律具有一致性。根据该特性,就可对相关数据是否保持这种内部关系来检查其是否发生异常,以确定数据质量,即为内部一致性检查。内部一致性检查分为3种情况,一是同类要素之间,二是不同类型要素之间;三是数据处理软件Bug产生。

(1) 同类要素之间的关系:如最高值一定大于等于正点定时值,正点定时值大于等于最小值,对于气温有:TmaxTTmin

(2) 要素之间的函数关系:如可以通过露点温度与水汽压之间的函数关系来计算露点温度,一旦所计算的露点温度与实测值相差较大(绝对值大于0.5℃),则露点温度与水汽压至少有1个要素有误。如违反关系(1)、(2)1次,相关要素质量控制码数值增加1,但最大为2。内部一致性质量控制码不能超过2的原因是:由于某一要素可能受2条以上内部一致性规律约束,如果这些内部一致性关系都不成立,这样有可能导致该要素的内部一致性质量控制码大于2,从而导致在综合检查时,标注该数据为错误数据,但该要素可能为正确值。

(3) 数据处理软件Bug:通过对自动站数据质量控制实践,发现有些错误数据发生有一定规律,导致这种情况是由于数据处理软件的Bug所致。例如时而发现某站某时次32个要素大部分数据(甚至全部)都等于同一个值。采用以下方法检测:如果正点气温、最高气温、最低气温以及正点地温、最高地温、最低地温都相等,并且气温和地温都为同一值,则该时次32个要素的质量控制码均标注为3。一旦软件Bug消除,该检测过程停止。

2.3 时间一致性检查

大气中的有些观测数据与时间显著相关,具有良好的时间一致性,将此类数据与其时间上前、后的测值相比较,来判断其数据是否发生异常。

文献[4]采用时间一致性检查进行数据质量控制时,是用1个月内某时次前后各1个时次内的所有资料组成一个序列,计算序列的中值、加权均值和加权标准差,通过比较被检数据与加权均值的绝对差值和加权标准差的值来确定数据质量;该方法不仅需要较多的前期资料,还需被检时刻后期资料,显然在QC1不能选择该方法。本文采用时变检查(Step test)[2, 6]来实现时间一致性检查方法,时变检查主要是根据要素在某一时段内可能变化范围判断该要素值质量。

通过对湖北省历史气候资料分析,计算了各要素1小时、3小时时变检查上下界值(表 1)。按照表 1,首先对数据进行1小时和3小时时变检查,设置相应质量控制码。然后在该检查基础上,根据式(2)综合决定各要素时间一致性检查的质量控制码。

表 1 各要素1小时、3小时时变检查上下界值
$ \left\{ {\begin{array}{*{20}{l}} \begin{gathered} flag = 2\;\;\;\;\;\;\;\left( {E - {E_{{H_1}}}} \right)\left( {E - {E_{{H_3}}}} \right) > 0 \hfill \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;且flag{H_1} + flag{H_3} > 2 \hfill \\ \end{gathered} \\ \begin{gathered} flag = 1\;\;\;\;\;\;\;\;\left( {E - {E_{{H_1}}}} \right)\left( {E - {E_{{H_3}}}} \right) > 0 \hfill \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;且flag{H_1} + flag{H_3} = 2 \hfill \\ \end{gathered} \\ {flag = 0\;\;\;\;\;\;\;\;\;\;其他} \end{array}} \right. $ (2)

式(2)中,flag为时间一致性检查质量控制码,EEH1EH3分别为被检时次、被检时次前1小时、前3小时前的要素数据,flagH1flagH3分别为1小时和3小时时间一致性检查的质量控制码。

2.4 空间一致性检查

气象要素分布的地理空间具有相关性,空间距离较近的气象站点比距离较远的站点其特征值具有更大的相似性。这是空间插值的理论依据之一,也是空间一致性检查的理论基础。根据插值原理,对于被检站被检时次的某个要素(如气温),可用邻近参考站的数据来估计被检站数据xp,再根据实测值与估计值差值大小,确定数据质量控制码。参照文献[8-9],有:

$ \begin{gathered} {x_p} = \frac{{\sum\limits_{i = 1}^N {{W_i}\left[ {{x_i} + \beta \left( {{z_p} - {z_i}} \right)} \right]} }}{{\sum\limits_{i = 1}^N {{W_i}} }}, \hfill \\ W\left( r \right) = \left\{ {\begin{array}{*{20}{l}} {{\text{Exp}}\left[ { - \alpha {{\left( {\frac{r}{{{R_p}}}} \right)}^2}} \right] - {{\text{e}}^{ - \alpha }}\;\;\;\;\;\;r \leqslant {R_p}} \\ {0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;r \geqslant {R_p}} \end{array}} \right. \hfill \\ \end{gathered} $ (3)

式(3)中,xi为气象站点i的要素值,Wi为邻近参考站点i对目标点p的插值权重,即W(r),N为目标点p邻近参考站总数。zpzi分别为目标点和邻近参考站点的拔海高度,β为要素随拔海高度变化的垂直变化率,W(r)为观测值点与目标点水平距离为r时测值对目标点的贡献权重,Rp为截断距离。α是一个与气象要素距离相关性衰减率有关的参数,即高斯形态系数,α越大,表明该气象要素的距离相关性的衰减率越高。

由于气象站点空间分布的不均匀性,文献[8-9]中Rp根据站点密度取不同值。因在质量控制中,并不像空间插值一样以追求插值均方根误差最小为目标,而是追求误差稳定性,即误差最大值控制在一定范围即可。通过对湖北省历史气象资料对比分析,在进行实时质量控制时,Rp对于气温为120km,其他要素为100km。α对于气温为9.0,其他要素为12.0。β对于气温为-0.006℃·m-1,浅层地温取值-0.004℃·m-1,其他要素为0。在湖北省范围内,N取值6~18。

空间一致性检查时,通过其他质量控制检查方法标注的质量控制码为3的站不能作为参考站。如参考站少于4,不进行空间一致性检查。

$ \left\{ {\begin{array}{*{20}{l}} {\Delta = \left| {{x_p} - {x_o}} \right|} \\ {flag = 0\;\;\;\;\;\Delta < 4} \\ {flag = 1\;\;\;\;\;\;5 > \Delta \geqslant 4} \\ {flag = 2\;\;\;\;\;\;\Delta \geqslant 5} \end{array}} \right. $ (4)

式(4)中,xo为观测值,flag为空间一致性检查质量控制码。通过该式即可决定数据的空间质量控制码。在QC2式(4)中Δ值可以适当降低,以减少漏检。

2.5 单站大幅降温事件检测

当发生剧烈天气事件如大幅降温、短时暴雨时,将导致相关要素发生“异常”,其中较为典型的是单站大幅降温事件,即一个测站由于天气突然变化(如由晴转雨),从而导致气温和地面温度等要素时间一致性和空间一致性质量控制码大于1,如果不对其做处理,将会导致误检。这可以通过气温、地面温度和5cm地温的时间一致性质量控制码来检测该事件发生与否。具体如下:如果正点气温、最高、最低气温3个要素的时间一致性质量控制码之和大于等于4,并且0cm地温、0cm最高、最低、5cm地温4个要素的时间一致性质量控制码之和大于等于5,则称发生了单站大幅降温事件。这时相应要素的时间和空间一致性质量控制码标注为0(即为正确数据)。这样就减少了看似“异常”,实际为正确数据的误检率。

通过检测,2005年7月—2006年9月湖北省共有110站次发生了单站大幅降温事件,其中10分钟平均最大风速在3.0m·s-1以上有80次,该时次有降水发生的87次。该事件频次的月份分布为3月1次、4月3次、5月8次,其余98次全部发生在6—8月。说明单站大幅降温事件主要是由局地强对流天气引起。

2.6 综合检查

综合检查是利用上述检查结果,确定每个数据最终的质量控制码[10]。如果某要素内部一致性、时间一致性和空间一致性检查标识码之和大于等于4,且空间一致性控制码大于等于1,则认为该数据错误。在QC1,错误数据只能作缺测对待,QC2中,错误数据可以按《地面气象观测规范》中的有关规定处理。

3 检查方法应用和检查结果分析 3.1 资料

利用上述设计的质量控制检查方法,对湖北省2005年7月—2006年9月共15个月近80站每天24小时数据共32个要素(见表 2)进行了质量控制。数据来源于省级自动气象站数据库。

表 2 QC1过程中要素采用的质量控制方法
3.2 质量控制步骤

在QC1,根据气象要素特性,对不同要素采用了不同的质量控制方法,见表 2。QC1质量控制具体步骤为:(1)气候极值范围检查;(2)内部一致性检查;(3)时间一致性检查;(4)空间一致性检查;(5)检测单站大幅降温事件;(6)综合检查。

3.3 错误数据个数分布情况分析

利用上述方法,对连续15个月自动气象站数据进行了质量控制,共检出错误数据12407个,错误检出率为0.48‰,其中气候极值范围检查检出11374个,软件Bug产生错误数据352个,综合质量控制方法检出681个。气候极值范围检查检出的错误数占总错误数据总数的92%,经初步分析,产生该检查方法错误检出率最多的原因主要是,在QC1阶段由于检查过程由计算机自动完成,所以确定数据为错误的标准必须设计得非常严格(即不要将正确数据标为错误数据),而气候极值范围检查检出的错误数据有很大一部分数据是超出了要素允许值范围,故标为错误的数据总数较其他检查方法多。本文将通常独立运行的要素允许值范围检查合并在气候极值范围检查中,以减少质量控制时间,提高时效。

在统计错误数据个数时,由于有1/3左右台站没有深层地温观测,故没有将其计算在内。对质量控制码小于等于2的数据,需人工在QC2中进行进一步质量控制,本文对其没有进行分析。下面讨论错误数据个数随时间、要素项目及台站的分布情况。

(1) 错误数据个数时间分布

15个月中每个月都有错误数据产生,但有意思的是冬半年的错误数据个数远远少于夏半年(图 1)。由于只有1年数据,得出冬半年错误数据少于夏半年的结论为时尚早,导致该现象原因可能是由于夏半年天气变化较冬半年剧烈所致。

图 1 错误数据个数随时间变化

(2) 错误数据个数要素分布

图 2中可以看出,风项目数据错误个数最少为15个,可能主要原因是该项目只采用了气候极值范围和内部一致性检查2种方法,而在设置风速上下界值时,考虑到风速风向时空变率较大,故取值范围较大,从而检出错误数据较少。地温项目错误数据较多,并不表明该项目更易出错,而是该项目包含要素最多(7个要素,见表 2)。出现错误数据最多的单一要素是最低气压,错误数据数达1164个。

图 2 错误数据个数随观测项目分布
3.4 错误数据个数台站分布

在检查时间段内每个站都有错误数据出现,从台站分布来说差异较大。错误数据数量最少的台站为1个,最多为1759个。有30站错误数据超过100个,其中7站超过500个。经初步分析,有些站产生错误数据较多的主要原因有两个,一是部分站处于从人工站向自动站转轨的初始运行阶段,从而导致错误数据较多,二是仪器故障引起(如某个要素连续长时间出现奇异值)。产生错误数据原因还需分类作深入分析研究,以消除错误产生原因,降低错误发生概率,进一步提高实时资料质量。

3.5 实例

通过综合检查,天门站2005年11月4日08时最高气温和阳新站2006年8月20日20时气温为数据错误。由表 3可知,标识为错误的两个数据其内部一致性和时间一致性的控制码均为2,空间一致性检查Δ分别为8.2℃、15.9℃,按式(4)它们空间一致性检查控制码也为2,三种检查控制码之和为6,根据综合检查,判断其为错误数据。图 3进一步证明了该数据为错误数据。

表 3 天门、阳新站错误数据检查实例

图 3 58500站2006年8月20日0—23时气温变化图
4 小结与讨论

(1) 利用多种质量控制方法,对湖北省81个自动气象站1个时次的实时数据进行质量控制,2分钟内可完成,故所设计的质量控制方法,能保证实时运行时效。

(2) 通过对湖北省前15个月资料的质量控制,QC1错误数据检出率为0.48‰。经数月试验,实时资料经自动质量控制后,质量有较大程度提高。

(3) 采用基于空间插值方法的空间一致性检查,可进一步提高错误数据检出率。因对很多数据,仅靠对本站数据的质量控制无法确定其质量。

(4) 通过对错误数据的信息加工分析,可以检测出自动站运行状态,从而间接达到对自动站实时监测目的,这对无人值守地面自动气象观测站尤为重要。

后期工作:将QC2中成熟且能自动完成的质量控制方法前移到QC1中,进一步提高实时资料自动检测水平。

参考文献
[1]
中国气象局. 地面气象观测数据文件和记录簿表格式[M]. 北京: 气象出版社, 2005: 9-15.
[2]
SHAFER MARK A, FIEBRICH CHRISTOPHER A, et al. Quality Assurance Procedures in the Oklahoma Mesonetwork[J]. Journal of atmospheric and oceanic technology, 2000, 17: 474-494. DOI:10.1175/1520-0426(2000)017<0474:QAPITO>2.0.CO;2
[3]
EISCHEID JON K, BRUCE C, et al. The Quality Control of Long-Term Climatological Data Using Objective Data Analysis[J]. Journal of Applied Meteorology, 1995, 34: 2787-2795. DOI:10.1175/1520-0450(1995)034<2787:TQCOLT>2.0.CO;2
[4]
王新华, 罗四维, 刘小宁, 等. 国家级地面自动站A文件质量控制方法及软件开发[J]. 气象, 2006, 32(3): 107-112. DOI:10.7519/j.issn.1000-0526.2006.03.017
[5]
任芝花, 刘小宁, 杨文霞. 极端异常气象资料的综合性质量控制与分析[J]. 气象学报, 2005, 63(4): 526-533.
[6]
World Meteorological Organization. CBS/OPAG-IOS/ET AWS-3/Doc. 4(1). Guidelines on Quality Control Procedures for Data from Automatic Weather Stations[R]. 2004.
[7]
熊安元. 北欧气象观测资料的质量控制[J]. 气象科技, 2003, 31(5): 315-320.
[8]
刘宇, 陈泮勤, 张稳, 等. 一种地面气温的空间插值方法及其误差分析[J]. 大气科学, 2006, 30(1): 146-152.
[9]
Thornton PE., Running SW, White M.A. Generating surfaces of daily meteorological variables over large regions of complex terrain[J]. J.Hydeo1, 1997, 190: 214-251. DOI:10.1016/S0022-1694(96)03128-9
[10]
王伯民. 基本气象资料质量控制综合判别法的研究[J]. 应用气象学报, 2004, 15(增刊): 50-59.