快速检索
  气象   2015, Vol. 41 Issue (11): 1398-1407.  DOI: 10.7519/j.issn.1000-0526.2015.11.010

技术交流

引用本文 [复制中英文]

刘一鸣, 2015. IVSA模型在双来源自动站小时降水数据实时拼接中的应用[J]. 气象, 41(11): 1398-1407. DOI: 10.7519/j.issn.1000-0526.2015.11.010.
[复制中文]
LIU Yiming, 2015. Application of Inter Verification Sequence Alignment Model to Two Data Source Splicing of AWS Hourly Precipitation[J]. Meteorological Monthly, 41(11): 1398-1407. DOI: 10.7519/j.issn.1000-0526.2015.11.010.
[复制英文]

资助项目

国家气象信息中心青年科技基金资助项目(NMICQJ201109) 和中国气象局气象关键技术集成与应用重点项目(CMAGJ2013Z01) 共同资助

第一作者

刘一鸣, 主要从事气象信息加工处理与气象资料质量控制工作.Email:yimingliu@aliyun.com

文章历史

2014年10月08日收稿
2015年5月05日收修定稿
IVSA模型在双来源自动站小时降水数据实时拼接中的应用
刘一鸣     
国家气象信息中心,北京 100081
摘要:利用2012年5月1日至7月31日全国自动气象站两种来源实时上传资料中的“非缺测不一致”小时降水数据,详查了问题的产生原因,为在实时拼接过程中高效判断数据正确性,提出较小尺度时间序列求证比对模型(IVSA):当同一时间同一台站的两种来源小时降水值发生不一致时,首先在较小时间尺度(分钟级)序列上使用内部一致性检查方法分别求证小时降水的正确性;当各自在较小时间尺度序列均无法证伪时,将单元出错概率引入两分钟降水序列的比对过程,并据此竞优遴选得出较为可靠的小时降水数据。指出:(1) 产生非缺测不一致问题的原因主要有生成报文时观测数据不全、报文处理环节不一致、台站信息不正确三类。(2) 使用2012年5月1360组实例形成IVSA模型参数后,模型在2012年6—7月的4017组非缺测不一致数据中取得了99.65%的判断准确率。通过IVSA模型,非缺测不一致的小时降水数据取舍问题可在分钟降水序列比对中找出答案。
关键词自动气象站    非缺测不一致    数据源拼接    求证比对模型    相关可信度    地面观测    
Application of Inter Verification Sequence Alignment Model to Two Data Source Splicing of AWS Hourly Precipitation
LIU Yiming    
National Meteorological Information Centre, Beijing 100081
Abstract: Non-default inconsistent hourly precipitation data are an abnormal status in automatic weather station (AWS) observation, which can be often met as hourly precipitation data are transmitted and recorded in 2 sources. Three groups of related instances are listed first, and the direct reasons that deeply hidden are found out manually. To solve this problem, Inter Verification-Sequence Alignment (IVSA) model in smaller time scale is raised in this article. When non-default inconsistent data from same station appears at the same time, verification with smaller time scale data (minute precipitation) is made respectively. If both data cannot be proved wrong with inner verification step, then unit error possibility is added into sequence alignment method. Correlation credibility is calculated and more reliable data can be selected accordingly. After then, monthly data in May 2012 (1360 pairs of instances) are used to train the parameters, and the data (4017 pairs of instances) from 1 June to 31 July 2012 are input to verify the efficiency of applying IVSA in real time data environment, getting an accuracy of 99.65%. It is concluded that IVSA model can eliminate non-default inconsistence in hourly precipitation data under running rules.
Key words: automatic weather station (AWS)    non-default inconsistent data    data source splicing    Inter Verification-Sequence Alignment Model    correlated credibility    surface observation    
引言

我国对降水资料的自动观测始于20世纪90年代末。2000—2005年已逐步完成700余个基本基准站的自动站安装,并在大部分台站开展过自动与人工对比观测和双轨并行(任芝花等,2007a刘小宁等,2008杨萍等,2011)。2005年发布了全国统一的数据文件上传格式,从那时起多要素站以“地面气象要素数据文件”形式、单要素站以“加密自动雨量站观测资料文件”形式实时上传至国家气象信息中心,实现了国家级自动站降水资料的实时共享服务;也由此构成了小时降水数据的两种数据来源(多要素站、单要素站),并存在一定数量的单站双数据来源现象(即:同一个站,既发“地面气象要素数据文件”报,也发“加密自动雨量站观测资料文件”报)。随着区域站建设力度的逐年增强,台站数目不断增多,自动站观测在时间频次与空间覆盖率上的优势逐步显现(俞小鼎,2012许新田等,2012陈涛等,2013),截止到2012年6月,自动站考核站数已达31819站,其中包括国家站2411个、区域站29408个(中国气象局预报网络司,2012),部分站点的观测频次已提升至分钟级;同时随着观测技术不断优化成熟,部分台站采用分期建设方式,由原来的单要素站升级为多要素站,相应的数据来源也应同步完成切换。近期,随着地面气象资料一体化工作的推进,2012年开始国家站以新文件形式实时上传国家气象信息中心;同时通过地面气象观测自动化业务综合试点工作的开展,未来地面观测数据可能以更新的形式(BUFR及消息体)进行描述。

在多要素站与单要素站长期并存的业务现状下,将站数尽可能多、空间覆盖尽可能全的两来源降水数据以尽可能高的时效拼接在一起,会更加贴近预报服务业务用户的需求。然而在尝试实时拼接时,来自两来源的小时降水数据中存在的微小不一致成为拼接过程中不可回避的问题。如:针对单站双数据来源的情况,最初于2005年采用“先入为主法”进行快速拼接,即以两来源中最先到达的数据为准提供下游用户使用。后来随着业务应用的不断深入,发现单站双数据来源中存在一个来源数据缺测、而另一来源中数据非缺测的个别情况;此时如采用“先入为主法”,很可能会影响到局部区域的数据完整性。

经过长期的演化与发展,地面气象资料质量控制领域已形成一套包括气候学极值检查、区域或台站界限值检查、要素之间内部一致性检查、时间一致性检查以及空间一致性检查在内的质量控制方法体系(Igor,2004熊安元,2003中国气象局,2010)。长期以来,由于一方面受限于过去人工观测的频次较稀,另一方面有碍于实时服务对时效性的要求较高,这些方法在地面日值、月值、年值等气候资料中得到了深入的研究和广泛的应用(Sciuto et al,2009刘小宁等,2005任芝花等,2007b),而在小时值观测资料中的探索相对有限(窦以文等,2008任芝花等,2006)。自2009年,国家气象信息中心首先以自动站小时降水(任芝花等,2010)为例,尝试将一些成熟的质量控制方法分批应用到逐小时观测的实时资料服务中(鞠晓慧等,2010赵煜飞等,2011李志鹏等,2012周笑天等,2012)。一方面,空间一致性检查方法需要尽可能完整的邻近站数据;另一方面,实时质量控制系统也需要一套高时效、高可靠的数据源。于是2010年以来采用“非缺测优先法”进行小时降水数据的实时拼接,即非缺测数据较缺测数据具有更高的优先级,可随时替换缺测数据,但不可被缺测数据所替换。

然而随着近年自动站数目的激增与站网规模的扩大,在近期的实时资料中发现,对于单站双数据来源而言,存在两来源数据均非缺测且不一致的情况。对这种同站同时刻探测要素不一致现象,单从小时降水数据本身无法完成数据有效性的判断。通常的辨识方法(任芝花等,2007aIgor,2004熊安元,2003中国气象局,2010):可采用内部一致性检测——将分钟降水累计值与同一时间段的小时降水值比较。但笔者在采用此法进行检验时发生过两来源数据各自内部一致性检查均正确,而最终数据仍不一致的情况。因此,内部一致性法难以解决所有问题。

序列分析是基于随机过程理论和数理统计学方法研究随机数据序列所遵从规律的方法,具有准确把握数据相似性与同源性的特点(Fitch,1983Lipman et al,1984Altschul et al,1985),在金融、地质、生物、医药等领域已取得广泛应用。本文旨在利用序列分析方法,针对2012年5月1日至7月31日自动站两种来源实时上传资料中的“非缺测不一致”小时降水数据,在逐站次详查问题产生原因的基础上形成模型参数培训集合与结果验证集合,探讨非缺测不一致问题发生的规律性,并尝试提出一套高效便捷的正确数据筛选方法。

1 资料来源与预处理方法

本文使用的资料来源于2012年5月1日至7月31日(世界时)全国气象资料国内通信系统在全国范围实时收集到的自动站观测资料数据文件。为下文叙述方便,首先对涉及的名词给出如下解释:

来源1:地面气象要素数据文件(中国气象局监测网络司,2005中国气象局监测网络司,2008),包括小时降水量在内的气温、气压、湿度、降水、风向、风速等多种要素的自动站数据文件。

来源2:加密自动雨量站观测资料文件(中国气象局监测网络司,2005中国气象局监测网络司,2008),包括与降水相关的小时降水量、日累计降水量、分钟降水量等要素的自动站数据文件。

非缺测不一致:指国家气象信息中心接收到的来源1与来源2数据出现同一站在同一时间小时降水量均为非缺测值,且数值不相等的情况。

为提取非缺测不一致小时降水数据,首先对来源1资料与来源2资料分别进行解析处理,提取得到36185站74591639份来源1与5922站11518378份来源2中的小时降水值及其对应的分钟降水序列(序列长度为60),其中同站同时编发两来源数据的有624站2862270份,占总样本量(86110017份)的3.32%,其中同时以两来源编发且数据不一致的有108站43566份,占总样本量的0.051%,其中七成为一来源缺测、另一来源非缺测的情况,可采用“非缺测优先法”判断。通过对两数据集合逐小时对比,并由台站级与省级业务人员结合本地人工观测、雷达观测等资料,开展逐站次人工确认核查,筛选得到源自48站的5377组(10754份)满足非缺测不一致定义且有明确反馈的样本数据,占总样本量的0.012%,其中5068组来源1正确且来源2错误,309组来源2正确且来源1错误。

2 解决方法

非缺测不一致情况具有发生时间不定、原因各异的特点,问题排查难度较大,后文详述问题原因的查找,是在发现问题之后,由台站级与省级业务人员结合本地人工观测记录及雷达观测等资料,配合电话、信函等方式逐站完成的,耗时较长;这种方法显然不适用于实时观测资料的高时效处理与应用过程。为此,本文借鉴时间序列分析方法(Pearson,1998Altschul et al,1994阎继伟,2006),构建了较小尺度时间序列求证比对模型(简记为IVSA),尝试在现有业务流程与工作模式不变的情况下,对此类问题予以实时判断。

2.1 IVSA模型的提出

通常情况下,小时(累计)降水量可描述为式(1) 的形式:

$ X = \int_{t = 0}^{60} {x\left( t \right){\rm{d}}t} $ (1)

实际业务中,小时降水为60段分钟(累计)降水量的累加,可描述为:

$ \mathit{X} = \sum\limits_{\mathit{i} = 1}^{60} {{\mathit{x}_\mathit{i}}} $ (2)

式中,X为小时降水量;xi为第i分钟的分钟降水量;t为时间;与此同时,考虑到以下两点情况:

(1) 无论在来源1还是在来源2的数据文件中,小时降水量这一被检数据在更小时间尺度(分钟级)上可以找到支撑性证明数据。

(2) 通常情况下,小时降水量的非缺测不一致情况在数据文件中具有分钟级降水量选取时间段不同的特征,其中一种来源存在提取分钟降水时间段不足或未提取到分钟降水数据的问题。

由此提出一个适用于实时遴选较为可靠数据的模型,以使两数据源的实时拼接流程可在数据准确性尽可能得以保障的前提下高效完成。

2.2 IVSA模型的描述

IVSA模型包括内部一致性检测与基础值交叉检测两个主要步骤,当被检值为Z,参考值为Z′,被检值对应的较小尺度被检序列为z1, z2, …, zi,参考值对应的较小尺度参考序列为z1, z2, …, zi时,IVSA模型可详细描述为:

(1) 步骤1(内部一致性检测):淘汰被较小时间尺度数据序列证伪的被检值:

$ 如果\mathit{Z} = \sum\limits_{\mathit{i} = 1}^{60} {{\mathit{z}_\mathit{i}}}, 则较小尺度序列证实被检值\mathit{Z}, 进行下一步判断;{\rm{ }} $ (1.1)
$ 如果\mathit{Z} \ne \sum\limits_{\mathit{i} = 1}^{60} {{\mathit{z}_\mathit{i}}}, 则较小尺度序列证伪被检值\mathit{Z}, 淘汰该被检值Z。$ (1.2)

(2) 步骤2(基础值交叉检测):通过较小时间尺度数据验证,两被检值均被证实的情况,采用序列比对方法,择优选取:

将被检序列中的zi与参考序列中的zi进行比对

$ 当{\mathit{z}_\mathit{i}} = {{\mathit{z'}}_\mathit{i}}时, {\mathit{a}_\mathit{i}} = 1 $ (2.1)
$ 当{\mathit{z}_\mathit{i}} \ne {{\mathit{z'}}_\mathit{i}}时, {a_i} = 1 - p({\mathit{z}_\mathit{i}}, {{\mathit{z'}}_\mathit{i}}) $ (2.2)
$ 则被检值Z的相关可信度\mathit{A} = (\sum\limits_{\mathit{i} = 1}^{60} {{\mathit{a}_\mathit{i}}})/|{\mathit{z}_\mathit{i}}|。$ (2.3)

选取相关可信度A较大的Z,认为其较另一值更为可信。

其中A为被检值Z的相关可信度;ai为被检序列中zi的相关可信度;zi为参考序列中的第i个变量;|zi|为被检序列z1, z2, …, zi的长度,本文中为固定值60;p(zi, zi)为当被检序列中值为zi、参考序列中对应的第i个变量为zi时,zi错误zi正确的概率,简称单元出错概率,实际应用中为根据各类错误的发生频次做出的统计值。

在IVSA模型中来源1与来源2的小时降水量互为被检值和参考值,分钟降水量互为被检序列和参考序列。即当来源1的小时降水量作为被检值时,来源2的小时降水量为参考值,来源1中的分钟降水为被检序列,来源2中的分钟降水为参考序列,此时p(zi, zi)为p1(zi, zi);当来源2的小时降水量作为被检值时,来源1的小时降水量为参考值,此时p(zi, zi)为p2(zi, zi)。由于非缺测不一致问题的发生具有隐蔽性高、间歇性强的特点,培训形成p(zi, zi)的过程需要足够长时间的数据积累与准确的原因反馈(一般应达数百份),并且培训数据的时间段要尽可能与验证数据的时间段相接近,本文选定2012年5月的1360组数据作为p(zi, zi)的培训集合,2012年6—7月的4017组数据作为模型运算结果验证集合。

2.3 IVSA模型的特点

IVSA模型的整体流程如图 1所示,当发现一组非缺测不一致的小时降水数据时,首先执行模型步骤1的内部一致性检测,未通过检测者说明其分钟降水序列不支持其小时降水值X,将该被检值X淘汰。如两者均通过内部一致性检测,则说明非缺测不一致现象的原因在于两者的基础值,即分钟降水序列存有不一致,则可通过步骤2,结合单元出错概率p(xi, xi)计算相关可信度A,并选择两者中相关可信度较大者胜出,从而筛选出相对更为可靠的小时降水值X

图 1 IVSA模型流程图 Fig. 1 Flow chart of IVSA model

IVSA模型的计算复杂度为O(n)级,运算量随样本数据量的增加线性增长,适合在实时业务环境下快速生成运算结果。单元出错概率p(xi, xi)的选取可进行本地化调配,在地面观测系统分布式采集数据的业务现状下具有较强的适应性。并且小时降水数据和与其对应的分钟降水序列在同一数据文件的同条记录中(中国气象局监测网络司,2005),使得该模型的应用不受数据存储形式所限。

2.4 IVSA模型的业务逻辑

为使IVSA模型更加适应当前复杂的业务环境,在实现过程中增加了如下业务逻辑:

业务逻辑1:缺测以零计入累计值

考虑到报文中的实际上报分钟降水值yi为缺测值时,中心站软件存在以零计入小时降水值的业务现行作法,于是通过公式(3) 计算分钟降水量xi

$ {\mathit{x}_\mathit{i}} = \left\{ \begin{array}{l} 0\;\;\;\;\left({{\mathit{y}_\mathit{i}} = 缺测值} \right)\\ \mathit{ }{\mathit{y}_\mathit{i}}\;\;\;\;\;({\mathit{y}_\mathit{i}} \ne 缺测值) \end{array} \right. $ (3)

业务逻辑2:更正报数据优于非更正报数据

如果非缺测不一致的两个小时降水量数据中,存在一个来源于更正报,那么更正报具有更高的相关可信度A

3 实例分析 3.1 问题的发现

非缺测不一致问题的发现,始于将两来源下小时降水数据实时拼接使用的业务需求。从业务数据中提取到的三组非缺测不一致报文实例中(图 2),下划线标记部分代表以0.1 mm为单位的小时降水量;虚线框标记部分代表 60段分钟降水量,每两位字符对应1个以0.1 mm为单位的分钟降水量(其他字段的格式说明详见自动站文件格式的详细规定(中国气象局监测网络司,2005))。

图 2 三组非缺测不一致实例 Fig. 2 Groups of non-default inconsistent instances
3.2 原因详查与错报特征

图 2所示的三组非缺测不一致实例分别代表产生非缺测不一致问题的三类情况,经与台站核实并进行多方调查,该问题发生的直接原因有以下三类:

(1) 生成报文时观测数据不全。第一组中Ⅲ44站来源1编报小时降水3.1 mm(实例1.1),相同时间相同站的来源2编报小时降水却为1.9 mm (实例1.2),其数据流程为来源1与来源2均由省级数据库在对原始观测数据解析入库后生成(图 3中实例1)。区域站与中心站间的通信受GPRS信号延迟影响,在生成来源2文件时后29 min的数据并未接收到,而在随后进行的生成来源1文件操作时,后29 min的数据已收全,由分钟雨量累加小时雨量使用的有效数据时间段不尽相同造成了两来源数据的不一致。发生此类错误的数据特征为错报的分钟降水序列未收齐,部分数据编报缺测标志。

图 3 区域自动站数据流程图 Fig. 3 Flow chart of regional AWS data

(2) 报文处理环节不一致。第二组中Ⅲ46站来源1编报0.0 mm(实例2.1),对应来源2编报则为1.6 mm(实例2.2)。因来源2中包括日累计雨量,须将之前若干小时的小时降水计算在内,所以该省在此环节引入数据库完成来源2数据生成(图 3中实例2)。而当台站发现前报有误,补发订正报时,由于生成来源2报文的流程中未包括处理订正报环节,所以造成订正信息仅以来源1上传,未对来源2的数据进行更新,数据差异由此发生。发生此类错误的数据特征为两分钟降水序列中存有数据不一致。

(3) 台站信息不正确。第三组中Ⅲ08站来源1编报23.8 mm(实例3.1),对应来源2编报则为0.0 mm (实例3.2),数据流程对应图 3中实例3。当测站由单要素观测升级到多要素观测时,须在多要素中心站增加该站,并在单雨量中心站删除该站,当删除单雨量中心站中该站信息的操作未做时,第三组问题就此产生:单雨量中心站仍认为该站(已升级为多要素站)为单雨量站,在收不到该站观测数据的情况下,将该站来源2报文中的每条分钟降水均标为缺测(有时为零值),并将该站的小时降水量置为0 mm。发生此类错误的数据特征为错报的分钟降水序列全部或大部数据上报缺测或零值。

4 检验效果 4.1 检验过程

为验证IVSA模型在数据源拼接过程中判断结果的正确性,本文引入模型判断准确率(MR)与模型判断错误率(MW),作为检验IVSA模型有效性的重要指标:

$ {\mathit{M}_\mathit{R}} = \frac{{{\mathit{N}_\mathit{R}}}}{{{\mathit{N}_{\rm{0}}}}} \times 100{\rm{\% }} $ (4)
$ {\mathit{M}_\mathit{W}} = \frac{{{\mathit{N}_\mathit{W}}}}{{{\mathit{N}_{\rm{0}}}}} \times 100{\rm{\% }} $ (5)

式中,N0为参与验证过程的非缺测不一致样例个数;NR为模型判断与反馈结果一致的样例个数,NW为模型判断与反馈结果不一致的样例个数,并且满足:

$ {\mathit{N}_\mathit{R}} + {\mathit{N}_\mathit{W}} = {\mathit{N}_0} $ (6)
$ {\mathit{M}_\mathit{R}} + {\mathit{M}_\mathit{W}} = 100{\rm{\% }} $ (7)

在2012年5月1日至7月31日共计三个月的两来源自动站观测资料中,非缺测不一致情况的日出现频次如图 4所示,由于该情况在无降水时一般不会显现,这也增加了样本搜集的难度。通过大量逐站确认核查,得到台站反馈的明确确认结果,使模型的准确性判断具有足够的参考依据。去除5377组样例中不满足内部一致性的数据(步骤1未通过),共得到5273组非缺测不一致且有反馈的样本数据,分钟降水在这5273组数据中的分布情况为0 mm共出现316025次,占总数的49.94%;分钟降水>0 mm共出现48516次,占总数的7.67%;分钟降水缺测共出现268219次,占总数的42.39%。降水为0 mm与缺测的情况在其中占有很大比例,而有降水(>0 mm)的情况是不容忽视的,于是可将分钟降水数据按无降水(=0 mm)、有降水(>0 mm)、降水缺测三类加以划分。

图 4 012年5月1日至7月31日非缺测不一致情况日出现频次 Fig. 4 Daily frequency of non-default inconsistence from 1 May to 31 July 2012

使用2012年5月数据作为对模型参数化的培训数据(图 4中虚线之前的数据),随后运用2012年6—7月的数据作为模型参数化结果的验证数据(图 4中虚线之后的数据,N0=4017)。去除2012年5月非缺测不一致样例中来源1 min降水与来源2 min降水相等的情况后,得到的分钟级降水不一致情况见表 1第1列。根据搜集得到的反馈,在这些不一致的分钟降水中来源1正确且来源2错误及来源1错误且来源2正确情况的分布情况分别对应表 1第2列与第3列。如果用Ci, j, k表示表 1i行第j列中的第k个数据,则模型参数表表 2中第i行第j列错误发生的频率Pi, j可由式(8) 得出,模型参数表表 3中第i行第j列错误发生的频率Pi, j可由式(9) 得出,例如P1, 2的计算过程如式(10) 所示。

$ {\mathit{p}_1}({\mathit{x}_\mathit{i}}, {{\mathit{x'}}_\mathit{i}}) = {\mathit{P}_{i, \mathit{j}}} = {\rm{ }}\frac{{{\mathit{C}_{\mathit{i}, \mathit{j}, 3}}}}{{{\mathit{C}_{\mathit{i}, \mathit{j}, 1}}}} $ (8)
$ {\mathit{p}_2}({\mathit{x}_\mathit{i}}, {{\mathit{x'}}_\mathit{i}}) = {{\mathit{P'}}_{i, \mathit{j}}} = {\rm{ }}\frac{{{\mathit{C}_{\mathit{i}, \mathit{j}, 2}}}}{{{\mathit{C}_{\mathit{i}, \mathit{j}, 1}}}} $ (9)
$ \begin{array}{*{20}{l}} {{p_1}({x_i} = 0{\rm{mm}},{{x'}_i} > 0{\rm{mm}}) = {P_{1,2}} = }\\ {\;\;\;\;\;\;\;\;\;\frac{{{C_{1,2,3}}}}{{{C_{1,2,1}}}} = \frac{{42}}{{1285}} = 3.27\% } \end{array} $ (10)
表 1 分钟降水量xi不一致频次分布表(不一致数|来源1正确来源2错误数|来源1错误来源2正确数) Table 1 Distribution of minute precipitation xi inconsistence frequency

表 2 p1(xi, xi)值的确定(单位:%) Table 2 p1(xi, xi) values (unit:%)

表 3 p2(xi, xi)值的确定(单位:%) Table 3 p2(xi, xi) values (unit:%)

使用2012年5月的错误发生频率作为模型中单元出错概率p(xi, xi),可得单元出错概率参数表 2表 3。由于降水测量仪器的准确度与降水强度有关,在降水量≤5 mm时为±0.1 mm;在降水量>5 mm时为±2%(中国气象局,2011)。与此同时,各地降水强度差别显著:华南R24≥80 mm称为暴雨;西北R24≥25 mm就称暴雨了(王秀明,2011)。国际上对暴雨的界定也有所不同,美国将小时降水量R1>50 mm定为暴雨(Met Office,2011Glossary of Meteorology,2010)。所以,在业务应用时表 2中被检值xi>0 mm且参考值xi>0 mm参数设置部分可根据实际情况调配,但目前的数据样本中较为罕见(不一致的仅有3例),所以不作为本文讨论的重点。

4.2 实际问题解决效果

在使用2012年5月数据形成IVSA参数(表 2)的基础上,首先将3.1部分的三组实例代入模型,计算结果如表 4所示,较大的相关可信度A以下划线标记。其中样例1.1与样例1.2给出了相关可信度A的详细计算步骤。IVSA计算结果表明:实例1两来源的相关可信度A分别为100.00%和53.33%,IVSA判断来源1较为准确。实例2两来源的相关可信度A分别为99.95%和98.39%,并且由于前者来源为订正报,根据业务逻辑2以来源1为准。实例3的两来源的相关可信度A分别为100.00%和0.00%,模型判断来源1较为准确。IVSA计算结果与第3.2节所述三组问题报文的实际数据情况均保持一致。

表 4 三组实例结果分析表 Table 4 Result analysis of real instances of the 3 groups

然后,将2012年6月1日至7月31日数据使用相同验证方法代入IVSA模型,计算结果(表 5)表明:在参加验证的4017组数据中,共发现104组未能通过内部一致性检查;在通过内部一致性检查的3913组数据中,模型步骤2判断计算值与反馈情况一致的有3899组,IVSA模型的判断错误率MW为0.35%,判断准确率MR高达99.65%。

表 5 2012年6月1日至7月31日数据验证结果 Table 5 Data validation results of real instances from 1 June to 31 July 2012

IVSA模型较高判断准确率MR的取得源于设计中(2.2节)对产生非缺测不一致的三类情况(3.2节)均有准确的表达。当生成报文观测数据不全时,在先生成的数据来源(实例1.2) 中分钟序列数据不全,未到的若干分钟以缺测标志补齐并以零计入小时降水值,在步骤(2.2) 的计算时,缺测相对于其他数值的出错概率p(xi, xi)较大,得到的ai会较小,在步骤(2.3) 累计相关可信度时得到的A也偏小,从而筛选得出后生成的分钟序列(实例1.1) 更为可靠。当报文处理环节不一致时,订正报的流程不一致会造成数据差别的出现,业务逻辑2将保证模型判断的有效性。当台站信息不正确时,由异常中心站编发的数据,分钟降水均标为缺测或为0值,小时降水量置为0 mm,在步骤(2.2) 计算时也会得到较小的ai,确保了步骤(2.3) 基于相关可信度A的判断与实际情况一致。

IVSA模型计算结果与反馈情况不一致的有14组,模型判断错误率MW为0.35%。经核查问题发生场景为:自动站在由单要素升级到多要素后,单要素设备在运输过程中未卸下电源仍继续发报造成了异常数据的产生。这是一个违反自动站仪器更换操作规程的极少发生的小概率事件,由于雨量观测设备工作原理(Principal Hazards in U.S.doc,2010张霭琛,2006National Weather Service Office,2009)所限,单从数据角度模型无法给出准确的判断,业务应用中可适当引入查询反馈机制做出更为有效的判断。

5 结论和讨论

利用从2012年5月1日至7月31日全国自动气象站两种来源实时上传资料中提取得到的“非缺测不一致”小时降水数据,通过较小尺度时间序列求证比对模型辅助开展数据分析,结果表明:

(1) 小时降水数据分布于两数据来源之下,为非缺测不一致问题的产生创造了可能,但也提供了发现现有业务系统中存在问题、进而加以解决的机会。产生非缺测不一致问题的原因主要包括生成报文时观测数据不全、报文处理环节不一致、台站信息不正确三类,与此对应错误上报的分钟序列具有部分数值缺测、两序列数据不一致、全部或大部分数据上报缺测或零值的数据特征。

(2) 运用较小尺度时间序列求证比对模型,基于2012年5月1360组数据统计形成了模型参数,使用2012年6月1日至7月31日两个月的4017组数据对模型的有效性加以验证,99.65%的情况下IVSA计算结果与反馈情况保持一致。

(3) 非缺测不一致问题发生具有隐蔽性高、间歇性强的特点。IVSA模型虽然利用小时-分钟降水数据的错报特性,将此类系统误差对实时数据准确性的影响控制在较小范围内。但产生问题的根源实为设备特性、系统环境、业务流程等复杂因素共同作用下引入的系统性误差,在现行运行体系下,这样的误差已存在于历史数据中,并且不排除被继续引入到实时数据中的可能,所以可将数据源拼接与质量控制、查询反馈等流程节点相结合,综合保障数据正确性。

(4) 为适应复杂业务环境下的业务逻辑,IVSA模型按现行规则引入了部分业务逻辑。但在模型辅助检查过程中发现的一些问题,如缺测按0值上传、60个分钟点的降水量未收齐时中心站能否编发小时降水量等,应从制度上加以规范并在业务实现上精准地执行,才能将非缺测不一致异常的发生可能性有效控制在较低水平,而非事后补救。

(5) IVSA模型在业务应用中可以灵活地由两数据源拼接推广到多数据源比对与拼接过程中,方法具有良好的扩展性。如果中国观测系统在数据源不断丰富的历史大背景下,未来的发展趋势为向美国单点三套设备同步观测靠近,则非缺测不一致情况的发生概率将大大提升,此模型的实现作为先探性理论储备,在多套数据源实时拼接方面将具更为广阔的应用空间。

参考文献
陈涛, 代刊, 张芳华, 2013. 一次华北飑线天气过程中环境条件与对流发展机制研究[J]. 气象, 39(8): 945-954. DOI:10.7519/j.issn.1000-0526.2013.08.001
窦以文, 屈玉贵, 陶士伟, 等, 2008. 北京自动气象站实时数据质量控制应用[J]. 气象, 34(8): 77-81. DOI:10.7519/j.issn.1000-0526.2008.08.012
鞠晓慧, 任芝花, 张强, 2010. 自动站小时气压的质量控制方法研究[J]. 安徽农业科学, 38(27): 15130-15133. DOI:10.3969/j.issn.0517-6611.2010.27.116
李志鹏, 张玮, 黄少平, 等, 2012. 自动气象站数据实时质量控制业务软件设计与实现[J]. 气象, 38(3): 371-376. DOI:10.11676/qxxb2012.033
刘小宁, 任芝花, 2005. 地面气象资料质量控制方法研究概述[J]. 气象科技, 33(3): 199-203.
刘小宁, 任芝花, 王颖, 2008. 自动观测与人工观测地面温度的差异及其分析[J]. 应用气象学报, 19(5): 554-563. DOI:10.11898/1001-7313.20080506
任芝花, 熊安元, 2007a. 地面自动站观测资料三级质量控制业务系统的研制[J]. 气象, 33(1): 19-24.
任芝花, 熊安元, 邹风玲, 2007b. 中国地面月气候资料质量控制方法的研究[J]. 应用气象学报, 18(4): 516-523.
任芝花, 许松, 孙化南, 等, 2006. 全球地面天气报历史资料质量检查与分析[J]. 应用气象学报, 17(4): 412-420. DOI:10.11898/1001-7313.20060404
任芝花, 赵平, 张强, 等, 2010. 适用于全国自动站小时降水资料的质量控制方法[J]. 气象, 36(7): 123-132. DOI:10.7519/j.issn.1000-0526.2010.07.019
王秀明. 2011. 台风、暴雨、强对流. 中国气象局培训中心, 12.
熊安元, 2003. 北欧气象观测资料的质量控制[J]. 气象科技, 31(5): 314-320.
许新田, 刘瑞芳, 郭大梅, 等, 2012. 陕西一次持续性强对流天气过程的成因分析[J]. 气象, 38(5): 533-542. DOI:10.7519/j.issn.1000-0526.2012.05.003
阎继伟. 2006. 时间序列的数据挖掘研究. 上海: 上海交通大学: 12-18.
杨萍, 刘伟东, 仲跻芹, 等, 2011. 北京地区自动气象站气温观测资料的质量评估[J]. 应用气象学报, 22(6): 706-715. DOI:10.11898/1001-7313.20110608
俞小鼎, 2012. 2012年7月21日北京特大暴雨成因分析[J]. 气象, 38(11): 1313-1329.
张霭琛, 2006. 现代气象观测[M]. 北京: 北京大学出版社, 166.
赵煜飞, 任芝花, 张强, 2011. 适用于全国气象自动站正点相对湿度资料的质量控制方法[J]. 气象科学, 31(6): 687-693.
中国气象局, 2010. 地面气象观测资料质量控制[M]. 北京: 气象出版社, 8.
中国气象局, 2011. 地面气象观测规范[M]. 北京: 气象出版社, 126.
中国气象局监测网络司. 2005. 关于进行加密自动气象(雨量)站资料传输试验的函(附: 加密自动气象(雨量)站数据文件格式、加密自动气象(雨量)站观测资料传输规定等). 中国气象局预报网络司, 17.
中国气象局监测网络司. 2008. 自动站观测资料传输文件名调整方案. 中国气象局预报网络司, 3.
中国气象局预报网络司. 2012. 2012年自动站资料考核台站表. 中国气象局预报网络司.
周笑天, 褚希, 姚志平, 2012. 一种基于k-means聚类的实时气温动态质量控制方法[J]. 气象, 38(10): 1295-1300. DOI:10.7519/j.issn.1000-0526.2012.10.016
Altschul S F, Boguski M S, Gish W, et al, 1994. Issues in searching molecular sequence databases[J]. Nature Genet, 6: 119-129. DOI:10.1038/ng0294-119
Altschul S F, Erickson B W, 1985. Significance of nucleotide sequence alignments: A method for random sequence permutation that preserves dinucleotide and codon usage[J]. Mol Biol Evol, 2(6): 526-538.
Fitch W M, 1983. Random sequences[J]. J Molecular Biology, 163: 171-176. DOI:10.1016/0022-2836(83)90002-5
Glossary of Meteorology. 2010. Rain. American Meteorological Society. http://amsglossary.allenpress.com/glossary/search?id=rain1.
Igor Zahumensk. 2004. Guidelines on Quality Control Procedures for Data from Automatic Weather Stations. Expert Team on Requirements for Data from Automatic Weather Stations, Third Session, WMO.
Lipman D J, Wilbur W J, Smith T F, et al, 1984. On the statistical significance of nucleic acid similarities[J]. Nucleic Acids Research, 12: 215-226. DOI:10.1093/nar/12.1Part1.215
Met Office. 2011. Fact Sheet No. 3: Water in the Atmosphere. Crown Copyright, 6. http://www.metoffice.gov.uk/media/pdf/4/1/No._03_-_Water_in_the_Atmosphere.pdf.
National Weather Service Office. 2009. 8 Inch Non-Recording Standard Rain Gauge. Northern Indiana. http://www.crh.noaa.gov/iwx/program_areas/coop/8inch.php.
Pearson W R, 1998. Empirical statistical estimates for sequence similarity searches[J]. J Molecular Biology, 276: 71-84. DOI:10.1006/jmbi.1997.1525
Principal Hazards in U.S.doc. 2010. Chapter 5 -Principal Hazards in U.S.doc, 128. http://training.fema.gov/EMIWeb/edu/docs/fem/Chapter 5-Principal Hazards in U.S.doc.
Sciuto G, Bonaccorso B, Cancelliere A, et al, 2009. Quality control of daily rainfall data with neural networks[J]. J Hydro, 364: 13-22. DOI:10.1016/j.jhydrol.2008.10.008