2. 南京信息工程大学, 江苏省大气环境与装备技术协同创新中心, 南京 210044;
3. 南京信息工程大学, 滨江学院, 无锡 214105
2. Jiangsu Collaborative Innovation Center on Atmospheric Environment and Equipment Technology, Nanjing University of Information Science and Technology, Nanjing 210044;
3. Binjiang College of Nanjing University of Information Science and Technology, Wuxi 214105
冰雹灾害的发生通常伴随着暴雨天气,带来严重的经济损失。因此,做好冰雹灾害监测研究工作,评估冰雹灾情以及采取应对措施,从而最大程度减轻冰雹灾害带来的损失具有重要意义。在过去的几十年里,科研人员从宏观、气象要素、闪电、雷声(张小娟等,2019)、雷达回波(王莎等,2019)以及卫星云图等多方面对冰雹的监测预警进行了研究(冯晋勤等,2018),李文娟等(2018)基于数值预报和随机森林算法对冰雹等强对流天气进行预测和分类;但从声学角度对降雹识别的研究较少。由于声信号发生机制的性质,冰雹和雨水落下时产生的声信号通常是非平稳非线性的一维信号,因而可以通过声波传感器捕捉降雹和降雨声信号。
目前的研究主要从时域分析、频域分析以及时频分析三个方面提取声信号特征。其中,小波包分析作为时频分析的一种,常被用来对非平稳非线性信号进行特征提取。小波包分解在信号频率分解方面更是有着广泛应用(Zhao and Ye, 2016),常被用于机械故障振动信号的诊断(郭伟超等,2019;蒋佳炜等,2020;赵光权等,2019),还未见其应用于降雹声信号的识别。而特征选择在模式识别中扮演着重要角色,可直接影响分类器的性能从而影响声信号类别的判断准确性和效率(孙全德等,2019)。在实际研究过程中,科研人员针对特征选择提出了很多方法,如薛瑞和赵荣珍(2020)将Relief-F算法与量子粒子群算法相结合,提出一种降低数据集维度的敏感故障特征选择方法;Vergara and Estévez(2014)和Hoque et al(2014)提出一种基于互信息的特征选择方法。对于声信号的识别研究,常用的分类算法有KNN、决策树(LeCun et al,2015)、贝叶斯分类(张宇彤等,2016)、支持向量机(Lu et al,2016)、神经网络等(Wang et al,2018)。神经网络因其强大的学习和适应能力,且能很好地处理复杂非线性问题,近年来被广泛应用于各类信号的识别(陈训来等,2021;胡春梅等,2020)。
考虑到降雹和降雨声信号非线性的特性,在提取声信号时域、频域以及时频域的特征过程中,易产生冗余特征信息。熵值法(entropy weighting method,EWM)作为一种确定评价指标权重的方法,常用于对城镇、企业、环境、经济等建立综合评价的指标。目前,利用EWM对声信号特征进行筛选,并与广义回归神经网络(generalized regression neural network,GRNN)相结合对声信号进行识别的研究较少。因此,本文将EWM与GRNN相结合,利用EWM对声信号时域、频域以及时频分析提取的特征进行筛选,将筛选后的特征融合作为GRNN的输入参数。试验结果表明,筛选后的特征比直接将原始特征输入GRNN识别准确率有明显提高,同时也节约了计算时间。
1 声信号时域和频域特征分析声信号的原始波形保留了声信号最全面、最完整的信息,利用采集装置采集降雹和降雨声信号,其时域波形如图 1所示。为防止有用信息的丢失,需对降雹和降雨声信号的时域特征进行分析提取。在时域范围内,统计参数常作为特征对信号进行判断。文中分别提取降雹和降雨声信号的有量纲参数峰峰值、均值、方差、均方根、标准差,以及无量纲参数的波形因子、峭度因子、峰值因子、偏度因子、脉冲因子、裕度因子共11个时域参数。通过分析发现,上述特征参数均能不同程度地区分降雹和降雨声信号。这里,降雨声信号作为识别降雹的一个主要干扰,通过对降雨声信号特征的分析,能够更好更快地提取出有利于识别降雹声信号的特征。
与时域分析相比,频域分析是将时域信号变换到频域中,精度更高。从图 1降雹和降雨声信号时域波形可见,冰雹和雨水落下时产生的声信号能量存在明显差异,故对声信号的时域信号做傅里叶变换,得到降雹和降雨声信号的单边频谱(图 2)。由图 2可见,降雹声信号主要集中在[0, 15 000]Hz频率范围,而降雨声信号主要集中在[0, 10 000]Hz频率范围内,提取声信号最大能量衰减到-3 dB时的带宽(记为DK)和[0, 15 000]Hz频率范围内的平均振幅值。同时,对声信号进行分帧加窗处理,得到第n帧声信号xn(m),m表示分帧后的声信号时长,如图 3所示,短时能量(En)计算公式如下:
$ {{E_n} = \sum\limits_{m = 0}^{M - 1} {x_n^2} (m)} $ | (1) |
$ {DE = DK/{E_n}} $ | (2) |
式中:M为帧长,DE表示-3 dB带宽和短时能量之间的比值,描述的是带宽和短时能量之间的关系,记为带宽能量比。因此,通过频域分析提取-3 dB带宽、最大带宽能量比、平均振幅值和平均短时能量等特征,以此作为后续识别依据。
2 分析方法 2.1 小波包特征 2.1.1 小波包分解小波包分解(朱刘柱等,2020)是基于小波分解发展而来,图 4为三层小波包分解示意图。从图 4可知,小波包的每一次分解都会得到高频和低频两个子频带,若分解为n层,则得到2n个子频带,因此小波包分解能够对信号的局部特征进行更精确地分析。
蒋佳炜等(2020)假设一个离散信号x(t)的数据长度为N,分解结果xk, m(i)表示分解k层的第m(m=0, 1, …, 2k-1)个子频带信号,则其能量为:
$ {E_{k, m}} = \frac{1}{N}\sum\limits_{i = 1}^N {{{\left[ {{x^{k, m}}(i)} \right]}^2}} $ | (3) |
根据能量守恒原理得到:
$ E[x(t)] = \sum\limits_{m = 0}^{{2^k} - 1} E \left[ {{x^{k, m}}(i)} \right] $ | (4) |
则所有E[xk,m(i)]构成小波包能量谱为:
$ E[x(t)] = \left[ {{E_{k, 0}}, {E_{k, 1}}, \cdots, {E_{k, m}}, \cdots, {E_{k, {2^k} - 1}}} \right] $ | (5) |
为满足尺度函数与小波函数平滑性的需求,本文采用连续且为紧支撑的Daubechies3(db3)小波函数分别对采集的70组降雹声信号和68组降雨声信号进行三层小波包分解,提取第三层小波包重构信号从低频到高频8个子频带的能量,得到8个频带内的能量谱。图 5展示了降雹和降雨声信号的小波包能量谱以及信号能量在各个频带中的分布。从图中可以看到,降雹和降雨声信号的能量主要集中在高频部分,而降雹声信号相较于降雨声信号在中频和低频部分有一定的分布;同时从能量幅值来看,降雹声信号在各频带上的能量均远远高于降雨声信号。
用编号1和2分别表示降雹和降雨声信号,降雹和降雨声信号的小波包能量谱特征均值如图 6所示,图 6中x轴表示经过三层小波包分解后得到的8个子频带,y轴表示降雹和降雨两种不同的声信号类型,z轴表示70组降雹声信号和68组降雨声信号的小波包能量特征值的平均值。
EWM是一种根据各个特征信息量的大小来确定特征权重的客观赋权法。它能够深刻地反映出特征信息熵的有用价值,故其给出的权重值更具说服力和可信度,常被用于作为城镇、企业、环境、经济确定评价指标的权重。其基本思想是当样本数据的某个特征值离散程度越大,熵值越小,则该特征包含的信息量就越大,对应的权重也越大,反之亦然;而当样本数据的某个特征值完全相同时,熵值达到最大,这意味着该特征无有用信息,可以从特征集中剔除(高超等,2019)。EWM的具体计算步骤在王生昌等(2015)的研究中有详细介绍。
2.3 广义回归神经网络(GRNN)GRNN(吴立峰等,2017)是径向基神经网络的一种特殊形式,具有较强的逼近能力和学习能力,且所需训练样本数量较少。GRNN的结构包含输入层、模式层、求和层和输出层四个部分(胡泽骏等,2020),采用高斯核函数作为传递函数。设X为x的测试样本,Y为y的测试样本,则y相对x的预测样本值
$ \left\{ {\begin{array}{*{20}{l}} {\hat Y(X) = {S_N}/{S_D}}\\ {{S_D} = \sum\limits_{i = 1}^k {{t_i}} }\\ {{S_N} = \sum\limits_{i = 1}^k {{Y_i}} {t_i}}\\ {{t_i} = {{\rm{e}}^{ - \frac{{D_i^2}}{{2{\sigma ^2}}}}}} \end{array}} \right. $ | (6) |
式中:k为训练样本个数;Yi是y的第i个训练样本值;ti为模式层各单元的传递函数,Di为X与Xi之间的欧式距离,Xi为x的第i个训练样本值;SD为求和层一个单元的传递函数,
$ {y_j} = {S_{{N_j}}}/{S_D} $ | (7) |
从天空云中降落到地面的有固态水和液态水,分别为冰雹和雨水。试验建立在只有冰雹或雨水的情况下进行,由于江苏地区很少出现冰雹天气,故试验中的冰雹和雨水由不同大小模具冷冻而成的球型冰块和不同大小出水量的花洒模拟,从距离地面10 m高处均匀落下。利用声信号采集装置采集冰雹和雨水落下时产生的声信号。
对采集的138组降雹声信号和降雨声信号进行时域、频域以及小波包分析,提取时域、频域和小波包能量谱特征;再采用EWM计算23个特征参数的特征熵值和权重,剔除权重较小的t项特征值,并对经过筛选后的特征值进行特征融合组成新的特征向量;最后,将划分好的数据集输入GRNN进行训练和识别,具体工作流程如图 7所示。
GRNN分类算法因其自身特点,所需训练样本数量相对较少,但若训练集样本数量少于测试集样本数量,则所训练的模型没有泛化能力。因此,试验中按照6∶4的比例将数据集划分为包含83个样本数据的训练集和55个样本数据的测试集,如表 1所示。
文中对采集的声信号进行时域、频域以及小波包分析,提取出时域特征、频域特征和小波包能量谱特征。由于时域和频域各特征之间存在一定的关联性,以及利用小波包对降雹和降雨声信号所有频带内信息全部分解,这些特征不可避免地存在信息冗余从而影响声信号的判别。因此,利用EWM分别计算出时域、频域以及小波包各子频带能量特征值的熵值并确定其权重大小,如图 8所示,将权重较小的t项样本特征项剔除,从而筛选出权重占比较大的特征。
图 8中,x轴表示上述所提取的23个特征参数,依次为峰值、均值、方差、标准差、峭度因子、均方根、波形因子、峰值因子、偏度因子、脉冲因子、裕度因子、带宽、最大带宽能量比、平均振幅值以及小波包8个子频带的能量参数。从图 8中可见,最大带宽能量比所占权重最高,其次是平均短时能量,而小波包各频带的能量参数所占权重也相对较高,可见能量特征在冰雹识别中起着至关重要的作用。
3.3 特征融合将筛选后的时域、频域特征以及小波包能量谱特征进行特征融合(刘渭滨等,2017),组合成特征向量T =[T1 T2 T3], 并进行归一化处理,文中采用的均值方差归一化的方法,其计算公式如下:
$ x_{i}^{\prime}=\left(x_{i}-\bar{x}\right) / s $ | (8) |
式中: xi为特征向量T中的第i个特征值,xi′表示归一化之后的数值,x表示特征值的均值,s表示特征值的方差。
3.4 试验结果分析分别将时域特征、频域特征以及小波包能量谱特征作为GRNN的输入,得到其识别结果如表 2所示。将提取的降雹和降雨声信号时域特征和频域特征输入GRNN,其识别准确率为86.206 9%;直接将小波包8个子频带的能量特征作为GRNN的输入,其识别率为81.034 5%;将时域特征、频域特征和小波包能量谱特征进行特征融合后组成信号的特征集输入GRNN,相比较仅通过时域特征、频域特征或者小波包能量谱特征识别降雹声信号,其识别准确率有所提高,但由于特征之间不可避免地存在冗余,使得识别准确率相对于时域特征和频域特征只提高了约1.2%。
试验还分别采用了目前常用的变异系数法(coefficient of variation method,CVM)和主成分分析法(principal component analysis,PCA)求时域特征、频域特征以及小波包8个频带能量特征的权重,并将权重较小的t项样本特征项剔除,与文中EWM的筛选结果进行对比。分别将筛选后的特征子集输入GRNN进行训练,利用测试样本对训练后的GRNN进行测试并计算预测准确率,将试验结果与文中采用的EWM计算权重后去除权重较小的特征项后的预测结果进行对比,结果如图 9所示,EWM、CVM和PCA三种计算特征权重的方法,在删除相同个数特征项时,三种方法所需的时间相差不大。
利用EWM剔除8个特征项时,识别准确率达到最高为97.827 6%;利用CVM剔除9个特征项时,识别准确率达到最大为96.551 7%;利用PCA剔除9个特征项时,识别准确率达到最大且与CVM相等为96.551 7%。为保证识别结果的准确率更高,本文选择EWM对特征进行选择。从图 9可见,当提出8个特征项时,利用EWM和GRNN相结合对冰雹的识别准确率最高。表 3为三种特征筛选方法的结果比较,在剔除特征项个数相等的情况下,利用EWM对特征进行筛选相比较CVM和PCA,其识别准确率有一定的优势。此外,利用EWM对特征筛选与未筛选的特征进行对比,并对特征进行选择,不仅提高了识别准确率,也节约了计算时间。
针对非平稳非线性的降雹声信号,提出一种基于EWM特征筛选的GRNN降雹识别方法。从时域、频域以及时频分析的角度对声信号进行分析,提取时域特征、频域特征以及小波包能量谱特征,利用EWM计算各特征所占权重大小并对特征进行筛选,对筛选后的特征进行融合输入GRNN进行训练识别。试验结果表明,当仅提取声信号的时域特征、频域特征或仅提取三层小波包能量谱特征时,能够对降雹信号进行识别,但准确率不高。将时域特征、频域特征和小波包能量谱特征进行融合,由于时域特征和频域特征之间存在一定的相关性,以及小波包将声信号全部分解,对于声信号的信息提取更加全面,但这些特征之间也必然存在冗余。因此,利用EWM确定所有提取特征的权重,并对权重大小进行排序,去除权重较小的t项特征值,能有效减少特征集中的特征项个数。试验表明,提出的基于EWM与GRNN对降雹信号进行识别的方法具有很好的性能,在提高识别准确率的同时,也提升了运算速度、降低运算成本。最后,需要说明的是文中所述方法仅适用于对降雹声信号识别有一定的优势,是否具有普适性还有待进一步验证。
陈训来, 刘军, 郑群峰, 等, 2021. 基于卷积门控循环单元神经网络的临近预报方法研究[J]. 高原气象, 40(2): 411-423. Chen X L, Liu J, Zheng Q F, et al, 2021. Study on approach prediction method based on convolution gated cyclic unit neural network[J]. Plateau Meteor, 40(2): 411-423 (in Chinese).
|
冯晋勤, 张深寿, 吴陈锋, 等, 2018. 双偏振雷达产品在福建强对流天气过程中的应用分析[J]. 气象, 44(12): 1565-1574. Feng J Q, Zhang S S, Wu C F, et al, 2018. Application of dual polarization weather radar products to severe convective weather in Fujian[J]. Meteor Mon, 44(12): 1565-1574 (in Chinese). DOI:10.7519/j.issn.10000526.2018.12.006
|
高超, 申双和, 蒋烨林, 等, 2019. 影响杭州人体舒适度的城市因素分析[J]. 气象, 45(6): 854-861. Gao C, Shen S H, Jiang Y L, et al, 2019. Analysis of urban factors impacting human comfort degree in Hangzhou[J]. Meteor Mon, 45(6): 854-861 (in Chinese).
|
郭伟超, 赵怀山, 李成, 等, 2019. 基于小波包能量谱与主成分分析的轴承故障特征增强诊断方法[J]. 兵工学报, 40(11): 2370-2377. Guo W C, Zhao H S, Li C, et al, 2019. Fault feature enhancement method for rolling bearing fault diagnosis based on wavelet packet energy spectrum and principal component analysis[J]. Acta Arma, 40(11): 2370-2377 (in Chinese). DOI:10.3969/j.issn.1000-1093.2019.11.022
|
胡春梅, 陈道劲, 周国兵, 等, 2020. 基于自组织神经网络算法的重庆秋冬季空气污染与天气分型的关系[J]. 气象, 46(9): 1222-1234. Hu C M, Chen D J, Zhou G B, et al, 2020. Relationship between air pollution events in autumn and winter in Chongqing and the classification of synoptic situation based on self-organizing maps[J]. Meteor Mon, 46(9): 1222-1234 (in Chinese).
|
胡泽骏, 韩冰, 连慧芳, 2020. 基于广义回归神经网络的行星际/太阳风参数和地磁指数的紫外极光强度建模[J]. 地球物理学报, 63(5): 1738-1750. Hu Z J, Han B, Lian H F, 2020. Modeling of ultraviolet auroral intensity based on generalized regression neural network associated with IMF/solar wind and geomagnetic parameters[J]. Chin J Geophys, 63(5): 1738-1750 (in Chinese).
|
蒋佳炜, 胡以怀, 柯赟, 等, 2020. 基于小波包特征提取和模糊熵特征选择的柴油机故障分析[J]. 振动与冲击, 39(4): 273-277, 298. Jiang J W, Hu Y H, Ke Y, et al, 2020. Fault diagnosis of diesel engines based on wavelet packet energy spectrum feature extraction and fuzzy entropy feature selection[J]. J Vibrat Shock, 39(4): 273-277, 298 (in Chinese).
|
李文娟, 赵放, 郦敏杰, 等, 2018. 基于数值预报和随机森林算法的强对流天气分类预报技术[J]. 气象, 44(12): 1555-1564. Li W J, Zhao F, Li M J, et al, 2018. Forecasting and classification of severe convective weather based on numerical forecast and random forest algorithm[J]. Meteor Mon, 44(12): 1555-1564 (in Chinese). DOI:10.7519/j.issn.10000526.2018.12.005
|
刘渭滨, 邹智元, 邢薇薇, 2017. 模式分类中的特征融合方法[J]. 北京邮电大学学报, 40(4): 1-8. Liu W B, Zou Z Y, Xing W W, 2017. Feature fusion methods in pattern classification[J]. J Beijing Univ Posts Telecomm, 40(4): 1-8 (in Chinese).
|
孙全德, 焦瑞莉, 夏江江, 等, 2019. 基于机器学习的数值天气预报风速订正研究[J]. 气象, 45(3): 426-436. Sun Q D, Jiao R L, Xia J J, et al, 2019. Adjusting wind speed prediction of numerical weather forecast model based on machine learning methods[J]. Meteor Mon, 45(3): 426-436 (in Chinese).
|
王莎, 沙勇, 宋金妹, 等, 2019. 冀东地区冰雹云多普勒雷达参数特征分析[J]. 气象, 45(5): 713-722. Wang S, Sha Y, Song J M, et al, 2019. Characteristic analysis of hail cloud Doppler radar parameters in the eastern Hebei Province[J]. Meteor Mon, 45(5): 713-722 (in Chinese).
|
王生昌, 付迪, 陈娟娟, 等, 2015. 基于熵值法的汽车动力性能主观评价指标权重确定方法[J]. 公路交通科技, 32(7): 153-158. Wang S C, Fu D, Chen J J, et al, 2015. Determination of weights of subjective evaluation indexes of automobile dynamic performance based on entropy method[J]. J Highway Trans Res Develop, 32(7): 153-158 (in Chinese).
|
吴立峰, 王娟, 张富仓, 等, 2017. 几种模型在南方地区总辐射量估算中的精度分析[J]. 中国农业气象, 38(3): 150-162. Wu L F, Wang J, Zhang F C, et al, 2017. Accuracy analysis of several global solar radiation models based on empirical and GRNN methods in South China[J]. Chin J Agrometeorol, 38(3): 150-162 (in Chinese).
|
薛瑞, 赵荣珍, 2020. ReliefF与QPSO结合的故障特征选择算法[J]. 振动与冲击, 39(11): 171-176, 208. Xue R, Zhao R Z, 2020. The fault feature selection algorithm of combination of ReliefF and QPSO[J]. J Vibrat Shock, 39(11): 171-176, 208 (in Chinese).
|
张小娟, 陶玥, 刘国强, 等, 2019. 一次冰雹天气过程的云系发展演变及云物理特征研究[J]. 气象, 45(3): 415-425. Zhang X J, Tao Y, Liu G Q, et al, 2019. Study on the evolution of hailstorm and its cloud physical characteristics[J]. Meteor Mon, 45(3): 415-425 (in Chinese).
|
张宇彤, 矫梅燕, 陈静, 等, 2016. 基于贝叶斯方法的极端降水概率预报试验[J]. 气象, 42(7): 799-808. Zhang Y T, Jiao M Y, Chen J, et al, 2016. Probabilistic forecasting of extreme precipitation experiment based on Bayesian theory[J]. Meteor Mon, 42(7): 799-808 (in Chinese).
|
赵光权, 姜泽东, 胡聪, 等, 2019. 基于小波包能量熵和DBN的轴承故障诊断[J]. 电子测量与仪器学报, 33(2): 32-38. Zhao G Q, Jiang Z D, Hu C, et al, 2019. Bearing fault diagnosis based on wavelet packet energy entropy and DBN[J]. J Electron Meas Instrum, 33(2): 32-38 (in Chinese).
|
朱刘柱, 王绪利, 马静, 等, 2020. 基于小波包分解与循环神经网络的综合能源系统短期负荷预测[J]. 电力建设, 41(12): 133-140. Zhu L Z, Wang X L, Ma J, et al, 2020. Short-term load forecast of integrated energy system based on wavelet packet decomposition and recurrent neural network[J]. Electric Power Construct, 41(12): 133-140 (in Chinese).
|
Hoque N, Bhattacharyya D K, Kalita J K, 2014. MIFS-ND: a mutual information-based feature selection method[J]. Expert Syst Appl, 41(14): 6371-6385.
|
LeCun Y, Bengio Y, Hinton G, 2015. Deep learning[J]. Nature, 521(7553): 436-444.
|
Lu J Y, Peng Y X, Wang M, et al, 2016. Support vector machine combined with distance correlation learning for Dst forecasting during intense geomagnetic storms[J]. Planet Space Sci, 120: 48-55.
|
Vergara J R, Estévez P A, 2014. A review of feature selection methods based on mutual information[J]. Neural Comput Appl, 24(1): 175-186. DOI:10.1007/s00521-013-1368-0
|
Wang J J, Hu S G, Zhan X T, et al, 2018. Predicting house price with a memristor-based artificial neural network[J]. IEEE Access, 6: 16523-16528.
|
Zhao X Z, Ye B Y, 2016. Singular value decomposition packet and its application to extraction of weak fault feature[J]. Mech Syst Signal Process, 70-71: 73-86.
|