基于LSTM神经网络的油浸式变压器异常声纹诊断方法研究

于达,张玮,王辉

(1.齐鲁工业大学(山东省科学院)电气工程与自动化学院,济南 250353;
2.山东大学电气工程学院,济南 250061)

在电力系统中,电力变压器是最重要的设备之一,电力变压器的运行状态可以直接影响电力系统的供电与安全。据不完全统计,目前我国在运110 kV及以上的电力变压器已经达到30 000 余台,总容量达到了3 400 000 MVA[1]。因此变压器监测与故障检测技术对电网预防故障的能力与安全稳定的运行有着十分重要的意义。

电力变压器发生的故障主要以绝缘故障为主,有些非绝缘的原发故障能够转变成绝缘故障,导致变压器发生绝缘劣化的因素是由多种因素造成的[2-4]。研究显示,局部放电的异常状态是绝缘劣化主要的原因,而且也是绝缘劣化的先兆及显现的形式[5],所以针对于电力变压器异常状态诊断就显得极其重要。目前针对变压器异常与故障诊断的方法主要有油色谱诊断,振动诊断,红外热成像诊断,声学诊断以及光谱诊断[6]。在这些诊断方式中,声学诊断相较于其他诊断方式拥有装配方便、诊断速度快、不与设备直接接触等优点。运用声音进行异常以及故障诊断的方法大多都是靠有经验的人通过人耳去听,然后进行诊断。但这种方法人为影响偏大,仅仅适用于比较明显的故障发生的状况。因此运用声纹自动诊断技术监测变压器的运行状态,能够将声音诊断方式的优势充分发挥出来。目前对于变压器声学故障诊断的方法大多都是建立模型、特征提取等方法上,对于将声音与深度学习相结合进行识别的方法研究较少,但是这种方法在其他领域取得了优异的诊断效果。黎煊等人运用深度信念网络(Deep Belief Network,DBN)建立模型,并应用于识别猪的咳嗽声,提取声音的梅尔频率倒谱系数(Mel-frequency Cepstral Coefficients,MFCC)与短时能量结合成1030 维的特征数据,将此特征数据通过DBN 进行学习,通过五折交叉验证得到的识别的准确率可以达到90%左右[7]。杨豪鸽通过声音的预处理抽取出MFCC 参数与伽玛通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)特征组成声音的特征矢量在Tensorflow 框架下与卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)以及前馈神经网络(Feedforward Neural Networks,FNN)相结合,识别平均准确率达到了95%,并拥有较优异的鲁棒性[8]。戚敏惠采用三元组损失与CNN网络结合提出了基于SE 注意力机制的深度卷积网络(Squeeze-and-Excitation Convolutional Neural Network,SECNN)模型和注意力机制的深度卷积网络模型(Attentive Convolutional Neural Network,Attentive CNN)模型,并在不同的数据集上进行训练与测试,将训练好的模型对说话人身份进行识别,并取得了优异的成果[9]。

本文针对变压器异常状态的声学诊断,提出了一种采用变压器的声音与深度学习相结合的变压器异常状态在线监测诊断的深度学习方法,运用变压器正常运行以及发生异常时(以过载和放电为例)的声音,通过梅尔倒谱系数与长短期记忆网络(Long-short Term Memory,LSTM)神经网络相结合,对变压器是否发生放电及过载进行精准识别。

变压器在正常状态下运转,交流电流经绕组会生成交变磁通,这种磁通具有周期性会引起铁芯发生周期性振动,使变压器发出“嗡嗡”的声音[10],由声音波形图(图1)可知这种声音是有规律的,如果变压器发生放电的情况则发动机运行的声音中会夹杂“噼啪”的声音,声音的规律性没有正常状态下的明显,如图2 所示。发生过载时,则发动机的嗡鸣声较正常运行时的声音更大[11],如图3 所示。

图1 正常状态声音波形Fig.1 Sound waveform in normal status

图2 放电状态声音波形Fig.2 Sound waveform in discharge status

图3 过载状态声音波形Fig.3 Sound waveform in overload status

本文针对这3 种声音的差异性,以110 kV 油浸式主变压器为例提出了一种监测方案,为了保证采集声音样本的统一性,采集时均采用同一设备采集,采集频率为44 100 Hz,单声道,以10 s 为一个采集样本,录制格式均为WAV 格式,所采集的正常运行、放电及过载的声音数据来源于变电站的110 kV油浸式主变压器。

声音检测的整体流程为将采集到的变压器正常运行的声音与放电声音先进行数据的预处理并划分成训练样本及测试样本,运用MFCC 与一阶、二阶差分将声音特征提取,将训练样本的声音特征输入到LSTM 网络模型中学习训练;
同时输入测试样本对模型进行测试,模型训练好后,将模型运用到监测系统中,开始实施对变压器运行状态的实时诊断。监测方案如图4 所示。

图4 变压器异常声纹监测方案流程图Fig.4 Flow chart of abnormal voiceprint monitoring scheme for transformer

将声音通过预加重、归一化、分帧和加窗等处理方法消除采集声音信号的设备所产生的混叠、高次谐波失真、高频等问题对声音信号能量及频率的影响[12]。尽量使之后的声音处理获取的声音信号更加均匀、平顺,为下一步的特征提取输入高质量的参数,提升声音信号特征提取的效果。

2.1 预加重与归一化

由于变压器运行时发出的声音,低频段幅度较大而高频段幅度较小,所以为了平衡频谱,改善声音信号的信噪比(Signal-to-Noise Ratio,SNR),式(1)的一阶滤波器将预加重滤波器应用于信号x。

式中:y(t)为预加重滤波器的输出值;
x(t)为声音信号;
α为滤波器系数,取0.97。

虽然采集样本使用的是同一个设备,但是由于各种因素的影响,采集到的个体声音样本之间也存在很多差别,比如某一时刻会有环境的杂音等。这些问题均会对采集的声音样本的质量造成一定的影响,所以在预加重之后,运用归一化方法对声音信号进行处理,使声音数据都有统一的形式,这样不仅方便计算,而且还降低了不同样本间因采集因素所造成的差异[13]。因此使用线性归一化方法对信号进行归一化,如式(2)所示:

式中:Ynom为归一化后的声音能量;
X为经过预加重处理的声音信号;
Xmin,Xmax为声音信号的最小值、最大值

2.2 分帧与加窗

声音信号是一种时变信号,通过时间轴显现出非平稳的特征,但是能够看作在很短的时间内(一般为10~30 ms)声音信号几乎没有变化,因此声音信号拥有短时平稳性[14]。通过这一特性就能把声音信号划分为一系列短段(称为分析帧)并进行后续的处理。为了获取平稳的信号,则要通过分帧加窗的方式对声音进行处理。但是声音具有连续性与关联性,不能单纯地对声音进行连续分段的处理,需要运用交叠分段的方式,即上一帧的帧尾要与下一帧的帧头有一定的重叠,目的是使帧与帧之间平滑过渡,保持其连续性。上一帧和下一帧重叠的部分叫做帧移,帧移和帧长的比值通常为0~0.5 之间,本文根据实际情况取帧长为0.025,帧移为0.01。将声音信号切分成短帧后,为了减少频谱泄露,需要在每一帧加上一个窗口函数,本文选用的是汉明窗。汉明窗是一种余弦窗,它的主瓣宽、旁瓣低,不仅有效地减少了频谱的泄露,还可使低通特性更加平滑。式(3)为汉明窗表达式:

式中:w(n)为样本索引n处的窗口系数;
n为样本索引,0<=n<=G-1;
G为窗长。

2.3 声音特征提取

在声音信号中,包含有大量的特征参数,其中的每个特征向量分别代表着各自的物理意义和声学意义。特征提取的作用是通过选出和缩减声音信号中与识别没有直接联系的信息影响,缩小之后识别阶段需要处理的信息量,选择合适的特征参数有利于改善识别率。常见的声音特征参数有线性预测倒谱系数(Linear Predictive Cepstral Coefficient,LPCC)和MFCC[15]。LPCC 参数是基于声道模型生成的特征参数,大多应用在声道响应方面。MFCC 参数是通过人类听觉特征并运用听觉的临界带效应,在梅尔标度的频率范围内抽取出的倒谱特征参数,是基于人类听觉系统的特性去模拟人耳对各频段声音的感知[16]。

本文采用MFCC 算法与一阶、二阶相结合提取声音中的特征向量。特征提取的流程如图5 所示。

图5 特征提取的流程Fig.5 Process of feature extraction

通常信号在时域上的变换很难看出信号的特性,所以在大多数情况下将它通过快速傅里叶变换(Fast Fourier Transform,FFT)转化成频域上的能量分布进行特性观察。通过乘上汉明窗,每帧须运用离散傅里叶变换来获取频谱上的能量分布[17]。快速傅里叶变换计算公式如式(4)所示:

式中:Xa(k)为幅度谱;
Y(n)为经过预加重与归一化以及分帧与加窗的声音信号;
N为傅里叶的变换点数,取512;
k为频率。

通过对Xa(k)取模得到信号功率谱。将FFT 的结果输入到梅尔尺度滤波器组,各滤波器的频率范围随中心频率增大而增大(如图6 所示),频率响应为:

图6 Mel滤波器组频响特性曲线Fig.6 Frequency response characteristic curve of Mel filter bank

式中:f(m)为滤波器中心频率;
m代表滤波器的顺序;
Hm(k)为三角滤波器的频率响应。

其中滤波器并不是均匀分布在频率坐标轴上,在低频段滤波器分布较密集个数也较多,在高频段,分布较稀疏而且个数也很少,因此通过梅尔谱会使低频信号被精密的显示,而高频信号则会被粗略显示。这是因为人的耳朵对频率这种标度单位并不是线性感知关系的,即人耳对低频的声音感知较灵敏,对于高频段的声音人耳的感知是很迟钝的[18]。所以人耳对频率的关系用log 这种非线性关系更好描述,各个滤波器组输出的对数能量为:

式中:s(m)为第m个滤波器输出的对数能量;
M为三角滤波器个数。

然后把所求得的对数能量采用离散余弦变换(Discrete Conine Transform,DCT)进行去相关滤波器组系数并产生滤波器组的压缩表示,并求出L阶的Melscale Cepstrum 参数。DCT 变换如式(7)所示:

式中:L为MFCC 系数阶数。

针对自动语音识别(Automatic Speech Recognition,ASR),所得到的倒谱系数2 至13 保存,其他系数表示滤波器组系数的变化比较快,并且这些细节不会有助于ASR,所以被去掉。这样就得到了一个13 维的MFCC 参数。因为声音信号在时域上具有连续的特性,每帧的MFCC 特征仅仅反映了本帧声音的特征,为了进一步体现声音特征的关联性与变化率,将13 维的MFCC 参数进行一二阶差分,将差分结果合并到MFCC 参数中,将特征扩充为39 维,这样就获取了一个39 维的特征向量,即每帧声音数据有39 个特征。

2.4 语谱图分析

图7—9 为变压器正常运行、放电及过载时的语谱图。语谱图是声音的时频域表示,相比单一时域波形图,其可综合表征时间方向上的频率和语音能量信息,表达出更为深层的声纹特征,有利于模型的充分学习[19]。语谱图的颜色代表在某一频率与时刻下声音的能量,由于对声音数据进行了归一化,所以声音能量范围在0 到1 之间,黄色代表声音能量高,绿色代表声音能量低,从3 个维度表现出频谱的构成方式。因此,语谱图兼具声音数据表征和图像形式处理的特点,采用二维图像表述三维信息。

图7 变压器正常运行时语谱图Fig.7 Speech spectrogram for transformer during normal operation

图8 变压器放电时的语谱图Fig.8 Speech spectrogram for transformer when discharging

图9 变压器过载时的语谱图Fig.9 Speech spectrogram for transformer overloading

从图7—9 可以看出,变压器正常运行时的声音主要集中在低频段,而变压器放电时的声音的频率范围覆盖到了高频段,当变压器过载时,可以看出在全频段范围内,声音的强度都要大于正常运行时的声音强度。

3.1 LSTM

RNN 为一种通常用来解决带有时序数据问题的神经网络,RNN 的输入为时序数据,在计算单元中,前t时刻数据xt与t-1 时刻输出生成的ht-1作为输入,输出输出层的值yt并且生成ht,ht将被传入下一时刻进行计算[20],LSTM 是一种特殊的RNN 模型,它能够避免长期依赖问题,相较于RNN,LSTM 在输出时增加了遗忘门,LSTM 结构如图10 所示。

图10 LSTM单元结构Fig.10 LSTM unit structure

LSTM 单元结构中含有遗忘门、记忆门、输出门3 个门。遗忘门含有1 个sigmoid 神经网络层,如图11 所示,其作用是对前一单元的信息进行选择性遗忘如式(8),将t时刻输入信号xt与t-1 时刻输出信号ht-1相结合,一并输入进sigmoid 神经网络层中,输出一个数值大小为0~1 的输出信号ft,此值为保留传递信息的百分比。

图11 LSTM单元中的遗忘门Fig.11 Forget gate in LSTM unit

式中:Wf为遗忘门的权重矩阵;
[ ]ht-1,xt为2 个向量连接成更长的向量;
bf为遗忘门的偏置项;
σ为sigmoid 函数。

记忆门包含2 个部分:1 个sigmoid 神经网络层和1 个tanh 神经网络层,如图12 所示,其作用是决定输入信号中哪些信息将被保留。sigmoid 神经网络层的作用与遗忘门一样,接受输入信号,输出一个0 到1 的数值it,决定哪些信息需要被更新,如式(9)所示。tanh 神经网络层的功能是将输入的xt和ht-1整合,通过一个tanh 神经网络层创造一个新的状态候选向量Ct0,其值的范围在-1~1 之间。输出时通过it与Ct0相乘筛选哪些信息将被加入到t时刻细胞状态Ct中。

图12 LSTM单元中的记忆门Fig.12 Memory gate in LSTM unit

式中:Wi和Wc为记忆门的权重矩阵;
bi与bc为记忆门的偏置项。

输出门就是将t-1 时刻传递过来经过遗忘门与记忆门选择后的细胞状态Ct-1与xt,ht-1通过式(11)与式(12)整合到一起作为输出信号,同时作为下一时刻的输入,如图13 所示。输出门的计算公式如式(11)所示。

图13 LSTM单元中的输出门Fig.13 Output gate in LSTM unit

式中:ot为输出门;
WO为输出门的权重矩阵;
bO为输出门的偏置项。

3.2 声纹识别中LSTM神经网络的优势

目前用于声纹识别的神经网络模型主要有RNN 网络、CNN 网络、BP 神经网络和LSTM 神经网络等[21]。传统的RNN 神经网络对信息没有挑选能力,它会将所有的信息都保存下来,而且它没有细胞状态,激活函数只有tanh,当步数较多时有可能会发生梯度消失和梯度下降,所以只能处理短期依赖问题。LSTM 是一种特殊的RNN 神经网络,相较于传统的RNN 神经网络,其增加了门控装置,可以通过细胞状态来记忆信息,而且LSTM 通过其三个门控引入sigmod 函数并与tanh 函数相结合,增加求和的步骤,缩减梯度消失和梯度爆炸的可能性,既能解决短期依赖的问题又能解决长期依赖问题[22-25]。传统的BP 神经网络与RNN 网络有着相似的问题,不能处理过长的序列,因为过长的数据在传递过程中会被不断缩减,到最后几乎不能造成对输出的影响,若一段序列的重要部分就在这前面一段,那么处理的结果就会极不理想。CNN 在图像识别上具有优异的效果,但是在处理声音信号等时序数据时,识别效果会下降很多,因为时序信号中的前一帧与后一帧有着很大的关联性,而卷积网络中因为卷积核大小的制约无法捕捉长时的关系,只能解决一些简单的时序问题。声音是一种长时序信号,因此使用LSTM 神经网络进行训练并进行识别的效果会比上述几种网络更有优势。为了进一步对比,本文在实验阶段会对BP 神经网络、CNN 网络与LSTM 神经网络分别进行训练,并通过结果比较它们的准确性。

3.3 LSTM神经网络模型整体架构

本文采用双向传输的LSTM 结构,每层隐藏单元的个数为120,与全连接层连接,实现网络分类,激活函数选用RULE 函数,模型采用有监督学习,输入声音的MFCC 及一、二阶差分组合的特征与声音标签,网络的损失函数采用交叉熵损失函数,优化方法采用梯度下降,运用大量的数据迭代,实现网络模型的训练。本文所构建的网络模型为:第一二层为LSTM 层,输入维度为199×39,第三层为全连接层,第四层为分类层,对正常运行、放电以及过载3 种状态进行分类。

将10 s 的声音样本进行2 s 的切分,将1 个样本切分成3 个样本,将安静环境下的样本和嘈杂环境下的样本打乱顺序进行随机排序,然后依次放入模型中进行训练,以8∶2 的比例随机划分训练数据与测试数据。各种情况下的样本如表1 所示。

表1 110 kV变压器各情况声音样本数量Table 1 Number of sound samples of 110 kV transformer in two environments个

本文的性能评价指标是识别正确率,即识别正确的语音数量与测试集中语音总数的比值。图14给出了训练集与测试集上的实验结果曲线,可以看出训练集的准确率(train_acc)与测试集的准确度(test_acc)在迭代300 之后开始收敛并趋于稳定,且训练集准确度达到了100%,测试集的最佳准确度达到了99.30%。测试结果如表2 所示。

表2 LSTM神经网络的识别准确率Table 2 Recognition accuracy of LSTM neural network %

图14 中,train_loss 为训练集的损失,val_loss 为验证集的损失,val_acc 为验证集的准确率。

图14 LSTM神经网络训练集与测试集的准确率与损失函数曲线Fig.14 Accuracy and loss function curves of LSTM neural network training set and test set

从表2 中能发现,采用LSTM 神经网络对变压器3 种工况的识别准确率都达到了99%以上,为了进一步对比,在原声音数据不变的情况下,将LSTM模型更换为传统CNN 神经网络模型进行训练识别,模型训练结果如图15 所示,CNN 神经网络在迭代400 次时逐渐达到稳定状态,虽然训练集的准确度达到了100%,但是测试集的准确度只达到了94%,采用相同的测试样本进行对模型的验证,测试结果如表3 所示。

图15 CNN神经网络训练集与测试集的准确率与损失函数曲线Fig.15 Accuracy and loss function curves of CNN neural network training set and test set

从表3 可以看出,CNN 神经网络识别的准确率能达到95%左右,将网络模型换成传统的BP 神经网络,用相同的样本对BP 神经网络进行训练与验证,测试结果如表4 所示。

表3 CNN神经网络的识别准确率Table 3 Recognition accuracy of CNN neural network %

表4 BP神经网络的识别准确率Table 4 Recognition accuracy of BP neural network %

从表4 可知传统的BP 神经网络对3 种状态识别的准确率为87.53%。经以上3 种典型的神经网络对变压器3 种状态下识别准确率的比较可得知,LSTM 网络模型的识别率较传统的BP 神经网络提升了11.77%,较CNN 网络提升了5.3%。

实验结果印证了本文对声纹特征提取和声纹识别方法的论述,将LSTM 神经网络与MFCC 特征有效结合,实现对变压器正常运行以及两种异常状态的高正确率声纹识别。

在进入大数据时代之后,生产生活过程中会产生大量数据,为了保证工作效率,神经网络和人工智能在设备监测中得以应用,有效地减少了人力资源的投入,并改善了设备诊断的精确度[26]。声音作为设备运行的最主要的特征之一,包含了设备运行时的大量信息,本文通过采集的真实场景下变压器的声音,并结合深度学习在声纹领域中的研究,提出了一种基于LSTM 神经网络的变压器异常诊断的方法,输入声音样本的特征向量,通过LSTM 神经网络进行特征学习训练,并取得了高准确度,因此将声音与深度学习相结合对设备运行状态进行监测,或将成为声纹识别领域未来的研究方向。

猜你喜欢滤波器准确率变压器乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析健康之家(2021年19期)2021-05-23不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨医学食疗与健康(2021年27期)2021-05-132015—2017 年宁夏各天气预报参考产品质量检验分析农业科技与信息(2021年2期)2021-03-27理想变压器的“三个不变”与“三个变”中学生数理化(高中版.高考理化)(2020年11期)2020-12-14从滤波器理解卷积电子制作(2019年11期)2019-07-04开关电源EMI滤波器的应用方法探讨电子制作(2018年16期)2018-09-26高速公路车牌识别标识站准确率验证法中国交通信息化(2018年5期)2018-08-21开关电源中高频变压器的设计通信电源技术(2018年3期)2018-06-26基于Canny振荡抑制准则的改进匹配滤波器系统工程与电子技术(2016年7期)2016-08-21一种不停电更换变压器的带电作业法现代工业经济和信息化(2016年4期)2016-05-17