老哥学习网 - www.lg9.cn 2024年05月15日 17:57 星期三
当前位置 首页 >公文范文 > 公文大全 >

基于自注意力机制条件残差生成对抗网络的滚动轴承故障诊断

发布时间:2023-04-01 10:45:11 浏览数:

刘权,裴未迟

(华北理工大学 机械工程学院,河北 唐山 063210)

旋转机械长期运行在复杂的环境中难免会出各种问题。滚动轴承作为旋转机械中的典型部件,其发生的任何故障都可能导致机械系统故障和意想不到的安全问题[1]。因此,滚动轴承的故障诊断越来越受重视,甚至成为系统维护中最重要的方面[2],迫切需要开发有效的故障诊断技术。

滚动轴承故障诊断最普遍使用的方法是通过快速傅里叶变换获得振动信号频谱中的故障冲击特征并与正常工况下的振动幅度进行对比[3-4],但基于快速傅里叶变换的频域分析缺乏对局部信息的识别能力,并不能准确的实现非平稳信号的特征提取。时频分析不仅可以呈现时域信号特征,还可以呈现信号在频域的特点,并清楚地描述时间与频率之间的联系。

人工神经网络、支持向量机等基于模型驱动的传统故障诊断方法在对信号进行简单的特征提取后通过神经网络进行故障诊断,其准确率取决于人工提取的故障特征是否能够表达旋转机械的状态信息,很难实现复杂机械系统的故障诊断[5-8]。基于深度学习的旋转机械故障诊断方法能够从大数据中自动学习特征,从而避免人工特征提取的弊端,同时通过多层非线性网络训练学习旋转机械状态信息的潜在特征,从而提高故障的分类能力。文献[9]通过不同激活函数的深度自编码器来提取不同类型的特征并形成特征池,进行评估和选择实现滚动轴承故障识别。文献[10]使用多尺度裁剪融合对滚动轴承信号进行数据增强并通过短时傅里叶变换转换为时频图像,将多传感器导出的图像数据通过多尺度卷积神经网络进行特征提取和故障模式分类。文献[11]采用复数形式的连续小波变换提取时频复数矩阵,并使用复数卷积神经网络实现轴承故障分类。文献[12]使用卷积神经网络对轴承振动信号进行特征提取,并使用XGBoost模型进行故障分类。文献[13]提出了一种考虑噪声数据和工作环境条件变化的分层分支卷积神经网络模型,其在传统卷积神经网络的基础上增加了分支结构来满足分层诊断的要求,可以在可变工作条件和噪声干扰下挖掘数据特征。文献[14]通过生成器、判别器和分类器的共同作用分别实现滚动轴承故障样本的生成、标记和故障识别。文献[15]提出了一种基于深度全卷积条件Wasserstein生成对抗网络的迁移学习故障诊断模型,通过矩阵将类别标签映射到源域数据,既加强了对学习过程的监督,又加强了类别领域对齐的效果。

卷积神经网络能够自动学习振动信号的抽象特征,具有强大的数据挖掘能力,但随着网络层数的加深易出现过拟合的问题,并造成梯度消失。而且,在进行特征提取时,卷积核尺寸限制了只能获取输入数据的局部特征,忽略了当前区域与全局其他区域之间的联系。传统的生成对抗网络(Generative Adversarial Networks,GAN)属于无监督学习,其判别器只能判别生成样本的真假。因此,将深度卷积生成对抗网络与连续小波变换和残差网络相结合,引入标签信息,并在生成器和判别器的解码结构中加入自注意力机制模块,提出了一种新的滚动轴承故障诊断方法。

1.1 条件生成对抗网络

在生成对抗网络的训练过程中,生成器能学习到真实样本分布并生成伪样本,但无法指定生成样本属于何种类别。针对这种情况,在生成对抗网络中添加额外条件信息,以对其条件变体进行建模,即条件生成对抗网络(Conditional GAN,CGAN)[16],其结构如图1所示。

条件生成对抗网络将噪声z和条件c作为输入同时输入生成器,通过非线性函数映射到数据空间。将数据x和条件c作为输入同时送进判别器,进一步判断x是真实训练数据的概率。条件生成对抗网络的损失函数为

Ez~pz(z)[log(1-D(G(Z|c)))],

(1)

式中:θG,θD分别为判别器和生成器的参数;
V(D,G)为二元交叉熵函数;
x为真实数据;
c为条件信息;
z为随机噪声;
pz(z),pdata(x)分别为真实数据x和随机噪声z的数据分布。

条件生成对抗网络的生成器可以将类别标签与随机噪声组合起来作为隐藏层输入。在判别器中,x和c是判别函数的输入。判别器和生成器的性能通过对抗性学习机制不断提高。当pz(z)=pdata(x)时,生成器生成的新样本可以无限拟合原始样本的分布,条件生成对抗网络达到纳什均衡。条件生成对抗网络的结构如图1所示。

1.2 深度卷积生成对抗网络

深度卷积生成对抗网络(Deep Convolutional GAN,DCGAN)[17]是第一个基于卷积神经网络的生成对抗网络架构,在无监督图像表示学习方面显示出实质性进步,训练过程稳定且能完成高质量清晰图像生成任务。

深度卷积生成对抗网络的结构如图2所示:判别器中使用卷积进行判别;
而生成器则由随机噪声通过生成器网络生成一张图片,与卷积作用相反,称之为反卷积;
取消了所有池化层,在生成器中使用转置卷积进行上采样,判别器中加入步长的卷积代替池化;
网络中使用了批标准化,可以稳定学习并处理初始化不良导致的训练问题。生成器使用ReLU作为激活函数,最后一层使用Tanh激活函数,判别器则使用LeakyReLU作为激活函数。

1.3 残差神经网络

残差神经网络(Residual Network,ResNet)[18]的主要贡献是发现了退化现象并针对退化现象发明了快捷连接,极大地消除了深度过大的神经网络训练困难问题。残差单元如图3所示。

残差单元F(x)可以表示为

F(x)=H(x)-x,

(2)

式中:x为输入值;
H(x)为输入为x时学习到的特征。

在图3所示的2层网络中,最优输出为输入x。因此,对于没有恒等映射的网络,需要优化为H(x)=x。但是,对于具有恒等映射的网络,即残差块,如果最优输出为x,则只需将残差单元F(x)优化为0。原理如下

xp+1=xp+F(xp,wp),

(3)

式中:xp为第p层的输入值;
F(xp,wp)为第p层的残差;
wp为第p个特征图相关的卷积滤波器。

则从浅层p到深层Q的学习特征为

(4)

根据反向传播原理,损失函数ε关于xp的偏导数为

(5)

(5)式括号中的“1”表示短路机制可以无损的传播梯度,而另一个残差梯度需要通过权重层,并且梯度不直接转移。一般情况下残差梯度不都是-1。由于恒等函数的导数恒为1,即便残差梯度非常小也不能造成梯度消失,从而进一步抑制了梯度的衰减,通过加法的计算提高了训练的稳定性和易用性。因此,网络的层数增加,网络性能显著提高。

1.4 自注意力机制

在图像领域,自注意力机制用于学习某一像素点与其他所有位置像素点之间的关系,能够更好地捕获图像的全局信息[19]。由于残差网络受限于邻域的卷积核尺寸,生成对抗网络的生成器只是局部区域的运算,忽略了全局其他区域与当前区域的关系。

自注意力机制如图4所示:对经过卷积特征映射后的特征图X通过1×1卷积进行特征映射来压缩通道数,得到相应特征θ(xi);
其次,将特征θ进行展平,对其进行转置操作,并与φ(xi)进行矩阵点乘,计算出每个位置的相似度;
然后,经过Softmax进行归一化得到注意力映射的系数fc,将g(xi)经过展平和转置操作的结果与fc进行矩阵点乘得到结果y;
最后,再使用1×1卷积上扩通道数,与原输入X进行残差运算作为最终输出,进而获得全局特征信息。

2.1 模型构建

本文提出的基于自注意力机制的条件残差生成对抗网络(Conditional Residual GAN of Self-Attention Mechanism,S-CRGAN)如图5所示,该模型由生成器和判别器两部分组成,类别标签和随机噪声作为生成器的输入,得到的伪样本和真实标签样本作为判别器的输入,进而对输入的真实样本和伪样本进行判别。在判别器和生成器中引入自注意力机制和深度残差模块,利用残差模块的跳跃结构缓解梯度消失,进而增加网络的深度;
自注意力机制用于弥补残差模块的缺陷,以生成更好的特征图,增强泛化性,反过来使模型训练得更好,提升生成样本的质量和故障诊断的准确率。

S-CRGAN的生成器包含全连接层、5个上采样残差模块、自注意力模块和卷积层,其结构如图6所示:将标签信息和随机高斯噪声连接的数据作为输入,通过全连接层转换为3维张量;
上采样残差模块包含批处理归一化、ReLU激活函数、卷积层、恒等映射、上采样。添加批处理归一化(Batch Normalization)可以在保持梯度传播到每一层的同时避免不良的初始化效果,加快模型训练时的收敛速度,起到一定的正则化作用,提高模型的稳定性;
自注意力机制用于获取全局信息,再通过2层上采样残差模块后在生成器的输出层采用卷积核3×3、步幅1、填充1的卷积层并使用Tanh函数作为激活函数。

S-CRGAN的判别器包含卷积层、4个残差模块、自注意力模块、自适应平局池化和全连接层,其结构如图7所示:时频图像作为输入,经过卷积层后使用LeakyReLU函数作为激活函数,每个残差模块包含卷积层、BN和LeakyReLU;
输入数据分成两部分,一部分由BN,LeakyReLU和卷积层等操作构成,另一部分使用二维卷积和BN进行恒等变换,最后经过LeakyReLU激活函数形成一个完整的残差模块。自注意力机制放在残差模块中用于获取特征图的全局信息,在判别器中使用自适应平均池化层来减少最后全连接层的参数,最后通过一个全连接层判定故障样本的真假。与生成器正好相反,判别器不需要在输入时连接标签数据,直接将特征图数据作为输入,从而避免标签数据对判别器分类的影响。

2.2 S-CRGAN模型的超参数选择

S-CRGAN模型超参数的选择至关重要,会影响其故障分类性能。小尺寸图像不能显示所有的信号信息,导致诊断结果不良;
图像尺寸过大,会使分类器模型更复杂,带来更大的计算量,也需要更大的样本量才能使模型收敛[20]:因此选择尺寸为128×128×3的时频图像。另外,设置batch_size为16,epochs为100,在生成器的输出层采用Tanh函数作为激活函数,其他采用LeakyReLU函数作为激活函数,斜率设置为0.2;
使用Adam优化器训练,计算梯度平均和的系数为(0.5,0.999),生成器和判别器的学习率都为0.000 2。

2.3 S-CRGAN模型训练

在S-CRGAN的训练过程中,生成器和判别器都考虑自己的利益最大化。在训练生成器时,生成器可解释为将标签信息c和低维噪声z映射到高维真实样本的函数,试图将目标函数V(D,G)最小化,此时判别器参数不变。当最小化目标函数时,生成器使伪样本通过判别器的运算结果尽量接近“1”,使生成样本分布接近真实样本分布。

训练判别器时,判别器的作用是到评估生成器产生的伪样本的质量,试图将目标函数V(D,G)最大化,此时生成器固定。理想的判别器一方面接收真实样本的计算结果为“1”,另一方面接收伪样本的计算结果尽可能接近“0”,当生成样本分布与真实样本分布十分接近时,输出结果为0.5,达到纳什均衡。判别器的损失函数定义为两部分:1)真实样本通过判别器的输出与c做交叉熵得到loss_D_c;
2)新样本通过判别器的输出与“0”做交叉熵得到loss_D_f;
这两部分之和为判别器的损失函数。上述过程是判别器与生成器之间的对抗博弈。

2.4 故障诊断方法实现

为验证S-CRGAN模型在完成生成任务的同时具有强大的提取特征能力,将判别器单独提取出来并接一层Softmax训练分类器,最终得到基于S-CRGAN的滚动轴承故障诊断模型,其故障诊断流程如图8所示。

待S-CRGAN模型训练好后,将判别器单独提取出来并在图6结构中将输出为“1”的全连接层替换为输出为“n”的全连接层,其中n表示故障数据集中的类别标签。同时采用交叉熵作为损失函数,并使用Softmax层训练此分类器,如图9所示。

为验证所提出基于自注意力机制的条件残差生成对抗网络模型的性能,采用美国凯斯西储大学(CWRU)和德国帕德博恩大学(UPB)的轴承数据进行验证。

3.1 凯斯西储大学轴承数据

3.1.1 数据描述和预处理

采用驱动端轴承6205在0hp负载情况下的数据,试验转速为1 797 r/mim,采样频率为12 kHz,轴承每次旋转为振动信号产生401个采样点,采样时间约0.033 s,详细的数据描述见表1。

表1 CWRU轴承数据集描述

按7:3的比例划分训练集和测试集,包含10种不同故障状态下的4 200个训练样本和1 800个测试样本。0.356 mm外圈故障轴承振动信号经连续小波变换处理后得到的时频图如图10所示。

3.1.2 诊断结果

S-CRGAN生成器和判别器在CWRU轴承数据集上的损失变化趋势如图11所示:在S-CRGAN训练初期,生成器和判别器一开始就产生震荡,但幅度较小;
在训练中后期,随着训练次数增加,生成器和判别器损失值的变化幅度变大;
总体上看,生成器损失值振荡过程中逐渐增大,判别器损失值振荡过程中逐渐减小,判别器在训练过程中更具优势。

在S-CRGAN训练完成后,将模型中的判别器参数提取出来,使用图9的结构进行故障分类,batchsize设置为16,学习率为0.000 2,优化器为Adam。为验证S-CRGAN方法在故障诊断上的优势,单独训练了SA-ResNet模型(与S-CRGAN模型判别器结构完全相同),2个模型在CWRU轴承数据集上的损失和准确率随迭代次数变化的结果如图12所示。

由图12可知:在相同迭代次数下,训练开始后S-CRGAN就得到了较低的损失,更快地收敛并趋于稳定,S-CRGAN在训练初期的准确率就高于SA-ResNet并保持在99.5%以上,相较于SA-ResNet模型优势明显。自适应平均池化、残差模块和自注意力模块的使用,使S-CRGAN模型更加稳定,可有效获取时频故障图像的非局部信息并避免模型过度拟合。

S-CRGAN在CWRU轴承测试集上分类结果的混淆矩阵如图13所示:钢球重度和外圈轻度故障中的少量样本被错误分类,具体为3个钢球重度故障样本(标签6)和2个外圈轻度故障样本(标签7)被误分为钢球中度故障(标签5)。

几种常用方法对CWRU数据集进行故障分类的准确率见表2。其中,SA-ResNet的结构和参数与S-CRGAN判别器相同,C-DCGAN和CRGAN分别在S-CRGAN的基础上去掉残差网络和注意力机制。由表2可知:经过S-CRGAN预训练后的分类器在故障分类上均优于表中其他方法,证明了该方法的可行性;
S-CRGAN故障分类准确率明显高于SA-CRGAN,证明了该方法在预训练阶段提取时频图像特征的有效性。

表2 不同方法对CWRU轴承数据的故障分类准确率

3.2 德国帕德伯恩大学轴承数据

对于德国帕德伯恩大学(UPB)的轴承数据集,采用编号0条件下6203型球轴承的试验数据,试验转速为1 500 r/min,扭矩为0.7 N·m,径向力为1 000 N,采样频率为64 kHz。轴承数据包括正常(K001)和5类人为损伤:外圈电火花加工1级损伤(KA01)、外圈电刻加工1级损伤(KA05)、外圈钻孔加工2级损伤(KA08)、内圈电火花加工1级损伤(KI01)、内圈电刻加工1级损伤(KI03)。详细的数据描述见表3。

表3 UPB轴承数据描述

同样,按7:3的比例划分训练集和测试集,包含6种不同运行状态下的2 520个训练样本和1 080个测试样本。采用前文所述步骤进行处理,不同方法在UPB轴承数据集上的故障诊断准确率见表4。其中,C-DCGAN在S-CRGAN的基础上去掉残差网络,CRGAN在S-CRGAN的基础上去掉自注意力机制。S-CRGAN的故障识别准确率为99.91%,相较于其他故障诊断方法具有明显优势,证明了使用S-CRGAN预训练来实现故障诊断的有效性和可行性。

表4 不同方法对UPB轴承数据的故障分类准确率

S-CRGAN在UPB轴承测试集上分类结果的混淆矩阵如图14所示:在1 080个测试数据中,只有一个外圈电刻加工1级损伤样本(标签2)被误分为外圈钻孔加工2级损伤样本(标签3),其他类型故障的分类准确率均为100%。

结合深度卷积生成对抗网络、条件生成对抗网络、深度残差网络和自注意力机制提出了基于自注意力机制的条件残差生成对抗网络(S-CRGAN),对2组轴承数据集进行验证,结果表明:

1)将一维振动信号通过连续小波变换转换成时频图能够很好的提取原始信号的特征,通过生成对抗模型预训练为判别器提供参数,从而使该模型能够实现滚动轴承的故障分类并取得很好的效果。

2)采用深度残差模块构建生成器和判别器,能够有效提取时频图的特征,在一定程度上缓解生成对抗网络随着层的加深而造成梯度消失的问题,并提高模型训练的稳定性。

3)在生成器和判别器中加入自注意力机制,能够更好地捕获时频图的全局信息,弥补残差模块的缺陷,生成更好的特征图,从而增强模型的泛化性,得到更好的判别器训练效果,提升故障诊断的准确率。

猜你喜欢 残差轴承故障诊断 比亚迪秦EV充电系统故障诊断与排除汽车实用技术(2022年16期)2022-08-31异步立式感应电机轴承系统设计防爆电机(2022年4期)2022-08-17基于残差-注意力和LSTM的心律失常心拍分类方法研究成都信息工程大学学报(2022年2期)2022-06-14基于双向GRU与残差拟合的车辆跟驰建模网络安全与数据管理(2022年3期)2022-05-23基于包络解调原理的低转速滚动轴承故障诊断一重技术(2021年5期)2022-01-18无轴承电机的结构设计防爆电机(2021年5期)2021-11-04泵用电机水润滑轴承选择与应用防爆电机(2021年3期)2021-07-21基于残差学习的自适应无人机目标跟踪算法北京航空航天大学学报(2020年10期)2020-11-14基于深度卷积的残差三生网络研究与应用北京航空航天大学学报(2019年9期)2019-10-26江淮同悦纯电动汽车无倒档故障诊断与排除汽车电器(2014年5期)2014-02-28

推荐访问:注意力 对抗 故障诊断

相关文章:

Top