老哥学习网 - www.lg9.cn 2024年05月15日 18:07 星期三
当前位置 首页 >公文范文 > 公文大全 >

多尺度融合注意力机制的人脸表情识别网络

发布时间:2023-06-19 17:50:14 浏览数:

罗思诗,李茂军,陈 满

长沙理工大学 电气与信息工程学院,长沙 410114

在人类的交流过程中,面部表情是日常生活中最主要的一种信息传递方式。面部表情不仅可以呈现人类的情绪状态,更能反映人类的情感。经过心理学家调查研究发现,当人们面对面交流时,人脸表情传递的情感信息是总体信息的55%,而语言所占有的信息仅含7%。人脸表情识别是情感计算研究的一个重要方向。近年来,人脸表情识别技术在机器人制造、医疗服务、通信和驾驶等需要人机交互的系统中有着广阔的应用前景。

人脸表情识别包括4个步骤:图像采集、图像预处理、特征提取和表情识别分类。特征提取是最为重要的一步,对表情识别结果有决定性影响,研究人员在这方面进行了大量的深入研究,提出了许多方法。传统的表情识别先人为设计特征,再用分类器将表情分类,常见的提取特征方法有:局部二值模式(local binary pattern,LBP)[1]、主成分分析法(principal component analysis,PCA)[2]以及Gabor小波变换[3]等。Zhu等[4]将等效主成分分析用作表情特征表示,线性回归分类作为表达分类器,保留了原始图像的有用信息,同时减少特征向量数据维度。传统尺度不变特征变换(scale invariant feature transform,SIFT)方法提取特征点数量和位置具有不确定性,因此Shi等[5]提出了一种特征点约束算法,以SIFT描述符为特征参数,确定能够有效代表表情变化区域特征点的最佳位置,并提取区域梯度信息。传统方法为表情识别打下了较好的基础并做出了很大贡献,但人工设计的特征提取算法因难以有效处理背景、角度等因素的干扰,识别性能有限,泛化能力不足。

近年来,深度学习在计算机视觉领域得到了广泛的应用,并都取得了优异的成绩。与传统设计方法相比,深度神经网络能够自主学习特征,而且对存在光照、不同姿态等一些更难以识别的人脸表情图像识别准确率更高,稳定性更好。Chen等[6]提出的方法由一个输入是完整人脸图像的主网络和一个输入是包含突出表情特征区域的预处理人脸图像的辅助学习网络组成。主网络与辅助网络结构共享参数,能有效提高关注突出表情变化区域的能力。方明等[7]提出一种结合残差网络及目标掩膜的特征提取方法,定位人眼的关键区域后进行图像掩膜,能减少眨眼动作对特征提取造成的干扰,欧拉视频放大算法能对微表情变化的关键区域进行放大,获得更明显的表情变化。崔子越等[8]通过对预训练的VGG模型进行微调,并设置概率阈值对Focal Loss进行改进,避免误标注样本对模型分类性能产生影响。通过设计深层的网络结构或者对损失函数进行改进优化等方法通常可以获得良好的识别效果,但与此同时网络层数、模型复杂度和参数量也不断增加,计算代价越来越昂贵,容易产生过拟合等问题。值得注意的是,在MobileNet[9]中提出的深度可分离卷积将传统卷积拆分为两部分执行,在几乎不损失精度的情况下大大减少了参数的计算量,可有效克服过拟合问题。

在实际分类任务中,有效特征信息只分布在图像的局部区域,为了突出有效特征信息,一些研究引入了注意力机制。Wang等[10]提出了一种自愈网络来抑制面部表情数据的不确定性,其中自注意力模块学习每个面部图像的权重,以捕获样本对训练的重要性。Li等[11]提出了一种在有遮挡的情况下进行面部表情识别的方法,利用注意力机制关注未被遮挡的部分,但网络依赖于人脸关键点检测,遮挡面积较大时,难生成自适应权重。但上述方法均为完整网络结构,不易迁移。Wang等[12]提出一种高效通道注意力网络,采用特征重标定方式,强调有用区域并抑制用处不大的区域,提升效果显著,且增加的模型复杂度小,可以直接插入到现有网络中使用。

为了更好地提取人脸表情的有效特征,提高识别精度,同时减少网络模型参数,提出一种多尺度融合注意力机制的人脸表情识别网络,本文工作概括如下:

(1)为了引导网络学习对表情更有判别作用的局部特征信息,提出了利用高效通道注意力机制来提高关键特征的权重,强调表情识别的有效特征区域,有效提升了表情识别性能。

(2)引入具有多尺度卷积核的Inception模块可以获得更为丰富的图像特征,通过在不同尺度上进行卷积再聚合增加网络的感受野,增强网络的特征学习能力。

(3)在网络模型中增加深度可分离卷积以减少参数计算量,降低模型复杂度,使网络具有更好的抗过拟合性能。

本文方法在两个公开人脸表情数据集上进行验证,并与其他几种方法进行对比,结果表明本文方法有较好的效果。

1.1 ECA注意力机制

人脸表情的有效特征信息只分布在图像的局部区域。为了从表情图像中筛选出有效特征信息,引入注意力机制到网络模型中。ECA-Net是一种超轻量级注意力模块,其主要作用是考虑每个通道与其相邻几个通道进行跨通道信息交互并生成权重值。增加面部表情关键特征的权重,降低无关特征权重,使网络优先关注有用的信息,提升网络对重要特征的敏感度,其对识别准确率的提升效果卓越。ECA-Net结构图如图1所示。

图1 ECA-Net结构图Fig.1 Structure diagram of ECA-Net

假设网络的输入特征图为F∈RH×W。首先,对特征图在不降低维度的情况下对每个通道都采用全局平均池化,将每个二维的特征通道压缩到单个实数再进行提取,得到一个1×1×C的全局描述特征。其次,考虑每个通道及其k个近邻来捕获本地跨通道交互信息,可以通过执行卷积核大小为k的快速一维卷积有效实现。其中k代表跨通道交互的覆盖范围,即有多少个相近邻参与一个通道的注意力预测,并用sigmoid激活函数生成各通道的权重占比。最后,把得到的各个通道权重值对输入特征图的每个通道加权,完成了特征在通道空间中的重新校准。

ECA-Net只考虑每个通道与其k近邻之间的相互作用,相比跨所有通道交互,能降低模型复杂度并提高效率。通过大小为k的一维卷积为每个通道生成权重,即:

式中C1Dk表示核大小为k的一维卷积,y表示通道,σ表示sigmoid激活函数。k与通道维数有关,通道维数越大,则局部跨通道交互的范围k就越大。通过与通道维数相关的函数自适应确定k值,即:

因此可得:

式中||todd为距离t最近的奇数,γ和b的值分别设置为2和1。

1.2 深度可分离卷积

MobileNet是Howard等在2017年提出的一种轻量网络,它的基本单元是深度可分离卷积,其核心思想是将一个完整的卷积运算分解为两步进行。第一步是深度卷积,深度卷积属于滤波阶段,把传统的三维卷积核分解为一个逐通道处理的二维卷积核,每个卷积核分别处理输入特征图的一个通道,每个通道独立进行卷积运算,将卷积处理后得到的所有特征图按顺序进行拼接得到最终输出。第二步是点卷积,实际为1×1卷积。点卷积属于组合阶段,它对输入进行逐点卷积,把深度卷积输出的特征图进行通道融合,得到新的特征图。标准卷积与深度可分离卷积的对比如图2所示。

图2 两种卷积对比Fig.2 Comparison of two convolutions

假设输入特征图尺寸为DF×DF×M,卷积核大小为D×D,输出特征图尺寸为DF×DF×N。标准卷积计算量为D×D×M×N×DF×DF,而深度可分离卷积计算量为D×D×1×M×DF×DF+1×1×M×N×DF×DF,可得出深度可分离卷积与标准卷积计算量之比为由此可见,与标准卷积相比,深度可分离卷积能够大幅度减少参数,有效提高了训练与识别的速度。

1.3 Inception

GoogLeNet[13]是Google推出的基于Inception模块的深度神经网络模型,其目的是在保证模型质量的前提下,解决卷积层堆叠的问题,避免冗余计算,减少参数数量,提取高维特征。其中不同尺度的卷积核不仅增强了网络的泛化能力和结构表达能力,而且为网络模型增加更多的非线性,大大提高了卷积神经网络的特征学习能力。

Inception模块对输入图像并行执行多个卷积运算,并将所有输出结果拼接为一个特征图。如图3所示,一个Inception模块包含3个不同尺寸的卷积核和一个最大池化层,并在每一层都使用一个1×1卷积,既在相同尺寸的感受野中叠加更多的卷积,提取到更丰富的特征,又进行降维,降低计算复杂度。在多个尺度上进行卷积再聚合可以获得图像的不同信息,将4个分支的输出在特征维度上拼接起来,融合不同尺度特征,使网络获得不同的感受野。

图3 Inception结构Fig.3 Inception structure

1.4 表情识别网络

受文献[14-16]的启发,本文提出了一种多尺度融合注意力机制的人脸表情识别方法,网络框架如图4所示。把图像送入网络进行一系列运算,提取表情特征,然后进行分类。采用Inception模块对输入图像降低通道数将信息聚集,再进行多个尺度的特征提取及池化操作,获得输入图像的不同尺度信息,既减少参数个数,又增强特征提取功能。不同类别的表情通常在某些局部区域改变更为明显,因此为了使网络更加关注这些关键区域的信息,捕获图像中更具分辨力的特征,在网络中使用了高效通道注意力机制,提升表情识别性能。此外,在通道数较大的卷积层将普通卷积替换成深度可分离卷积,大幅降低了模型的参数量。

图4 网络模型结构图Fig.4 Structure diagram of network model

所提网络结构及详细参数信息如表1所示。网络主要由11个卷积层依次相连组成,将第6层的普通卷积层替换为Inception模块,第9、10个卷积层采用深度可分离卷积,第11层使用ECA注意力模块。卷积层的所有卷积核大小为3×3,步长为1,最后接一个全局平均池化。网络中的部分卷积层后依次使用批量归一化和SeLU激活函数,并且分别在第2、4、6、8、10层后嵌入了窗口大小为2、步长为2的最大池化层。

表1 模型参数Table 1 Model parameters

2.1 数据集

FER-2013[17]是目前较大的人脸表情识别公开数据库,由Kaggle人脸表情识别挑战赛提供,共包含35 887张人脸表情图像。其中训练集图像28 709张,公共验证集图像和私有验证集图像分别有3 589张。所有图像均已被标记且固定为48×48的图像,共有7种标签,分别为:愤怒、厌恶、恐惧、高兴、悲伤、惊讶和蔑视。如图5为该数据集中各类表情样例,在面部姿态、角度、年龄等方面都有较大差异,反映了不同环境下人脸表情的真实状态,很多图片还有手、眼镜和头发等的遮挡,与真实环境中的条件非常接近,更具有说服力。

图5 FER-2013表情库7种表情示例图像Fig.5 7 kinds of facial expression images in FER-2013 expression dataset

CK+数据集[18]是用于评估人脸表情识别方法最广泛的数据集。该数据集包含了123个人的593个图像序列,其中有327个带标签的图像序列,从中选取表情较为强烈的图像作为实验数据,共选出981张图像,有以下7种表情:愤怒、厌恶、恐惧、高兴、悲伤、惊讶和蔑视,将图像的人脸裁剪到大小固定为48×48。如图6为7种表情示例图像。

图6 CK+表情库7种表情示例图像Fig.6 7 kinds of facial expression images in CK+expression dataset

2.2 实验环境

实验操作系统为Windows10,实验环境python3.8,深度学习框架PyTorch,硬件平台为CPU AMD EPYC 7302 16-Core Processor,内存为251 GB,GPU为23 GB的NVIDIA GeForce RTX 3090。

2.3 数据增强

为了减少训练过程中的过拟合,提升模型的泛化能力,增强模型的鲁棒性,使模型在有噪声和角度变换等干扰的情况下保持稳定性,在实验中对数据集进行了数据增强。在训练之前,将原始图像随机裁剪为44×44大小,对裁剪之后的图像进行水平翻转,使数据集扩充为原来的两倍。在测试集上,采用TenCrop策略,即在原图片的4个角和中心各截取一幅大小为44×44的图片,然后对图片进行水平翻转,进而将数据扩增为原数据的10倍。

2.4 实验结果与分析

在FER-2013数据集上训练时,对实验进行250个epoch的训练,初始学习率设为0.01,批量大小为32,50次迭代后,每8轮迭代学习率的衰减为之前的0.8倍。在验证集上测试调整网络超参数,最后在测试集上评估模型性能。其混淆矩阵如图7所示。

图7 FER-2013识别结果混淆矩阵Fig.7 Confusion matrix of FER-2013 recognition results

由图7可以看出,高兴和惊讶等表情与其他种类表情相比,面部特征更加明显,因此能得到更高的识别率。高兴表情中大部分具有嘴角上扬、眼角有纹路等显著特征。惊讶表情中具有眼睛睁大、嘴巴张开等特征,在恐惧中也存在嘴巴张开的情况,但恐惧时的嘴巴张开幅度更大,这一特点使得惊讶容易与恐惧混淆。愤怒、悲伤和恐惧3种表情识别率相对较低。恐惧的识别难度最大,其不仅容易与惊讶混淆,还容易与悲伤混淆,因为这两类表情均有皱眉、额头紧皱等相同特征。这三类表情同属于消极类情绪,本身具有较强的相似性,面部关键点通常只有细微的改变,互相错分的比例较高。此外,数据集中各表情图片类别数据的不均衡导致网络训练不充分,也是影响其识别率的重要因素。

因CK+数据集图片量较少,因此在训练时采用十折交叉验证。将数据集按9∶1的比例分为训练集和测试集,训练集882张图片,测试集99张图片。实验共训练100轮,批量大小为64,其余参数设置同FER-2013数据集一样。其测试集混淆矩阵如图8所示。

从图8中可以看出,高兴、惊喜、厌恶等均有较高的识别率,而愤怒、恐惧、藐视、悲伤等表情的识别准确率相对较低,原因是这几类表情的训练样本数据较少,类别数据不均衡,网络对特征的训练不充分。除此以外,消极类别的表情特征本身类似,大多具有嘴角向下、眉头皱起等特征,容易混淆,如图9中的愤怒被识别成厌恶,伤心被识别成蔑视等,也会导致识别率降低。

图9 识别失败示例图Fig.9 Example diagram of recognition failure

由图7和图8可知,同一个算法在CK+数据集上得到的识别结果比FER-2013数据集的要更好,其原因是FER-2013数据集存在大量面部受遮挡图片,与现实生活中的真实情况更贴合,且存在部分表情标签误分的问题,更具有挑战性和代表性。而CK+是标准实验室图片,排除了如光照、角度变化等众多影响因素,都是清晰的正面表情,所以识别率相对于FER-2013来说要高很多。

图8 CK+识别结果混淆矩阵Fig.8 Confusion matrix of CK+recognition results

为了验证本文方法的有效性,本文在CK+和FER-2013数据集上与几种国内外现有的公开方法进行了比较。不仅对比了本文算法与表情识别经典算法的准确率,并与近几年最新的表情识别算法进行了比较。

由表2、3可知,大部分模型都取得了较好的准确率。其中在CK+数据集上,本文算法达到95.76%的准确率;
在包含人脸遮挡和图像对比度低的FER-2013数据集上,本文算法达到较高的72.28%的准确率。因此,在图像清晰、影响因素较少的情况下,当前大多数方法都能获得较为理想的效果,但在更真实复杂的场景下,很多方法并不适用。而MIANet引入Inception结构提取图像的多尺度特征信息;
且还使用了ECA注意力机制,能提取到重要特征。因此可以有效解决上述问题,实验结果也展现了MIANet识别准确率较好,获得目前良好的效果。

表2 不同算法在FER-2013数据集上的识别率Table 2 Recognition accuracy with different algorithms on FER-2013 dataset

表3 不同算法在CK+数据集上的识别率Table 3 Recognition accuracy with different algorithms on CK+dataset

为了进一步验证模型具有较好特征提取能力的同时又具有轻量性,将表2、3中部分网络结构参数量与本文实验结果进行对比,如表4所示,可以看出MIANet的参数量远小于其他网络,并且依然能达到较高的识别精度,这表明MIANet能较好地兼顾识别准确率与网络的轻量化。

表4 不同方法的网络结构参数量Table 4 Network structure parameters of different methods

2.4.1 注意力模型对比实验

为了验证通道注意力模块的有效性,将引入了Inception和深度可分离卷积的网络作为基础网络Basis,分别嵌入不同的注意力模型SE、CBAM、ECA后在CK+数据集上进行对比实验。由表5可知,在其他实验参数不变的情况下,加入ECA-Net的识别效果最好,充分验证了ECA注意力机制的有效性。嵌入注意力模型的网络相比于基础网络识别率均有提升,而嵌入ECA-Net的识别准确率最高,相比基础网络提高了2.43个百分点,因此在本文中,相较于其他注意力模块,ECA能给网络带来更好的识别性能。

表5 注意力模型对比结果Table 5 Comparison results of attention models

随机挑选两张表情图像,根据Grad-CAM方法生成ECA模块上一层和该层的可视化热力图,观察网络在这两层的输出分别更侧重于哪块区域,如图10所示。人脸表情特征主要体现在几个局部区域,如:眉毛、嘴部、鼻翼等,不同类别的表情在这些局部区域会有不同的表现。因此,引导网络关注这几个关键部位的特征信息会有利于识别效果的提升。由图10可知,在加入ECA模块后,网络将会更关注对分类起到重要作用的有效特征区域,使得模型能捕获到用于分类的有效特征。

图10 ECA模块对特征提取的影响Fig.10 Impact of ECA module on feature extraction

2.4.2 模块有效性验证实验

为了进一步验证本文所提方法的有效性,本文进行消融实验。其步骤依次如下:(1)首先在没有引入任何其他模块的基础网络上进行实验,此方法记为Base;
(2)在Base方法基础上,加入深度可分离卷积但不使用注意力机制和Inception,此方法记为Base+Separable;
(3)在Base方法基础上,引入注意力机制但不加入深度可分离卷积和Inception,此方法记为Base+ECA-Net;
(4)在Base方法基础上,引入Inception但不加入深度可分离卷积和注意力机制,此方法记为Base+Inception;
(5)在Base方法基础上,同时引入Inception、注意力机制和深度可分离卷积,即MIANet。表6展示了各方法在FER-2013和CK+数据集上的识别结果。

表6 消融实验Table 6 Ablation experiments

MIANet验证了深度可分离卷积、通道注意力机制和多尺度提取Inception三个模块的有效性。将各个模块分别进行了对比实验,表6中的结果显示每个模块在不同数据集上对表情识别准确率的效果。由表6可知,在添加通道注意力机制后检测效果有所提高,且增加的参数量可以忽略不计,这表明ECA-Net是有效且超轻量的。Inception模块效果显著,其中的1×1卷积既能起到叠加作用,提取更丰富的特征,又能进行降维,降低了计算复杂度。深度可分离卷积使得模型参数量大幅缩减,降低了计算量。但其在两个数据集上产生了不同的效果。在CK+数据集上有明显的效果,但在FER-2013数据集上准确率反而有所下降,这是因为CK+是小型数据集,图片数量少,当使用深度可分离卷积时可以缓解网络的过拟合现象,因此准确率有所上升;
而FER-2013是大型数据集,使用深度可分离卷积会产生欠拟合现象,因此准确率有所下降。但从表6中可以看出,同时使用深度可分离卷积、通道注意力机制和多尺度提取Inception时,仍然能较好地实现识别准确率与网络轻量化的平衡。

本文针对人脸表情识别过程中难以兼顾准确率与轻量化的问题,提出一种多尺度融合注意力机制的人脸表情识别网络。首先,在网络中加入Inception结构,将网络的深度和宽度同时提升,提取人脸表情不同尺度的特征信息;
其次,利用高效通道注意力机制引导网络学习利于表情识别的有效特征;
最后,使用深度可分离卷积对部分卷积层进行替换,降低网络参数,避免产生参数爆炸,从而导致过拟合的问题。在两个公开人脸表情数据集FER-2013和CK+上分别进行实验来对本模型进行评估,实验结果验证了本文所提方法的有效性。在后续的研究中,将考虑利用反卷积等方法实现各卷积层特征的可视化。另外,可以将表情识别从室内转向室外,在更复杂、真实的场景下应用,使得理论研究能够与实际相结合,以及增加疼痛、困倦之类的表情类别,将面部表情识别方法应用在医疗监护及自动驾驶等实际场景中。

猜你喜欢 集上人脸注意力 让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09GCD封闭集上的幂矩阵行列式间的整除性四川大学学报(自然科学版)(2021年6期)2021-12-27有特点的人脸少儿美术·书法版(2021年9期)2021-10-20一起学画人脸小学生必读(低年级版)(2021年5期)2021-08-14R语言在统计学教学中的运用唐山师范学院学报(2018年6期)2018-12-25三国漫——人脸解锁动漫星空(2018年9期)2018-10-26“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21师如明灯,清凉温润文苑(2015年9期)2015-09-10长得象人脸的十种动物奇闻怪事(2014年5期)2014-05-13

推荐访问:的人 尺度 注意力

相关文章:

Top