老哥学习网 - www.lg9.cn 2024年05月20日 13:32 星期一
当前位置 首页 >公文范文 > 公文大全 >

基于局部投影WGC特征的在线情感识别

发布时间:2023-03-18 14:45:07 浏览数:

齐 梅,王军丽, 刘则芬

(安徽开放大学,合肥 230022)

基于人脸表情的情感计算方法在远程教育人机交互中具有重要的应用价值,是教育人工智能的重要领域。其应用主要是根据学习者在线学习状态调整教学策略[1],评估在线教学过程性效果[2],开发基于情感识别的自适应教学系统[3]等,但目前教育学者对情感计算技术的研究并不深入。

人脸表情特征提取是在线表情识别过程中的关键步骤。早期的表情识别研究大多基于表观、几何特征。局部二值模式(Local Binary Pattern, LBP)纹理特征及其改进算法在人脸表情图像分析中表现出较好的鲁棒性,并且运行效率高,得到广泛应用[4-6]。Gabor小波[7]具有提取不同尺度不同方向图像信息的良好特性,但计算复杂度高。韦伯局部特征(WLD)[8]关注图像的灰度变化特性,基于邻域像素点之间的变化量来描述图像纹理特征。几何特征方法主要是利用人脸表情特征点,将得到的特征点连接起来用特征向量来描述图像。胡敏等人提出了基于中性相似度的几何特征提取方法,提取特征点系数形成几何特征[9]。夏海英等人融合间接几何特征和直接几何特征形成图像几何特征表达[10]。文献[11]利用主动表观模型(Active Appearance model,AAM)定位人脸关键点,提取人脸几何特征取得了较好的识别效果,但AAM算法很大程度依赖表情关键点的检测,不能描述纹理特征。

近年基于深度学习[12-13]的人脸表情识别也是在线情感识别研究热点。

纹理特征能较好描述面部表情的细节变化特征,但是不同的人不同的表情,面部特征会产生明显的结构差异。针对在线表情识别,为更好描述表情特征,弥补纹理特征描述缺乏特征空间分布信息,本文首先分别计算当前像素点3×3邻域内像素差与当前像素点构成差动激励,得到韦伯梯度编码(WGC)特征,描述图像纹理特征;
其次通过空间金字塔划分得到表情图像空间子区域划分,再次分别在水平、垂直和倾斜正负45°上对WGC特征向量进行投影,克服旋转平移等影响,得到图像在多方向上的空间结构信息投影,形成人脸表情多方向空间WGC特征描述。权衡识别精度和计算复杂度,本文采用余弦距离计算表情识别结果,在公共表情库中实验表明该方法在满足一定识别精度前提下能保证实时性效率,能满足在线情感识别需求。

人脸表情是最易获取、最直接的情感识别模式,可以用来反映人类内心情感活动。计算机分析人脸面部表情一般步骤如图1所示。表情识别系统有三个关键步骤:图像预处理,表情特征提取和表情分类识别。

图1 人脸表情识别基本步骤

在人脸表情识别框架中,特征提取是核心步骤。该步骤主要目的是对数据进行降维,特征提取的充分性决定了最终表情分类的精度。图2给出了本文在线表情识别整体流程:通过摄像或智能手机获取表情图像作为输入,提取图像WGC投影特征级联形成表情特征向量,进而输入到最近邻分类器中,最后判断输出识别结果。

图2 表情识别整体流程

(一)韦伯梯度编码(WGC)

韦伯局部描述子(WLD)是一种纹理特征描述符,基于韦伯定律提出。韦伯定律表示当某种刺激变化达到一定的阈值才能引起感官刺激。图3所示的像素模板用计算中心像素与邻域像素差异来表征表情变化。

图3 3*3邻域

(1)

I=xc

(2)

式(1)中,xi表示像素xc的邻域范围内第i个像素,p是邻域范围内相邻像素的个数,ΔI表示当前像素邻域范围内像素刺激变化之和;
式(2)中,原始刺激I为当前像素点本身xc。ΔI与原始刺激I的比值构成WLD特征差动激励ξ(xc),如式(3):

(3)

韦伯局部特征是一种简单高效的局部特征描述符,鲁棒性好,通过计算周围邻域像素与中心像素的差异,设定刺激阈值来判断纹理变化,这样提取的信息并不充分,不能直观反映出局部邻域灰度值的变化特性,还容易受图像噪声的干扰。

以图4为例,说明不同特征计算方法对像素变化的描述结果。图4(a)中,中心像素与邻域范围内像素变化趋于平缓,是一个连续的较完整区域。图4(b)中,邻域范围内像素变化是平缓的,但是中心像素相对邻域像素有跳跃变化。

图4 不同灰度分布示意

采用WLD特征描述方法,计算4(a)得到:

ΔIa=(x1-xa)+(x2-xa)+(x3-xa)+(x4-xa)+(x5-xa)+(x6-xa)+(x7-xa)+(x0-xa)=(4-4)+(3-4)+(4-4)+(3-4)+

(4-4)+(3-4)+(4-4)+(4-4)=-3

(4)

ξ(xa)=ΔIa/Ia=-3/4

(5)

采用WLD特征描述方法,计算4(b)得

ΔIb=(x1-xb)+(x2-xb)+(x3-xb)+(x4-xb)+(x5-xb)+(x6-xb)+(x7-xb)+(x0-xb)=(1-6)+(1-6)+(1-6)+(1-6)+(1-6)+(1-6)+(1-6)+(1-6)=-40

(6)

ξ(Ib)=ΔIb/Ib=-40/6

(7)

图4(a)邻域范围内的整体像素变化是相对平缓的,图像特征表现出连续完整性,无特别刺激变化,但WLD特征计算方法得出的差异变化十分明显。图4(b)的中心像素相对邻域像素跳跃明显,但是邻域整体范围的像素其实没有强烈跳变,此时中心像素属于邻域范围内的高频信息,可能是图像噪声点。很显然,不宜用WLD特征计算方法来获取图像差异激励。为更好描述图像局部范围纹理变化特征,本文分别考虑了水平、垂直和对角线三个方向上的像素差异,对WLD特征计算方法进行了改进,提出了WGC特征计算方法,能有效抵御一定的噪声干扰,更加充分地描述表情图像的纹理细节特征。

利用WGC描述方法计算4(a)得到:

ΔI′a=(x1-x3)+(x0-x4)+(x7-x5)+

(x1-x7)+(x2-x6)+(x3-x5)+(x1-x5)+

(x3-x7)=(4-4)+(4-3)+(4-4)+(4-4)+

(3-3)+(4-4)+(4-4)+(4-4)=1

(8)

ξ(x′a)=ΔI′a/Ia=1/4

(9)

利用WGC描述方法计算4(b)得到:

ΔI′b=(x1-x3)+(x0-x4)+(x7-x5)+

(x1-x7)+(x2-x6)+(x3-x5)+(x1-x5)+

(x3-x7)=(1-1)+(1-1)+(1-1)+(1-1)+

(1-1)+(1-1)+(1-1)+(1-1)=0

(10)

ξ(x′b)=ΔI′b/Ib=0/6

(11)

WGC特征计算方法可以得到符合人脸表情变化趋势的特征。表情特征提取的关键区域,如眼睛、嘴巴、眉毛,要同时考虑人脸表情纹理变化的连续性。改进的WGC特征计算法方法不仅继承了WLD特征简便有效的优点,计算像素变化差异激励来描述特征,并且考虑水平、垂直和对角线三个方向上的像素变化,能抵抗当前高频像素的跳变干扰。图5给出了WLD特征和WGC特征表达的图像结果。

图5 图像特征提取

提取的WGC特征可以直接作为表情特征输入到分类器中,但是基于像素统计得到的WGC特征较为稀疏,所得到的特征表达直方图维数过多,为进一步降维特征向量,并且在特征描述中包含空间信息,本文进一步对WGC特征进行投影操作。

(二)局部投影

人脸表情发生变化时,人脸表情器官会发生明显的形变。如图6所示,人表现出高兴的表情,嘴角上扬,眼睛趋闭,尤其脸颊和鼻翼位置的变化十分明显;
表现惊恐表情时,眼睛瞪圆,眉毛弧变,整个面部都发生了巨大形变。因此,针对不同表情,融入面部几何结构,考虑器官的个体形变和面部的整体变化十分重要。

图6 面部表情形变示例

为获取表情图像分布位置信息,对提取的WGC特征向量进行投影,即从多个方向对图像纹理特征描述向量进行投影得到多方向投影矢量,其每一个维度分别代表不同方向位置上的图像灰度的累加值。受空间金字塔模型启发,对表情图像进行层次划分,如图7所示。相关研究表明[14],随着分层的细化,表情相关的关键区域,如眼睛、眉毛等在图像中的划分粒度过细反而影响精度,因此,划分最多至L=2层。

图7 人脸表情空间子区域划分

L=2层,图像划分为4×4块。为充分描述局部表情子块之间的空间位置关系,将提取的WGC特征分别向水平、垂直以及倾斜正负45°两条对角线这4个方向进行投影,得到4个不同方向上的WGC特征空间几何位置分布信息,特征投影方法如图8所示。这样的描述方式,能克服一定的表情形变带来的平移旋转影响。

图8 表情特征子块局部投影示意

对待识别的人脸表情图像,假设图像大小为w×h。图中a1i,a2j,a3i,a4j下标i的范围为:1≤i≤B,B为L=2层图像分块的总数4×4;
a1i,a2j,a3i,a4j分别表示水平方向、垂直方向和对角线正负45°四个方向上的投影特征向量。水平和垂直方向的投影维数为i=4,正负45°方向上的投影维数j=7,j和i满足j=2i-1。将如图8所示的四个方向上投影得到的投影矢量按顺序级联得到表情特征在L=2层上多方向的投影WGC特征表达 :

p={a11,a12,…,a1i,a21,a22,…,a2j,

a31,a32,…,a3i,a41,a42,…,a4j}

(12)

相对基于单像素的WGC特征描述方法,本文提出的局部投影WGC特征,能反映表情特征在水平、垂直等多方向的分布信息,并且特征向量维度减少到原来的1/16,降低了特征训练和特征识别阶段的计算量与耗时,能有效满足在线情感识别的实时性要求。

本文情感识别算法在Windows7系统(8GB内存,64位,Intel CPU 3.60GHz),VS2017环境下使用VC++语言联合opencv3.3编码实现。

实验在公共表情库中进行,JAFFE表情库是由10位日本女性的212幅图像构成,CK表情库由10位表演者的210幅图像组成。

首先对库中的图像进行预处理,去除头发、耳朵、背景等对表情有干扰的信息,依照经典实验设置,对图像进行归一化处理。JAFFE表情库图像大小统一为96*96,CK表情库图像大小统一为256*256。获得表情图像局部投影WGC特征后,本文选择最近邻分类器余弦距离判断表情类别。

实验采取目前表情识别验证经典方法:交叉验证的方式,在表情库中随机选取3组样本作训练数据,每训练组中每人每类表情图像为1~2幅,库中剩下的作为测试样本,最终计算3组实验的平均识别率得到本文算法准确率,JAFFE库的实验结果见表1,CK库的实验结果见表2。

表1 AFFE库中3组表情识别正确率

表2 CK库中3组表情识别正确率

在JAFFE库上的三次交叉实验,本文算法取得的平均识别率85.60%,其中恐惧、高兴等表情取得了很高的识别率,源于这些表情伴随了明显的几何形变。相对生气、厌恶表情的识别率要偏低一点,因为这两类表情本身存在类似性,表情关键区域的变化表观具有相似性,识别率相对要低一点。

从交叉实验结果看出,本文算法都取得了不错的效果。CK库平均识别率90.96%,明显高于JAFFE库,因为CK库的表情图像是连续的视频序列截取的,表情具有很好的连贯性和相似性。

从表3看出,本文方法取得了优于经典算法的识别率,但是在JAFFE库上的表现略低于融合了直接和间接结合特征的HDF算法。因为本文为了避免增加计算复杂度仅依据金字塔划分原理对图像进行了区域分割获取相对空间位置信息,并未融合多尺度的几何信息。本文算法在JAFFE库上的表情维度为96×96×1/16维,HDF采用基于深度学习的多层金字塔方法,图像维度达到10×96×96×3。从表4看出,本文的方法在性能上显然具备优势,能更好满足在线教育中的情感识别时间需求。利用在线情感识别能及时地捕获学习者的学习状态,当学习者出现皱眉等厌恶的表情时,可能提示学习者对课程内容有抵触情绪,远程教师可能要对教学内容做出调整;
当学习者出现微笑等高兴的表情,可能提示学习者学习效果良好,应鼓励学生继续学习;
若学习者出现困惑或疲劳的状态,可能提示学生当前状态不佳,需要进行学习流程再造从而调整学生在线学习状态。

表3 不同算法平均识别率比较

表4 不同算法特征识别时间比较

本文提出的基于局部投影WGC特征的人脸表情识别方法,与不同的算法进行对比发现,该方法构造了新的差异激励计算方式,能够更好地表达局部范围内细节变化,对局部细节结构特征表达更充分,而且抵抗一定的噪声污染。受空间金字塔划分方法启发,将纹理特征分布信息融入特征描述中,在不影响识别效果前提下,进一步精简特征向量维度,降低特征识别计算量,满足在线识别实时性需求。然而提出的方法并未对投影得到的特征向量在表情特征中的权重进行量化评估,今后的工作将进一步研究两者的关联程度,以此来选择最优的局部投影向量级联方式,进而提高表情识别精度。

猜你喜欢 邻域特征向量纹理 基于混合变邻域的自动化滴灌轮灌分组算法农业工程学报(2022年7期)2022-07-09高中数学特征值和特征向量解题策略中学生理科应试(2021年11期)2021-12-09肺纹理增多是病吗?保健与生活(2019年7期)2019-07-31基于近邻稳定性的离群点检测算法电子技术与软件工程(2019年8期)2019-07-16三个高阶微分方程的解法研究数学学习与研究(2018年15期)2018-11-12童梦小资CHIC!ELEGANCE(2018年33期)2018-11-08TEXTURE ON TEXTURE质地上的纹理Coco薇(2017年8期)2017-08-03氨基酸序列特征向量提取方法的探讨电脑知识与技术(2016年22期)2016-10-31消除凹凸纹理有妙招!Coco薇(2015年5期)2016-03-29对函数极值定义的探讨知识力量·教育理论与教学研究(2013年11期)2013-11-11

推荐访问:在线 局部 投影

相关文章:

Top