老哥学习网 - www.lg9.cn 2024年05月15日 14:30 星期三
当前位置 首页 >公文范文 > 公文大全 >

融合通道与空间注意力的编解码人群计数算法

发布时间:2023-04-04 20:45:09 浏览数:

余 鹰,潘 诚,朱慧琳,钱 进,汤 洪

华东交通大学 软件学院,南昌330013

人群计数作为智能视频监控的重要组成部分,主要任务是分析统计场景中人群的数量、密度和分布,现已广泛应用在大型集会、旅游景点等人群密集的线下活动场景,在维护群众人身安全等方面发挥着巨大的作用。近年来,随着卷积神经网络[1-3]在计算机视觉领域的大放异彩,基于深度学习的人群计数算法取得了显著的进展,计数形式从简单的稀疏场景行人数量统计发展到了复杂密集场景的密度图计数,通过充分利用深度神经网络强大的特征表达能力,提升模型的计数精度。

随着计算机视觉和深度学习技术的快速发展,有关人群计数问题的研究已经取得了巨大的进展,优秀的模型和算法不断涌现,但是在人群密集场景中,要实现准确的计数依然存在诸多困难和挑战。如图1 所示,该现实场景存在背景干扰、人群分布杂乱、行人尺度变化等问题,极大地影响了计数精度。在图1(a)中,远近景人群目标尺度差异较大,树与密集人群特征相似,容易对计数造成干扰;
在图1(b)中,同样存在远近景目标尺度多样化问题,同时人群分布杂乱将对计数性能造成影响。

图1 人群计数的挑战Fig.1 Challenge of crowd counting

为了解决行人尺度变化问题,一些学者试图通过引入多阵列卷积结构来感受不同尺度的行人特征[4-5],以提高模型预测精度。尽管这些方法增强了算法对多尺度特征的感知能力,但同时也带来了无效的冗余分支结构和大量训练时间。对于背景噪声干扰,Liu等人[6]试图使用注意力机制去抑制背景区域。通过级联方式,预先训练注意力图生成器,检测前景人群区域,抑制弱相关复杂背景信息,然后使用人群密度估计器进行人群计数。此时,场景图片已经聚焦在前景人群区域,可以有效减少背景噪声的干扰。这类方法对注意力生成器要求极高,容易造成前景和背景的误判,也不能自适应地在线调整背景区域范围,可能在计数之前引入误差,增加了计数任务的复杂性。

针对上述问题,本文提出了一种融合通道与空间注意力的编解码结构人群计数网络(channel and spatial attention-based encoder-decoder network for crowd counting,CSANet),以解决计数任务中存在的目标尺度变化、人群分布杂乱以及背景噪声干扰等问题。在编码阶段,通过不同深度层次的卷积提取人群的不同尺度特征;
在解码阶段,使用卷积和上采样操作逐步恢复空间语义信息,并将多尺度语义信息与空间上下文信息充分融合,然后注入通道和空间注意力,使网络关注点聚焦在感兴趣前景人群区域,进一步降低弱相关背景干扰,以此提高密度图的生成质量。本文的主要贡献如下:

(1)提出了一种融合通道与空间注意力的编解码结构计数网络,通过将多尺度信息与空间上下文信息进行融合以提高图像特征的鲁棒性,最终提升计数精度。

(2)将多维度注意力机制引入人群计数,使得端到端的计数网络能够自适应地聚焦前景人群区域,降低弱相关背景区域的干扰,提升生成密度图质量。

人群计数任务所遇到的挑战主要为场景拥挤、人群尺度变化多样和人群分布杂乱等。为了降低其带来的计数精度下降问题,主要研究路线大致可分为传统方法和基于深度学习的方法。传统方法使用经过预训练的分类器人工提取目标底层特征[7-8],然后判别出行人从而实现计数;
基于深度学习的方法利用卷积神经网络自动学习人群特征并生成场景密度图,密度图中不仅包含行人数量信息,还有丰富的空间位置信息。

1.1 传统方法

传统方法可分为基于检测和基于回归两类。基于检测的方法[9]首先通过滑动窗口提取图像特征,然后使用已经训练好的分类器来识别行人。此类方法在人群稀疏的场景中计数效果良好,但是在复杂的人群密集场景中,由于行人之间的严重遮挡和背景杂乱干扰,导致无法提取完整的个体特征,计数性能较差。为了克服密集场景中行人特征不完整等问题,研究者设计出判别身体部分特征的检测器[10],但是算法仍然难以胜任高密度场景的计数需求。基于此,提出了另一种自适应的回归预测方法[11],直接从场景中提取特征,然后学习图像特征至人群数量的映射关系。

总之,传统方法大都依赖人工提取的特征。由于现实环境复杂,人群变化等因素普遍存在,导致人工提取的特征判别性不强,从而计数模型应用时预测效果较差。

1.2 基于深度学习的方法

近些年,深度学习技术在图像分类[12]、目标检测[13-14]、语义分割[15]等视觉任务上的应用表现抢眼。相对于使用传统技术,使用深度学习技术可以使算法的性能得到显著提升,并且其更擅长处理复杂场景问题。因此,基于卷积神经网络(convolutional neural networks,CNN)的人群计数方法的研究陆续开展[16-18],并取得了卓有成效的进展。其主要过程是通过卷积神经网络提取特征,再利用全卷积形式生成包含人群数量和空间位置信息的人群分布密度图。

为了处理多尺度问题,已有模型大多采用多阵列卷积神经网络架构[4-5],通过不同的感受野去提取行人多尺度特征。Sindagi等人[19]提出了一种上下文金字塔网络(contextual pyramid CNN,CP-CNN),通过融合全局和局部上下文信息,来提高生成密度图的质量和人数预测的精度;
Sam 等人[20]提出Switch-CNN(switching convolutional neural network)模型,通过训练密度分类器,将图像划分为局部图像块,用分类器自适应地输出对应等级;
Cao等人[21]提出了一种基于编解码结构的尺度聚焦网络(scale aggregation network,SANet),利用多尺度聚焦模块来提取行人多尺度特征。此类方法的计数性能相比传统方法虽然有了很大突破,但是其网络结构冗余,参数量过大,导致模型训练困难。为了简化网络复杂度和提高训练效率,单列网络架构重新获得关注。Li 等人提出单列计数网络CSRNet(network for congested scene recognition)[22],通过空洞卷积扩大感受野,以捕获多尺度特征同时降低网络模型的参数量。为了解决背景噪声干扰问题,Liu等人[6]提出了一种用于人群计数的可形变卷积网络(attention-injective deformable convolutional network for crowd understanding,ADCrowdNet),该网络融合了注意力机制,让模型只关注人群区域,从而忽略背景噪声的干扰。此外,亦有研究通过将图像语义分割技术应用于人群计数领域,以去除背景噪声。总之,如何增强特征的尺度适应性和降低背景噪声干扰仍然是人群计数领域目前重点关注的问题。

本文提出的融合通道与空间注意力的人群计数模型CSANet的网络结构如图2所示。整体采用了易于端到端训练的编解码架构。其中,编码器使用VGG16[1]网络的前13 层作为主干,构建特征提取网络,提取多个不同深度层次的语义特征,来辨识场景中的多尺度人群;
解码器在逐步恢复空间信息的同时,将多尺度信息与空间上下文信息充分融合,以增强网络的表征能力。并且融入通道与空间注意力模块,聚焦前景人群区域,抑制弱相关背景特征,以生成高质量、高分辨率的密度图进行人群计数。

图2 CSANet网络结构Fig.2 Architecture of CSANet

2.1 编解码器Encoder-Decoder

编解码器包含两部分,其中编码器可以提取不同尺度行人特征。为了提取多层次更具有表征能力的深度特征,且易于网络的搭建和训练,本部分选取了经过预训练的VGG16 网络前13 层作为编码器的主干网络。在训练的过程中,保留4个具有代表性的不同层次深度语义特征Conv2_2、Conv3_3、Conv4_3、Conv5_3,其尺寸分别为原始输入图片分辨率的1/2、1/4、1/8、1/16,这些不同深度提取的特征可以捕获不同尺度的行人信息。随着网络深度递增,特征图分辨率逐渐减小,维度逐步增加。解码器主要用于逐步恢复图像空间特征信息与聚焦前景人群区域。通过解码恢复的多层次深度特征与编码器各阶段输出的对应层特征进行融合,最大程度上减少卷积和下采样等操作造成的特征损失,并进一步整合空间上下文信息。在融合之后,对特征添加通道与空间注意力,以此来凸出前景人群区域,抑制弱相关背景区域特征的权重。解码器对不同阶段特征图进行融合主要是对两个特征图进行通道拼接,特征融合之后新的特征图分辨率大小不变,通道为两者之和。其网络参数配置如表1所示。

表1 网络参数Table 1 Network parameters

在ConvX_Y(K-C-S)中,X_Y代表卷积所在层的深度,K表示卷积核大小,C为卷积核个数,S为步长。最后输出的密度图分辨率大小与原始输入图片的相等。Upsampling 使用双线性插值将分辨率扩大至输入特征的2 倍,Concat 为特征融合操作,将输入的2 组特征图进行通道拼接,CBAM module 为通道与空间特征注意力模块。

2.2 通道与空间注意力模块

背景噪声干扰问题给人群计数任务带来了严峻的挑战,复杂背景可能极大降低模型的预测精度。视觉注意力机制的作用已经在大量的工作中被证实,它在关键特征提取以及模型性能增强等方面有着良好的效果。如果将注意力机制应用于人群计数,将有助于模型更加关注感兴趣的人群区域,从而抑制弱相关背景信息的影响。Woo 等人[23]提出的CBAM(convolutional block attention module)注意力模型可以在通道和空间两个维度上添加注意力,相较于单通道域或单空间域注意力,更适合人群计数任务。因为人群计数模型生成的特征图不仅包含人群数量信息,还包含空间位置信息。对于一个给定的中间特征图,CBAM 模块会沿着通道和空间两个独立的维度依次推断注意力图,然后将注意力图与输入特征图相乘以进行自适应特征优化来提高感兴趣区域的权重。添加CBAM 注意力模块时,一般将其添加到网络每个卷积层之后或结合残差添加。

为了增强模型在多层次特征融合之后对人群区域的聚焦能力,CSANet 网络在解码器部分添加了CBAM注意力模块,融合方式如图3所示。编码器和解码器提取的特征图在对应层次进行通道叠加,以充分整合空间上下文信息,再使用通道与空间注意力模块,对其前景行人区域进行关注,并对背景区域特征权重进行抑制。具体过程为:首先将编码阶段提取的多尺度特征Fe与对应层解码恢复的特征Fd做特征叠加操作,得到特征累加之后的特征图F′,如式(1)所示:

图3 注意力融合方式Fig.3 Fusing attention method

其中,⊕为特征通道叠加操作,F′为多层信息融合之后的特征图,并作为注意力模块的输入,然后依次利用通道和空间注意力模块微调输入特征F′,得到最终经过加权之后的特征图FAtt。通道注意力模块学习通道上的权重信息,再按通道元素相乘,作为后一阶段的输入;
空间注意力模块学习空间权重,与输入特征空间相乘,如式(2)和式(3)所示:

σ为Sigmoid函数,输入特征图F∈RC×H×W,通道注意力为Mc∈RC×1×1,为每个单独通道上的平均池化和最大池化,MLP为多层感知机,这里仅使用了一个隐藏层,其神经元个数为RC/r×1×1,r为参 数缩减率,r=16 ;
空间注意力为为所有通道上的全局平均池化和最大池化,做通道相加操作,f7×7为7×7 卷积。

2.3 损失函数

在训练过程中,使用欧式距离评估真实密度图与预测密度图之间的差异,其定义如式(4)所示:

N是一次训练图片的总数量,Xi为第i张训练图片,Z(Xi;θ)为第i张图片的预测密度图,其中i∈[1,N],θ为网络模型参数,为第i张训练图片的真实密度图。

本章将详细阐述端到端人群计数模型CSANet的训练环境,包括真实密度图的生成方式、数据增强方法以及实验参数和硬件配置。

3.1 真实密度图

由于当下主流人群计数数据集通常只提供人头中心点的坐标位置信息,而模型对于单个像素点的预测效率低下,普遍做法是将坐标点进行区间扩散,以提升模型的学习效率。本文使用几何自适应高斯核生成密度图,作为预测学习的标签,具体如式(5)所示:

其中,x为当前图像中的每个像素点,xi为第i个人头中心点坐标,G(x)为高斯核滤波器,为人头坐标点xi与其最近的K个人头的平均距离。参照文献[22]的参数设置,将β设为0.3。

3.2 数据增强

由于人群数据集图片数量有限,而标注图片代价过高,为了获得更多的图片用于训练,本文在数据输入网络之前对数据集中的图片进行了一系列数据增强操作。具体为对每张图片随机裁剪出分辨率大小为400×400 的局部图像块,如图4 所示。对于边长不足400 的图片,对其进行双线性插值,使得边长增大到400。再对裁剪出的局部图像块随机进行镜像翻转,调整对比度和灰度来扩大数据量,以获得更丰富的训练数据。

图4 随机裁剪示例Fig.4 Example of random cropping

3.3 实验设置

实验所使用的操作系统为Windows 10,深度学习框架为PyTorch 1.6.0,使用两块显存为11 GB 的NVIDIA-1080Ti显卡。

编码器部分使用基于ImageNet[24]预训练的VGG16网络的前13层参数对网络进行初始化,其他参数则利用均值为0,方差为0.01的高斯函数进行随机初始化。模型训练过程中,使用学习率为1E-4 的Adam优化器进行模型优化,训练迭代次数收敛即停止。对于UCF-QNRF 数据集,其平均尺寸为2 013×2 902,分辨率过大,训练效率低,因此在进行数据增强之前,本文使用双线性插值方法将其大小统一调整至1 024×768。

为了验证算法的有效性和性能,在4个经典人群计数数据集上进行了实验。与已有计数算法相比,CSANet 性能更优,而且训练过程更加简单、灵活。本章首先介绍计数模型的评价指标,然后简单描述用于实验的4个数据集的基本情况,并比较分析了各个算法的实验结果。

4.1 评价指标

平均绝对误差(mean absolute error,MAE)和均方根误差(root mean square error,RMSE)是人群计数算法常用的评价指标;
MAE 和RMSE 均可以表示预测人数与真实人数的差异程度,但是MAE 通常用来评估模型的准确性,而RMSE通常用来度量被评估模型的鲁棒性。MAE 和RMSE 的值越小,表示模型性能越好,其计算方法如式(6)和式(7)所示:

其中,N为数据集图像总数;
Ci为第i张图片的预测人数;
为第i张图片的真实人数。

4.2 数据集与实验分析

4.2.1 ShanghaiTech数据集

ShanghaiTech[5]是一个大型的人群计数数据集,共标注了1 198 幅图像,人头总数为330 165 个。按照数据来源和场景稀疏程度划分,可分为Part_A 和Part_B 这两部分,其中Part_A 随机采集自互联网,人群分布较为密集,共有300幅图像作为训练集,182幅图像作为测试集;
而Part_B 采集自上海市的部分监控视频,人群分布较为稀疏,有400 幅图像作为训练集,316幅图像作为测试集。该数据集的实验结果如表2所示。

表2 不同计数方法在ShanghaiTech数据集上的性能比较Table 2 Performance comparison of different methods on ShanghaiTech dataset

与已有算法相比,CSANet 在Part_A 上的性能指标MAE与RMSE均达到了最优值,而在Part_B上,性能仅次于SFANet。总损失变化趋势如图5 所示,训练之初由于随机程度较高,损失较大,但是随着模型不断迭代训练,损失呈现明显的下降趋势并趋于稳定;
Part_A 部分在整体可控范围内波动,Part_B 部分在400次迭代之后基本达到了稳定状态。

图5 ShanghaiTech数据集训练过程Fig.5 Training process on ShanghaiTech dataset

4.2.2 UCF_QNRF数据集

UCF_QNRF[29]是一个挑战性极大的数据集,场景丰富且人群分布杂乱,共标注了1 535 幅图像,其中训练集有1 201 幅图像,测试集有334幅图像,标注总人数达到了1 251 642。

表3显示了各种人群计数算法在UCF_QNRF 数据集上的实验结果。由表3 可见,CSANet 网络的两个性能指标MAE 和RMSE 均为最优,证明CSANet模型在跨场景计数时具有较好的性能。CSANet 的训练损失曲线如图6 所示,前500 次迭代的波动较大,500次后逐渐趋于稳定。

图6 UCF_QNRF数据集训练过程Fig.6 Training process on UCF_QNRF dataset

表3 不同计数方法在UCF_QNRF数据集上的性能比较Table 3 Performance comparison of different methods on UCF_QNRF dataset

4.2.3 UCF_CC_50数据集

UCF_CC_50数据集[33]中的图像全部采集自互联网,其场景包括音乐会、游行示威等人群高度密集的场合,总共有50幅不同分辨率、不同视角拍摄的极度密集图像,共标注人头数量为63 974 个,每幅图像标注人数从最低94人到最高4 543 人不等,平均每张图片标注的人头数为1 280 个,其数量远超其他人群计数数据集。数据集使用5折标准交叉验证训练,实验结果如表4所示。由表4可见,即使是在极端密集的场景中,CSANet 网络的计数准确性和鲁棒性依然优于已有模型。

表4 不同计数方法在UCF_CC_50数据集上的性能比较Table 4 Performance comparison of different methods on UCF_CC_50 dataset

4.2.4 实验结果可视化分析

为了更好地说明模型的预测效果,本小节展示了CSANet网络在不同数据集上预测的部分密度图,如图7 所示。其中,第1 行图片选自ShanghaiTechPart_A测试集,代表了高度拥挤和严重背景干扰场景的预测效果;
第2行图片选自ShanghaiTech Part_B测试集,表示了在正常街道中,人群分布不均时的预测效果;
第3行为UCF_QNRF测试集图片,来自一个游行集会场景。由绝大多数场景的可视化表现可知,CSANet 模型生成的人群分布密度图非常接近真实的人群分布密度图,说明CSANet具有良好的多尺度特征提取能力和背景噪声抑制能力。

图7 结果可视化Fig.7 Result visualization

4.3 消融实验

为了验证CSANet 网络中各模块的有效性,在ShanghaiTech数据集上做了相关的消融实验,结果如表5所示。

表5 ShanghaiTech数据集消融实验Table 5 Ablation study on ShanghaiTech dataset

主干网络为CSANet网络中设计的编解码部分,由表5 可见,其计数精度优于绝大多数经典计数网络,表现出了骨干网络强大的特征提取能力。在融入通道与空间注意力模块之后,CSANet网络的计数效果显著提升。本节还对消融实验的结果进行了可视化,如图8 所示。由图8 可见,对于图中红色框中的背景区域部分,主干网络已经能够获得比较准确的密度图,但是经过注意力前景增强和背景抑制之后可以看出,密度图的前景部分更加显著,背景误差也相对减少。

图8 消融实验结果可视化Fig.8 Visualization of ablation study results

本文提出了一种融合通道与空间注意力的编解码人群计数网络CSANet。该模型能够以端到端的形式进行训练,整体采用了编解码结构以提取多尺度特征和充分融合空间上下文信息,并加以通道与空间注意力模块来提升前景行人区域的权重,并抑制弱相关背景特征,以此生成高质量的密度图。经过实验分析,证明CSANet网络具有良好的准确性与鲁棒性。未来的工作中,将考虑如何采用可形变卷积等方面,更加准确地聚焦人群区域,以进一步提高人群计数的精度。

猜你喜欢 计数尺度卷积 基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02一种并行不对称空洞卷积模块①计算机系统应用(2021年9期)2021-10-11递归计数的六种方式中等数学(2020年8期)2020-11-26财产的五大尺度和五重应对内蒙古民族大学学报(社会科学版)(2020年2期)2020-11-06古代的计数方法小学生学习指导(低年级)(2020年4期)2020-06-02古代的人们是如何计数的?数学大王·低年级(2019年8期)2019-08-27从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20宇宙的尺度太空探索(2016年5期)2016-07-129时代英语·高三(2014年5期)2014-08-26

推荐访问:算法 注意力 计数

相关文章:

Top