卷积融合网络

融合网络时间:2021-04-25 阅读:()

20210210计算机应用,JournalofComputerApplications2021,41(2):537-543ISSN10019081CODENJYIIDUhttp://www.
joca.
cn基于多尺度空间注意力特征融合的人群计数网络杜培德,严华*(四川大学电子信息学院,成都610065)(通信作者yanhua@scu.
edu.
cn)摘要:针对严重的尺度变化和遮挡导致在不同密集场景人群计数任务中性能差的问题,在密集场景识别网络(CSRNet)的基础上通过增加多尺度特征融合结构并引入空间注意力机制,提出了一种多尺度空间注意力特征融合网络(MAFNet).
在MAFNet进行特征提取之前,需要对添加了人头标记的场景图进行高斯滤波生成真实密度图;此外,MAFNet还通过联合使用两种基本损失函数的方法来约束密度估计图与真实密度图的一致性.
接着,MAFNet以多尺度特征融合结构为主干,首先采用边提取多尺度特征边融合的策略得到多尺度融合特征图,然后使用空间注意力模块对特征图进行校准和再融合,之后通过扩张卷积生成密度估计图,最后对密度估计图逐像素积分得到场景中的人数.
为了验证所提出模型的有效性,在四个人群计数数据集(ShanghaiTech、UCF_CC_50、UCF_QRNF和World-Expo'10)上进行了评估.
其中ShanghaiTech数据集PartB的实验结果显示,MAFNet与CSRNet相比,平均绝对误差(MAE)降低了34.
9%,均方误差(MSE)降低了29.
4%.
在多个数据集上的实验结果表明,采用注意力机制和多尺度特征融合策略使MAFNet可以提取更多细节信息,减少尺度变化和遮挡带来的影响.
关键词:密集人群计数;卷积神经网络;特征融合;注意力机制;多尺度中图分类号:TP391.
4文献标志码:ACrowdcountingnetworkbasedonmulti-scalespatialattentionfeaturefusionDUPeide,YANHua*(CollegeofElectronicsandInformationEngineering,SichuanUniversity,ChengduSichuan610065,China)Abstract:Concerningthepoorperformanceproblemofcrowdcountingtasksindifferentdensescenescausedbyseverescalechangesandocclusions,anewMulti-scalespatialAttentionFeaturefusionNetwork(MAFNet)wasproposedbasedontheCongestedSceneRecognitionNetwork(CSRNet)bycombiningthemulti-scalefeaturefusionstructureandthespatialattentionmodule.
BeforeextractingfeatureswithMAFNet,thesceneimageswithheadmarkerswereprocessedwiththeGaussianfiltertoobtainthegroundtruthdensitymapsofimages.
Inaddition,themethodofjointlyusingtwobasiclossfunctionswasproposedtoconstraintheconsistencyofthedensityestimationmapandthegroundtruthdensitymap.
Next,withthemulti-scalefeaturefusionstructureasthebackboneofMAFNet,thestrategyofextractingandfusingmulti-scalefeaturessimultaneouslywasusedtoobtainthemulti-scalefusionfeaturemap,thenthefeaturemapswerecalibratedandrefusedbythespatialattentionmodule.
Afterthat,anestimateddensityimagewasgeneratedthroughdilatedconvolution,andthenumberofpeopleinthescenewasobtainedbyintegratingtheestimateddensityimagepixelbypixel.
Toverifytheeffectivenessoftheproposedmodel,evaluationswereconductedonfourdatasets(ShanghaiTech,UCF_CC_50,UCF_QRNFandWorld-Expo'10).
ExperimentalresultsonShanghaiTechdatasetPartBshowthat,comparedwithCSRNet,MAFNethasaMeanAbsoluteError(MAE)reductionof34.
9%andaMeanSquareError(MSE)reductionof29.
4%.
Furthermore,experimentalresultsonmultipledatasetsshowthatbyusingtheattentionmechanismandmulti-scalefeaturefusionstrategy,MAFNetcanextractmoredetailedinformationandreducetheimpactofscalechangesandocclusions.
Keywords:densecrowdcounting;ConvolutionalNeuralNetwork(CNN);featurefusion;attentionmechanism;multi-scale0引言密集人群计数的任务是估计图像或视频中包含的人物数量.
随着全球人口数量的上涨和人类社会活动的增加,各地公共场所经常会出现人群大量聚集的情况,如交通枢纽和娱乐场所等,这给公共安全带来了巨大的隐患.
密集人群计数任务在视频监视、交通控制和大都市安全方面应用广泛,各国研究人员开展了大量研究.
人群计数的方法还可以推广到其他领域的类似任务,例如医学中显微图像的细胞数量估计[1]、交通拥挤情况下的车辆估计[2]和广泛的生物样本调查[3]等.
一些早期的方法通过检测人群中的每个行人来解决人群计数问题[4],取得了一定的效果;但是在人群密集场景和严重遮挡场景下该方法效果会急剧下降.
因此,基于特征回归的文章编号:1001-9081(2021)02-0537-07DOI:10.
11772/j.
issn.
1001-9081.
2020060793收稿日期:20200610;修回日期:20200920;录用日期:20201009.
基金项目:国家自然科学基金资助项目(11872069).
作者简介:杜培德(1994—),男,山西浑源人,硕士研究生,主要研究方向:模式识别、智能控制;严华(1971—),男,四川渠县人,教授,博士,主要研究方向:模式识别、智能控制.
www.
joca.
cn第41卷计算机应用方法[5-7]被用来解决此问题.
回归方法通常学习一种从特征到人数的映射关系,通过提取前景特征学习一个线性回归或高斯过程回归来计数.
然而,这种回归方法学习到的是低级特征映射,当场景尺度和视角急剧变化时效果不佳.
近年来,卷积神经网络(ConvolutionalNeuralNetwork,CNN)[8-10]在计算机视觉领域的成功应用,为解决上述问题开拓了新的方法.
自密度图的思想在文献[2]中被提出以来,基于密度估计的方法已经在人群计数任务中占据了绝对优势.
使用深度卷积神经网络来估计密度图以及大规模可用数据集的提出[11-14]进一步提高了在更具挑战性的真实场景中进行人群计数的准确性.
人群计数的最新工作一直集中在深度神经网络新颖架构(例如多列CNN[15-16]和注意力机制)的设计上,以进行准确的密度图估计.
这些设计的动机通常是为了改进对比例变化的人群图像的泛化能力.
Zhang等[11]提出了一种具有多分支的多列卷积神经网络(Multi-columnConvolutionalNeuralNetwork,MCNN)体系结构,其中每个分支使用不同大小的滤波器,这些分支的特征被组合在一起以进行密度图估计.
Sam等[15]使用类似的想法设计了一种称为选择卷积神经网络(SwitchingConvolutionalNeuralNetwork,Switch-CNN)的架构.
Switch-CNN使用多个分支、不同大小的卷积核提取特征;但是,Switch-CNN并未连接所有分支的特征图,而是学习了一个分类器,该分类器预测输入图像的密度等级,然后使用此预测选择一个分支并使用该分支用于密度估计.
Sindagi等[16]提出了上下文金字塔卷积神经网络结构(ContextualPyramidCNN,CP-CNN),除了整个图像的全局密度等级外,CP-CNN还可以预测图像中的局部密度等级,将从全局和局部密度等级预测中获得的上下文信息进行组合,以进行最终密度估计.
陆金刚等[17]提出了多尺度多列卷积神经网络(Multi-scaleMulti-columnConvolutionalNeuralNetwork,MsMCNN),以多列卷积神经网络结构为主干,每列使用不同大小的卷积核;并将中间层特征图跳跃传递给后端的反卷积层,最后融合各分支特征图得到估计密度图.
以上方法均取得了一定进步,但Li等[18]提出的密集场景识别网络(CongestedSceneRecognitionNetwork,CSRNet)中指出,多列CNN中使用不同大小卷积核,各列提取到的特征相差不大,结构冗余复杂,且多列卷积网络训练困难、耗时长.
CSRNet使用深层卷积网络VGG-16(VisualGeometryGroup2016)[8]前10层作为特征提取器,后端使用7层扩张卷积作为回归器,在各个数据集上均表现最佳.
本文也将基于此网络做出改进.
近几年,注意力模型在各种计算机视觉任务中得到了广泛应用,可以有效提升模型的识别准确性.
使用注意力机制的卷积神经网络方法[19-23]在密集人群计数任务中也取得了一定的成果.
如陈美云等[19]提出的像素级注意力机制的人群计数方法(crowdcountingmethodbasedonPixel-levelAttentionMechanism,PAM).
首先使用全卷积神经网络生成像素级的密度等级掩码,然后将原图与密度图掩码共同传入反卷积网络回归得到估计密度图.
Zou等[22]提出了比例校准模块(ScaleRecalibrationModule,SRM)和比例聚焦模块(ScaleFocusModule,SFM).
SFM模块对不同卷积层特征图聚焦,使每个层可以聚焦于不同规模的行人;在SFM处理后将这些特征发送到SRM,以通过切片/堆栈策略重新分配规模感知特征图,最终回归出高质量密度图和准确人群数,取得了良好的效果.
但是,采用SFM模块会使每个层只聚焦于一种特定规模,这就隔离了各个层特征图之间的相关性,使得最终网络性能无法达到最佳.
本文设计了多尺度空间注意力特征融合网络(Multi-scalespatialAttentionFeaturefusionNetwork,MAFNet)来避免上述的问题.
由于深层特征图具有较大接受域,因此它带有可用于定位大尺寸头部的高级语义信息;由中间层生成的特征图在计算小尺寸头部时更准确、可靠,并且包含有关人群的空间分布信息;低层特征图则包含更多低级纹理的重要细节信息.
本文计划融合一个主干网络的三个不同阶段的特征图来降低网络的复杂度,实现特征融合,从而降低计算量,提高训练速度.
为了合理融合多层次特征,本文引入了轻量级基于通道方向和空间方向的注意力模块CBAM(ConvolutionalBlockAttentionModule)[24],避免了多尺度特征直接融合带来的混乱,保持了各层特征图的相关性,也加快了网络的收敛.
此外,为提高网络表现性能,本文提出了联合使用双损失函数的方式来训练网络,使人群计数准确度进一步提升.
实验结果验证了本文的方法在四个主要人群计数数据集(ShanghaiTech[11]、UCF_CC_50[13]、UCF-QNRF[14]和World-Expo'10[12])上达到人群计数误差最小.
综上所述,本文的主要工作如下:1)设计了一种多尺度空间注意力特征融合网络MAFNet用于人群计数,通过合并来自同一主干网络不同层的特征图来感知尺度变化和空间分布,使网络保留更多细节;2)引入通道空间注意力机制对融合特征图进行重新校准,提高特征图的聚焦能力,减少背景、噪声的影响,便于精准定位人头部位置;3)提出联合损失函数约束预测密度图与真值密度图的一致性,加快网络训练收敛速度,提高人群计数的准确度.
1本文模型MAFNet本章将介绍提出的多尺度空间注意力特征融合网络(MAFNet).
首先介绍用于密度图预测的主要网络结构;接着介绍多尺度特征融合结构和融合策略;然后介绍引入的通道空间注意力模块(CBAM)如何整合特征图的相关性,实现特征图聚焦能力,最后介绍提出的联合损失函数.
1.
1总体网络结构本文模型的主要目标是学习一个从原始图像到密度图的映射F:Desti(Ii)=F(Ii,θ);1融合网络,体系结构如图1所示.
与CSRNet相同,本文的主干网络也包括两部分:前端深层卷积网络(VGG)和后端扩张卷积网络.
选择VGG-16网络的前10层作为前端网络,并只保留3个池化层,其强大的特征提取能力和可调整的结构便于特征融合.
将7层扩张卷积层作为后端网络,利用其大范围接收野提取更深层的重要信息,且保持输出密度图的分辨率.
如图1所示,VGG网络和扩张卷积网络的详细设计如表1所示,其中,卷积层数字表示为:(层数)*(卷积核大小)*(卷积核大小)*(卷积核个数)conv-538www.
joca.
cn第2期杜培德等:基于多尺度空间注意力特征融合的人群计数网络(扩张因子).
此外,为了实现尺度感知能力,本文构建了多尺度特征融合结构,分别从前端VGG网络的三个阶段抽取特征图通过特征融合策略进行融合,融合后的特征图作为多尺度特征图.
在前端与后端模块之间的过渡区,分别对VGG特征图和多尺度特征图进行了通道空间注意力校准,并将二者进行逐像素地加和.
1.
2多尺度特征融合结构VGG网络的局限性在于它在整个图像上使用单向相同尺寸卷积核进行卷积编码.
为了解决这个问题,本文提出融合VGG的三个阶段特征来提取多尺度上下文信息实现尺度感知.
在VGG-16的前10层网络中,由于第一个卷积层的接收野太小,无法获得任何人群信息,因此首先从第一个池化层之后抽出一个浅层特征图分支,作为第一个特征融合分支F_64;从第二个池化层之后抽出一个中间层特征图分支,作为第二个特征融合分支F_128;从最后一个池化层之后抽出一个深层特征图分支,作为第三个特征融合分支F_256.
此时F_64的尺寸为[64,W/2,H/2]([通道数,宽,高]),F_128的尺寸为[128,W/4,H/4],F_256的尺寸为[256,W/8,H/8].
本文的融合策略是使用1*1*128conv-1(卷积核大小为1*1,卷积核个数为128,扩张因子为1)的卷积层将F_64扩容到[128,W/2,H/2],之后经过一个2*2maxpooling池化层,即图1中的EP操作(式(2)),得到特征图FF_1[128,W/4,H/4].
FF_1与F_128尺度相同,因此对二者先在通道维度上进行拼接,然后经过一个2*2maxpooling池化层,即图1中的CP操作(式(3)),得到特征图FF_2[256,W/8,H/8].
之后将FF_2与F_256在通道维度上进行最后的拼接,即C操作(式(4)),得到最终的融合特征图FF_3[512,W/8,H/8].
上述操作的公式化定义如下:FF_1=EP(F_64)(2)FF_2=CP(EP(F_64),F_128)(3)FF_3=C(FF_2,F_256)(4)融合特征FF_3和VGG网络的输出特征分别通过注意力模块,在通道维度和空间维度上重新整合上下文信息进行重新校准.
最后,再将校准后的两个特征图累加融合,此后送入扩张卷积网络回归得到密度图.
1.
3通道空间注意力模块1.
1节和1.
2节中VGG网络、扩张卷积网络和多尺度特征融合结构在模型的深度和感受野两方面提高了模型的泛化能力.
此外,注意力机制的引入能使模型更加关注重要特征而抑制不重要特征,本文引入注意力模块的方法为直接将该模块插入特征图传递路径上.
通道空间注意力模块结构如图2所示,本模块旨在从通道维度和全局空间维度上分别学习到目标特征和位置特征.
具体而言,就是给定一个中间特征图,本模块会沿着通道和空间两个维度依次推断出注意力权重,然后与原特征图相乘来对特征进行自适应调整.
具体公式表示如下:F'=Mc(F)F(5)F″=Ms(F')F'(6)其中:F∈RC*H*W,Mc∈RC*1*1,Ms∈R1*H*W,F是输入特征图,Mc是通道注意力操作,Ms是空间注意力操作,F'和F″分别是通道注意力和空间注意力的输出特征图;表示逐元素乘法.
MAFNet在尺度融合时将不同深度的特征图融合为了一组特征,而不同深度特征图的语义信息层次不同,也就是对不同大小人头的感知能力各不相同.
因此,注意力模块在通道维度作出调整,可以增加通道维度上的相关性,提高模型面对人群分布变化剧烈的场景的适应能力;注意力模块在空间维度上重新校准特征图,使特征图上人头位置的像素值更大,背景的像素值更小,提高了模型的背景抑制能力.
图2通道空间注意力模块Fig.
2Convolutionalblockattentionmodule1.
4联合损失函数现有的大多数研究都只使用均方误差损失作为人群计数图1MAFNet结构Fig.
1ArchitectureofMAFNet表1主干网络结构设计Tab.
1Architecturedesignofbackbonenetwork层号Cov1Cov2Cov3Cov4VGG网络2*3*3*64conv-12*2maxpooling2*3*3*128conv-12*2maxpooling3*3*3*256conv-12*2maxpooling3*3*3*512conv-1层号Cov5Cov6Cov7Cov8Cov9扩张卷积网络1*3*3*512conv-21*3*3*512conv-21*3*3*512conv-21*3*3*256conv-21*3*3*128conv-21*3*3*64conv-21*1*1*1conv-1539www.
joca.
cn第41卷计算机应用的损失函数,该损失函数可以约束预测密度图和真实密度图之间的像素级误差.
均方误差损失函数定义如下:L2=1N∑i=1NG(Xi;θ)-DGTi22(7)其中:N是一个批次的图像个数;G(Xi;θ)是使用网络参数θ对图像Xi预测的密度图;DGTi是图像Xi的真实密度图.
均方误差损失函数把目标值DGTi与模型输出(估计值)G(Xi;θ)作差后计算平方得到误差.
因此L2对离群点会异常敏感,使模型更偏向于离群点,对于密集人群图像中人群分布变化巨大的数据集会表现不佳.
而绝对值误差损失是目标值DGTi与模型输出(估计值)G(Xi;θ)差的绝对值作为误差,对离群点更加鲁棒,绝对值误差损失函数定义如下:L1=1N∑i=1N||G(Xi;θ)-DGTi(8)其中:N是一个批次的图像个数;G(Xi;θ)为使用网络参数θ对图像Xi预测的密度图;DGTi是图像Xi的真实密度图.
因此,本文提出联合使用均方误差损失和绝对值误差损失来约束预测密度图和真实密度图.
用L1能够对异常值更鲁棒,用L2能够更快地收敛,L2比L1能更快速收敛的原因在于预测值与目标值接近时,L2曲线更加平滑.
最终损失函数通过加权两个损失函数得到:Lfinal=L2+λL1(9)其中,λ是权衡均方误差损失和绝对值误差损失的权重,它是一个超参数.
2实验与结果分析2.
1训练细节2.
1.
1真实密度图生成为了获得地面真实密度图DGTi,根据文献[15]的方法,使用几何自适应的高斯核处理人群场景生成密度图.
假设在像素点xi处有一个点表示场景中的人头位置,用δ(x-xi)表示,通过使用高斯核模糊每个人头标注来计算出相应的真实密度图DGTi,即将δ函数与具有参数σi(标准差)的高斯核函数进行卷积.
密度图DGTi的生成可以表示为:DGTi=∑i=1Nδ(x-xi)*Gσi(x);σi=β-di(10)对于真实密度值δ中的目标物体xi,用-di表示其k近邻的平均距离.
在实验中,按照文献[11]中的配置,其中β=0.
3且k=3.
对于密集场景ShanghaiTech数据集的PartA,UCF_CC_50和UCF_QNRF使用自适应高斯核生成密度图;对于稀疏场景ShanghaiTech数据集的PartB和World_Expo'10使用固定高斯核生成密度图.
2.
1.
2训练方法使用与CSRNet相同的方法端到端地训练MAFNet.
其中,VGG-16网络的前10个卷积层导入了预训练模型参数,目的是提高训练速度;后面的7层扩张卷积层的初始值设置为标准偏差0.
01的高斯初始值.
训练期间,应用随机梯度下降(StochasticGradientDescent,SGD)优化器来训练MAFNet,学习率设为固定1E-7,且动量设为0.
95.
所有的实验均在Ubuntu16.
04系统下,使用Python3.
7在Pytorch框架下编码,在一块RTX2080TiGPU上训练.
2.
2实验评估2.
2.
1评估准则与大多数基于卷积神经网络的密集人群计数方法相同,使用平均绝对误差(MeanAbsoluteError,MAE)和均方误差(MeanSquareError,MSE)作为评估准则.
MAE反映了模型的准确性,而MSE反映了模型的稳健性,这些指标定义如下:RMAE=1N∑i=1N||Ci-CGTi(11)RMSE=1N∑i=1N||Ci-CGTi2(12)其中:N是测试集图像数量;Ci和CGTi分别是人群计数场景的预测密度图和真实密度图.
2.
2.
2数据集在四个公开数据集ShanghaiTech、UCF_CC_50、UCF_QNRF和World-Expo'10上进行实验,并与现有方法进行了对比,结果如表2所示.
选择对比的方法主要可以分为两类:一类为多列多尺度结构方法,一类为注意力机制方法.
其中多列卷积神经网络(MCNN)、选择卷积神经网络(Switch-CNN)、上下文金字塔神经网络(CP-CNN)、多尺度多列卷积神经网络(MsMCNN)以及尺度聚合网络SANet(ScaleAggregationNetworkforaccurateandefficientcrowdcounting)均是多列多尺度结构的方法;像素级注意力网络(PAM)、关系注意力网络RANet(RelationalAttentionNetworkforcrowdcounting)以及分级尺度校准网络HSRNet(crowdcountingviaHierarchicalScaleRecalibrationNetwork)是注意力机制的方法;扩张卷积神经网络(CSRNet)则是单列结构网络,本文在此基础上改进.
1)ShanghaiTech.
本数据集有1198张带标注的图像,包含330165个人.
其中482张较密集场景被划分为PartA,716张较稀疏场景被划分为PartB.
PartA包括482张图像,图像场景中人数变化范围从33到3139,其中,300张图像构成训练集,182张图像构成测试集;PartB有716张图片,人数变化范围从12到578,其中,400张图像构成训练集,316张构成测试集.
2)UCF_CC_50.
本数据集仅包含50张人数从94到4543不等的图像,这使其成为了人群计数任务中最有挑战性的数据集.
使用与文献[13]中相同的5倍交叉验证方法:将图像划分为5等份图像子集,每次选择4组作为训练集,剩余1组为测试集进行训练,最后给出5组结果的平均值.
3)UCF_QNRF.
本数据集有1535张图像,包含1151642个人,该数据集具有多种多样的场景,人群密度从49到12865不等,这使训练和预测都变得更加困难;而且,图像分辨率变化也非常大,导致人头尺寸急剧变化.
其中训练集由1201张图像组成,其余为测试集.
4)World-Expo'10.
它包含从108个不同监控设备中收集的3980张已标注视频序列图像.
其中,3380张作为训练集,剩余600张划分为5个场景作为测试集,每个图像均包含一个感兴趣区域(RegionOfInterest,ROI).
在本数据集上,本文方法实验结果展示了每个场景(Sce1~Sce5)的MAE以及所有540www.
joca.
cn第2期杜培德等:基于多尺度空间注意力特征融合的人群计数网络场景的平均值.
2.
2.
3结果分析如表2所示,对于ShanghaiTech数据集,本文方法与其他方法相比,在PartA中实现了较低的MAE和MSE.
MAFNet是基于CSRNet做出的改进,因此与CSRNet相比,在PartA中的MAE和MSE分别下降9.
4%和9.
9%;但比两种注意力机制方法RANet和HSRNet稍差,RANet方法使用了先进的自注意力机制,达到了所有方法中最低的MAE.
此外,本文在PartB的实验结果达到了所有方法中最低的MAE和MSE,人群计数准确率最高,与CSRNet相比MAE下降34.
9%,MSE下降29.
4%.
在UCF_CC_50数据集上,本文方法与CSRNet相比,MAE下降26.
1%,MSE下降26.
2%,与最好的RANet相比,MAE下降18.
0%,MSE下降8.
2%.
在最大的数据集也是头部大小变化最大的数据集UCF-QNRF上,本文方法也取得了最低计数误差,与现有最好方法RANet相比,MAE和MSE分别下降4.
5%和5.
3%.
与使用了相同注意力模块的方法HSRNet相比,在World-Expo'10数据集中,本文方法获得了更低的MAE.
上述数据表明了本文方法MAFNet无论是在拥挤的人群场景数据集中还是在稀疏的人群场景数据集均能达到较高的人群计数准确率.
从实验结果中也可以发现,所有多列多尺度方法实验结果均比注意力方法和单列结构差,说明多列结构提取到的特征信息相似度较高,单纯多列结构无法整合多尺度特征,对实验性能提升不大.
本文则采用从单列结构中提取多尺度特征的策略,并引入注意力机制整合多尺度特征,这样既减少了多列结构带来的计算量,也避免了多尺度特征融合的混乱,所以优于多数方法.
此外,如图3所示,本文方法MAFNet也可以产生更加精细的预测密度图.
在图中展示的四个场景中,有两个非常密集的场景和两个相对稀疏的场景,本文方法均能生成与真实密度图几乎相同的密度图,估计出更加接近真实人数的数字.
这表明,本文方法在抑制背景干扰和保持细节方面的性能优越.
如图4所示,图(a)是从ShanghaiTech的PartA提取的一张原始图像,图(b)是对应的真实密度图,图(c)是MAFNet生成的预测密度图,(d)是CSRNet生成的预测密度图.
针对标注框内区域,本文方法预测密度图(c)的细节更加精细,背景和前景区分的轮廓更加明显,而CSRNet网络的预测密度图(d)则相对模糊.
如图5所示,图(a)展示了三种具有复杂背景的场景,图像1的背景有路灯、大量气球以及遮阳伞;图像2的背景中有一块亮斑,而且是夜景照片;图像3的背景包含茶杯、大量树叶、汽车以及遮阳伞等.
图(b)是使用本文方法生成的预测密度图,可以看出:图像1中所有的气球、路灯和遮阳伞所在位表2不同方法在公开数据集上的MAE与MSE结果比较Tab.
2ComparisononMAEandMSEofdifferentmethodsonpublicdatasets方法MCNN[11]SwitchCNN[15]CP-CNN[16]MsMCNN[17]CSRNet[18]SANet[25]PAM[19]RANet[26]HSRNet[22]本文方法ShanghaiTechPartAMAE110.
290.
473.
689.
168.
267.
068.
859.
462.
361.
8MSE173.
2135.
0106.
4142.
8115.
0104.
5108.
5102.
0100.
3103.
6PartBMAE26.
421.
620.
120.
310.
68.
49.
77.
97.
26.
9MSE41.
333.
430.
137.
216.
013.
615.
312.
911.
811.
3UCF_CC_50MAE377.
6318.
1295.
8383.
5266.
1258.
4—239.
8—196.
7MSE509.
1439.
2320.
9513.
0397.
5334.
9—319.
4—293.
3UCF-QNRFMAE277228—————111—106MSE426445—————190—180World-Expo'10Sce1MAE3.
44.
42.
9—2.
92.
62.
6—2.
31.
8Sce220.
615.
714.
7—11.
513.
214.
7—9.
613.
8Sce312.
910.
010.
5—8.
69.
09.
3—12.
79.
0Sce413.
011.
010.
4—16.
613.
312.
5—9.
48.
4Sce58.
15.
95.
8—3.
43.
03.
5—3.
23.
4Avg11.
69.
48.
9—8.
68.
28.
5—7.
47.
3图3本文方法针对不同场景图生成的预测密度图和真实密度图对比Fig.
3Comparisonresultsofestimateddensitymapgeneratedbytheproposedmethodandgroundtruthdensitymapfordifferentsceneimages图4MAFNet与CSRNet的密度图细节对比Fig.
4ComparisonofdensitymapdetailsofMAFNetandCSRNet541www.
joca.
cn第41卷计算机应用置均被预测为背景;图像2中右上角的亮斑在密度图中也被预测为背景;图像3中上部存在大量树叶,树叶在密集场景下是人群计数任务中最大的干扰背景,但在密度图中也未被误识别.
3消融实验最后,分别从网络结构和超参数两个方面做消融实验,验证多尺度特征融合结构、注意力模块和联合损失函数的有效性.
消融实验是深度学习方法验证网络模型各子结构对精度提升有效性的最好方式.
首先,在ShanghaiTech数据集上,针对多尺度特征融合结构和注意力模块进行消融实验.
由于本文方法是在CSRNet基础之上的改进,因此本文的消融实验在CSRNet上依次添加多尺度特征融合结构(Multi-scaleFuturefusionstructure,MF)和注意力模块(CBAM).
最后,CSRNet+MF+CBAM就是本文的网络MAFNet,实验结果如表3所示.
如表3所示,CSRNet增加多尺度融合结构可以使PartA数据集的MAE下降2.
9%,MSE下降6.
3%,使PartB数据集的MAE下降31.
3%,MSE下降25.
6%,而且多尺度融合结构对PartB数据集的性能改善更大;CSRNet增加注意力模块使PartA数据集的MAE下降2.
3%,MSE下降10.
5%,使PartB数据集的MAE下降26.
4%,MSE下降18.
7%;当CSRNet增加多尺度特征融合结构和注意力模块时性能提升明显,使PartA的MAE下降7.
0%,MSE下降11.
4%,使PartB的MAE下降32.
1%,MSE下降28.
1%.
由此可见,多尺度特征融合结构与注意力模块结合可以使模型达到最低计数误差.
表3在ShanghaiTech数据集上的网络结构消融实验Tab.
3AblationexperimentofnetworkstructureonShanghaiTechdataset方法CSRNetCSRNet+MFCSRNet+CBAMCSRNet+MF+CBAMPartAMAE68.
266.
266.
663.
4MSE115.
0107.
8102.
9101.
9PartBMAE10.
67.
37.
87.
2MSE16.
011.
913.
011.
5在1.
4节提出了联合损失函数,针对不同数据集使用了不同的λ值来加权L1和L2.
在ShanghaiTech数据集上就λ值开展消融实验,结果如表4所示.
由表4中PartA数据显示,在λ=0.
2时,MAE下降到最低,相对于CSRNet下降9.
4%,MSE下降9.
9%;在λ=0时,MAE下降7.
0%,而MSE达到最低,下降11.
4%;λ=0.
2的MAE相较λ=0下降2.
5%,λ=0的MSE相较λ=0.
2下降1.
6%.
因此本文选择λ=0.
2的作为最佳结果.
PartB数据显示,在λ=0.
5时,可以达到最低的MAE和MSE,相较于CSRNet分别下降34.
9%、29.
4%.
以上结果表明,联合使用加权后的L1和L2作为损失函数可以有效提升人群计数的准确率.
而且实验结果表明,针对不同的数据集应该设置不同的λ值,表5中显示了实验中不同数据集设置为如下λ值时,本文方法在各数据集上可以达到最高人群计数准确率.
4结语本文提出了一种多尺度空间注意力特征融合网络(MAFNet)模型,该模型基于CSRNet增加了多尺度特征融合结构,并引入了通道空间注意力机制.
其中,VGG-16网络结构、扩张卷积、多尺度结构和注意力机制四个组成部分扩大了尺度感知的多样性和特征的接受范围,增强了模型抑制背景和保留细节信息的能力,可以解决各种复杂场景下的人群计数问题,在计算图像中人数的方法中表现良好.
此外,本文提出联合使用两种基本损失函数的方法来训练模型,提高了模型的泛化能力.
本文方法在四个公开数据集上相比其他方法达到了较高的人群计数准确率.
尽管如此,本文方法在ShanghaiTech数据集的PartA上仍然表现不佳,对比RANet之后认为原因在于在密集场景下MAFNet对场景内全局元素和局部元素相关性整合度不够.
接下来的工作将考虑使用更深的网络来做进一步的研究.
参考文献(References)[1]FRENCHG,FISHERM,MACKIEWICZM,etal.
Convolutionalneuralnetworksforcountingfishinfisheriessurveillancevideo[C]//Proceedingsofthe2015WorkshoponMachineVisionofAnimalsandTheirBehavior.
Durham:BMVAPress,2015:7.
[2]LEMPITSKYV,ZISSERMANA.
Learningtocountobjectsinimages[C]//Proceedingsofthe23rdInternationalConferenceonNeuralInformationProcessing.
RedHook:CurranAssociatesInc.
,2010:1324-1332.
表4在ShanghaiTech数据集上的λ值消融实验Tab.
4AblationexperimentofλonShanghaiTechdataset方法CSRNet+L2MAFNet+L2+L1MAFNet+L2+L1MAFNet+L2+L1MAFNet+L2+L1λ0.
00.
20.
50.
7PartAMAE68.
263.
461.
862.
663.
9MSE115.
0101.
9103.
6104.
7105.
5PartBMAE10.
67.
27.
06.
97.
1MSE16.
011.
511.
811.
311.
4表5各数据集设置的λ值Tab.
5Valuesofλfordifferentdatasets数据集ShanghaiTech_PartA[15]ShanghaiTech_PartB[15]UCF_CC_50[17]λ0.
20.
50.
5数据集UCF_QNRF[18]World-Expo'10[16]λ0.
00.
1图5MAFNet在复杂背景场景下的预测密度图Fig.
5EstimateddensitymapsofMAFNetincomplexbackgroundscenes542www.
joca.
cn第2期杜培德等:基于多尺度空间注意力特征融合的人群计数网络[3]GUERRERO-GMEZ-OLMEDOR,TORRE-JIMNEZB,LPEZ-SASTRER,etal.
Extremelyoverlappingvehiclecounting[C]//Proceedingofthe2015IberianConferenceonPatternRecognitionandImageAnalysis,LNCS9117.
Cham:Springer,2015:423-431.
[4]IDREESH,SOOMROK,SHAHM.
Detectinghumansindensecrowdsusinglocally-consistentscalepriorandglobalocclusionreasoning[J].
IEEETransactionsonPatternAnalysisandMachineIntelligence,2015,37(10):1986-1998.
[5]CHENK,LOYCC,GONGS,etal.
Featureminingforlocalisedcrowdcounting[C]//Proceedingofthe2012BritishMachineVisionConference.
Durham:BMVAPress,2012:No.
21.
[6]CHANAB,VASCONCELOSN.
BayesianPoissonregressionforcrowdcounting[C]//ProceedingsoftheIEEE12thInternationalConferenceonComputerVision.
Piscataway:IEEE,2009:545-551.
[7]RYAND,DENMANS,FOOKESC,etal.
Crowdcountingusingmultiplelocalfeatures[C]//Proceedingofthe2009DigitalImageComputing:TechniquesandApplications.
Piscataway:IEEE,2009:81-88.
[8]SIMONYANK,ZISSERMANA.
Verydeepconvolutionalnetworksforlarge-scaleimagerecognition[EB/OL].
[2019-12-01].
https://arxiv.
org/pdf/1409.
1556.
pdf.
[9]CHOLLETF.
Xception:deeplearningwithdepthwiseseparableconvolutions[C]//Proceedingofthe2017IEEEConferenceonComputerVisionandPatternRecognition.
Piscataway:IEEE,2017:1800-1807.
[10]KRIZHEVSKYA,SUTSKEVERI,HINTONG.
ImageNetclassificationwithdeepconvolutionalneuralnetworks[J].
CommunicationsoftheACM,2017,60(6):84-90.
[11]ZHANGY,ZHOUD,CHENS,etal.
Single-imagecrowdcountingviamulti-columnconvolutionalneuralnetwork[C]//Proceedingsofthe2016IEEEConferenceonComputerVisionandPatternRecognition.
Piscataway:IEEE,2016:589-597.
[12]ZHANGC,LIH,WANGX,etal.
Cross-scenecrowdcountingviadeepconvolutionalneuralnetworks[C]//Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition.
Piscataway:IEEE,2015:833-841.
[13]IDREESH,SALEEMII,SEIBERTC,etal.
Multi-sourcemulti-scalecountinginextremelydensecrowdimages[C]//Proceedingsofthe2013IEEEConferenceonComputerVisionandPatternRecognition.
Piscataway:IEEE,2013:2547-2554.
[14]IDREESH,TAYYABM,ATHREYK,etal.
Compositionlossforcounting,densitymapestimationandlocalizationindensecrowds[C]//Proceedingsofthe2018EuropeanConferenceonComputerVision.
Berlin:Springer,2018:544-559.
[15]SAMDB,SURYAS,BABURV.
Switchingconvolutionalneuralnetworkforcrowdcounting[C]//Proceedingsofthe2017IEEEConferenceonComputerVisionandPatternRecognition.
Piscataway:IEEE,2017:4031-4039.
[16]SINDAGIVA,PATELVM.
Generatinghigh-qualitycrowddensitymapsusingcontextualpyramidCNNs[C]//Proceedingsofthe2017IEEEInternationalConferenceonComputerVision.
Piscataway:IEEE,2017:1879-1888.
[17]陆金刚,张莉.
基于多尺度多列卷积神经网络的密集人群计数模型[J].
计算机应用,2019,39(12):3445-3449.
(LUJG,ZHANGL.
Crowdcountingmodelbasedonmulti-scalemulti-columnconvolutionalneuralnetwork[J].
JournalofComputerApplications,2019,39(12):3445-3449.
)[18]LIY,ZHANGX,CHEND.
CSRNet:dilatedconvolutionalneuralnetworksforunderstandingthehighlycongestedscenes[C]//Proceedingsofthe2018IEEE/CVFConferenceonComputerVisionandPatternRecognition.
Piscataway:IEEE,2018:1091-1100.
[19]陈美云,王必胜,曹国,等.
基于像素级注意力机制的人群计数方法[J].
计算机应用,2020,40(1):56-61.
(CHENMY,WANGBS,CAOG,etal.
Crowdcountingmethodbasedonpixel-levelattentionmechanism[J].
JournalofComputerApplications,2020,40(1):56-61.
)[20]ZHUL,ZHAOZ,LUC,etal.
Dualpathmulti-scalefusionnetworkswithattentionforcrowdcounting[EB/OL].
[2019-12-10].
https://arxiv.
org/pdf/1902.
01115.
pdf.
[21]ZHANGY,ZHOUC,CHANGF,etal.
Multi-resolutionattentionconvolutionalneuralnetworkforcrowdcounting[J].
Neurocomputing,2018,329:144-152.
[22]ZOUZ,LIUY,XUS,etal.
Crowdcountingviahierarchicalscalerecalibrationnetwork[EB/OL].
[2020-02-01].
https://arxiv.
org/pdf/2003.
03545.
pdf.
[23]VARIORRR,SHUAIB,TIGHEJ,etal.
Multi-scaleattentionnetworkforcrowdcounting[EB/OL].
[2020-02-01].
https://arxiv.
org/pdf/1901.
06026.
pdf.
[24]WOOS,PARKJ,LEEJY,etal.
CBAM:convolutionalblockattentionmodule[C]//Proceedingsofthe2018EuropeanConferenceonComputerVision,LNCS11211.
Cham:Springer,2018:3-19.
[25]CAOX,WANGZ,ZHAOY,etal.
Scaleaggregationnetworkforaccurateandefficientcrowdcounting[C]//Proceedingsofthe2018EuropeanConferenceonComputerVision,LNCS11209.
Cham:Springer,2018:757-773.
[26]ZHANGA,SHENJ,XIAOZ,etal.
Relationalattentionnetworkforcrowdcounting[C]//Proceedingsofthe2019IEEE/CVFInternationalConferenceonComputerVision.
Piscataway:IEEE,2019:6787-6796.
ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(11872069).
DUPeide,bornin1994,M.
S.
candidate.
Hisresearchinterestsincludepatternrecognition,intelligentcontrol.
YANHua,bornin1971,Ph.
D.
professor.
Hisresearchinterestsincludepatternrecognition,intelligentcontrol.
543www.
joca.
cn

展开全文

卷积融合网络相关文档

iobit cisco2960配置cisco4506与2960的vlan配置 360防火墙在哪里360防火墙文档下载请问手机版wps如何把云文档下载到手机上的本地文档？泉州商标注册请问泉州商标注册要怎么办理？在哪办理？站点管理电脑怎么进入管理员模式，怎么联系站点管理员 discuz7.0discuz7.0如何升级到discuz x2.0 dz论坛DZ论坛Discuz论坛如何DIY门户首页和论坛首页帝国cms教程如何使用帝国CMS网站管理系统仿制网站？论坛勋章论坛勋章设置天津虚拟主机国内vps 河南vps 中文域名交易中心 t楼 arvixe omnis 鲨鱼机账号泄露英语简历模板word 魔兽世界台湾服务器华为网络硬盘 ftp教程空间论坛 hkg 美国在线代理服务器免费dns解析广州虚拟主机 lamp是什么意思阿里云个人邮箱更多

卷积融合网络

ATCLOUD.NET-OVH海外高防云主机，采用KVM架构，稳定安全且便宜好用，仅3刀起

Sharktech：无限流量服务器丹佛，洛杉矶，荷兰$49/月起，1Gbps带宽哦！

LetBox：美国洛杉矶/新泽西AMD大硬盘VPS，10TB流量，充值返余额，最低3.3美元两个月