卷积卷积神经网络

卷积神经网络  时间:2021-02-25  阅读:()
第40卷计算机学报Vol.
402017年论文在线出版号No.
7月CHINESEJOURNALOFCOMPUTERSOnlinePublishingNo.
7周飞燕,女,1986年生,博士研究生,主要研究领域为计算机辅助心血管疾病诊断.
E-mail:fyzhou2013@sinano.
ac.
cn.
金林鹏,男,1984年生,博士,主要研究领域为机器学习.
董军(通讯作者),男,1964年生,博士,研究员,博士生导师,主要研究领域为人工智能.
卷积神经网络研究综述周飞燕1),2)金林鹏1),2)董军1)1)(中国科学院苏州纳米技术与纳米仿生研究所,苏州市216123)2)(中国科学院大学,北京市100049)摘要作为一个十余年来快速发展的崭新领域,深度学习受到了越来越多研究者的关注,它在特征提取和模型拟合上都有着相较于浅层模型显然的优势.
深度学习善于从原始输入数据中挖掘越来越抽象的分布式特征表示,而这些表示具有良好的泛化能力.
它解决了过去人工智能中被认为难以解决的一些问题.
且随着训练数据集数量的显著增长以及芯片处理能力的剧增,它在目标检测和计算机视觉、自然语言处理、语音识别和语义分析等领域成效卓然,因此也促进了人工智能的发展.
深度学习是包含多级非线性变换的层级机器学习方法,深层神经网络是目前的主要形式,其神经元间的连接模式受启发于动物视觉皮层组织,而卷积神经网络则是其中一种经典而广泛应用的网络结构.
卷积神经网络的局部连接、权值共享及池化操作等特性使之可以有效地降低网络的复杂度,减少训练参数的数目,使模型对平移、扭曲、缩放具有一定程度的不变性,并具有强鲁棒性和容错能力,且也易于训练和优化网络结构.
基于这些优越的特性,它在各种信号和信息处理任务中的性能优于标准的全连接神经网络.
本文首先概述了卷积神经网络的发展历史,然后分别描述了神经元模型、多层感知器的结构.
接着,详细分析了卷积神经网络的结构,包括卷积层、取样层、全连接层,它们发挥着不同的作用.
然后,讨论了网中网结构、空间变换网络等改进的卷积神经网络.
同时,还分别介绍了卷积神经网络的监督学习、无监督学习训练方法以及一些常用的开源工具.
此外,本文以图像分类、人脸识别、音频检索、心电图分类及目标检测等为例,对卷积神经网络的应用作了归纳.
卷积神经网络与递归神经网络的集成是一个途径.
为了给读者以尽可能多的借鉴,本文还设计并试验了不同参数及不同深度的卷积神经网络以图把握各参数间的相互关系及不同参数设置对结果的影响.
最后,给出了卷积神经网络及其应用中待解决的若干问题.
关键词卷积神经网络;深度学习;网络结构;训练方法;领域数据中图法分类号TP81论文引用格式:周飞燕,金林鹏,董军,卷积神经网络研究综述,2017,Vol.
40,在线出版号No.
7ZHOUFei-Yan,JINLin-Peng,DONGJun,ReviewofConvolutionalNeuralNetwork,2017,Vol.
40,OnlinePublishingNo.
7ReviewofConvolutionalNeuralNetworkZHOUFei-Yan1)2)JINLin-Peng1)2)DONGJun1)1)(SuzhouInstituteofNano-techandNano-bionics,ChineseAcademyofSciences,Suzhou215123)2)(UniversityofChineseAcademyofSciences,Beijing100049)AbstractAsanewandrapidlygrowingfieldformorethantenyears,deeplearninghasgainedmoreandmoreattentionsfromdifferentresearchers.
Comparedwithshallowarchitectures,ithasgreatadvantageinbothfeatureextractingandmodelfitting.
Anditisverygoodatdiscoveringincreasinglyabstractdistributedfeaturerepresentationswhosegeneralizationabilityisstrongfromtherawinputdata.
Italsohassuccessfullysolvedsomeproblemswhichwereconsidereddifficulttosolveinartificialintelligenceinthepast.
Furthermore,with2计算机学报2017年theoutstandinglyincreasedsizeofdatausedfortrainingandthedrasticincreasesinchipprocessingcapabilities,thismethodtodayhasresultedinsignificantprogressandbeenusedinabroadareaofapplicationssuchasobjectdetection,computervision,naturallanguageprocessing,speechrecognitionandsemanticparsingandsoon,thusalsopromotingtheadvancementofartificialintelligence.
Deeplearningwhichconsistsofmultiplelevelsofnon-lineartransformationsisahierarchicalmachinelearningmethod.
Anddeepneuralnetworkisthemainformofthepresentdeeplearningmethodinwhichtheconnectivitypatternbetweenitsneuronsisinspiredbytheorganizationoftheanimalvisualcortex.
Convolutionalneuralnetworkthathasbeenwidelyusedisaclassickindofdeepneuralnetwork.
Thereareseveralcharacteristicssuchaslocalconnections,sharedweights,poolingetc.
Thesefeaturescanreducethecomplexityofthenetworkmodelandthenumberoftrainingparameters,andtheyalsocanmakethemodelcreatingsomedegreeofinvariancetoshift,distortionandscaleandhavingstrongrobustnessandfaulttolerance.
Soitiseasytotrainandoptimizeitsnetworkstructure.
Basedonthesepredominantcharacteristics,ithasbeenshowntooutperformthestandardfullyconnectedneuralnetworksinavarietyofsignalandinformationprocessingtasks.
Inthispaper,firstofall,thehistoricaldevelopmentofconvolutionalneuralnetworkissummarized.
Afterthat,thestructuresofaneuronmodelandmultilayerperceptronareshown.
Lateron,adetailedanalysisoftheconvolutionalneuralnetworkarchitecturewhichiscomprisedofanumberofconvolutionallayersandpoolinglayersfollowedbyfullyconnectedlayersisgiven.
Differentkindsoflayersinconvolutionalneuralnetworkarchitectureplaydifferentroles.
Then,afewimprovedalgorithmssuchasnetworkinnetworkandspatialtransformernetworksofconvolutionalneuralnetworkaredescribed.
Meanwhile,thesupervisedlearningandunsupervisedlearningmethodofconvolutionalneuralnetworkandsomewidelyusedopensourcetoolsareintroduced,respectively.
Inaddition,theapplicationofconvolutionalneuralnetworkonimageclassification,facerecognition,audioretrieve,electrocardiogramclassification,objectdetection,andsoonisanalyzed.
Integratingofconvolutionalneuralnetworkandrecurrentneuralnetworktotraininputteddatacouldbeanalternativemachinelearningapproach.
Finally,differentconvolutionneuralnetworkstructureswithdifferentparametersanddifferentdepthsaredesigned.
Throughaseriesofexperiments,therelationsbetweentheseparametersinthesemodelsandtheinfluenceofdifferentparametersettingsareready.
Someadvantagesandremainedissuesofconvolutionalneuralnetworkanditsapplicationsareconcluded.
Keywordsconvolutionalneuralnetwork;deeplearning;networkstructure;trainingmethod;domaindata1引言人工神经元网络(ArtificialNeuralNetwork,ANN)是对生物神经网络的一种模拟和近似,是由大量神经元通过相互连接而构成的自适应非线性动态网络系统.
1943年,心理学家McCulloch和数理逻辑学家Pitts提出了神经元的第一个数学模型—MP模型[1].
MP模型具有开创意义,为后来的研究工作提供了依据.
到了上世纪50年代末、60年代初,Rosenblatt在MP模型的基础之上增加学习功能,提出了单层感知器模型,第一次把神经网络的研究付诸实践[2-3].
但是单层感知器网络模型不能够处理线性不可分问题.
直至1986年,Rumelhart和Hinton等提出了一种按误差逆传播算法训练的多层前馈网络—反向传播网络(BackPropagationNetwork,简称BP网络),解决了原来一些单层感知器所不能解决的问题[4].
由于在90年代,各种浅层机器学习模型相继被提出,较经典的如支持向量机[5].
而且当增加神经网络的层数时传统的BP网络会遇到局部最优、过拟合及梯度扩散等问题,这些使得深度模型的研究被搁置.
2006年,Hinton等人[6]在《Science》上发文,其主要观点有:1)多隐层的人工神经网络具有优异的特征学习能力;2)可通过"逐层预训练"(layer-wisepre-training)来有效克服深层神经网络在训练上的困难,从此引出了深度学习(DeepLearning)的研究,同时也掀起了人工神经网络的又一热潮[7].
在深度学习的逐层预训练算法中首先将无监督学习应用于网络每一层的预训练,每次只无监督训练一层,并将该层的训练结果作为其下一论文在线出版号No.
7周飞燕等:卷积神经网络研究综述3层的输入,然后再用有监督学习(BP算法)微调预训练好的网络[8-10].
这种深度学习预训练方法在手写体数字识别或者行人检测中,特别是当标注样本数量有限时能使识别效果或者检测效果得到显著提升[11].
Bengio[12]系统地介绍了深度学习所包含的网络结构和学习方法.
目前,常用的深度学习模型有深度置信网络(DeepBeliefNetwork,DBN)[13-16]、层叠自动去噪编码机(StackedDeoisingAutoencoders,SDA)[17-18]、卷积神经网络(ConvolutionalNeuralNetwork,CNN)[19-20]等.
2016年1月28日,英国《Nature》杂志以封面文章形式报道:谷歌旗下人工智能公司深灵(DeepMind)开发的AlphaGo以5比0战胜了卫冕欧洲冠军—本以为大概十年后人工智能才能做到[21].
AlphaGo主要采用价值网络(valuenetworks)来评估棋盘的位置,用策略网络(policynetworks)来选择下棋步法,这两种网络都是深层神经网络模型,AlphaGo所取得的成果是深度学习带来的人工智能的又一次突破,这也说明了深度学习具有强大的潜力.
事实上,早在2006年以前就已有人提出一种学习效率很高的深度学习模型—卷积神经网络.
在上世纪80、90年代,一些研究者发表了CNN的相关研究工作,且在几个模式识别领域尤其是手写数字识别中取得了良好的识别效果[22-23].
然而此时的CNN只适合做小图片的识别,对于大规模数据,识别效果不佳[7].
直至2012年,Krizhevsky等使用扩展了深度的CNN在ImageNet大规模视觉识别挑战竞赛(ImageNetLargeScaleVisualRecognitionChallenge,LSVRC)中取得了当时最佳的分类效果,使得CNN越来越受到研究者们的重视[24].
2卷积神经网络概述2.
1神经元神经元是人工神经网络的基本处理单元,一般是多输入单输出的单元,其结构模型如下图1所示:图1神经元模型其中,表示输入信号,n个输入信号同时输入神经元j.
表示输入信号与神经元j连接的权重值,表示神经元的内部状态即偏置值,为神经元的输出.
输入与输出之间的对应关系可用下式表示:(1)为激励函数,其选择可以有很多种,可以是线性纠正函数(rectifiedlinearunit,ReLU)[25],sigmoid函数、tanh(x)函数、径向基函数等[26].
2.
2多层感知器多层感知器(MultilayerPerceptron,MLP)是由输入层、隐含层(一层或者多层)及输出层构成的神经网络模型,它可以解决单层感知器不能解决的线性不可分问题.
图2是含有2个隐含层的多层感知器网络拓扑结构图.
图2多层感知器结构图输入层神经元接收输入信号,隐含层和输出层的每一个神经元与之相邻层的所有神经元连接,即全连接,同一层的神经元间不相连.
图2中,有箭头的线段表示神经元间的连接和信号传输的方向,且每个连接都有一个连接权值.
隐含层和输出层中每一个神经元的输入为前一层所有神经元输出值的加权和.
假设是MLP中第层第个神经元的输入值,和分别为该神经元输出值和偏置值,为该神经元与第层第个神经元的连接权值,则有:(2)(3)当多层感知器用于分类时,其输入神经元个数为输入信号的维数,输出神经元个数为类别数,隐含层个数及隐层神经元个数视具体情况而定.
但在实际应用中,由于受到参数学习效率影响,一般使用不超过3层的浅层模型.
BP算法可分为两个阶4计算机学报2017年段:前向传播和后向传播,其后向传播始于MLP的输出层.
以图2为例,则损失函数为[27]:(4)其中第层为输出层,为输出层第个神经元的期望输出,对损失函数求一阶偏导,则网络权值更新公式为:(5)其中,为学习率.
2.
3卷积神经网络1962年,生物学家Hubel和Wiesel通过对猫脑视觉皮层的研究,发现在视觉皮层中存在一系列复杂构造的细胞,这些细胞对视觉输入空间的局部区域很敏感,它们被称为"感受野"[28].
感受野以某种方式覆盖整个视觉域,它在输入空间中起局部作用,因而能够更好地挖掘出存在于自然图像中强烈的局部空间相关性.
文献[28]将被称为感受野的这些细胞分为简单细胞和复杂细胞两种类型.
根据Hubel-Wiesel的层级模型,在视觉皮层中的神经网络有一个层级结构:LGB(外侧膝状体)→简单细胞→复杂细胞→低阶超复杂细胞→高阶超复杂细胞[29].
低阶超复杂细胞与高阶超复杂细胞之间的神经网络结构类似于简单细胞和复杂细胞间的神经网络结构.
在该层级结构中,处于较高阶段的细胞通常会有这样一个倾向:对刺激模式更复杂的特征进行选择性响应;同时也具有一个更大的感受野,对刺激模式位置的移动也更不敏感.
1980年,Fukushima根据Huble和Wiesel的层级模型提出了结构与之类似的神经认知机(Neocognitron)[29].
神经认知机采用简单细胞层(S-layer,S层)和复杂细胞层(C-layer,C层)交替组成,其中S层与Huble-Wiesel层级模型中的简单细胞层或者低阶超复杂细胞层相对应,C层对应于复杂细胞层或者高阶超复杂细胞层.
S层能够最大程度地响应感受野内的特定边缘刺激,提取其输入层的局部特征,C层对来自确切位置的刺激具有局部不敏感性.
尽管在神经认知机中没有像BP算法那样的全局监督学习过程可利用,但它仍可认为是CNN的第一个工程实现网络,卷积和下采样分别受启发于Hubel-Wiesel概念的简单细胞和复杂细胞,它能够准确识别具有位移和轻微形变的输入模式[29-30].
随后,LeCun等基于Fukushima的研究工作使用误差梯度回传方法设计并训练了CNN(该模型称为LeNet-5),LeNet-5是经典的CNN结构,后续有许多工作基于此进行改进,它在一些模式识别领域中取得了良好的分类效果[19].
CNN的基本结构由输入层、卷积层、取样层、全连接层及输出层构成.
卷积层和取样层一般会取若干个,采用卷积层和取样层交替设置,即一个卷积层连接一个取样层,取样层后再连接一个卷积层,依此类推.
由于卷积层中输出特征面的每个神经元与其输入进行局部连接,并通过对应的连接权值与局部输入进行加权求和再加上偏置值,得到该神经元输入值,该过程等同于卷积过程,卷积神经网络也由此而得名[19].
2.
3.
1卷积层卷积层(convolutionallayer)由多个特征面(FeatureMap)组成,每个特征面由多个神经元组成,它的每一个神经元通过卷积核与上一层特征面的局部区域相连.
卷积核是一个权值矩阵(如对于二维而言可为3*3或5*5矩阵)[19,31].
CNN的卷积层通过卷积操作提取输入的不同特征,第一层卷积层提取低级特征如边缘、线条、角落,更高层的卷积层提取更高级的特征①.
为了能够更好的理解CNN,下面以一维CNN(1DCNN)为例,2D和3DCNN可依此进行拓展.
图3所示为1DCNN的卷积层和取样层结构示意图,最顶层为取样层,中间层为卷积层,最底层为卷积层的输入层.
图3.
卷积层与取样层结构示意图由图3可看出卷积层的神经元被组织到各个特征面中,每个神经元通过一组权值被连接到上一层特征面的局部区域,即卷积层中的神经元与其输入层中的特征面进行局部连接[11].
然后将该局部加权和传递给一个非线性函数如ReLU函数即可获得①SamerHijazi,RishiKumar,ChrisRowen,etal.
Usingconvolutionalneuralnetworksforimagerecognition.
http://ip.
cadence.
com/uploads/901/cnn_wp-pdf2016,9,22论文在线出版号No.
7周飞燕等:卷积神经网络研究综述5卷积层中每个神经元的输出值.
在同一个输入特征面和同一个输出特征面中,CNN的权值共享,如图3所示,权值共享发生在同一种颜色当中,不同颜色权值不共享.
通过权值共享可以减小模型复杂度,使得网络更易于训练.
以图3中卷积层的输出特征面1和其输入层的输入特征面1为例,,而,其中表示输入特征面m第i个神经元与输出特征面n第j个神经元的连接权值.
此外卷积核的滑动步长即卷积核每一次平移的距离也是卷积层中一个重要的参数.
在图3中,设置卷积核在上一层的滑动步长为1,卷积核大小为1*3.
CNN中每一个卷积层的每个输出特征面的大小(即神经元的个数)oMapN满足如下关系[32]:(6)其中,iMapN表示每一个输入特征面的大小,CWindow为卷积核的大小,CInterval表示卷积核在其上一层的滑动步长.
通常情况下,要保证(6)式能够整除,否则需对CNN网络结构作额外处理.
每个卷积层可训练参数数目CParams满足下式[32]:(7)oMap为每个卷积层输出特征面的个数,iMap为输入特征面个数.
1表示偏置,在同一个输出特征面中偏置也共享.
假设卷积层中输出特征面n第k个神经元的输出值为,而表示其输入特征面m第h个神经元的输出值,以图3为例,则[32]:(8)上式中,为输出特征面n的偏置值.
为非线性激励函数.
在传统的CNN中,激励函数一般使用饱和非线性函数(saturatingnonlinearity)如sigmoid函数,tanh函数等.
相比较于饱和非线性函数,不饱和非线性函数(non-saturatingnonlinearity)能够解决梯度爆炸/梯度消失问题,同时其也能够加快收敛速度[33].
Jarrett等[34]探讨了卷积网络中不同的纠正非线性函数(rectifiednonlinearity,包括max(0,x)非线性函数),通过实验发现它们能够显著提升卷积网络的性能,文献[25]也验证了这一结论[25].
因此在目前的CNN结构中常用不饱和非线性函数作为卷积层的激励函数如ReLU函数.
ReLU函数的计算公式如下所示[24-25]:(9)图4中红色的为ReLU曲线,蓝色为tanh曲线.
对于ReLU而言,如果输入大于0,则输出与输入相等,否则输出为0.
从图4可以看出,使用ReLU函数,输出不会随着输入的逐渐增加而趋于饱和图4ReLU与tanh函数曲线图Chen在其报告中分析了影响CNN性能的3个因素:层数、特征面的数目及网络组织①.
该报告使用9种结构的CNN进行中文手写体识别实验,通过统计测试结果得到具有较小卷积核的CNN结构的一些结论:1)增加网络的深度能够提升准确率;2)增加特征面的数目也可以提升准确率;3)增加一个卷积层比增加一个全连接层能获得一个更高的准确率.
文献[35]指出深度网络结构具有两个优点:1)可以促进特征的重复利用;2)能够获取高层表达中更抽象的特征,由于更抽象的概念可根据抽象性更弱的概念来构造,因此深度结构能够获取更抽象的表达,例如在CNN中通过池化操作来建立这种抽象,更抽象的概念通常对输入的大部分局部变化具有不变性.
He等人[36]探讨了在限定计算复杂度和时间上如何平衡CNN网络结构中深度、特征面数目、卷积核大小等因素的问题.
文献[36]首先研究了深度(Depth)与卷积核大小间的关系,采用较小的卷积核替代较大的卷积核,同时增加网络深度来增加复杂度,通过实验结果表明网络深度比卷积核大小更重要;当时间复杂度大致相同时,具有更小卷积核且深度更深的CNN结构比具有更大卷积核同时深度更浅的CNN结构能够获得更好的实验结果.
其次,该文献也研究了网络深度和特征面数目间的关系,CNN网络结构设置为:在增加网络深度时适当减少特征面的数目,同时卷积核的大小保持不变,实验结果表明,深度越深,网络的性能越好;然而随着深度的增加,网络性能也达到饱和.
此外,该文献还通过固定网络深度研究了特征面数目和卷积核大小间的关系,通过实验对比,发现特征面数目和卷积核大小的优先级差不多,其发挥的作用均没有网络深度大.
由于过度①ChenXu.
ConvolutionneuralnetworksforChinesehandwritingrecognition,http://cs231n.
stanford.
edu/reports2016/428_Report.
pdf2016,9,226计算机学报2017年地减小特征面的数目或者卷积核大小会损害网络的准确性,同时过度地增加网络深度也会降低网络准确性,因此如果网络深度很深,那么准确性会达到饱和甚至下降.
在CNN结构中,深度越深、特征面数目越多,则网络能够表示的特征空间也就越大、网络学习能力也越强,然而也会使网络的计算更复杂,极易出现过拟合的现象.
因而,在实际应用中应当适当选取网络深度、特征面数目、卷积核的大小及卷积时滑动的步长,以使训练能够获得一个好的模型同时还能减少训练时间.
2.
3.
2取样层取样层(poolinglayer,也称为池化层)紧跟在卷积层之后,同样由多个特征面组成,它的每一个特征面唯一对应于其上一层的一个特征面,不会改变特征面的个数.
如图3,卷积层是取样层的输入层,卷积层的一个特征面与取样层中的一个特征面唯一对应,且取样层的神经元也与其输入层的局部接受域相连,不同神经元局部接受域不重叠.
取样层旨在通过降低特征面的分辨率来获得具有空间不变性的特征[37].
取样层起到二次提取特征的作用,它的每个神经元对局部接受域进行池化操作.
常用的池化方法有最大池化(max-pooling)即取局部接受域中值最大的点、均值池化(meanpooling)即对局部接受域中的所有值求均值、随机池化(stachasticpooling)[38-39].
文献[40]给出了关于最大池化和均值池化详细的理论分析,通过分析得出以下一些预测:1)最大池化特别适用于分离非常稀疏的特征;2)使用局部区域内所有的采样点去执行池化操作也许不是最优的,例如均值池化就利用了局部接受域内的所有采样点.
文献[41]比较了最大池化和均值池化两种方法,通过实验发现:当分类层采用线性分类器如线性SVM时,最大池化方法比均值池化能够获得一个更好的分类性能.
随机池化方法是对局部接受域采样点按照其值大小赋予概率值,再根据概率值大小随机选择,该池化方法确保了特征面中不是最大激励的神经元也能够被利用到[37].
随机池化具有最大池化的优点,同时由于随机性它能够避免过拟合.
此外,还有混合池化(mixedpooling)、空间金字塔池化(spatialpyramidpooling)、频谱池化(spectralpooling)等池化方法[37].
在通常所采用的池化方法中,取样层的同一个特征面不同神经元与上一层的局部接受域不重叠,然而也可以采用重叠池化(overlappingpooling)的方法.
所谓重叠池化方法就是相邻的池化窗口间有重叠区域.
文献[24]采用重叠池化框架使top-1和top-5的错误率分别降低了0.
4%和0.
3%,与无重叠池化框架相比,其泛化能力更强,更不易产生过拟合.
设取样层中第n个输出特征面第l个神经元的输出值为,同样以图3为例,则有[32]:(10)表示取样层的第n个输入特征面第q个神经元的输出值,可为取最大值函数、取均值函数等.
取样层在上一层滑动的窗口也称为取样核.
事实上,CNN中的卷积核与取样核相当于Hubel-Wiesel模型[28]中感受野在工程上的实现,卷积层用来模拟Hubel-Wiesel理论的简单细胞,取样层模拟该理论的复杂细胞.
CNN中每个取样层的每一个输出特征面的大小(神经元个数)DoMapN为[33]:(11)其中,取样核的大小为DWindow,在图3中DWindow=2.
取样层通过减少卷积层间的连接数量,即通过池化操作神经元数量减少,降低了网络模型的计算量.
2.
3.
3全连接层在CNN结构中,经多个卷积层和取样层后,连接着1个或1个以上的全连接层.
与MLP类似,全连接层中的每个神经元与其前一层的所有神经元进行全连接.
全连接层可以整合卷积层或者取样层中具有类别区分性的局部信息[42].
为了提升CNN网络性能,全连接层每个神经元的激励函数一般采用ReLU函数[43].
最后一层全连接层的输出值被传递给一个输出层,可以采用softmax逻辑回归(softmaxregression)进行分类,该层也可称为softmax层(softmaxlayer).
对于一个具体的分类任务,选择一个合适的损失函数是十分重要的,文献[37]介绍了CNN几种常用的损失函数并分析了它们各自的特点.
通常,CNN的全连接层与MLP结构一样,CNN的训练算法也多采用BP算法.
当一个大的前馈神经网络训练一个小的数据集时,由于它的高容量,它在留存测试数据(held-outtestdata,也可称为校验集)上通常表现不佳[30].
为论文在线出版号No.
7周飞燕等:卷积神经网络研究综述7了避免训练过拟合,常在全连接层中采用正则化方法—dropout技术即使隐层神经元的输出值以0.
5的概率变为0,通过该技术部分隐层节点失效,这些节点不参加CNN的前向传播过程,也不会参加后向传播过程[24,30].
对于每次输入到网络中的样本,由于dropout技术的随机性,它对应的网络结构不相同,但是所有的这些结构共享权值[24].
由于一个神经元不能依赖于其它特定神经元而存在,所以这种技术降低了神经元间相互适应的复杂性,使神经元学习得到更鲁棒的特征[24].
目前,关于CNN的研究大都采用ReLU+dropout技术,并取得了很好的分类性能[24,44-45].
2.
3.
4特征面特征面数目作为CNN的一个重要参数,它通常是根据实际应用进行设置的,如果特征面个数过少,可能会使一些有利于网络学习的特征被忽略掉,从而不利于网络的学习;但是如果特征面个数过多,可训练参数个数及网络训练时间也会增加,这同样不利于学习网络模型.
文献[46]提出了一种理论方法用于确定最佳的特征面数目,然而该方法仅对极小的接受域有效,它不能够推广到任意大小的接受域.
该文献通过实验发现:与每层特征面数目均相同的CNN结构相比,金字塔架构(该网络结构的特征面数目按倍数增加)更能有效利用计算资源.
目前,对于CNN网络特征面数目的设定通常采用的是人工设置方法,然后进行实验并观察所得训练模型的分类性能,最终根据网络训练时间和分类性能来选取特征面数目.
2.
3.
5CNN结构的进一步说明CNN的实现过程实际上已经包含了特征提取过程,以图5、图6为例直观地显示CNN提取的特征.
文献[47]采用CNN进行指纹方向场评估,图5为其模型结构.
图5共有3个卷积层(C1,C3,C5)、2个取样层(M2,M4)、1个全连接层(F6)和1个输出层(O7).
卷积层通过卷积操作提取其前一层的各种不同的局部特征,由图5可看出,C1层提取输入图像的边缘、轮廓特征,可看成是边缘检测器.
取样层的作用是在语义上把相似的特征合并起来,取样层通过池化操作使得特征对噪声和变形具有鲁棒性[11].
从图上可看出,各层所提取的特征以增强的方式从不同角度表现原始图像,并且随着层数的增加,其表现形式越来越抽象[48].
全连接层F6中的每个神经元与其前一层进行全连接,该层将前期所提取的各种局部特征综合起来,最后通过输出层得到每个类别的后验概率.
从模式分类角度来说,满足Fisher判别准则的特征最有利于分类,通过正则化方法(dropout方法),网络参数得到有效调整,从而使全连接层提取的特征尽量满足Fisher判别准则,最终有利于分类[48].
图6给出了CNN提取心电图(electrocardiogram,ECG)特征的过程,首先通过卷积单元A1、B1、C1(其中每个卷积单元包括一个卷积层和一个取样层)提取特征,最后由全连接层汇总所有局部特征.
由图中也可以看出,层数越高,特征的表现形式也越抽象,显然,这些特征并没有临床诊断的物理意义,仅仅是数理值[48].
图5指纹经过CNN的中间层输出特征[47]图6ECG经过CNN的中间层输出特征[48]2.
3.
6与传统的模式识别算法相比卷积神经网络的本质就是每一个卷积层包含一定数量的特征面或者卷积核[46].
与传统MLP相比,CNN中卷积层的权值共享使网络中可训练的参数变少,降低了网络模型复杂度,减少过拟合,从而获得了一个更好的泛化能力[49].
同时,在CNN结构中使用池化操作使模型中的神经元个数大大减少,对输入空间的平移不变性也更具有鲁棒性,[49].
而且CNN结构的可拓展性很强,它可以采用很深的层数.
深度模型具有更强的表达能力,它能够处理更复杂的分类问题.
总的来说,CNN的局部连接、权值共享和池化操作使其比传统MLP具有更少的连接和参数,从而更易于训练.
3CNN的一些改进算法3.
1NIN结构CNN中的卷积滤波器是一种广义线性模型(GeneralizedLinearModel,GLM),GLM的抽象水平比较低,但通过抽象却可以得到对同一概念的不同变体保持不变的特征[50].
Lin等人[50]提出了一8计算机学报2017年种NetworkInNetwork(NIN)网络模型,该模型使用微型神经网络(microneuralnetwork)代替传统CNN的卷积过程,同时还采用全局平均取样层来替换传统CNN的全连接层,它可以增强神经网络的表示能力.
微神经网络主要是采用MLP模型,如下图7所示.
图7中,(a)图是传统CNN的线性卷积层,(b)图是NIN结构的非线性卷积层,是用MLP来取代原来的GLM.
NIN通过在输入中滑动微型神经网络得到卷积层的特征面.
与卷积的权值共享类似,MLP对同一个特征面的所有局部感受野也共享,即对于同一个特征面MLP相同.
文献[50]之所以选择MLP,是考虑到MLP采用BP算法进行训练,能与CNN结构融合,同时MLP也是一种深度模型,具有特征重用的思想.
MLP卷积层能够处理更复杂的非线性问题,提取更加抽象的特征.
在传统的CNN结构中全连接层的参数过多,易于过拟合,因此它严重依赖于dropout正则化技术.
NIN结构采用全局平均池化代替原来的全连接层,使模型的参数大大减少.
它通过全局平均池化方法对最后一个MLP卷积层的每个特征面求取均值,再将这些数值连接成向量,最后输入到softmax分类层中.
全局平均池化可看成是一个结构性的正则化算子(structuralregularizer),它可以增强特征面与类别的一致性.
在全局平均取样层中没有需要优化的参数,因此能够避免过拟合.
此外,全局平均取样层对空间信息进行求和,因此对输入的空间变化具有更强的鲁棒性.
Lin等人[50]将该算法应用于MNIST及SVHN等数据集中,验证了该算法的有效性.
Xu等人[51]结合NIN结构提出了ML-DNN模型,使用与文献[50]相同的数据库,与稀疏编码等方法比较,表明了该模型的优越性.
3.
2空间变换网络尽管CNN已经是一个能力强大的分类模型,但是它仍然会受到数据在空间上多样性的影响.
Jaderberg等人[52]采用一种新的可学习模块—空间变换网络(SpatialTransformerNetworks,STNs)来解决此问题,该模块由三个部分组成:本地化网络(localisationnetwork)、网格生成器(gridgenerator)及采样器(sampler).
STNs可用于输入层,也可插入到卷积层或者其它层的后面,不需要改变原CNN模型的内部结构.
STNs能够自适应地对数据进行空间变换和对齐,使得CNN模型对平移、缩放、旋转或者其它变换等保持不变性.
此外,STNs的计算速度很快,几乎不会影响原有CNN模型的训练速度.
3.
3反卷积由Zeiler[53]等人提出的反卷积网络(DeconvolutionalNetworks)模型与CNN的思想类似,只是在运算上有所不同.
CNN是一种自底而上的方法,其输入信号经过多层的卷积、非线性变换和下采样处理.
而反卷积网络中的每层信息是自顶而下的,它对由已学习的滤波器组与特征面进行卷积后得到的特征求和就能重构输入信号.
随后,Zeiler采用反卷积网络可视化CNN中各网络层学习得到的特征,以利于分析并改进CNN网络结构[54].
反卷积网络也可看成是一个卷积模型,它同样需要进行卷积和池化过程,不同之处在于与CNN是一个逆过程.
文献[54]模型中的每一个卷积层都加上一个反卷积层.
在卷积、非线性函数(ReLU)、池化(max-pooling)后,不仅将输出的特征作为下一层的输入,也将它送给对应的反卷积层.
反卷积层需要依次进行unpooling(采用一种近似的方法求max-pooling的逆过程)、矫正(使用非线性函数来保证所有输出均为非负数)及反卷积操作(利用卷积过程中卷积核的转置作为核,与矫正后的特征作卷积运算),然后形成重构特征.
通过反卷积技术可视化CNN各网络层学习到的特征,Zeiler还得出以下结论:CNN学习到的特征对于平移和缩放具有不变性,但是对于旋转操作一般不具有该特性,除非被识别对象具有很强的对称性[54].
Zhao[55]等人提出了一个新的称为SWWAE的结构,SWWAE模型由卷积结构及反卷积结构组成,采用卷积结构对输入进行编码,而反卷积结构用来进行重构.
SWWAE的每一个阶段是一个"内容—位置"(what-where)自动编码机,编码机由一个卷积层及紧随其后的一个max-pooling层组成,通过max-pooling层产生两个变量集:max-pooling的输出记为what变量,它作为下一层的输入;将max-pooling的位置信息记为where变量,where变量要横向传递到反卷积结构中.
SWWAE的损失函数包含三个部分(判别损失,重构损失及中间重构损失).
SWWAE在各种半监督和有监督任务中取得了很高的准确率,它特别(a)线性卷积层(b)MLP卷积层图7线性卷积层与MLP卷积层对比[50]论文在线出版号No.
7周飞燕等:卷积神经网络研究综述9适用于具有大量无标注类别而有标注类别相对少的数据集的情况,该模型也可能适用于与视频相关的任务[55].
4训练方法及开源工具4.
1训练方法虽然通常都认为如果没有无监督预训练,对深度神经网络进行有监督训练是非常困难的,但CNN却是一个特例,它可直接执行有监督学习训练[12].
CNN通过BP算法进行有监督训练,也需经过前向传播和后向传播两个阶段[19].
CNN开始训练之前,需要采用一些不同的小随机数对网络中所有的权值和偏置值进行随机初始化.
使用"小随机数"以保证网络不会因为权过大而进入饱和状态,从而导致训练失败;"不同"用来保证网络可正常地学习训练,如果使用相同的数值初始化权矩阵,那么网络将无能力学习[56].
随机初始化的权值和偏置值的范围可为[-0.
5,0.
5]或者[-1,1](或者是其它合适的区间)[57].
在实际应用中,无标注的数据远多于有标注的数据,同时对数据进行人工标注也需要耗费较大的人力.
但是为了使有监督CNN得到充分的训练并获得较好的泛化能力,又需要大量有标注的训练样本,这一定程度上制约了CNN在实际中的应用.
这也是有监督学习的一个缺欠.
事实上,CNN也可以进行无监督训练.
现存的一些无监督学习算法一般都需要调整很多超参数(hyperparameter),这使得它们难以被利用,对此Ngiam[58]等人提出了一种只需调整一个超参数的无监督学习算法—稀疏滤波(sparsefiltering).
稀疏滤波只优化一个简单的代价函数—L2范数稀疏约束特征,从而得到好的特征表示.
在稀疏滤波中,其特征分布矩阵具有如下特点:样本分布稀疏性(populationsparsity)、高分散性(highdispersal)、存在稀疏(lifetimesparsity).
文中指出可将稀疏滤波用于深度网络模型中,先用稀疏滤波训练得到一个单层的归一化特征,然后将它们作为第二层的输入来训练第二层,依此类推.
通过实验,发现使用稀疏滤波贪心算法逐层训练,可学习到一些很有意义的特征表示.
Dong[59]等人将稀疏滤波应用于CNN的无监督学习,同时使用该CNN模型识别交通工具类型.
在文献[59]中,采用稀疏滤波作为预训练,并将CNN学习到的高级全局特征和低级局部特征输入到Softmax层中进行分类.
随后,Dong[60]等人又采用一种半监督学习CNN用于交通工具类型识别中.
文中采用大量无标注的数据无监督训练卷积层的卷积核,该无监督算法为稀疏拉普拉斯滤波器,再用一定量的有标注数据有监督训练CNN输出层的参数,最后通过BIT-Vehicle数据库验证该CNN模型的可行性.
如果数据集中只有少量的标注数据,同时还需要训练一个大的CNN网络,传统的做法是首先进行无监督预训练,然后再采用有监督学习(如BP算法)进行微调(fine-tuning).
显性训练是传统的神经网络训练方法,其最大特点是训练过程中有一部分样本不参与CNN的误差反向传播过程,将该部分样本称为校验集.
在显性训练过程中,为了防止发生过拟合现象,每隔一定时间就用当前分类模型测试校验样本,这也表明了校验集中样本选取的好坏会影响最终分类模型的性能.
在CNN分类模型中,为了增加训练样本数,可采用"平移起始点"和"加躁"这两种技术[61].
不妨以一个采样点数为1*1900的一维信号为例,设置起始点的范围为[1,200],训练过程中,每个样本随机选定一个起始点,截取其后连续的1700个点作为网络的输入参与BP训练过程,则CNN的输入维数为1*1700,显然起始点不同,截取所得的子段也不同.
在文献[48]的校验集中,每幅ECG的起始点均为1,实际上起始点也可以不一样,但是在CNN的整个训练过程中,必须保持该校验集不变,同时校验集和训练集完全没有交集,其样本为来自不同病人的不同记录.
此外,只要对类别的最终判断没有影响,也可通过加躁处理或者对原始数据做某种扭曲变换从而达到增加训练样本的目的.
在某些应用领域如计算机辅助ECG分析,不同的ECG记录或者一维信号也可能存在一些表现相似的ECG记录或者一维信号.
如果校验样本不典型,即该校验集没有包含全部有差异的个体,则训练所得的分类模型就会存在偏差.
由于受到一些现实条件的影响,人工挑选校验样本也并非是件易事.
因此在CNN的分类过程中,还可以采用隐性训练方法.
与显性训练相比,隐性训练方法与它主要的区别是怎样检验当前的分类模型.
隐性训练方法从整个训练集中取出一小部分样本用于校验:用于校验的这部分样本不做加躁处理,并且对于每一个样本都截取起始点固定的子段.
在实际应用中,这两种训练方法各有优势.
通过实验表明,这种平移起始点和加躁技术对分类性能的提升有很大的10计算机学报2017年帮助,尤其是对于数据不平衡的分类问题[61].
4.
2开源工具深度学习能够广泛应用于众多研究领域,离不开许多优秀的开源深度学习仿真工具.
目前常用的深度学习仿真工具有Caffe[62]①、Torch②③及Theano[63]④等.
Caffe是一个基于c++语言、且关于CNN相关算法的架构,它具有出色的CNN实现.
Caffe可以在CPU及GPU上运行,它支持MATLAB和Python接口.
Caffe提供了一个完整的工具包,用于训练、测试、微调及部署模型.
Caffe允许用户对新数据格式、网络层和损失函数进行拓展;它的运行速度也很快,在单个K40或者TitanGPU上一天可以训练超过4千万张图像;用户还可以通过Caffe社区参与开发与讨论.
尽管Caffe可进行许多拓展,但是由于一些遗留的架构问题,它不善于处理递归神经网络(RecurrentNeuralNetwork,RNN)模型,且Caffe的灵活性较差.
Torch是一个支持机器学习算法的科学计算框架.
它是采用Lua脚本语言和C语言编写的.
Torch为设计和训练机器学习模型提供了一个灵活的环境,它还可支持iOS、Android等嵌入式平台.
最新版本Torch7使CNN的训练速度得到大幅度提升.
对于Torch的时域卷积,其输入长度可变,这非常有助于自然语言任务.
但Torch没有Python接口.
Theano是一个允许用户定义、优化并评价数学表达式的python库.
Theano提供了NumPy的大部分功能,可在GPU上运行.
此外,Theano能够自动求微分,它尤其适用于基于梯度的方法.
Theano能够很容易且高效地实现RNN模型.
然而Theano的编译过程很慢,导入Theano也需要消耗时间.
Bahrampour[64]等从可拓展性、硬件利用率及速度方面对Caffe、Torch、Theano、Neon⑤及TensorFlow⑥等5个深度学习软件架构作了比较.
其中Caffe、Torch及Theano是最广泛使用的软件架构.
这五个软件架构均可在CPU或者GPU上运行,但是Neon不能使用多线程CPU,Caffe需要在安装的时候确定好CUP的线程数,TensorFlow、Torch及Theano则可以灵活地选择CPU线程数[64].
文献[64]通过实验发现:Torch与Theano是两个最具有拓展性的架构,不仅支持各种深度结构,还支持各种库;在CPU上,对于任一深度网络结构的训练和部署,Torch表现最优,其次是Theano,Neon的性能最差;在GPU上训练卷积和全连接网络,对于小网络模型Theano的训练速度最快,对于较大的网络模型则是Torch最快,而对于大的卷积网络Neon也非常有竞争力;在GPU上训练和部署RNN模型,Theano的性能最好;Caffe最易于评价标准深度结构的性能;与Theano类似,TensorFlow也是非常灵活的架构,但是它在单个GPU上的性能不如其它几个架构.
表1总结了Caffe、Torch及Theano所具有的一些特点⑦.
Theano没有预训练的CNN模型,所以在Theano上不能直接进行CNN无监督预训练.
表1不同软件包的一些特点架构CaffeTorchTheano编写语言C++,PythonLua,CPython开源是是是接口命令行,Python,MatlabLua,LuaJIT,CPython硬件CPU,GPUCPU,GPU,FPGACPU,GPU平台Linux,OSX,Windows,Ubuntu,AWS,AndroidLinux,Andriod,MacOSX,iOS,Windows可跨平台适合模型CNNCNN,RNN,DBNCNN,RNN,DBN预训练CNN模型有有无①Caffe[Online],http//caffe.
berkeleyvision.
org/,2016,9,22②Torch[Online],http://torch.
ch/,2016,9,22③Torch7[Online],https://github.
com/torch/torch7,2016,9,22④Theano[Online],https://github.
com/Theano/Theano,2016,9,22⑤Neon[Online],https://github.
com/yelite/neon,2016,9,225实际应用⑥TensorFlow[Online],https://www.
tensorflow.
org/,2016,9,22⑦Compasionofdeeplearningsoftware[Online],https://en.
wikipedia.
org/wiki/Comparison_of_deep_learning_software,2016,9,22论文在线出版号No.
7周飞燕等:卷积神经网络研究综述115.
1图像分类近年来,CNN已被广泛应用于图像处理领域中.
Krizhevsky等人[24]第一次将CNN用于LSVRC-12竞赛中,通过加深CNN模型的深度并采用ReLU+dropout技术,取得了当时最好的分类结果(该网络结构也被称为AlexNet).
AlexNet模型中包含5个卷积层和2个全连接层.
与传统CNN相比:在AlexNet中采用ReLU代替饱和非线性函数tanh函数,降低了模型的计算复杂度,模型的训练速度也提升了几倍;通过dropout技术在训练过程中将中间层的一些神经元随机置为零,使模型更具有鲁棒性,也减少了全连接层的过拟合;而且还通过图像平移、图像水平镜像变换、改变图像灰度等方式来增加训练样本,从而减少过拟合.
相比于AlexNet,Szegedy等人[65]大大增加了CNN的深度,提出了一个超过20层的CNN结构(称为GoogLeNet).
在GoogLeNet结构中采用了3种类型的卷积操作(1*1,3*3,5*5),该结构的主要特点是提升了计算资源的利用率,它的参数比文献[24]少了12倍,而且GoogLeNet的准确率更高,在LSVRC-14中获得了图像分类"指定数据"组的第一名.
Simonyan等人[66]在其发表的文章中探讨了"深度"对于CNN网络的重要性.
该文通过在现有的网络结构中不断增加具有3*3卷积核的卷积层来增加网络的深度,实验表明,当权值层数达到16-19时,模型的性能能够得到有效提升(文中的模型也称为VGG模型).
VGG模型用具有小卷积核的多个卷积层替换一个具有较大卷积核的卷积层(如用大小均为3*3卷积核的三层卷积层代替一层具有7*7卷积核的卷积层),这种替换方式减少了参数的数量,而且也能够使决策函数更具有判别性.
VGG模型在LSVRC-14竞赛中,得到了图像分类"指定数据"组的第二名,证明了深度在视觉表示中的重要性.
但是由于VGG与GoogLeNet的深度都比较深,所以网络结构比较复杂,训练时间长,而且VGG还需要多次微调网络的参数.
AlexNet模型、GoogLeNet模型与VGG模型都在ImageNet竞赛中取得了很好的结果,然而它们只能接受固定大小的输入.
事实上,CNN的卷积层不需要固定大小的输入,它可以产生任意大小的特征面,但是它的全连接层需要固定长度的输入,因此CNN的输入大小需保持一致的这一限制是源于它的全连接层[67].
为了获得固定大小的输入,需要对输入图像进行裁剪或者缩放,但是这样的变换会破坏输入图像的纵横比及完整的信息等,从而影响识别的准确率.
He等[67]等人提出一种SPP-net模型,该模型是在CNN的最后一个卷积层与第一个全连接层中间加入一个空间金字塔池化(spatialpyramidpooling,SPP)层.
SPP层能够使CNN不同大小的输入却产生大小相同的输出,打破了以往CNN模型的输入均为固定大小的局限,且该改进的CNN模型训练速度较快,在LSVRC-14的图像分类比赛中获得第三名.
在层级很深的深度网络模型中,除了存在梯度扩散问题外,还存在着退化问题.
批规范化(BatchNormalization,BN)是解决梯度扩散问题的一种有效方法[68].
所谓退化问题就是:随着深度的增加,网络精度达到饱和,然后迅速下降.
且该性能的下降不是由过拟合引起的,而是增加网络的深度使得它的训练误差也随之增加[69].
文献[69]采用残差网络(ResidualNetworks,ResNet)来解决退化问题.
ResNet的主要特点是跨层连接,它通过引入捷径连接技术(ShortcutConnections)将输入跨层传递并与卷积的结果相加.
在ResNet中只有一个取样层,它连接在最后一个卷积层后面.
ResNet使得底层的网络能够得到充分训练,准确率也随着深度的加深而得到显著提升.
将深度为152层的ResNet用于LSVRC-15的图像分类比赛中,它获得了第一名的成绩.
在该文献中,还尝试将ResNet的深度设置为1000,并在CIFAR-10图像处理数据集中验证该模型.
AlexNet与VGG模型的网络结构为直线型,它们的输入都是从第一个卷积层按单个路径直接流入最后一层.
在BP训练中预测误差是由最顶层传递到底层的,对于很深的网络模型传递至底层的误差很小,难以优化底层参数[70].
因此,对于AlexNet与VGG模型,如果它们的深度很深,则将难以优化它们的结构.
为了使网络结构能够得到有效训练,GoogLeNet在多个中间层中加入监督信号.
ResNet则通过捷径连接技术使得输入可以通过多个路径流入最顶层,它大幅度降低了更深层模型的训练难度.
如何有效地训练层级很深的深度网络模型仍旧是一个有待好好研究的问题.
尽管图像分类任务能够受益于层级较深的卷积网络,但一些方法还是不能很好地处理遮挡或者运动模糊等问题.
Mishkin等人[71]系统地比较了近年来在ImageNet竞赛的大数据中不同CNN结构(包括12计算机学报2017年VGG、GoogLeNet)的性能及不同参数选取对CNN结构的影响.
文中通过实验得到以下一些建议:1)对于激励函数,可选取没有BN的指数线性单元(ExponentialLinearUnit,ELU)[37,71]或者有BN的ReLU非线性函数;2)在取样层中采用平均池化及最大值池化的和比随机池化、单独的平均池化或者最大池化等方法要好;3)相比较于平方根学习率衰减方法(squareroot)、平方学习率衰减方法(square)或者阶跃学习率衰减方法(step),使用线性学习率衰减方法(linear)更好;4)最小批量大小(mini-batchsize)可取128或者256左右,如果这对于所用GPU而言还是太大,那么可按批量大小(batchsize)成比例减少学习率;5)目前深度学习的性能高度依赖于数据集的大小.
如果训练集大小小于它的最小值,那么模型性能会迅速下降.
因此当研究增加训练集大小时,需要检查数据量是否已达到模型所需的最小值;6)由于要人工标注大数据是不切实际的,因此可以用免费的、可用的噪声标注数据(噪声标注表示该数据的标注不一定正确)代替,然而实验表明数据的整洁性比数据量大小更重要;7)如果不能增加输入图像的大小,那么可以减小其后卷积层中的滑动步长,这样也能够得到大致相同的结果.
5.
2人脸识别在人脸识别中,传统的识别路线包括4个步骤:检测-对齐-人脸表示-分类.
DeepFace[72]也遵循这一技术路线,但是对人脸对齐和人脸表示阶段进行了改进.
在DeepFace中首先对图像进行3D人脸对齐,再输入到深度神经网络中.
DeepFace的前3层(2个卷积层及1个取样层)用于提取低级特征(如边缘及纹理信息).
取样层能够使得网络对微小偏移更具有鲁棒性,但是为了减少信息的丢失,DeepFace的取样层只有1层,其紧跟在第一个卷积层后面.
DeepFace的第二个卷积层后紧连着3个局部连接层(这3个局部连接层卷积核不共享),由于在对齐的人脸图像中不同的区域有不同的局部统计特征,采用不共享的卷积核可减少信息的丢失.
DeepFace具有2个全连接层,全连接层可用来捕获人脸图像不同位置的特征之间(如人眼的位置与形状、嘴巴的位置与形状)的相关性.
该模型应用于户外人脸检测数据库(LabeledFacesintheWild,LFW)中,文献[72]取得的人脸识别准确率为97.
35%,接近人眼辨识准确率97.
53%,文中所用方法克服了以往方法的缺点和局限性.
然而DeepFace的参数个数多于1.
2亿,其中95%参数来自3个局部连接层及2个全连接层,因此DeepFace对有标注样本的数量要求较高,它需要一个大的有标注数据集.
在DeepID[73]、DeepID2[74]之后,Sun等人又相继提出了DeepID2+[75]、DeepID3[76].
DeepID2+继承了DeepID2的结构,它也包含4个卷积层(其中第四个卷积层权值不共享),且每个卷积层后均紧随着一个取样层,并作了3个方面的改进:1)加大网络结构,每个卷积层的特征面个数增加到了128个,最终的特征表示也增加到了512维;2)增加了训练数据;3)一个具有512维的全连接层均与每一个取样层进行全连接,且每一取样层都添加监督信号(由人脸辨识信号和人脸确认信号组成),使用监督信号既能够增加类间变化又能够减少类内变化.
DeepID2+在LFW上的准确率达到了99.
47%.
DeepID2+具有3个重要的属性:1)它的顶层神经元响应是中度稀疏的,即使将神经元二值化后,仍能获得较好的识别结果,该性质能够最大化网络的辨识能力及图像间的距离;2)高层的神经元对人脸身份以及人脸属性具有很高的选择性;3)高层神经元对局部遮挡具有良好的鲁棒性.
以往的许多研究工作为了获得这些引人注目的属性,通常需要对模型加入一些显性的约束,但是DeepID2+通过大数据训练深度模型就能够自动地得到这些属性[75].
DeepID2+的提出不仅能够显著提升人脸识别的性能,还能够帮助人们理解深度模型及其网络连接,且对稀疏表示、属性学习和遮挡处理等研究也起一定的指导作用[75].
Sun等人[76]分别重建了VGG网络和GoogLeNet网络,得到DeepID3net1网络和DeepID3net2网络(将它们称为DeepID3).
DeepID3继承了DeepID2+的一些特点,包括在最后几个特征提取层中它们的权值也不共享,并且为了使网络能够更好地学习中级特征及更易于训练,在网络的一些中间层中也要加入人脸辨识-人脸确认监督信号.
然而DeepID3的深度更深,且它的非线性特征提取层可达10-15层.
通过结合DeepID3net1网络和DeepID3net2网络,在LFW上DeepID3的人脸识别准确率为99.
53%.
尽管DeepID3的深度要比DeepID2+深,但是它要比VGG或者GoogLeNet深度浅得多.
然而当更正了LFW上一些标注错误的数据后,它的准确率与DeepID2+一样,还需在更大的训练集上进一步研究很深的深度模型的有效性.
论文在线出版号No.
7周飞燕等:卷积神经网络研究综述13FaceNet[77]是由Google公司提出的一种人脸识别模型,它直接学习从人脸图像到紧致欧式空间的一个映射,使欧式距离直接关联着人脸相似度的一个度量.
FaceNet是一个端对端的学习方法,它通过引入三元组损失函数进行人脸验证、识别和聚类.
FaceNet直接优化与任务相关的三元组损失函数,在训练过程中该损失不仅仅用在最后一层,它也用于多个层中.
然而如果选择不合适的三元组损失函数,那么将会影响模型的性能,同时也会使收敛速度变慢,因此三元组损失函数的选择对于FaceNet性能的提升是很重要的.
经LFW数据库和YouTube人脸数据库测试,FaceNet得到的识别准确率分别为99.
63%和95.
12%.
相比较于DeepFace、DeepID,FaceNet不需要进行复杂的3D对齐,DeepID则需要一个简单的2D仿射对齐.
Parkhi等人[78]在其文章中也研究了在不同CNN结构中人脸对齐对人脸识别准确性的影响.
文献[78]通过实验发现:有必要对测试集作精准,训练集则不需太准,且对齐后FaceNet的识别准确率比原模型的高.
在LFW数据库,DeepFace系列及FaceNet的人脸识别准确率都比较高,但是CNN在人脸识别中仍然有许多具有挑战性的问题,如面部特征点定位、人脸、姿态等对人脸识别效果的影响,都是需要深入研究的问题[79].
5.
3音频检索Hamid等[80-81]结合隐马尔科夫建立了CNN用于识别语音的模型,并在标准TIMIT语音数据库上进行实验,实验结果显示该模型的错误率相对于具有相同隐含层数和权值的常规神经网络模型下降了10%,表明CNN模型能够提升语音的识别准确率.
在文献[80-81]中,CNN模型的卷积层均采用了受限权值共享(limitedweightsharing,LWS)技术,该技术能够更好地处理语音特征,然而这种LWS方法仅限于单个卷积层,不像大部分的CNN研究使用多个卷积层.
IBM和微软公司近年来在CNN用于识别语音方面也做了大量的研究工作,并发表了一些相关的论文[82-84].
5.
4ECG分析ECG是目前极为有用的一种心血管系统疾病的临床诊断体征.
远程医疗诊断服务系统的产生使得更多的人获得医疗专家的诊断服务,许多研究者包括本课题组多年来一直致力于研究计算机辅助ECG分析[85].
Kadi等人[86]综述了从2000年到2015年将数据挖掘技术应用于计算机辅助心血管疾病分析的文章.
他们根据数据挖掘技术及其性能选出149篇文献并进行分析,通过研究发现:从2000年到2015年,关于使用数据挖掘技术辅助分析心血管疾病的研究数量呈增长趋势;研究人员常将挖掘技术用于分类和预测;相比较于其它数据挖掘技术,神经网络和支持向量机能够获得更高的准确率.
该文献的分析结果也说明了神经网络技术在计算机辅助心血管疾病分析中的有效性.
然而由于实际应用中ECG数据形态复杂多变,将传统的神经网络技术应用于大数据的ECG分析中,取得的结果并不是很理想.
临床实际应用中,ECG多数为多导联信号,与二维图像相似.
本课题组成员朱[87]针对多导联ECG数据,同时考虑到CNN的优越特性,提出了一种ECG-CNN模型,从目前公开发表的文献可知,该ECG-CNN模型也是CNN首次应用于ECG分类中.
ECG-CNN模型采用具有3个卷积层和3个取样层的CNN结构,其输入数据维数为8*1800(对应8个基本导联ECG采样点数).
ECG-CNN的第一个卷积核的大小为8*23,它包含了全部的行,这与LeNet-5网络结构在图像中的卷积核大小为5*5不一样,图像中的卷积核一般不会包含全部的行.
通过采用ECG-CNN模型对国际公认的心律失常数据库-MIT-BIH数据库①(该数据库共48条记录)中的40条ECG记录进行病人内心拍分类,得到的准确率为99.
2%.
同时在该文献中还采用ECG-CNN模型对本课题组为了面向临床应用而建立的中国心血管疾病数据库[88](ChineseCardiovascularDiseaseDatabase,CCDD,http://58.
210.
56.
164:88/ccdd/)的前251条记录进行心拍正异常分类,得到的准确率为97.
89%.
文中将文献[89]和文献[90]作为对照文献,相同数据集上,文献[89]和[90]得到的心拍正异常分类准确率分别为98.
51%和94.
97%.
此外文献[87]还采用该算法对CCDD数据库的SetIV数据集共11760条记录进行按记录的病人间正异常分类,最终准确率为83.
49%,文献[89]和[90]在该数据集中得到的准确率分别为70.
15%和72.
14%.
从上述对比结果可知,无论是心拍正异常分类还是按记录的病人间正异常分类,ECG-CNN模型得到的准确率均高于对照文献的准确率.
Hakacova等[91]2012①MIT-BIHArrhythmiaDatabase[Online],http://www.
physionet.
org/physiobank/database/mitdb/2016,9,2814计算机学报2017年年统计了市场上一些心电图机的自动诊断结果,总共统计了576例ECG,发现Philipsmedical自动诊断准确率只有80%,Draegermedicalsystems的准确率为75%,而3名普通医生的ECG判读准确率为85%,对比该统计结果及ECG-CNN模型所得结果,可知CNN在ECG分类中的有效性.
文献[87]的ECG-CNN模型其实也是一种二维CNN,但是ECG的导联间数据相关性与导联内数据的相关性不一样,导联内数据具有时间相关性,导联间的数据却是独立的,因此不宜使用二维图像的CNN结构应用于ECG分类中[48].
据此,金等[48]在ECG-CNN模型上做了改进,提出了导联卷积神经网络(LeadConvolutionalNeuralNetwork,LCNN)模型.
图8所示为基于记录分类的LCNN结构.
图8基于记录分类的LCNN结构[49]在图8中,每个卷积单元CU均包含一个卷积层和一个取样层,例如CU-A1、CU-B1及CU-C1均分别包含一个卷积层和一个取样层,1D-Coc表示一维卷积运算.
对于8个导联,每一个导联均有3个卷积单元,而且不同导联间的卷积单元是相互独立的.
每个导联的数据依次通过3个卷积单元,如其中一个导联依次通过卷积单元CU-A1、CU-B1、CU-C1,然后将每个导联的第三个取样层都连接到同一个全连接层进行信息汇总,最终在逻辑回归层上进行分类.
与文献[87]相比,ECG-CNN模型只有3个卷积单元,而图8中的LCNN结构有24个卷积单元.
文献[87]中对于连接输入层的卷积层,其卷积核大小为8*23,图8中每一个导联的第一个卷积层的卷积核大小均为1*18.
为了增加训练样本从而降低不同类别ECG数据的不平衡性,LCNN充分利用了ECG记录的周期特性,对ECG记录进行起始点平移操作,将一条ECG记录所有可能的情况都包含进去[48].
在LCNN的训练过程中,采用惯性量和变步长的反向BP算法[92].
同样在CCDD上进行模型验证,经15万多条ECG记录的测试,LCNN取得了83.
66%的ECG病人间正异常分类准确率,该结果也说明了LCNN在实际应用中的有效性.
王[93]构建了一个包含个体内时间序列及统计分类的混合分类模型(简称ECG-MTHC),该模型包含RR间期正异常分析、QRS波群相似度分析、基于数值和形态特征的SVM分类模型及ECG典型特征分析4个分类模块.
金等将ECG-MTHC模型同样对CCDD中的15万多条记录进行测试,但是由于有1万多条ECG记录的中间特征提取出错而无法给出诊断结论,因此ECG-MTHC模型只给出了14多万条ECG的自动诊断结果,其判断准确率为72.
49%,而LCNN在该测试数据上的分类结果为83.
72%[48].
与文献[93]相比:1)LCNN实际上也是一个端对端的学习方法,将中间的卷积层和取样层提取得到的特征输入到全连接层中,最后由softmax层进行分类;2)对于较大规模的数据集,LCNN比ECG-MTHC更易于训练;3)由于LCNN的深度架构及复杂的网络结构,使它具有很强的非线性拟合能力,克服了ECG-MTHC中SVM非线性拟合能力受限的缺欠.
最终,LCNN的分类准确率高于ECG-MTHC的准确率.
周等[94]将LCNN作为基分类器提出了一种基于集成学习的室性早博识别方法,采用该方法对MIT-BIH中的48条记录进行室性早搏心拍分类得到的准确率为99.
91%;同时该文还注重模拟医生诊断ECG的思维过程,采用LCNN与室性早搏诊断规则相结合的方法对CCDD进行按记录的室性早搏分类,得到14多万条记录的测试准确率为97.
87%.
然而在文献[48,87,94]的CNN结构中,它们的全连接层只能接受固定长度的输入,因此在网络训练之前需要将ECG记录截取到固定长度.
但是在实际应用中,ECG记录的长度通常不一致,如在CCDD中ECG记录的长度为10s-30s,而且有的疾病(如早搏)可以发生在一条记录的前几秒,它也可发生在记录中的中间几秒或者最后几秒,这种截取到固定长度的方式可能会使信息丢失比较严重.
Zheng[95-96]等人将一种多通道的深层卷积神经网络模型(Multi-ChannelsDeepConvolutionNeuralNetworks,MC-DCNN)应用于时间序列分类中,每一通道的数据都首先经过一个独立的CNN结构,其中每一通道的输入是一个时间序列,然后将每一个CNN结构的最后一层卷积层全连接到MLP中进行分类,在BIDMC充血性心力衰竭数据集上的检测准确率为94.
65%,优于其他一些算法.
论文在线出版号No.
7周飞燕等:卷积神经网络研究综述15Kiranyaz[27]等人提出一种基于一维CNN的病人内ECG分类,该CNN结构包含3个CNN层和2个MLP层,将MIT-BIH数据库中的44条记录作为实验数据,得到室性异位心拍(VEB)和室上性异位心拍(SVEB)的分类准确率分别为99%和97.
6%.
然而这些研究工作仅利用了标准数据库中的部分数据,不能够充分体现模型在实际应用中的整体分类性能.
由于不同的时间序列可能需要不同时间尺度上的不同特征表示,但是现有的许多算法没有考虑到这些因素,而且受到高频干扰及随机噪声的影响,在实时时间序列数据中具有判别性的模式通常也会变形.
为了克服这些问题,Cui[97]等人提出了一种基于多尺度卷积神经网络的时间序列分类模型(称为MCNN模型).
MCNN模型包含3个阶段:变换阶段、局部卷积阶段、全卷积阶段.
变换阶段:首先对输入数据分别采用不同的变换(包含时域中的恒等映射、下采样变换以及频域中的光谱变换),假设原始输入数据分别经过上述3种变换,则得到的3种变换数据.
局部卷积阶段:将3种变换数据作为3个并联卷积层的输入(一种变换数据输入到一个卷积层中,这与文献[48]的LCNN模型类似),每个卷积层后紧随着一个取样层.
全卷积阶段:局部卷积阶段的3个取样层连接到同一个卷积层中进行信息汇总,在该阶段中可以采用多个卷积层和多个取样层进行交替设置,最后跟随着一个全连接层及softmax层.
与文献[48]相比:MCNN在卷积层中将多通道的数据进行整合,文献[48]则在全连接层中进行信息汇总,MCNN对卷积核大小及取样核大小的设置也不一样.
MCNN可以处理多元时间序列,它通过将原始数据下采样到不同的时间尺度使其不仅能够提取不同尺度的低级特征还能够提取更高级的特征.
CNN除了用于时间序列分类外,还可以用于时间序列度量学习[98].
5.
5其它应用Redmon等人[99]将目标检测看成是一个回归问题,采用一个具有24个卷积层和2个全连接层的CNN结构进行目标检测(也称为YOLO).
在YOLO中,输入整幅图像,并将图像划分为7*7个网格,通过CNN预测每个网格的多个包围盒(boundingboxes,用来包裹场景中目标的几何体)及这些包围盒的类别概率.
YOLO将整幅图像作为下文信息,使得背景误差比较小.
YOLO的检测速度也非常快,在TitanX的GPU上每秒钟可以处理45张图像.
然而YOLO也有存在一些不足:1)因为每个网格只预测两个包围盒且只有一个类别,因此它具有很强的空间约束性,这种约束限制了模型对邻近目标的预测,同时如果小目标数量过多也会影响模型的检测能力;2)对于不包含在训练集中的目标或者有异常比例的目标,它的泛化能力不是很好;3)模型主要的误差仍然是不能精准定位引起的误差.
由于YOLO不能精准定位,这也使得它的检测精度小于FasterR-CNN[100]的,但是YOLO的速度更快.
FasterR-CNN是候选框网络(Regionproposalnetwork,RPN)[100]与FastR-CNN[101]结合并共享卷积层特征的网络,它也是基于分类器的方法[79].
由于YOLO检测精度不是很高,因此Liu等人[102]基于YOLO提出了SSD模型.
SSD利用了YOLO的回归思想同时还借鉴了FasterR-CNN的锚点机制(anchor机制).
它与YOLO一样通过回归获取目标位置和类别,不同的是:SSD预测某个位置采用的是该位置周围的特征.
最终,SSD获得的检测精度与FasterR-CNN的差不多,但是SSD保持了YOLO快速检测的特性.
此外,CNN还可用于短文本聚类[103],视觉追踪[104]、图像融合[105]等领域中.
5.
6CNN的优势CNN具有4个特点:局部连接、权值共享、池化操作及多层[11].
CNN能够通过多层非线性变换,从大数据中自动学习特征,从而代替手工设计的特征,且深层的结构使它具有很强的表达能力和学习能力[70].
许多研究实验已经表明了CNN结构中深度的重要性,例如从结构来看,AlexNet、VGG、GooleNet及ResNet的一个典型的发展趋势是它们的深度越来越深[37].
在CNN中,通过增加深度从而增加网络的非线性使它能够更好地拟合目标函数,获得更好的分布式特征[11].
6关于CNN参数设置的一些探讨6.
1ECG实验分析CNN在计算机辅助ECG分析领域中的研究已初见端倪.
本文就CNN在计算机辅助ECG分析应用中,设计了不同参数及不同深度的CNN网络结构,并将不同网络结构的CNN模型应用于MIT-BIH数据库中的室性早搏心拍分类中.
根据各个实验结果,分析了CNN各参数间的相互关系及不同参数设置对分类结果的影响.
将MIT-BIH数据库中4816计算机学报2017年条记录的110109个心拍划分为CNN模型的训练集和测试集,其中随机选取24100个心拍作为训练集,其余心拍为测试集,同时采用BP算法进行有监督训练(用开源工具Theano实现).
每个CNN结构的训练集和测试集均分别一样.
心拍截取方式与文献[94]一致.
本文采用AUC[48]即ROC曲线下的面积来衡量每个CNN结构的室性早搏分类性能.
一般来说,AUC值越大,算法分类性能越好.
本文所采用的网络结构深度共有4种:深度为5(含输入层、输出层、全连接层、1个卷积层及1个取样层)、7(含输入层、输出层、全连接层、2个卷积层及2个取样层)、9(含输入层、输出层、全连接层、3个卷积层及3个取样层)及11(含输入层、输出层、全连接层、4个卷积层及4个取样层).
首先讨论卷积核大小对分类性能的影响.
实验过程:分别对每一种深度设置5个不同的CNN模型,这5个不同的CNN模型除卷积核大小外,其他参数如特征面数目、取样核大小、全连接层神经元个数均相同.
如表2所示:表2深度为11的5个不同网络结构的CNN分类结果Stage1Stage2Stage3Stage4特征面数目深度AUC卷积层取样层卷积层取样层卷积层取样层卷积层取样层Dep_11A1*31*21*41*21*41*21*41*2(8,8,8,8)110.
99791*71*21*61*21*61*21*61*2(8,8,8,8)110.
99801*111*21*101*21*111*21*101*2(8,8,8,8)110.
99871*151*21*141*21*141*21*151*2(8,8,8,8)110.
99671*191*21*181*21*191*21*191*2(8,8,8,8)110.
9967表2列出了每个卷积层和取样层对应卷积核的大小及取样核的大小.
每一行参数构成一个CNN模型,表中特征面数目为每个卷积层所采用的特征面个数,由于卷积层与取样层特征面唯一对应,所以卷积层特征面个数确定后,紧跟其后的取样层特征面个数也唯一确定.
表2的这5个CNN模型只有卷积核大小不同.
从表2的分类结果可看出,对于网络深度为11,随着卷积核变大,AUC先增加后减小.
对于另外3组实验:在深度为5或者7的模型中,随着卷积核的增加,AUC先减小后增加再减小;深度为9的模型,随着卷积核增加,AUC先较小后趋于平稳再减小.
图9所示为深度是5的CNN结构随着卷积核的改变,其分类性能的变化曲线图.
通过实验发现,在某一个范围内我们能够找到一个比较合适的卷积核的大小,卷积核过大或者过小均不利于模型的学习.
在本实验中,卷积核的大小取值范围在[10,16]时,其模型能够获得一个更好的分类结果.
从这4组实验的分类结果也可看出:对于卷积核较小的CNN结构,增加网络的深度也能够提升模型的分类性能.
图9卷积核大小与分类性能的影响为了讨论取样核大小对分类性能的影响,我们同样对每一种深度分别设置3个不同的CNN模型.
类似地,这3个CNN模型,除了取样核大小外,其他参数设置均相同.
由于取样核大小要使公式论文在线出版号No.
7周飞燕等:卷积神经网络研究综述17(11)能够整除,因此对于某一深度的网络,取样核大小不能够随意取值.
从几组实验的结果来看,一般来说随着取样核大小的增加,AUC先增加后减小.
从总体来看,随着模型深度的增加,其分类结果也越好.
在本实验中,模型通常在取样核大小为2或者3时取得相对较好的分类结果.
表3列出了深度为9的3个不同网络结构的CNN室性早搏分类结果.
表3深度为9的3个不同网络结构的CNN分类结果Dep_9Stage1Stage2Stage3特征面数目深度AUC卷积层取样层卷积层取样层卷积层取样层1*51*11*51*11*51*1(16,16,16)90.
99701*51*21*51*21*51*2(16,16,16)990.
99801*51*41*51*51*51*5(16,16,16)90.
9978为了探讨特征面数目对分类性能的影响,这里我们也对每一种深度分别设置6个不同的CNN模型.
其中,这6个CNN模型除特征面数目外,其他参数设置一样.
通过实验发现,如果特征面数目过小,其分类性能较差.
这是由于特征面数目过少,使得一些有利于网络学习的特征被忽略掉,因而不利于模型的学习.
然而,当特征面数目大于40时,模型的训练时间大大增加,这同样不利于模型的学习.
通过实验可知,本实验中,比较好的特征面数目选取范围可为[10,35].
表4列出了深度为11的6个不同网络结构的CNN分类结果,在这6个CNN结构中,只有特征面数目不同,且随着特征面数目的增加,AUC先增加再减小后增加.
表4深度为11的6个不同网络结构的CNN分类结果Dep_11BStage1Stage2Stage3Stage4特征面数目深度AUC卷积层取样层卷积层取样层卷积层取样层卷积层取样层1*51*21*51*41*51*41*51*4(3,3,3,3)110.
98461*51*21*51*41*51*41*51*4(6,6,6,6)110.
99101*51*21*51*41*51*41*51*4(12,12,12,12)110.
99711*51*21*51*41*51*41*51*4(24,24,24,24)110.
99561*51*21*51*41*51*41*51*4(48,48,48,48)110.
9972表5所示为4个不同深度的CNN模型及其室性早搏分类结果.
在每一个Stage:(1*5)+(1*2)中,1*5表示卷积层中卷积核大小,1*2表示紧跟其后的取样层的取样核大小.
实验结果表明,随着深度的加深,网络性能也越好表5不同深度的CNN分类结果Model具体结构特征面数目深度AUCModel_AStage1:(1*5)+(1*2)1550.
9971Model_BStage1:(1*5)+(1*2);Stage2:(1*5)+(1*2)(15,15)70.
9975Model_CStage1:(1*5)+(1*2);Stage2:(1*5)+(1*2);Stage3:(1*5)+(1*2)(15,15,15)90.
9981Model_DStage1:(1*5)+(1*2);Stage2:(1*5)+(1*2);Stage3:(1*5)+(1*2);Stage4:(1*5)+(1*2);(15,15,15,15)110.
9985为了探讨CNN的深度、卷积核大小、取样核大小及特征面数目之间的关系,我们采用不同的深度、卷积核大小、取样核大小及特征面数目设计了350多个不同的CNN模型.
这些不同的CNN模型均利用与上述相同的训练集和测试集进行实验.
通过实验发现:1)对于同一深度,特征面数目比卷积核大小更重要,具有更小卷积核及更大特征面数目的CNN模型比具有更大卷积核且更小特征面数18计算机学报2017年目的CNN模型获得更好的分类结果,这与文献[36]中特征面数目与卷积核大小所发挥的作用相当不太一样,同时也说明了对于不同的数据库,CNN的分类性能会有些不一样的表现,本小结的实验分析是基于MIT-BIH数据库进行的;2)深度比卷积核大小及取样核大小重要;3)随着网络深度的加深,模型分类性能越好;4)对于同一个深度的模型,特征面数目越大,分类性能越好.
6.
2脉搏波实验分析文献[106]采用两种不同深度的CNN结构分别在健康/亚健康数据集及动脉硬化/肺动脉硬化数据集进行分类实验.
表6为不同CNN模型分别在两个数据集上的测试结果.
表6不同深度的CNN在脉搏波上的分类结果Model健康/亚健康动脉硬化/非动脉硬化特异性(%)灵敏度(%)准确率(%)特异性(%)灵敏度(%)准确率(%)CNN(7L)70.
8764.
1467.
5096.
6289.
0994.
78CNN(9L)75.
6468.
9972.
3196.
6495.
5396.
33表6中CNN(7L)表示该CNN的深度为7层,而CNN(9L)模型的深度为9层.
从上述结果也可看出,在两个数据集上CNN(9L)模型所得各指标均高于CNN(7L)模型,同时也说明了增加网络的层数可以挖掘脉搏波更深层的特征,深度越深,模型的性能越好.
7总结近年来,CNN的权值共享、可训练参数少、鲁棒性强等优良特性使其受到了许多研究者的关注.
CNN通过权值共享减少了需要训练的权值个数、降低了网络的计算复杂度,同时通过池化操作使得网络对输入的局部变换具有一定的不变性如平移不变性、缩放不变性等,提升了网络的泛化能力.
CNN将原始数据直接输入到网络中,然后隐性地从训练数据中进行网络学习,避免了手工提取特征、从而导致误差累积,其整个分类过程是自动的.
虽然CNN所具有的这些特点使其已被广泛应用于各种领域中特别是模式识别与人工智能领域,但是CNN仍有许多工作需要进一步研究:1)目前所使用的CNN模型是Hubel-Wiesel模型[28]简化的版本,需进一步挖掘Hubel-Wiesel模型,对它进行深入研究并发现结构特点及一些规律,同时还需引入其它理论使CNN能够充分发挥其潜在的优势.
2)尽管CNN在许多领域如计算机视觉上已经取得了令人满意的成果,但是仍然不能够很好地理解其基本理论[107].
对于一个具体的任务,仍很难确定哪种网络结构,使用多少层,每一层使用多少个神经元等才是合适的.
仍然需要详细的知识来选择合理的值如学习率、正则化的强度等[107].
3)如果训练数据集与测试数据集的分布不一样,则CNN也很难获得一个好的识别结果,特别是对于复杂的数据例如形态复杂多变的临床ECG数据.
因此,需要引入CNN模型的自适应技术,可考虑将自适应抽样等应用于CNN模型中[16].
4)尽管依赖于计算机制的CNN模型是否与灵长类视觉系统相似仍待确定,但是通过模仿和纳入灵长类视觉系统也能使CNN模型具有进一步提高性能的潜力[107].
5)目前,CNN在计算机辅助ECG分析领域中,其输入维数需保持一致.
为了使输入维数保持一致,需要将原始的数据截取到固定长度,如何截取数据从而使CNN发挥其优势是一个值得深入研究的问题.
由于RNN可以处理长度不等的数据,因此如何将RNN与CNN相结合,并应用于ECG记录分类也是一个值得深入研究的课题.
6)在隐性训练中,如何将整个训练过程中的最佳分类模型保存下来也是一个值得探讨的问题.
在文献[48]的隐性训练中,当所有的训练样本在一个训练周期内都参与BP反向传播过程后,才输出整个训练中的测试结果,如果此时其准确率是目前为止最高的,则保存当前分类模型.
事实上,我们还可以对它做进一步的改进,例如当部分样本进行BP训练后,就可采用校验样本测试当前的模型,然后判断该模型是否为迄今为止性能最佳的分类模型.
总的来说,CNN虽然还有许多有待解决的问题,但是这不影响今后它在模式识别与人工智能等领域中进一步的发展与应用,它在未来很长的一段时间内仍然会是人们研究的一个热点.
新的理论和技术的纳入以及新成果的不断出现也会使它能够应用于更多新的领域中.
论文在线出版号No.
7周飞燕等:卷积神经网络研究综述19参考文献[1]WarrenS.
McCulloch,WalterPitts.
Alogicalcalculusoftheideasimmanentinnervousactivity.
BulletinofMathematicalBiophysics,1943,5(4):115-133[2]FrankRosenblatt.
Theperceptron:aprobabilisticmodelforinformationstorageandorganizationinthebrain.
PsychologicalReview.
1958,65(6):386-408[3]FrankRosenblatt.
Principlesofneurodinamics:preceptronandtheoryofbrainmechanisms.
Washington,USA:SpartanBooks,1962[4]DavidE.
Rumelhart,GeoffreyHinton,RonaldJ.
Williams.
Learningrepresentationsbyback-propagatingerrors.
Nature,1986,323(6088):533-536[5]CorinnaCortes,VladimirVapnik.
Supportvectornetworks.
MachineLearning,1995,20(3):273-297[6]GeoffreyHinton,SalakhutdinovRR.
Reducingthedimensionalityofdatawithneuralnetworks.
Science,2006,313(5786):504-507[7]YuKai,JiaLei,ChenYuqiang,etal.
Deeplearning:yesterday,today,andtomorrow.
JournalofComputerResearchandDevelopment,2013,50(9):1799-1804(inChinese)(于凯,贾磊,陈宇强等.
深度学习的昨天、今天和明天.
计算机研究与发展,2013,50(9):1799-1804)[8]YoshuaBengio,PascalLamblin,DanPopovici,etal.
Greedylayer-wisetrainingofdeepnetworks//Proceedingsofthe2007AdvancesinNeuralInformationProcessingSystems.
Vancouver,Canada,2007:153-160[9]Marc'AurelioRanzato,ChristopherPoultney,SumitChopra,etal.
Efficientlearningofsparserepresentationswithanenergy-basedmodel//Proceedingsofthe2007AdvancesinNeuralInformationProcessingSystems.
Vancouver,Canada,2007:1137-1144[10]DumitruErhan,YoshuaBengio,AaronCourville,etal.
Whydoesunsupervisedpre-traininghelpdeeplearningJournalofMachineLearningResearch,2010,11(3):625-660[11]YannLeCun,YoshuaBengio,GeoffreyHinton.
Deeplearning.
Nature,2015,521(7553):436-444[12]YoshuaBengio.
LearningdeeparchitecturesforAI.
FoundationsandTrendsinMachineLearning,2009,2(1):1-127[13]GeoffreyHinton,SimonOsindero,Yee-WhyeTeh.
Afastlearningalgorithmfordeepbeliefnets.
NeuralComputation,2006,18(7):1527-1554[14]RuslanSalakhutdinov,GeoffreyHinton.
Deepboltzmannmachines.
JournalofMachineLearningResearch-ProceedingsTrack,2009,9(1):448-455[15]RuslanSalakhutdinov,GeoffreyHinton.
Anefficientlearningprocedurefordeepboltzmannmachines.
NeuralComputation,2012,24(8):1967-2006[16]LiuJian-Wei,LiuYuan,LuoXiong-Lin.
Researchanddevelopmentonboltzmannmachine.
JournalofComputerResearchandDevelopment,2014,51(1):1-16(inChinese)(刘建伟,刘媛,罗雄麟.
波尔兹曼机研究进展.
计算机研究与发展,2014,51(1):1-16)[17]PascalVincent,HugoLarochelle,YoshuaBengio,etal.
Extractingandcomposingrobustfeatureswithdenoisingautoencoders//Proceedingsofthe25thinternationalconferenceonMachinelearning,Helsinki,Finland,2008:1096-1103[18]PascalVincent,HugoLarochelle,YoshuaBengio,etal.
Stackeddenoisingautoencoders:learningusefulrepresentationsinadeepnetworkwithalocaldenoisingcriterion.
JournalofMachineLearningResearch,2010,11(12):3371-3408[19]YannLeCun,LeonBottou,YoshuaBengio,etal.
Gradient-basedlearningappliedtodocumentrecognition.
ProceedingsoftheIEEE,1998,86(11):2278-2324[20]YannLeCun,B.
Boser,J.
S.
Denker,etal.
Backpropagationappliedtohandwrittenzipcoderecognition.
NeuralComputation,1989,11(4):541-551[21]SilverDavidetal.
MasteringthegameofGowithdeepneuralnetworksandtreesearch.
Nature,2016,529(7587):484-489[22]SteveLawrence,C.
LeeGiles,AhChungTsoi,etal.
Facerecognition:aconvolutionalneural-networkapproach.
IEEETransactionsonNeuralNetworks,1997,8(1):98-113[23]ClausNeubauer.
Evaluationofconvolutionalneuralnetworksforvisualrecognition.
IEEETransactionsonNeuralNetworks,1998,9(4):685-696[24]AlexKrizhevsky,IIyaSutskever,GeoffreyHinton.
Imagenetclassificationwithdeepconvolutionalneuralnetworks//ProceedingsofAdvancesinNeuralInformationProcessingSystems,LakeTahoe,USA,2012:1097-1105[25]VinodNair,GeoffreyE.
Hinton.
ClementFarabet.
Rectifiedlinearunitsimproverestrictedboltzmannmachines//Proceedingsofthe27thInternationalConferenceonMachineLearning,Haifa,Israel,2010:807-814[26]MartinT.
Hagan,HowwardB.
Demuth,MarkH.
Beale.
Neuralnetworkdesign.
TranslatedbyDaiKui,Beijing:ChinaMachinePress,2002(inChinese)(MartinT.
Hagan,HowwardB.
Demuth,MarkH.
Beale.
神经网络设计.
戴葵,译.
北京:机械工业出版社,2002)[27]SerkanKiranyaz,TurkerInce,MoncefGabbouj.
Real-timepatient-specificECGclassificationby1Dconvolutionalneuralnetwo20计算机学报2017年rks.
IEEETransactionsonBiomedicalEngineering,2016,63(3):664-675[28]DavidH.
Hubel,TorstenNilsWiesel.
Receptivefieldsbinocularinteraction,andfunctionalarchitectureinthecat'svisualcortex.
JournalofPhysiology,1962,160(1):106-154[29]KunihikoFukushima.
Neocognitron:aself-organizingneuralnetworkmodelforamechanismofpatternrecognitionunaffectedbyshiftinposition.
BiologicalCybernetics,1980,36(4):193-202[30]Hyeon-JoongYoo.
Deepconvolutionneuralnetworksincomputervision:areview.
IEIETransactionsonSmartProcessingandComputing,2015,4(1):35-43[31]GaoLi-Gang,ChenPai-Yu,YuShi-Meng.
Demonstrationofconvolutionkerneloperationonresistivecross-pointarray.
IEEEElectronDeviceLetters,2016,37(7):870-873[32]JinLin-Peng.
Studyonapproachofelectrocardiogramclassificationforclinicalapplication[Ph.
D.
dissertation].
SuzhouInstituteofNano-techandNano-bionics,ChineseAcademyofSciences,Suzhou,2016(inChinese)(金林鹏.
面向临床应用的心电图分类方法研究[博士学位论文].
中国科学院苏州纳米技术与纳米仿生研究所,苏州,2016)[33]XuBing,WangNai-Yan,ChenTian-Qi,etal.
Empiricalevaluationofrectifiedactivationsinconvolutionnetwork.
arXiv:1505.
00853v2,2015[34]KevinJarrett,KorayKavukcuoglu,Marc'AurelioRanzato,etal.
Whatisthebestmulti-stagearchitectureforobjectrecognition//Proceedingsofthe2009IEEE12thInternationalConferenceonComputerVision,Kyoto,Japan,2009:2146-2153[35]YoshuaBengio,AaronCourville,PascalVincent.
Representationlearning:areviewandnewperspectives.
IEEETransactionsonPatternAnalysisAndMachineIntelligence,2013,35(8):1798-1828[36]HeKai-Ming,SunJian.
Convolutionalneuralnetworksatconstrainedtimecost//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),Boston,USA,2015:5353-5360[37]GuJiu-Xiang,WangZhen-Hua,JasonKuen,etal.
Recentadvancesinconvolutionalneuralnetworks.
arXiv:1512.
07108v5,2017[38]Y-LanBoureau,NicolasLeRoux,FrancisBach,etal.
Askthelocals:multi-waylocalpoolingforimagerecognition//Proceedingsofthe2011InternationalConferenceonComputerVision,Barcelona,Spain,2011:2651-2658[39]MatthewD.
Zeiler,RobFergus.
Stochasticpoolingforregularizationofdeepconvolutionalneuralnetworks.
arXiv:1301.
3557v1,2013[40]Y-LanBoureau,JeanPonce,YannLeCun.
Atheoreticalanalysisoffeaturepoolinginvisualrecognition.
InternationalConferenceonMachineLearning,2010,32(4):111-118[41]Y-LanBoureau,FrancisBach,YannLeCun,etal.
Learningmid-levelfeaturesforrecognition//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,SanFrancisco,USA,2010:2559-2566[42]TaraN.
Sainath,Abdel-rahmanMohamed,BrianKingsbury,etal.
DeepconvolutionalneuralnetworksforLVCSR//ProceedingsoftheIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing,Vancouver,Canada,2013:8614-8618[43]KeironO'Shea,RyanNash.
Anintroductiontoconvolutionalneuralnetworks.
arXiv:1511.
08458v2,2015[44]NitishSrivastava,GeoffreyHinton,AlexKrizhevsky,etal.
Dropout:asimplewaytopreventneuralnetworksfromoverfitting.
JournalofMachineLearningResearch,2014,15(6):1929-1958[45]TaraN.
Sainatha,BrianKingsburya,GeorgeSaona,etal.
Deepconvolutionalneuralnetworksforlarge-scalespeechtasks.
NeuralNetworks,2015,64(SpecialIssue):39-48[46]JosephLinChu,AdamKrzyzak.
Analysisoffeaturemapsselectioninsupervisedlearningusingconvolutionalneuralnetworks///Proceedingsofthe27thCanadianConferenceonArtificialIntelligence,Montreal,Canada,2014:59-70[47]KaiCao,AnilK.
Jain.
Latentorientationfieldestimationviaconvolutionalneuralnetwork//Proceedingsof2015InternationalConferenceonBiometrics,Phuket,Thailand,2015:349-356[48]JinLin-Peng,DongJun.
Deeplearningresearchonclinicalelectrocardiogramanalysis.
ScienceChina:InformationSciences,2015,45(3):398-416(inChinese)(金林鹏,董军.
面向临床心电图分析的深层学习算法研究.
中国科学:信息科学,2015,45(3):398-416)[49]HuangJui-Ting,LiJin-Yu,GongYi-Fan.
Ananalysisofconvolutionalneuralnetworksforspeechrecognition//ProceedingsoftheIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),SouthBrisbane,Australia,2015:4989-4993[50]LinMin,ChenQiang,YanShui-Cheng.
Networkinnetwork.
arXiv:1312.
4400v3,2013[51]XuChun-Yan,LuCan-Yi,LiangXiao-Dan,etal.
Multi-lossregularizeddeepneuralnetwork.
IEEETransactionsonCircuitsAndSystemsForVideoTechnology,2015,26(12):2273-2283[52]MaxJaderberg,KarenSimonyan,AndrewZisserman,etal.
Spatialtransformernetworks.
arXiv:1506.
02025v3,2016[53]MatthewD.
Zeiler,DilipKrishnan,GrahamW.
Taylor,etal.
Deconvolutionalnetworks//ProceedingsoftheIEEEConferenceon论文在线出版号No.
7周飞燕等:卷积神经网络研究综述21ComputerVisionandPatternRecognition,SanFrancisco,USA,2010:2528-2535[54]MatthewD.
Zeiler.
Visualizingandunderstandingconvolutionalnetworks//Proceedingsofthe13thEuropeanConferenceonComputerVision(ECCV),Zurich,Switzerland,2014:818-833[55]JunboZhao,MichaelMathieu,RossGoroshin,etal.
Stackedwhat-whereauto-encoders.
arXiv:1506.
02351v8,2016[56]JiangZong-Li.
Introductiontoaritificialneuralnetworks.
Beijing:HigherEducationPress,2001(inChinese)(蒋宗礼.
人工神经网络导论.
北京:高等教育出版社,2001)[57]LaureneFausett.
Fundamentalsofneuralnetworks:architectures,algorithms,andapplications.
London:Prentice-Hall,1994.
[58]JiquanNgiam,PangWeiKoh,ChenZheng-Hao,etal.
Sparsefiltering//ProceedingsofAdvancesinNeuralInformationProcessingSystems24(NIPS2011),Granada,Spain,2011:1125-1133[59]DongZhen,PeiMing-Tao,HeYang,etal.
Vehicletypeclassificationusingunsupervisedconvolutionalneuralnetwork//Proceedingsofthe22ndInternationalConferenceonPatternRecognition,Stockholm,Sweden,2014:172-177[60]DongZhen,WuYu-Wei,PeiMing-Tao,etal.
Vehicletypeclassificationusingasemisupervisedconvolutionalneuralnetwork.
IEEETransactionsonIntelligentTransportationSystems,2015,16(4):2247-2256[61]JinLin-Peng,DongJun.
Ensembledeeplearningforbiomedicaltimeseriesclassification.
ComputationalIntelligenceandNeuroscience,2016,2016(3):1-13[62]JiaYang-Qing,EvanShelhamer,JeffDonahue,etal.
Caffe:convolutionalarchitectureforfastfeatureembedding//ProceedingsoftheACMInternationalConferenceonMultimedia,Orlando,USA,2014:675-678[63]RamiAl-Rfou,GuillaumeAlain,AmjadAlmahairi,etal.
Theano:apythonframeworkforfastcomputationofmathematicalexpressions.
arXiv:1605.
02688v1,2016[64]SoheilBahrampour,NaveenRamakrishnan,LukasSchott,etal.
Comparativestudyofdeeplearningsoftwareframeworks.
arXiv:1511.
06435v3,2016[65]ChristianSzegedy,LiuWei,JiaYang-Qing,etal.
Goingdeeperwithconvolutions//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),Boston,USA,2015:1-9[66]KarenSimonyan,AndrewZisserman.
Verydeepconvolutionalnetworksforlarge-scaleimagerecognition.
arXiv:1409.
1556v6,2014[67]HeKai-Ming,ZhangXiang-Yu,RenShao-Qing,etal.
Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition.
IEEETransactionsonPatternAnalysisandMachineIntelligence,2015,37(9):1904-1915[68]SergeyIoffe,ChristianSzegedy.
Batchnormalization:acceleratingdeepnetworktrainingbyreducinginternalcovariateshift.
arXiv:1502.
03167,2015[69]HeKai-Ming,ZhangXiang-Yu,RenShao-Qing,etal.
Deepresiduallearningforimagerecognition//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,LasVegas,USA,2016:770-778.
[70]WangXiao-Gang.
Deeplearninginimagerecognition.
CommunicationsoftheCCF,2015,11(8):15-23(inChinese)(王晓刚.
图像识别中的深度学习.
中国计算机学会通讯,2015,11(8):15-23)[71]DmytroMishkin,NikolaySergievskiy,JiriMatas.
SystematicevaluationofCNNadvancesontheimageNet.
arXiv:1606.
02228v2,2016[72]YanivTaigman,MingYang,Marc'AurelioRanzato,etal.
DeepFace:closingthegaptohuman-levelperformanceinfaceverification//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),Columbus,USA,2014:1701-1708[73]SunYi,WangXiao-Gang,TangXiao-Ou.
Deeplearningfacerepresentationfrompredicting10,000classes//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,Columbus,USA,2014:1891-1898[74]SunYi,ChenYu-Heng,WangXiao-Gang,etal.
Deeplearningfacerepresentationbyjointidentification-verification//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems,Montreal,Canada,2014:1988-1996[75]SunYi,WangXiao-Gang,TangXiao-Ou.
Deeplylearnedfacerepresentationsaresparse,selective,andRobust//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),Boston,USA,2015:2892-2900[76]SunYi,LiangDing,WangXiao-Gang,etal.
DeepID3:facerecognitionwithverydeepneuralnetworks.
arXiv:1502.
00873v1,2015[77]FlorianSchroff,DmitryKalenichenko,JamesPhilbin.
FaceNet:aunifiedembeddingforfacerecognitionandclustering//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),Boston,USA,2015:815-823[78]OmkarM.
Parkhi,AndreaVedaldi,AndrewZisserman.
Deepfacerecognition//ProceedingsoftheBritishMachineVisionConference(BMVC2015),Swansea,England,2015:1-12[79]ChangLiang,DengXiao-Ming,ZhouMing-Quan,etal.
Convolutionalneuralnetworksinimageunderstanding.
Acta22计算机学报2017年AutomaticaSinica,2016,42(9):1300-1312(inChinese)(常亮,邓小明,周明全,等.
图像理解中的卷积神经网络.
自动化学报,2016,42(9):1300-1312)[80]OssamaAbdel-Hamid,Abdel-rahmanMohamed,HuiJiang,etal.
ApplyingconvolutionalneuralnetworksconceptstohybridNN-HMMmodelforspeechrecognition//ProceedingsoftheIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),Kyoto,Japan,2012:4277-4280[81]OssamaAbdel-Hamid,Abdel-rahmanMohamed,HuiJiang,etal.
Convolutionalneuralnetworksforspeechrecognition.
IEEE/ACMTransactionsonAudio,Speech,andLanguageProcessing,2014,22(10):1533-1545[82]SamuelThomas,SriramGanapathy,GeorgeSaon,etal.
Analyzingconvolutionalneuralnetworksforspeechactivitydetectioninmismatchedacousticconditions//ProceedingsoftheIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),Florence,Italy,2014:2519-2523[83]GeoffreyHinton,LiDeng,DongYu,etal.
Deepneuralnetworksforacousticmodelinginspeechrecognition:thesharedviewsoffourresearchgroups.
IEEESignalProcessingMagazine,2012,29(6):82-97[84]HuangJui-Ting,LiJin-Yu,GongYi-Fan.
Ananalysisofconvolutionalneuralnetworksforspeechrecognition//ProceedingsoftheIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),Brisbane,Australia,2015:4989-4993[85]DongJun,ZhangJia-Wei,ZhuHong-Hai,etal.
WearableECGmonitorsanditsremotediagnosisserviceplatform.
IEEEIntelligentSystems,2012,27(6):36-43[86]I.
Kadi,A.
Idri,J.
L.
Fernandez-Aleman.
Knowledgediscoveryincardiology:asystematicliteraturereview.
InternationalJournalofMedicalInformatics,2017,97:12-32[87]ZhuHong-Hai.
Keyalgorithmsoncomputer-aidedelectrocardiogramanalysisanddevelopmentofremotemulti-signsmonitoringsystem[Ph.
D.
dissertation].
SuzhouInstituteofNano-techandNano-bionics,ChineseAcademyofSciences,Suzhou,2013(inChinese)(朱洪海.
心电图自动识别的关键算法及多体征监护系统研制[博士学位论文],中国科学院苏州纳米技术与纳米仿生研究所,苏州2013)[88]ZhangJia-Wei,LiuXia,DongJun.
CCDD:anenhancedstandardECGdatabasewithitsmanagementandannotationtools.
InternationalJournalonArticleIntelligenceTools,2012,21(5):1-26[89]Fayyaz-ul-AfsarAmirMinhas,MuhammadArif.
Robustelectrocardiogrambeatclassificationusingdiscretewavelettransform.
PhysiologicalMeasurement,2008,29(5):555-570[90]RoshanJoyMartis,ChandanChakraborty,AjoyK.
Ray.
Atwo-stagemechanismforregistrationandclassificationofECGusinggaussianmixturemodel.
PatternRecognition,2009,42(11):2979-2988[91]NinaHakacova,ElinTragardh-Johansson,GalenS.
Wagner,etal.
Computer-basedrhythmdiagnosisanditspossibleinfluenceonnonexpertelectrocardiogramreaders.
JournalofElectrocardiology,2012,45(1):18-22[92]T.
P.
Vogl,J.
K.
Mangis,A.
K.
Rigler,etal.
Acceleratingtheconvergenceoftheback-propagationmethod.
BiologicalCybernetics,1988,59(4):257-263[93]WangLi-Ping.
StudyonApproachofECGclassificationwithdomainknowledge[Ph.
D.
dissertation].
EastChinaNormalUniversity,Shanghai,2012(inChinese)(王丽苹.
融合领域知识的心电图分类方法研究[博士学位论文],华东师范大学,上海,2012)[94]ZhouFei-Yan,JinLin-Peng,DongJun.
PVCrecognitionalgorithmbasedonensemblelearning.
ActaElectronicaSinica,2016(inChinese)(周飞燕,金林鹏,董军.
基于集成学习的室性早博识别方法.
电子学报,2016(Inpress))[95]ZhengYi,LiuQi,ChenEn-Hong,etal.
Timeseriesclassificationusingmulti-channelsdeepconvolutionalneuralnetworks//Proceedingsofthe15thInternationalConferenceonWeb-AgeInformationManagement(WAIM),Macau,China,2014:298-310[96]ZhengYi,LiuQi,ChenEn-Hong,etal.
Exploitingmulti-channelsdeepconvolutionalneuralnetworksformultivariatetimeseriesclassification.
FrontiersofComputerScience,2015,10(1):96-112[97]CuiZhi-Cheng,ChenWen-Lin,ChenYi-Xin.
Multi-scaleconvolutionalneuralnetworksfortimeseriesclassification.
arXiv:1603.
06995,2016[98]ZhengYi,LiuQi,ChenEn-Hong,etal.
Convolutionalnonlinearneighbourhoodcomponentsanalysisfortimeseriesclassification//Proceedingsofthe19thPacific-AsiaConferenceonKnowledgeDiscoveryandDataMining,HoChiMinh,Vietnam,2015:534-546[99]JosephRedmon,SantoshDivvala,RossGirshick,etal.
Youonlylookonce:unified,real-timeobjectdetection.
arXiv:1506.
02640v5,2015[100]ShaoqingRen,KaimingHe,RossGirshick,etal.
FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks.
IEEETransactionsonPatternAnalysisandMachineIntelligence,2016,doi:10.
1109/TPAMI.
2016.
2577031论文在线出版号No.
7周飞燕等:卷积神经网络研究综述23[101]RossGirshick.
FastR-CNN//Proceedingsofthe2015IEEEInternationalConferenceonComputerVision,Santiago,Chile,2015:1440-1448[102]WeiLiu,DragomirAnguelov,DumitruErhan,etal.
SSD:singleshotmultiboxdetector//Proceedingsofthe14thEuropeanConferenceonComputerVision,Amsterdam,Netherlands,2016:21-37[103]XuJia-Ming,WangPeng,TianGuan-Hua,etal.
Shorttextclusteringviaconvolutionalneuralnetworks//ProceedingsofNAACL-HLT2015,Denver,USA,2015:62-69[104]GaoJun-Yu,YangXiao-Shan,ZhangTian-Zhu,etal.
Robustvisualtrackingmethodviadeeplearning.
ChineseJournalofComputers,2016,39(7):1419-1434(inChinese)(高君宇,杨小汕,张天柱,等.
基于深度学习的鲁棒性视觉跟踪方法.
计算机学报,2016,39(7):1419-1432)[105]LiHong,LiuFang,YangShu-Yuan,etal.
Remotesensingimagefusionbasedondeepsupportvaluelearningnetworks.
ChineseJournalofComputers,39(8):1583-1596(inChinese)(李红,刘芳,杨淑媛,等.
基于深度支撑值学习网络的遥感图像融合.
计算机学报,2016,39(8):1583-1596)[106]HuXiao-Juan.
TheresearchonsignalperceptionandcomputeraidedrecognitionoftraditionalChinesemedicinepulsediagnosis[Ph.
D.
dissertation].
EastChinaNormalUniversity,Shanghai,2013(inChinese)(胡晓娟.
中医脉诊中医脉诊信号感知与计算机辅助识别研究[博士学位论文],华东师范大学,上海,2013)[107]GuoYan-Ming,LiuYu,ArdOerlemans,etal.
Deeplearningforvisualunderstanding:areview.
Neurocomputing,2016,187(SpecialIssue):27-48ZhouFei-Yan,bornin1986,Ph.
D.
candidate.
Hermainresearchinterestiscomputer-aideddiagnosisofcardiovasculardiseases.
JinLin-Peng,bornin1984,Ph.
D.
Hismainresearchinterestismachinelearning.
DONGJun,bornin1964.
Ph.
D.
,professor,Ph.
D.
supervisor.
Hismainresearchinterestisartificialintelligence.
BackgroundShallowarchitecturessuchasGaussianmixturemodels,supportvectormachines,logisticregressionandsoonhavebeenshowneffectiveinsolvingmanysimpleproblems,buttheirlimitedmodelingandthepoweroffeaturerepresentationsmaycausedifficultieswhendealingwithcomplicatedsignalandinformationtasks.
Deeplearningwithmultiplelevelsofrepresentationsisarapidlygrowingfieldofmachinelearning.
Deeplearningalleviatestheoptimizationdifficultyusingthreetechniques:betterparameterinitializationtechniques,betterlearningalgorithmssuchasstochasticBPalgorithms,andalargernumberofhiddenunitswhichcanimprovethemodelingpower.
Ithassolvedsomeproblemsthathaveresistedthebestattemptsoftheshallowarchitecturesformanyyears.
Asoneofthemostrepresentativedeeplearningmodels,convolutionalneuralnetworkisattractingtheattentionofmanyacademicresearchers.
Becauseofthelocalconnections,sharedweights,poolingoperationintheconvolutionalneuralnetwork,ithasfewerparameterstobetrained.
Therefore,itismoreapplicabletooptimizethanthatofstandardfullyconnectedneuralnetworks.
Inrecentyears,convolutionalneuralnetworkhasmademajoradvancesinpracticalapplications.
Currently,cardiovasculardiseaseisoneofthedeadliestdiseasesforhumanbeings.
ECGisveryimportantforcardiovasculardiseasesmonitoranddiagnosis.
Ourgrouphasbeenworkingoncomputer-aidedECGanalysismethodsformorethantenyears.
Whatismorewehavetriedmanydifferentmachinelearningmethodsincludingsupportvectormachine,hiddenMarkovmodel,rulesinferenceetal.
incardiovasculardiseasesstudiessuchasnormal/abnormalECGclassification,atrialfibrillationandprematureventricularcontractionclassificationandsoon.
Throughaseriesofexperiments,wehavefoundthatthemethodcombingconvolutionalneuralnetworkandrulesinferenceisbetterforrecognitionofthesecardiovasculardiseases,anditcangainhigheraccuracyratesthansomeothertraditionalmachinelearningmethods.
Nowwehaveusedtheconvolutionalneuralnetworkmodelforsomecardiovasculardiseasesclassificationonourcloudplatform.
作者照片(高清照片)

Hostiger发布哥伦布日提供VPS主机首月七折优惠 月费2.79美元

Hostiger商家我们可能以前也是有见过的,以前他们的域名是Hostigger,后来进行微调后包装成现在的。而且推出Columbus Day哥伦布日优惠活动,提供全场的VPS主机首月7折月付2.79美元起的优惠。这里我们普及一下基础知识,Columbus Day ,即为每年10月12日,是一些美洲国家的节日,纪念克里斯托弗·哥伦布在北美登陆,为美国的联邦假日。Hostiger 商家是一个成立于2...

inux国外美老牌PhotonVPS月$2.5 ,Linux系统首月半价

PhotonVPS 服务商我们是不是已经很久没有见过?曾经也是相当的火爆的,我们中文习惯称作为饭桶VPS主机商。翻看之前的文章,在2015年之前也有较多商家的活动分享的,这几年由于服务商太多,乃至于有一些老牌的服务商都逐渐淡忘。这不有看到PhotonVPS商家发布促销活动。PhotonVPS 商家七月份推出首月半价Linux系统VPS主机,首月低至2.5美元,有洛杉矶、达拉斯、阿什本机房,除提供普...

Virmach($7.2/年)特价机器发放

在八月份的时候有分享到 Virmach 暑期的促销活动有低至年付12美元的便宜VPS主机,这不开学季商家又发布五款年付VPS主机方案,而且是有可以选择七个数据中心。如果我们有需要低价年付便宜VPS主机的可以选择,且最低年付7.2美元(这款目前已经缺货)。这里需要注意的,这次发布的几款便宜年付方案,会在2021年9月30日或者2022年4月39日,分两个时间段会将INTEL CPU迁移至AMD CP...

卷积神经网络为你推荐
支付宝查询余额怎么查询支付宝里的余额最新qq空间代码QQ空间代码有哪些???bluestacksBluestacks安卓模拟器是什么机型的?自助建站什么情况下采用自助建站方式建站好?百度手写百度如何手写:淘宝店推广如何推广淘宝店安卓应用平台安卓系统支持的软件并不是那么多,为什么这么多人推崇?办公协同软件oa办公系统软件有哪些lockdownd[求教]在淘宝买了张激活卡,请问怎么取消激活二层交换机集线器和二层交换机,三层交换机的区别
免费域名解析 如何申请免费域名 ftp空间 idc评测 hostgator themeforest googleapps 163网 香港cdn 空间服务商 牛人与腾讯客服对话 亚洲小于500m 网通ip 全站静态化 工作站服务器 国外代理服务器软件 福建铁通 国外免费asp空间 gtt 无限流量 更多