基于非下采样Contourlet变换的人脸表情识别算法研究
贾函龙1王金芳2黄利飞3
(1辽宁机电职业技术学院辽宁丹东 2燕山大学电气工程学院秦皇岛
3杭州筹图科技有限公司杭州)
摘要本文研究了非下采样Contourlet变换在人脸表情识别中的应用并设计了相应的算法流程。首先将人脸表情图像分割为最能表征表情信息的眼睛和嘴巴两个部分然后利用非下采样Contourlet变换对分割的局部图像进行特征提取最后使用极限学习机进行分类并与BP神经网络进行对照实验。研究结果显示表情分类平均准确率可达86.57% 比BP神经网络的分类方法平均准确率高出7.43%。而在执行速度方面极限学习机却是BP神经网络的11.09倍表明了本实验方案的高效性和可行性。
关键词人脸表情识别非下采样Contourlet变换极限学习机 BP神经网络中图分类号 文献标识号
Facial expression recognition based on the next sampling Contourlettransform algorithm research
Jia Hanlong
(1 Liaoning Mechatronic s Colleg e,Liaoning Dandong, ,China 2 Yanshan University,
Qinhuangdao, ,China 3 Hangzh ou ChouTou Tech Co.LTD,Hangzhou, ,China)Abstract: this paper studied the next sampling Contourlet transform in the application of facialexpression recognition, and the corresponding algorithm design process.Facial expression of theimage segmentation is the most can represent the expression information of the eyes and themouth of two parts, and then use the sampling Contourlet transform under the division of localimage feature extraction, finally using extreme learning machine for classification, and comparedwith the BP neural network control experiment.The results showed that expression classificationaccuracy can reach 86.57%on average, than the BP neural network classification method ofaverage accuracy higher than 7.43%. In the speed of execution method, extreme learning machineis 11.09 times that of the BP neural network show that the efficiency and feasibility of the
作者简介贾函龙(1988-),男,辽宁丹东人,学士,助理实验师,主要研究方向:工业自动化编程、 图像处理;
王金芳(1986-),女,河北保定人,硕士,工程师,主要研究方向:图像处理、 电子线路设计。
黄利飞(1988-),男,河南安阳,硕士,工程师,主要研究方向:图像处理。
experiment scheme.
Key words: facial expression recognition;The next sampling Contourlet transform;Extremelearning machine;The BP neural network
引言
人脸表情含有丰富的人体行为信息可以直观的反应一个人的心理状态。随着人机交互的研究日益得到人们关注人脸表情识别已经成为模式识别领域一个极具研究意义的分支。 目前应用于表情识别的方法有基于gabor小波特征的方法基于主动形状模型(ASM)和主动外观模型(AAM的方法基于流形的方法等。
典型的人脸表情提取主要包括人脸表情的预处理特征提取与选择和人脸表情分类三个主要步骤。其中表情特征的提取与选择是人脸表情识别步骤中最关键的一步。如何将人脸表情预处理得到的高维数据进行快速有效的降维是表情识别系统的核心也是目前为止最难于有效解决的关键所在。 Gabor小波可以提取多尺度、多方向的空间频率特征在人脸识别和表情识别的应用技术中 已经取得了一定的成绩。 Contourlet变换也是一种多尺度、多方向的变换早在2002年 Martin Vetterli和M.N.Do就研究了该算法。该变换是基于小波多尺度分析的思想基础研究的一种新的多尺度多方向分析方法。该变换不仅可以实现任意方向和尺度的分解具有同小波变换一样的优势而且由于其在图像轮廓特征和纹理信息方面的独到的提取和描述因而在图像处理领域具有较为广泛的应用。然而该变换在轮廓波采样过程进行了下采样转换因此失去了平移不变性导致在图像的恢复变换时会造成伪吉布斯失真。为此 A.L.Cunha等人研究了非下采样Contourlet变换 由于取消了变换过程中的下采样从而有效地抑制了伪Gibbs失真。
鉴于Contourlet变换的缺陷 A.L.Cunha等人提出了NSCT变换。该变换是由非下采样金字塔分解(Nonsubsampled Pyramid NSP)和非下采样方向性滤波器组(NonsubsampledDirectional Filter Banks NSDFB)组成的。非下采样金字塔分解通过一个双通道的滤波器组可将信号分解成一个多通和多个带通部分。
1表情图像预处理
由于拍摄环境的复杂性以及人体自身的运动获取的人脸表情信息会受到一些干扰。因此预先对要进行特征提取和特征选择的图片进行人脸特征区域的定位人脸区域的几何归一化以及直方图均衡化是有很重要的意义的[4]。 JAF EE人脸表情库后预处理前后的图像如图1和图2所示每行分别对应一个人的7种表情分别为愤怒、厌恶、恐惧、高兴、 中性、悲伤和惊奇。
图1 JAFFE库部分人脸表情图像
Fig 1 JAFFE l ibrary part of facial expression image
图2经过预处理后的表情图像实例
Fig 2 After pretreatment of face image instance
人脸特征区域的定位采用基准特征结合仿射变换[5]的方法该方法可以估计左右瞳孔的位置然后依据左右瞳孔的坐标来确定人脸的位置从而实现对人脸特征区域的定位。几何归一化是指图像经过尺度变换得到统一大小的校准图像即具有相同的高和宽这样可以使图像在后期特征提取和特征选择阶段上具有相同的特征维数从而简化运算。直方图均衡化可以消除部分光线和光照强度的影响使图像动态范围增大对比度更加扩展有助于提高识别率。
2 Contourlet变换与非下采样Contourlet变换
Contourlet变换是一种新的图像二维表示算法它的基本思想是首先用一个类似小波的多尺度分解描述出轮廓段然后将图像数据拉普拉斯金字塔变换(Lap lac ian Pyramid LP)和二维方向滤波器组(Directional Filter Bank DFB)进行多尺度、多方向的变换。 LP变换的基础是高斯金字塔这是通过对原始图像循环进行高斯低通滤波和下采样来完成的下采样的过程相当于带通滤波器这样就形成了从上到下有层次的金字塔样式的图像分解 LP变换的主要功能是将图像分解为低频系数子带和高频系数子带。
从根本上说 图像是由一个数值矩阵组成的。矩阵相邻的像素点可以组成短小的线条而多个线条的聚集就形成图像的基本轮廓和纹理特性 因此引入DF B滤波器组的作用就是基于方向的角度对图像进行从粗分辨率到细分辨率的特征提取。DFB滤波器组首先将LP变换得到的高频分量抽样进行多方向分解然后通过将分布在同一方向的奇异点合成一个系数用类似于线段的基结构表征图像的边缘细节等几何特征实现对图像信息的稀疏逼近。
对低频子带重复上述LP和DFB分解过程即可实现图像的多尺度多方向分解。 LP分解
的每一层将图像分解为高频部分和低频部分而DF B的优点是对于高频部分的表现更加优秀这也就是两则叠加之后的Contourlet变换更具有优异性的原因。但是由于该变换在LP变换的分解和重构滤波器的过程中带宽均大于/2。因此对滤波后的图像进行缩减下采样会产生频谱混叠。频谱混叠会削弱了Contourlet变换的方向选择性因为同一方向的信息会在几个不同的方向子带中再次出现。 同时 Contourlet变换的下采样也使该算法失去了平移不变性。
鉴于Contourlet变换的缺陷的较为明显 A.L.Cunha等人提出了N S CT变换。该变换是由非下采样金字塔分解(Nonsubsampled Pyramid NSP)和非下采样方向性滤波器组(Nonsubsampled Directional Filter Banks NSDFB)组成的。非下采样金字塔分解通过一个双通道的滤波器组可将信号分解成一个多通和多个带通部分。
NSCT变换可以由两步组成先将图像经非下采样金字塔分解滤波器分解为低频图像矩阵系数部分和高频图像矩阵系数部分再由非下采样方向性滤波器将高频图像矩阵系数部分分解为若干个子带方向见图3
图3 NSCT变换分解示意图
F i g 3 NSCT transform decomposition diagram
在NSP分解过程中由于没有下采样环节所以NSCT变换具有平移不变性这就增强了图像特征信息的方向选择性更好地在多尺度多方向上实现了纹理特征的描述。
因为上述两个步骤中滤波器组的下采样因子全部去除了所以不会导致图像的错位这就是该变换满足平移不变性的原因。运用该变换进行图像的NS CT变换分解后同Contourlet变换一样会得到一个低频子带和若干个高频子带而且随着子带层数的增加细节被逐渐
放大。
(a)原图 b低频子带
(a)The original image (b)The low frequency subband
c 第一层两个方向上的高频子带
(c)The first layer of high frequency subband of two directions
d 第二层两个方向上的高频子带
(d) The second two directions on the high frequency subband
e第三层两个方向上的高频子带
(e) the third layer of high frequency subband of two directions
图4人脸表情图像的三层分解
Fig 4 The three layers of decomposition of facial expression images
将JAFEE人脸表情库中的一幅图像进行NSCT变换三层分解之后如图4所示仔细观察图像的细微之处我们可知低频子带的图像系数矩阵主要描述了人脸五官的基本轮廓对原始图像进行了低频滤波之后图像变得模糊不清而高频子带的图像系数矩阵则主要描述了人脸五官的更细节的轮廓及纹理等信息。如第二层四个方向上的高频子带信息较为细腻的从不同方向描述了口、眼、鼻子的细节特征验证了随着子带层数的增加细节纹理等被逐
渐放大如第三层高频子带信息描述了更加细微的对光照等外部因素鲁棒性强的细节特征。在采用支持向量机或者极限学习机进行分类的时候考虑该变换的平移不变性分解次数太多会导致维数灾难。也考虑到各层子带所描述和包含的信息量取三层NSCT变换分解且各层方向数目为2,4,2的时候较为理想。
3.非下采样Contourlet变换表情识别
图5非下采样Cont ourle变换在表情识别中的框架图
Fig 5 The next sampl ing Contour le transform in facial expression recognition in the frame
在人脸表情识别系统中人脸的每个部位对表情识别的贡献率是不同的。研究表明眼睛和嘴唇部位对人脸表情的识别起着决定性的作用。因此本算法将人脸表情分割成含有丰富表情的眼睛部位和嘴唇部位两个部分。本文在人脸表情识别技术中NSCT算法先用
该算法进行人脸表情关键区域的特征选择其中在人脸表情的非下采样Contour let特征融合之后 因为维数较大如选取JAFFE人脸表情库的210幅图片特征提取然后融合之后可达210*维直接带入分类器的话会引起维数灾难而且会极大的降低分类器的分类效率。为此在把特征提取之后的数据引入分类器之前应先进行数据压缩以避免维数灾难。本文引入P CA方法进行维数约简。然后引入主成分分析算法进行特征提取最后采用极限学习机extreme learning machine简称ELM进行表情分类并与BP神经网络分类算法进行识别正确率和识别效率的对比。
4极限学习机ELM
2004年新加坡南洋理工大学的黄广斌副教授研究极限学习机Exteme LearningMac hine ELM算法。该算法是一种简单小巧、速度极快的单隐层前馈神经网络学习算法。传统的神经网络学习算法 比如BP神经网络不仅容易产生局部最优解而且在训练时需要人为设置大量的训练参数。极限学习机则小巧迅速的多具有学习速度快且泛化性能好的优点这是因为该算法简洁在只需要提前人为设置网络的隐层节点数目在算法运行过程中不仅不需要调整网络的输入权值和隐元的偏置大小而且最后只产生唯一的最优解。因此近年来 ELM也已经成为神经网络研究领域的一个研究热点并成功应用于手写数字识别、人脸识别、时间序列预测等领域。 以下介绍ELM算法的工作原理。
已知给定N个不同的样本D={ x i ,y i |x i Rn,y i Rn}, i=1,2,3,„M。 ELM算法是前馈神经网络主要用于训练单隐含层这点与BP神经网络不同 BP神经网络可以手动设置隐含层数目。那么该神经网络的数学模型可以表述为
)
其中M表示隐含层的结点个数。
上式可以简称成
Hy (2)
其中 H为隐层输出矩阵表达式为
H
(
y
在式3中行代表训练样本所有隐结点的输出。 ELM算法是一种速度极快的单隐层前馈神经网络学习算法。其算法根据相关原理可以较为简略的总结为如下几步
第一步通过随机初始化的方式对偏置bi和权值wi进行随机赋值。这一步由于不需要调整网络的输入权值和隐元的偏置大小大大提高了ELM算法的运行速度。
第二步计算隐含层输出矩阵H。利用公式4求得训练样本所有隐节点的输出并将其计算成矩阵的形式。
第三步近似求解权值通过式ˆHY 即可求得计算隐含层到输出层的权值。5实验结果
运用非下采样Contourle变换的方法对人脸表情图像进行特征提取并用P CA算法进行特征选择最后以BP神经网络和极限学习机EL M进行分类。本章实验中所使用的数据库是日本的JAFFE表情库该图像库由有10个女性的7种表情(生气、厌恶、恐惧、高兴、悲伤、惊讶和中性)共计213幅图像组成。本算法选取每人每种表情3幅七种表情共210幅表情图像来进行实验。将每幅人脸表情图像经过几何归一化、直方图均衡化等预处理后可以得到每幅像素点为130×130的统一大小的图像。实验采用三层NSCT变换分解且各层方向数目为2,4,2并将“PKVA”作为默认的滤波器。所以每张人脸表情经变换后可以得到7个子带特征信息。为了做到与人无关的表情识别在表情的分类环节 引入BP神经网络和ELM算法进行对照试验并且随机选择每类表情的25幅表情图像作为训练集其余5幅表情图像作为测试集。实验中BP神经网络和ELM算法的激励函数都是S型函数。实验重复10次以降低随机性。
表1 JAFFE数据库人脸表情识别率 (%)
Table 1 JAFFE facial expression recognition database (%)
方法 1 2 3 4 5 6 7 8 9 10 平均识别率
BP-NN 7429 9429 7143 7143 7429 8000 8571 7714 8286 8000 7914ELM 8571 9143 8857 8286 8286 9429 8286 7714 8857 9143 8657
由表1我们可以看出经过非下采样C o ntour le变换提取后使用极限学习机的表情分类平均准确率可达86.57%比使用BP神经网络的分类方法平均准确率高出7.43%。而在执行时间方面如表2所示 BP神经算法执行十次的平均时间为6.82 s而,ELM算法仅为0.92 s我们可知极限学习机的速度BP神经网络的11.09倍可见EL M算法的高速性和高效性。
表2 JAFFE数据库人脸表情识别的执行时间 (s)
Table.2 the execution time of the JAFFE facial expression recognition database (s)
平均执行方法 1 2 3 4 5 6 7 8 9 10
时间
BP-NN 982 950 970 960 971 951 960 972 950 982 965ELM 087 086 084 085 090 085 094 086 085 084 087
本文还分析了各类表情识别的相关分布如表3所示。我们可以的看到分类正确率最低的是恐惧和厌恶分别只有76%和80%。在恐惧表情的分类中表情大多被错分为厌恶和愤怒在厌恶表情的分类中表情大多被错分为愤怒和恐惧。可以表明这四种表情在JAFFE库上的表情单元的相近性 以致于无法使用NSCT变换提取出精确的表情特征。
表3 JAFFE表情库六类基本表情识别分布
Table.3 JAFFE expression library distribution of six basic facial expression recognition
识别次数 识别率
愤怒 厌恶 恐惧 高兴 悲伤 惊奇 (%)
愤怒 48 1 1 0 0 0 9600
厌恶 5 40 3 0 2 0 8000
恐惧 2 3 38 0 1 0 7600
高兴 0 0 0 45 3 2 9000
悲伤 0 1 3 3 41 2 8200
惊奇 0 0 0 2 0 48 9600
在六种基本表情的实验分类结果中可以通过绘制直方图来更加简明的进行对比分析如图6所示。各类表情中分类正确率最高的愤怒、惊奇和高兴分别达到了96% 96%和90%。各种表情的识别率相对来说都是比较高这表明了本算法在实现表情正确分类上的有效性。
RAKsmart商家一直以来在独立服务器、站群服务器和G口和10G口大端口流量服务器上下功夫比较大,但是在VPS主机业务上仅仅是顺带,尤其是我们看到大部分主流商家都做云服务器,而RAKsmart商家终于开始做云服务器,这次试探性的新增美国硅谷机房一个方案。月付7.59美元起,支持自定义配置,KVM虚拟化,美国硅谷机房,VPC网络/经典网络,大陆优化/精品网线路,支持Linux或者Windows操作...
ucloud云服务器怎么样?ucloud为了扩大云服务器市场份额,给出了超低价云服务器的促销活动,活动仍然是此前的Ucloud全球大促活动页面。目前,ucloud国内云服务器2元/月起;香港云服务器4元/首月;台湾云服务器3元/首月。相当于2-4元就可以试用国内、中国香港、中国台湾这三个地域的云服务器1个月了。ucloud全球大促仅限新用户,国内云服务器个人用户低至56元/年起,香港云服务器也仅8...
博鳌云是一家以海外互联网基础业务为主的高新技术企业,运营全球高品质数据中心业务。自2008年开始为用户提供服务,距今11年,在国人商家中来说非常老牌。致力于为中国用户提供域名注册(国外接口)、免费虚拟主机、香港虚拟主机、VPS云主机和香港、台湾、马来西亚等地服务器租用服务,各类网络应用解決方案等领域的专业网络数据服务。商家支持支付宝、微信、银行转账等付款方式。目前香港有一款特价独立服务器正在促销,...