图像成人网zhan

成人网zhan 时间:2021-01-31 阅读:()

图片卫士:一个自动成人图像识别系统①曾炜②*郑清芳*****赵德斌****(*哈尔滨工业大学计算机科学与工程系哈尔滨150001)(**中科院计算技术研究所北京100080)(***中科院研究生院北京100039)摘要设计并实现了一个自动识别成人图像识别系统"图片卫士".
图片卫士采用3层识别框架,利用肤色、纹理、图像视觉特征分层逐级识别成人图像.
为了可靠地检测到图像中的肤色区域,提出了一种新的自适应统计肤色模型.
在肤色检测基础上,通过皮肤纹理验证过程,图像中的人体皮肤区域被准确地分割出来.
基于图像中皮肤区域,提取9个经验特征来表示图像内容,并采用AdaBoost算法构造一个总体分类器进行图像分类,识别正常图像和成人图像.
在算法评估中,建立了一个78205幅图像的测试集,其中59885幅为正常图像,18320幅为成人图像.
图片卫士显示了良好的系统性能,具有成人图像88.
5%的识别率,正常图像92.
5%的识别率.
在PentiumIV1.
5GHz的个人计算机上,图片卫士的平均处理速度为正常图像每秒5.
6幅和成人图像每秒1.
9幅.
图片卫士可以应用在个人计算机或网络传输中,实时监控和过滤成人图像,还可以为网络安全等应用提供技术支持.
关键词图像识别,肤色模型,图像分类,网络安全0引言互联网日益融入人们的日常生活,然而在人们自由访问网络的同时,总是或多或少被动地承受着网络不良信息的干扰,特别是网络色情的泛滥,已经成为互联网的一大公害,日益成为一个全球性的社会问题.
目前,网络安全技术已经成为一个快速发展的产业,并逐步影响到每个人的网络生活.
当前对网络色情的管理主要是通过屏蔽人们对成人网站的检索和浏览来实现,存在两种解决方法:网址屏蔽技术和关键词屏蔽技术.
第一种技术能够成功拦截并管理用户对已知成人网址的访问,但问题是不能及时处理新的URL,并需要不断更新网址库.
第二种技术通过自然语言理解,对网页的文字内容进行自动分析,判断用户访问的网页是否需要受到限制.
由于这种方法对一些特定的关键词比较敏感,所以在使用中具有较高的误判率,使得一些含有关键词的普通网页被屏蔽掉.
当一些成人内容不是以文本的方式表现时,如色情图片和视频,这种方法将受到制约.
为了有效地处理色情图像和色情视频这类多媒体数据,研究人员希望能够直接对成人图像进行分析,采用模式识别技术自动识别成人图像.
在成人图像识别相关研究中,一些研究者做了有益的探索.
1996年,美国加州大学Berkeley分校计算机系的D.
F.
Fourth教授等人对裸体图像识别进行了开创性的研究,设计并实现了一个裸体图像检测系统.
该系统通过肤色检测算法提取图像中的皮肤区域,然后对这些区域所构成的人体结构关系进行分析,检测人体的各个部位及其相互关系,最后得到对裸体图像的识别[1].
1998年,美国斯坦福大学计算机系的J.
Z.
Wang博士利用图像处理技术实现了一个色情图像屏蔽系统.
该系统组合了图标过滤算法、图像检测算法、颜色直方图、纹理过滤和基于小波的形状匹配技术实现了一个自动的成人图像屏蔽系统[2].
同年,美国HP研究院剑桥实验室的M.
J.
Jones等人提出统计肤色模型,并在此基础上采用神经网络分类器实现了一个成人图像识别系统[3].
2002年,A.
Bosson等人采用多层感知器来分类成人图像[4].
—11—曾炜等:图片卫士:一个自动成人图像识别系统①②男,1973年生,博士生;研究方向:计算机视觉、图像处理视频分析;联系人,E-mail:wzeng@jdl.
ac.
cn,wzeng163@163.
com(收稿日期:2004-10-18)863计划(2003AA142140)资助项目.
尽管研究人员提出了各种各样的技术来识别成人图像,然而成人图像识别却一直是一个非常困难的图像分类问题,其识别的精度和速度都有待大幅度提高.
本文采用层次化识别框架,利用肤色、纹理、图像视觉特征分层逐级识别成人图像.
由于裸露的皮肤是成人图像最重要的视觉特征,因此首先通过肤色检测确定出含有肤色的候选图像,然后通过对肤色区域分析,确定其中符合人体皮肤纹理特性区域的比例,进而分割出图像的皮肤区域,分离出不含光滑肤色区域的正常图像.
在对皮肤区域提取低层视觉特征后,通过AdaBoost算法构造一个总体分类器进一步得到对候选图像的识别.
这样经过3层处理,正常图像被逐级检测出来,成人图像最后由图像分类器进行识别.
这种层次化识别方法加快了正常图像的处理速度,也符合在应用中大量存在的是正常图像的实际情况.
1肤色检测1.
1光照、色温自适应的统计肤色模型由于图像往往是在不同的环境下拍摄得到,因此环境光会极大地影响肤色的颜色分布.
即使是同一个人,由于光源的不同,在图像上呈现的肤色也会不一样,因此需要一个鲁棒的肤色检测算法来检测不同环境下的肤色像素.
然而,由于照相机的参数和光源的光谱很难得到,精确计算光照参数十分困难.
所以,我们提出了一种简单有效的自适应统计肤色模型来检测不同光照条件下的肤色像素.
决定一幅图像中的肤色分布主要有两个因素,一个是环境光的强度,一个是人体皮肤的本色.
这里,我们不考虑采用特定颜色光源的情况,因为绝大多数的自然图像不会拍摄自特定颜色的光源.
针对图像的亮度和色温,我们建立不同的统计肤色模型,分别检测不同光照类别的图像,以提高肤色检测算法的性能.
首先,我们计算图像的平均亮度.
然后采用一个全局肤色模型检测图像中的肤色像素,并根据检测到的肤色像素,确定这幅图像中肤色像素的色温.
最后根据平均亮度和色温选择一个最优的统计肤色模型来检测肤色.
假设图像的光照条件为L(包括平均亮度和色温),则采用RGB颜色空间表示的图像像素是肤色像素的后验概率为:P(Skin|RGB,L)=P(RGB,L|Skin)P(Skin)P(RGB,L|Skin)P(Skin)+P(RGB,L|癶Skin)P(癶Skin)(1)其中P(RGB,L|Skin)和P(RGB,L|癶Skin)分别表示在成像条件L下肤色和非肤色像素的类条件概率.
如果先验概率P(Skin,L)和P(癶Skin,L)相等,公式(1)可进一步简化为:P(Skin|RGB,L)=P(RGB|Skin,L)P(RGB|Skin,L)+P(RGB|癶Skin,L)(2)在公式(2)表示的肤色模型中,所有的类条件概率的统计都是在成像条件L下得到的.
其实,公式(1)中的先验概率也可以通过统计得到,但是,在我们的实验中,等概率假设获得了较好的实验结果.
在算法实现中,每个统计肤色模型是采用聚类算法在训练数据上获得.
首先根据图像的平均亮度采用自适应的K-means算法进行聚类,然后再对每个类采用K-means算法根据色温进行聚类,最后对每个类进行统计得到统计肤色模型.
当P(Skin|RGB,L)≥θ时,则该像素被判定为肤色点.
这里,阈值θ为[0,1]区间上的一个实值.
阈值的确定可以通过等错误率曲线(ROC曲线[5])来确定.
1.
2肤色背景区域分离尽管肤色模型能够较好地检测到主要的肤色区域,但是由于一些物体的颜色与肤色在颜色空间上重合,使得这些区域经常被检测成肤色区域,如:橘黄色的衣服、金黄色的头发、乳白色的沙发等.
这些物体在环境光的照射下,有时呈现出与人体肤色相同的颜色.
为了进一步正确分离人体肤色区域,我们引入了3D直方图技术来分析类似肤色的背景[6].
由于同一对象的颜色数据在彩色空间具有一定的聚集性,因此人体皮肤区域和与肤色类似的背景区域在颜色空间分别聚集成不同的肤色聚类.
因此,通过在颜色空间的聚集性分析,可以成功地将人体肤色区域分离出来.
1.
3肤色区域滤波由于肤色检测采用的是基于像素点的分类算法,因此检测结果中往往含有噪声.
同时,人体皮肤区域存在部分高光和阴影区域,使得这类像素往往被检测为非肤色像素,从而在肤色区域出现一些细碎的非肤色噪声.
为了消除这些噪声,我们采用形态滤波操作在检测到的肤色掩码上进行3次腐蚀和膨胀操作[7].
为了得到良好的效果,滤波窗口的大小根据检测到的肤色区域尺寸进行自适应的调节.
—21—高技术通讯2005年3月第15卷第3期2皮肤纹理验证人体皮肤在图像中往往呈现为光滑区域,因此通过对检测到的肤色区域进行光滑性分析,可以进一步得到可靠的皮肤区域.
本文利用局部区域的灰度方差来描述区域的纹理特征.
如果一个窗口内图像的灰度方差小于一个阈值,且该区域拥有超过90%的肤色像素,则这个窗口区域被确定为皮肤区域.
通过纹理验证,皮肤区域尽可能地被保留下来;非皮肤区域则被过滤掉.
尽管有一些正常图像含有一定的肤色像素,但是可以通过统计检测到的肤色区域中含有光滑纹理区域的总面积来区分这些正常图像.
通过统计,我们发现超过96%的成人图像含有超过30%的光滑纹理区域,而只有低于22%的正常图像具有大于30%的光滑纹理.
因此,如果一幅图像中检测到的肤色像素区域含有小于一定比例的光滑纹理,则该图像可以被判断为正常图像.
3图像分类成人图像识别问题可以看作是一个两类的图像分类问题,有效地提取图像特征是解决该问题的关键.
根据经验,我们选择了3类9个经验特征来表示图像:(1)肤色特征:肤色平均后验概率、肤色像素后验概率方差、肤色像素色调方差;(2)纹理特征:肤色区域纹理对比度、肤色区域纹理粗糙度;(3)形状特征:肤色像素占整幅图像百分比、肤色像素占肤色区域外接矩形百分比、肤色区域连通区的个数、最大肤色区域的面积.
值得说明的是,所有图像特征的抽取是基于肤色检测后的掩码区域进行,也就是说,所有的图像特征是肤色区域的图像特征.
图片卫士采用经典AdaBoost[8]方法构造一个总体分类器作为图像分类器.
该算法首先根据已有的训练样本设计一个分量分类器(弱分类器),要求这个弱分类器的准确率比随机性能好.
然后依次顺序加入多个弱分类器,最后形成一个总体分类器.
在AdaBoost方法中,每一个训练样本都被赋予一个权重,表明它被某个弱分类器选入训练集的概率.
如果某个样本点已经被准确分类,那么在构造下一个训练集中,它被选中的概率就低;相反,如果某个样本点没有被正确分类,那么它的权重就得到提高.
通过这样的方式,AdaBoost能够"聚焦于"那些较困难的样本上.
基于9个经验特征,我们采用了4种弱分类器:DecisionStump[9]、C4.
5决策树[10]、支持矢量机[11]和多层感知器[12]进行分类实验.
尽管这些分类器本身就可以作为图像分类器,但是经过组合,可以形成一个性能更好的总体分类器.
整个系统的流程如图1所示:图1图片卫士系统流程4实验结果与分析4.
1肤色检测实验实验采用两个指标来描述肤色检测算法的性能:检测精度和误检率.
检测精度是指正确检测到的肤色像素占所有实际肤色像素的百分比;误检率是指非肤色像素被误检为肤色像素数目占总的非肤色像素的百分比.
我们首先人工标注了650幅含有肤色的图像,然后加入1000幅不含肤色的图像形成肤色模型的训练数据集.
在实现中,每个统计肤色模型采用均匀量化的32*32*32(每位5bit)RGB颜色空间.
K-means算法中的距离测度采用欧氏距离.
对一幅待检测图像,肤色模型的检测分成如下4个步骤:(1)首先计算图像的平均亮度,将图像归入某亮度类;(2)用该亮度类的统一肤色模型进行肤色预检测;(3)根据检测到的结果估计肤色色温,并根据色温把图像归入某一色温类;(4)用相应色—31—曾炜等:图片卫士:一个自动成人图像识别系统温下的肤色模型重新进行肤色检测.
我们在138幅手工标注的图像上比较了传统统计肤色模型[3]和自适应统计肤色模型的性能.
图2(a)显示的是两种肤色模型的ROC曲线.
图2(b-d)给出的是采用两种肤色检测算法进行肤色检测的例子.
由图2可见,我们提出的自适应统计肤色模型具有较好的性能.
(a)两种肤色检测算法的ROC曲线;(b)原始图像;(c)传统肤色检测算法得到的掩码图像;(d)自适应统计模型得到的掩码图像图2肤色检测算法的实验结果4.
2图像分类实验在图像分类实验中,我们选择了一个13012幅图像的图像库,其中包括8100幅正常图像和4912幅成人图像.
正常图像随机从商用图像数据库Corel图像库抽取,内容包括动物、植物、人物、风景、汽车、水果等,成人图像是从互联网上随机下载得到.
实验采用交叉验证的方法进行,把数据集平均分为5份,每次用4/5作训练,剩余1/5作测试.
这样通过5次循环,使每一份数据都在训练集和测试集中出现过,最后得到实验结果取5次实验结果的平均值.
在图像分类试验中,我们采用两个指标(正检率和误检率)来描述分类器的性能.
正检率(TP)是指检测到的成人图像占实际所有成人图像数目的百分比.
误检率(FP)是指正常图像被误检为成人图像占实际所有正常图像数目的百分比.
表1给出四种分类器的分类性能.
其中第一行是没有采用AdaBoost算法时各个分类器的性能指标,第二行是采用AdaBoost算法后的性能指标.
总体看来,采用Boosting方法后,系统总体分类器性能有所提高,其中C4.
5和SVM的正检率得到了显著增加,误检率同时得到了降低.
尽管DecisionStump算法的误检率升高了1.
5%,但是正检率升高了近10%.
多层感知器算法在误检率接近的情况下,正检率提高了约2%.
表1图像分类器性能比较DecisionStumpC4.
5SVMMulti-layerPerceptronTPFPTPFPTPFPTPFP-77.
4%6.
27%88.
05%5.
56%84.
44%7.
98%87.
41%4.
69%AdaBoost86.
97%7.
84%91.
12%4.
38%85.
69%6.
96%89.
72%4.
84%由于不同的参数会导致不同的肤色检测性能,而图像特征的提取是基于肤色检测的基础上,因此我们测试了6种肤色指标下基于AdaBoost图像分类器的性能.
表2给出了不同肤色指标下的图像总体分类器的TP和FP.
随着肤色检测精度的提高,误检率也随之增高.
在大多数情况下,图像肤色检测精度的提高会导致图像分类性能的提高,但是图像分类器性能的提高幅度要小于肤色检测性能的提高—41—高技术通讯2005年3月第15卷第3期幅度.
同时,从表2中可以看出,图像误检率的增加对图像分类器的性能影响较小.
实际上,图像分类器的鲁棒性降低了图像分类对肤色检测误检率的依赖.
另外,从表1和表2看出,基于C4.
5的AdaBoost分类器性能最好.
表2不同肤色检测指标下的分类器性能序号(肤色检测精DecisionStumpC4.
5SVMMulti-layerPerceptron度,误检率)TPFPTPFPTPFPTPFP1(76.
7%,15.
0%)82.
85%5.
76%88.
50%4.
87%82.
15%5.
42%87.
35%5.
06%2(79.
2%,15.
5%)75.
30%5.
75%88.
66%4.
98%82.
29%5.
48%86.
71%4.
44%3(79.
4%,15.
8%)82.
64%5.
71%88.
66%4.
91%82.
30%5.
53%86.
56%4.
52%4(79.
8%,16.
2%)81.
65%4.
81%88.
72%5.
14%81.
86%5.
30%87.
15%4.
96%5(84.
3%,18.
7%)85.
61%7.
48%90.
12%4.
89%84.
57%6.
26%88.
95%5.
24%6(92.
6%,29.
3%)86.
97%7.
84%91.
12%4.
38%85.
69%6.
96%89.
72%4.
84%4.
3图片卫士系统实验在图像卫士系统中,为了加快系统对正常图像的处理速度,只有肤色像素超过5%且具有超过5%光滑纹理的图像送入图像分类器进行识别.
我们搜集了59885幅正常图像和18320幅成人图像作为测试数据集.
其中正常图像来自Corel图像库,成人图像从97个色情网站下载获得.
在PentiumIV1.
5GHz的个人计算机上,图片卫士的平均处理速度为每秒5.
6幅正常图像和每秒1.
9幅成人图像.
表3给出了图片卫士的检测指标.
表3图片卫士的系统性能图片种类检测为色情图像检测为正常图像正常图像(59885幅)4492幅/7.
5%55393幅/92.
5%成人图像(18320幅)16213幅/88.
5%2107幅/11.
5%5结论本文设计并实现了一个自动成人图像识别系统"图片卫士".
在图片卫士中,我们提出了一种新的自适应统计肤色模型提高了肤色检测性能.
图片卫士采用3层识别框架,分层逐级识别成人图像,具有较快的处理速度.
由于采用了AdaBoost算法构造总体分类器,图片卫士的具有良好的分类性能.
图片卫士达到了成人图像88.
5%的识别率,正常图像92.
5%的识别率.
在PentiumIV1.
5GHz个人计算机上,图片卫士处理速度为正常图像每秒5.
6幅,成人图像每秒1.
9幅.
图片卫士可以应用在个人计算机或网络节点上,实时监控和过滤访问或传输的成人图像,并可以为网络安全等应用提供技术支持.
参考文献[1]FleckM,ForsythDA,BreglerC.
FindNakedPeople.
In:Proc.
of4thEuropeanConf.
onComputerVision,1996.
592-602[2]WangJZ,LiJ,WiederholdG,etal.
Systemforscreeningobjectionableimages.
ComputerCommunications,1998,21(15):1355[3]JonesMJ,RehgJM.
Statisticalcolormodelswithapplica-tionstoskindetection.
Int.
J.
ofComputerVision,2002,46(1):81[4]BossonA,CawleyG,ChanY,etal.
Non-retrieval:blockingpornographicimages.
In:LewMS,SebeN,EakinsJP(Eds.
).
Proc.
Int.
Conf.
onImageandVideoRetrieval.
London,UK:Springer,2002.
50-60[5]ProvostF,FawcettT.
Analysisandvisualizationofclassifierperformance:Comparisonunderimpreciseclassandcostdis-tributions.
In:Proc.
ofthethirdInternationalConferenceonKnowledgeDiscoveryandDataMining,1997.
43-48[6]ChoKM,JangJH,HongKS.
Adaptiveskin-colorfilter.
PatternRecognition,2001,34(5):1067[7]章毓晋.
图像分割.
北京:科学出版社,2001.
190-192[8]DudaRO,HartPE,StorkDG等译.
Patterclassification.
第二版.
机械工业出版社,2003.
384-387[9]IbaW,LangleyP.
Inductionofone-leveldecisiontrees.
InProc.
oftheninthinternationalworkshoponMachinelearn-ing.
Aberdeen,Scotland,UnitedKingdom:MorganKauf-mannPublishersInc.
,1992.
233-240[10]QuinlanJR.
ImproveduseofcontinuousattributesinC4.
5.
JournalofArtificialIntelligence,1996,4:77—51—曾炜等:图片卫士:一个自动成人图像识别系统[11]JoachimsT.
MakingLarge-ScaleSVMLearningPractical.
In:AdvancesinKernelMethods-SupportVectorLearning,B.
Scholkopf,C.
Burges,andA.
Smola,eds.
MITPress,1999.
169-184[12]MitchellTM,曾华军,张银奎等译.
MachineLearning.
机械工业出版社,2003.
63-73Imageguard:anautomaticadultimagerecognitionsystemWeiZeng*,QingfangZheng*****,DebinZhao****(*DepartmentofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001)(**InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080)(***GraduateSchool,ChineseAcademyofSciences,Beijing100039)AbstractThispaperproposesanimagerecognitionsystem,calledImageGuarder,torecognizeadultimagesautomatically.
ImageGuarderemploysahierarchicalrecognitionframeworkwith3layers,whichintegratesskincolordetection,skintexturevalidationandimageclassification.
Anoveladaptivestatisticalskincolormodelisdesignedtoreliablydetectskinpixels.
Basedonskincolordetection,skinregionsareextractedbyasmoothtexturevalidationprocess.
Fromthedetect-edskinregions,ninead-hocimagefeaturesareextractedtorepresenttheimagecontent.
Atlast,theAdaBoostalgorithmisadoptedtoconstructanintegratedclassifierforthefinalimageclassification.
ToevaluatetheperformanceofImageGuarder,alargeimagedatasetconsistingof59885benignimagesand18320adultimagesissetup.
Theproposedsys-temshowsanexitingperformancethattheprecisionfortheadultimagesis88.
5%,andtheprecisionforthebenignim-agesis92.
5%respectively.
OnthePentiumIV1.
5GHzPC,theaverageprocessingspeedis5.
6framespersecondforthebenignimages,while1.
9framesfortheadultimages.
ImageGuardercanbeusedtoinspectorfilteradultimagesonthepersonalcomputerorinthenetworktransmission.
Italsoprovidesatechniquethatsupportsforthenetworksecurityapplications.
Keywords:imagerecognition,skincolormodel,imageclassification,networksecurity—61—高技术通讯2005年3月第15卷第3期

展开全文

图像成人网zhan相关文档

2017年双11销售额2018年双十一（11.11）淘宝天猫一天的交易额能突破2500亿吗？视频剪辑软件哪个好视频剪辑哪个软件好用迈腾和帕萨特哪个好帕萨特和迈腾哪个车好？帕萨特和迈腾哪个好迈腾与帕萨特那个好？电视直播软件哪个好电视直播软件哪个好红茶和绿茶哪个好红茶和绿茶哪个好？雅思和托福哪个好考雅思和托福哪个好考?辽宁联通网上营业厅辽宁联通怎样用发短信方式查询话费和流量 YunOS手机显示yunos停止运行是什么意思 dns服务器未响应电脑上不了网了，显示DNS服务器未响应，什么意思免费com域名申请 lamp 国外主机狗爹百度云100as googleapps 外国域名 gateone realvnc 丹弗韩国网名大全蜗牛魔方 789电视网免费申请网站 ftp免费空间 hdd 免费私人服务器双线机房免费mysql数据库创建邮箱更多

图像成人网zhan

IMIDC彩虹数据：日本站群多ip服务器促销;30Mbps带宽直连不限流量,$88/月

CloudCone中国新年特别套餐,洛杉矶1G内存VPS年付13.5美元起

pigyun25元/月，香港云服务器仅起;韩国云服务器，美国CUVIP