石河子大学信息科学与技术学院毕业设计文献综述
课题名称 手写体数字识别系统设计
学生姓名
学 号
学 院 信息科学与技术学院
专业年级 电子信息工程2007级
指导教师
职 称
完成日期 二○一○年十二月三十日
文献综述
前言
随着国家信息化进程的加速在邮政编码、统计报表、财务报表、银行票据等处理大量字符信息录入的场合手写数字识别系统的应用需求越来越强烈对于主要都是由阿拉伯数字组成的各种编号和统计数据处理这类信息的核心技术是手写数字识别[1] 。
OCR Optical Character Recognition即光学字符识别技术是通过扫描仪把印刷体或手写体文稿扫描成图像然后识别成相应的计算机可直接处理的字符。手写数字识别是光学字符识别技术的一个分支它研究的对象是如何利用电子计算机自动辨认人手写在纸张上的字符[2] 。
在整个OCR领域中最为困难的就是脱机手写字符的识别。到目前为止尽管人们在脱机手写识别的研究中已取得很多可喜成就但距实用还有一定距离。而在手写数字识别这个方向上经过多年研究研究工作者已经开始把它向各种实际应用推广为手写数据的高速自动输入提供了一种解决方案[3] 。
正文
1 .手写数字识别的发展状况
1 . 1 国内发展现状
随着科学技术的迅速发展人们对计算机识别能力的要求也越来越高。在我国如何将数字方便、快速地输入到计算机中已成为关系到计算机技术普及的关键问题。 目前我国已经推出了多字体大字符集简繁混识的识别核心能够识别常见的十几种字体及其变体识别字符集包括简体中文6763字、繁体中文5401字、香港常用字等1万多字各种字体的识别率都在99%以上。 目前我国从事数字识别技术研究的单位主要有汉王科技、北京文通、北京鑫万佳公司、蒙恬科技等数字识别正确率大于99%[4] 。
我国手写数字识别系统现在在大多数领域中起到举足轻重的作用尤其是用在财务、税务、金融行业、年检、人口普查等。在大规模的数据统计(如行业年检、人口普查等)中需要输入大量的数据 以前完全要手工输入需要耗费大量的人力和物力。近年来在这类工作中采用OCR技术已成为一种趋势。数据的录入是集中组织的所以往往可以通过专门设计表格和对书写施加限制以便于机
器的自动识别[5] 。财务、税务、金融是手写数字识别大有可为的又一领域。随着我国经济的迅速发展每天等待处理的财务、税务报表、支票、付款单等越来越多。如果能把它们用计算机自动处理无疑可以节约大量的时间、金钱和劳力[6] 。另外随着我国函件业务量不断增长邮件的分拣自动化成为大势所趋。在邮件的自动分拣中手写数字识别(OCR)往往与光学条码识别(OBR) ,人工辅助识别等手段相结合完成邮政编码的阅读。这就需要分拣机有一定的性能指标差错率要越小越好[7] 。
1 .2国外发展现状
早在60、 70年代世界各国就开始有光学字符识别OCR方面的研究研究的初期多以文字的识别方法研究为主且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例 1960年左右开始研究OCR的基本识别理论初期以数字为对象直至1965至1970年之间开始有一些简单的产品如印刷文字的邮政编码识别系统识别邮件上的邮政编码帮助邮局作区域分信的作业也因此至今邮政编码一直是各国所倡导的地址书写方式。 现今 IBM、 HP、 日立、东芝、夏普、NEC、理光和新加坡热卡公司等国外公司都巨额投入了手写数字识别领域利用扫描仪摄影器材甚至是扫描笔来将手写体数字输入电脑进行识别[8] 。
1 .3国内外研究的方法
1.3. 1基于形体特征的手写体数字识别
通过对手写体数字识别技术的研究本方法建立了一个脱机手写体数字识别系统对手写体数字的识别提出了一些新的思路并对识别过程中所采用的关键算法进行了阐述。本方法提出了二次毛刺去除法对手写体数字图像进行预处理采用骨架搜索法来提取字符的孔洞特征使用模板匹配加骨架搜索的方法来确定不同方位的端点利用模板匹配法来提取字符的横线及竖线特征采用特征匹配法对字符进行识别。实验证明本文所建立的基于形体特征的手写体数字识别系统能较全面地反映手写体数字各方面的特征总的识别率达到95.5%有着较好的识别性能和十分广泛的应用前景[9] 。
1.3.2基于支持向量机的手写数字识别系统
支持向量机(SuppertVectorMachnie SVM)简称SVM是统计学习理论中最新的内容也是最实用的部分。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷以期获得最好的推广能力。基于统计学习理论的坚实基础
SVM有很强的学习能力和较好的泛化性能。SVM用优化方法得到的结果是全局最优解不会产生传统方法中的过学习和局部最小等问题。对于一个完整的识别系统应包括从图像采集到得出识别结果的过程。支持向量机有很强的学习能力和较好的泛化性能因此系统在识别性能上是比较好的但是在识别速度、识别效率上就有待提高[10] 。
1.3.3基于分数本征特征的手写数字识别
特征提取是手写体数字识别研究中的重要问题有效、稳定的特征是提高识别率和识别精度的关键。该方法提出了一种基于分数本征特征和核非线性分类器的手写数字识别方法首先找到时频平面的一个轴进行分数傅里叶变换使不同类别样本在这个轴上最大限度地分开然后用主元分析进行降维得到比较稳健的低维特征再将常用分类器用于特征分类实现对手写数字的识别[1 1] 。对实际数据进行实验结果表明本征特征与核非线性分类器相结合有较高的识别率和训练、分类效率。
1.3.4利用radon变换实现手写数字识别的新方法
利用传统的radon变换找到了一种新的旋转不变特征最后采用bp神经网络分类器进行分类。实验表明本方法具有93.89%的高识别率而且对字符旋转具有很好的鲁棒性[12] 。
1.3.5基于模糊聚类算法的手写体数字识别
针对任意手写数字识别问题,提出一种实时的,具有旋转、尺寸不变性的智能识别方法。重点研究了Zernike矩和小波矩。基于Zernike矩和小波矩寻找了一种有效的提取图像轮廓及轮廓重建方法。建立具有平移,尺寸及旋转不变性的样本特征库,最后运用改进的FCM算法进行模糊识别。在深入的分析了特征、聚类与识别的关系的基础上,将研究建立衡量选取特征的标准。将模糊集的贴近度和模糊度等相关知识应用于模糊C均值聚类,克服模糊C均值聚类算法占用大量的计算时间、聚类效果中区分度不高等问题。采用相关分析、最大相似相近贴近度、主成分分析及图象重构等方法对手写数字的Zernike矩特征进行了筛选,使所选特征最大程度上代表手写数字的特征且分离度大,易于模糊C均值聚类算法进行分类识别。首先,基于结构特征和统计特征对手写数字进行识别,识别结果为标准样本库。其次,为矩识别再次扩充标准样本库,对得到的样本库再增加一些特殊手写数字样本,利用σ-可加性贴近度与改进的C-均值模糊聚类对数字进行识别,识别结果为新的标准样本库[14] 。前两步均要求牺牲数字整体识别率,确保数字识别的
高精度(≥99%) ,然后,对已扩充的样本库中的样本进行(正交)小波(Zernike、Hu)矩变换,建立了具有平移,尺寸及旋转不变性的样本特征库[13] 。
1.3.6基于动态权值集成的手写数字识别
本方法是一种动态权值集成的多分类器手写数字识别方法。该识别方法以图像预处理和字符特征提取为基础,采用BP神经网络识别作为核心识别分类器,对多个神经网络识别器的输出向量进行动态权值集成确定最后的识别结果。 在预处理方面,本方法着重研究了光照不均字符灰度图像的二值化问题,提出了一种基于高斯拉普拉斯(LoG)算子的边缘零交叉二值化方法,该方法能够适应光照不均和噪声等干扰,其二值化后的字符图像能够很好地保持本来形态[14] 。在特征提取方面,本方法提取了三种有效特征向量,分别为原始点阵向量、宏观特征、宏观特征和微观特征。通过分析研究,利用三种不同特征向量进行字符分类,分类结果具有很好的互补性。分类识别器采用了BP神经网络。对BP神经网络的训练算法进行了研究,提出一种综合优化训练算法,使网络训练速度得到提高,网络收敛也得以保证。将三种不同特征向量作为神经网络的输入,设计了三个不同网络结构的神经网络分类器,并提出动态权值的多分类器集成方法对三个分类器进行系统集成,提高了系统的性能和识别精度。实验结果表明该系统对手写数字具有较高的识别率。
1.3. 7基于量子神经网络的手写体数字识别
本方法的主要内容是采用基于多层激励函数的量子神经网络的方法对手写体数字识别进行研究。量子神经网络是将量子神经元与模糊理论相结合的模糊神经系统,它能将决策的不确定性数据合理地分配到各模式中,从而减少模式识别的不确定度,提高模式识别的准确性[15] 。首先,本方法针对手写体字符不同样本之间存在交叉数据的模式识别问题,将多层激励函数的量子神经网络引入字符识别中,提出一种基于量子神经网络的模式识别算法。并通过理论分析和仿真实验,证明了基于多层激励函数的量子神经网络比一般前馈神经网络更具有优越性。然后,针对手写体数字识别过程中出现的易混淆的数字对影响识别率的问题,采用量子神经网络分类器和多级分类器组合的方法设计出了手写体数字识别系统。实验结果表明同广泛使用的BP神经网络分类器相比,该手写数字识别系统各项性能指标有明显的提高。
2.系统开发工具
2. 1 Matlab开发环境
Matlab是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案并在很大程度上摆脱了传统非交互式程序设计语言如C、Fortran的编辑模式代表了当今国际科学计算软件的先进水平[16] 。
Matlab和Mathematica、Maple并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。 Matlab可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等主要应用于工程计算、控制设计、信号处理与通讯、 图像处理、信号检测、金融建模设计与分析等领域。
Matlab语言是解释型语言其语法规则非常类似BASIC语言有编程基础的人很快就可以熟悉并使用它。Matlab语言中变量的基本单位是矩阵单个的整数或浮点数则视为1×1的矩阵。变量的赋值语法是变量名=表达式注意Matlab是区分大小写的。不像其他编程语言 Matlab变量不需先定义后使用而是在使用时定义。 Matlab中的变量有两种局部变量和全局变量(用关键词global声明) 。除非很有必要一般不要使用全局变量 因为它破坏了Matlab对函数的封装。 Matlab变量的数据类型很简单只有数值变量和字符变量二种基本类型。针对某些应用Matlab还提供了类似C语言中的结构变量和类似C++中的类和对象等复杂的数据类型。Matlab语言有三种基本程序流程控制结构顺序结构、循环结构和分支结构[17] 。
Matlab软件的优势如下
(1)友好的工作平台和编程环境
(2)简单易用的程序语言
(3)强大的科学计算机数据处理能力
(4)出色的图形处理功能
(5)应用广泛的模块集合工具箱
(6)实用的程序接口和发布平台
(7)应用软件开发包括用户界面。
2.2图形用户界面与设计
随着计算机技术的飞速发展人与机器的通信方式也发生了深刻变化。从传统的命令通信方式如DOS系统演变成了图形界面下的交互通信方式如Windows系统。在图形用户界面GUI下用户可以通过鼠标等输入设备与计算机进行信息的交流选择需要运行的计算机程序并控制界面演化到三维用户界面。就算是计算机配置低没有条件体会三维的Vista界面众多的电影和游戏也已经让用户体会到了三维界面的魅力。用户界面是程序的重要组成部分特别对于网络游戏来说华丽友好的用户界面决定了游戏程序最终的成败。Matlab的图形用户界面设计虽然不要求做的像2008奥运会开幕式那么具有视觉冲击力但是通过设计也可以做的赏析悦目感觉友好[18] 。
图形用户界面或CUI是包含图形地向如窗口、 图标、菜单和文本的用户界面。以某种方式选择或激活这些对象通常引起动作或发生变化。最常见的激活方法是用鼠标或其他单击设备区控制屏幕上的鼠标指针的运动。按下鼠标按钮标志着对象的选择或其他动作。
作为强大的科学计算软件 Matlab也提供了图形界面的设计与开发功能。Matlab中的基本图形用户界面对象分为三类[19]
(1)用户界面控制对象
(2)下拉式菜单对象
(3)内容式菜单对象。
其中 uicontrol对象能建立按钮、列表框和编辑框等图形用户界面对象uimenu能建立下拉式菜单和菜单等图形用户界面对象 uicontextmeu能够建立内容式菜单用户对象类似弹出式菜单。利用上述对象进行周密的组织和设计就可以设计出一个界面良好、操作简便和功能强大的图形用户界面[20] 。结论
随着国家信息化进程的加速手写数字识别的应用需求将越来越广泛因此
应当加强这方面的研究工作。本文对手写体数字识别的国内外现状做了介绍同时也对拥有丰富的工具箱函数的开发工具Matlab做了介绍。根据我们查阅的这些资料我们认为本课题所涉及的研究目标在国内外已经有相当成熟的理论基础和技术基础我们想要完成的部分绝大多数可以使用本专业的专业知识进行构建利用Matlab软件完成手写体数字识别的方法是可行的。
参考文献
[1]邹伟.高精度手写体数字识别的算法研究及应用[D] .北京:北京邮电大学,2001.
[2]张宏林.数字图象模式识别技术及工程实践[M] .北京:人民邮电出版社,2004.
[3]马向辰.字符识别系统中图像预处理方法的研究[D] .北京:北京科技大学,2002.
[4]侯继红,徐军.手写体数字识别技术的研究[J] .电子计算机与外部设备, no.5, 1999.
[5]柳回春,马树兀,吴平东.手写体数字识别技术的研究[J] .计算机工程,2003,29(4) :24—61.
[6]许志影,李晋平.MATLAB及其在图像处理中的应用[J] .计算机与现代化,2003(4) :64—65.
[7]章毓晋.图象处理和分析.北京:清华大学出版社[M] , 2003.
[8]冈萨雷斯.数字图像处理MATLAB版 .北京:电子工业出版社,2005.9.
[9]叶卫东,李冠英.自由手写体数字识别的一种方法[J] .现代计算机, no. 10, 1998.
[10]陈桂明,张明照,戚红雨.应用MATLAB语言处理数字信号与数字图像[M] .北京:科学出版社,2000.
[11]张平等.matlab基础与应用简明教程[M] .北京:北京航空航天大学出版社,2001.
[12]飞思科技产品研发中心.matlab6. 5辅助图像处理[M] .北京:电子工业出版社,2003.
[13]郝红卫.手写体字符的识别与集成[D] .北京:中国科学院声学研究所, 1998.
[14]傅德胜,寿益禾.图形图像处理学[M] .南京:东南大学出版社 2002.
[15]林晓帆,丁晓青,吴佑寿.手写数字识别的原理及应用[M] .北京:清华大学出版社,2002.
[16]葛哲学.精通MATLAB.北京:电子工业出版社.2008.2.
[17]毛涛涛,王正林,王玲.精通MATLAB GUI设计[A] .北京:电子工业出版社,2008.
[18]孙兆林.MATLAB 6.X图像处理[M] .北京:清华大学出版社,2002.
[19]邓魏.MATLAB在图像处理和分析中的应用[J] .农机化研究,2006.
[20]求是科技.MATLAB7.0从入门到精通[A] .北京:人民邮电出版社,2007.
ZJI原名维翔主机,是原来Wordpress圈知名主机商家,成立于2011年,2018年9月更名为ZJI,提供香港、日本、美国独立服务器(自营/数据中心直营)租用及VDS、虚拟主机空间、域名注册业务。ZJI今年全新上架了台湾CN2线路服务器,本月针对香港高主频服务器和台湾CN2服务器提供7折优惠码,其他机房及产品提供8折优惠码,优惠后台湾CN2线路E5服务器月付595元起。台湾一型CPU:Inte...
对于Megalayer云服务器提供商在之前也有对于他们家的美国服务器和香港服务器进行过评测和介绍,但是对于大部分网友来说需要独立服务器和站群服务器并不是特别的普及,我们很多网友使用较多的还是云服务器或者VPS主机比较多。在前面也有在"Megalayer新增香港VPS主机 1GB内存 50GB SSD 2M带宽 月59元"文章中有介绍到Megalayer商家有新增香港CN2优化VPS主机。那时候看这...
[六一云迎国庆]转盘活动实物礼品美国G口/香港CTG/美国T级超防云/物理机/CDN大促销六一云 成立于2018年,归属于西安六一网络科技有限公司,是一家国内正规持有IDC ISP CDN IRCS电信经营许可证书的老牌商家。大陆持证公司受大陆各部门监管不好用支持退款退现,再也不怕被割韭菜了!主要业务有:国内高防云,美国高防云,美国cera大带宽,香港CTG,香港沙田CN2,海外站群服务,物理机,...