识别《手写体数字识别》文献综述

手写识别  时间:2021-04-16  阅读:()

石河子大学信息科学与技术学院毕业设计文献综述

课题名称 手写体数字识别系统设计

学生姓名

学 号

学 院 信息科学与技术学院

专业年级 电子信息工程2007级

指导教师

职 称

完成日期 二○一○年十二月三十日

文献综述

前言

随着国家信息化进程的加速在邮政编码、统计报表、财务报表、银行票据等处理大量字符信息录入的场合手写数字识别系统的应用需求越来越强烈对于主要都是由阿拉伯数字组成的各种编号和统计数据处理这类信息的核心技术是手写数字识别[1] 。

OCR Optical Character Recognition即光学字符识别技术是通过扫描仪把印刷体或手写体文稿扫描成图像然后识别成相应的计算机可直接处理的字符。手写数字识别是光学字符识别技术的一个分支它研究的对象是如何利用电子计算机自动辨认人手写在纸张上的字符[2] 。

在整个OCR领域中最为困难的就是脱机手写字符的识别。到目前为止尽管人们在脱机手写识别的研究中已取得很多可喜成就但距实用还有一定距离。而在手写数字识别这个方向上经过多年研究研究工作者已经开始把它向各种实际应用推广为手写数据的高速自动输入提供了一种解决方案[3] 。

正文

1 .手写数字识别的发展状况

1 . 1 国内发展现状

随着科学技术的迅速发展人们对计算机识别能力的要求也越来越高。在我国如何将数字方便、快速地输入到计算机中已成为关系到计算机技术普及的关键问题。 目前我国已经推出了多字体大字符集简繁混识的识别核心能够识别常见的十几种字体及其变体识别字符集包括简体中文6763字、繁体中文5401字、香港常用字等1万多字各种字体的识别率都在99%以上。 目前我国从事数字识别技术研究的单位主要有汉王科技、北京文通、北京鑫万佳公司、蒙恬科技等数字识别正确率大于99%[4] 。

我国手写数字识别系统现在在大多数领域中起到举足轻重的作用尤其是用在财务、税务、金融行业、年检、人口普查等。在大规模的数据统计(如行业年检、人口普查等)中需要输入大量的数据 以前完全要手工输入需要耗费大量的人力和物力。近年来在这类工作中采用OCR技术已成为一种趋势。数据的录入是集中组织的所以往往可以通过专门设计表格和对书写施加限制以便于机

器的自动识别[5] 。财务、税务、金融是手写数字识别大有可为的又一领域。随着我国经济的迅速发展每天等待处理的财务、税务报表、支票、付款单等越来越多。如果能把它们用计算机自动处理无疑可以节约大量的时间、金钱和劳力[6] 。另外随着我国函件业务量不断增长邮件的分拣自动化成为大势所趋。在邮件的自动分拣中手写数字识别(OCR)往往与光学条码识别(OBR) ,人工辅助识别等手段相结合完成邮政编码的阅读。这就需要分拣机有一定的性能指标差错率要越小越好[7] 。

1 .2国外发展现状

早在60、 70年代世界各国就开始有光学字符识别OCR方面的研究研究的初期多以文字的识别方法研究为主且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例 1960年左右开始研究OCR的基本识别理论初期以数字为对象直至1965至1970年之间开始有一些简单的产品如印刷文字的邮政编码识别系统识别邮件上的邮政编码帮助邮局作区域分信的作业也因此至今邮政编码一直是各国所倡导的地址书写方式。 现今 IBM、 HP、 日立、东芝、夏普、NEC、理光和新加坡热卡公司等国外公司都巨额投入了手写数字识别领域利用扫描仪摄影器材甚至是扫描笔来将手写体数字输入电脑进行识别[8] 。

1 .3国内外研究的方法

1.3. 1基于形体特征的手写体数字识别

通过对手写体数字识别技术的研究本方法建立了一个脱机手写体数字识别系统对手写体数字的识别提出了一些新的思路并对识别过程中所采用的关键算法进行了阐述。本方法提出了二次毛刺去除法对手写体数字图像进行预处理采用骨架搜索法来提取字符的孔洞特征使用模板匹配加骨架搜索的方法来确定不同方位的端点利用模板匹配法来提取字符的横线及竖线特征采用特征匹配法对字符进行识别。实验证明本文所建立的基于形体特征的手写体数字识别系统能较全面地反映手写体数字各方面的特征总的识别率达到95.5%有着较好的识别性能和十分广泛的应用前景[9] 。

1.3.2基于支持向量机的手写数字识别系统

支持向量机(SuppertVectorMachnie SVM)简称SVM是统计学习理论中最新的内容也是最实用的部分。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷以期获得最好的推广能力。基于统计学习理论的坚实基础

SVM有很强的学习能力和较好的泛化性能。SVM用优化方法得到的结果是全局最优解不会产生传统方法中的过学习和局部最小等问题。对于一个完整的识别系统应包括从图像采集到得出识别结果的过程。支持向量机有很强的学习能力和较好的泛化性能因此系统在识别性能上是比较好的但是在识别速度、识别效率上就有待提高[10] 。

1.3.3基于分数本征特征的手写数字识别

特征提取是手写体数字识别研究中的重要问题有效、稳定的特征是提高识别率和识别精度的关键。该方法提出了一种基于分数本征特征和核非线性分类器的手写数字识别方法首先找到时频平面的一个轴进行分数傅里叶变换使不同类别样本在这个轴上最大限度地分开然后用主元分析进行降维得到比较稳健的低维特征再将常用分类器用于特征分类实现对手写数字的识别[1 1] 。对实际数据进行实验结果表明本征特征与核非线性分类器相结合有较高的识别率和训练、分类效率。

1.3.4利用radon变换实现手写数字识别的新方法

利用传统的radon变换找到了一种新的旋转不变特征最后采用bp神经网络分类器进行分类。实验表明本方法具有93.89%的高识别率而且对字符旋转具有很好的鲁棒性[12] 。

1.3.5基于模糊聚类算法的手写体数字识别

针对任意手写数字识别问题,提出一种实时的,具有旋转、尺寸不变性的智能识别方法。重点研究了Zernike矩和小波矩。基于Zernike矩和小波矩寻找了一种有效的提取图像轮廓及轮廓重建方法。建立具有平移,尺寸及旋转不变性的样本特征库,最后运用改进的FCM算法进行模糊识别。在深入的分析了特征、聚类与识别的关系的基础上,将研究建立衡量选取特征的标准。将模糊集的贴近度和模糊度等相关知识应用于模糊C均值聚类,克服模糊C均值聚类算法占用大量的计算时间、聚类效果中区分度不高等问题。采用相关分析、最大相似相近贴近度、主成分分析及图象重构等方法对手写数字的Zernike矩特征进行了筛选,使所选特征最大程度上代表手写数字的特征且分离度大,易于模糊C均值聚类算法进行分类识别。首先,基于结构特征和统计特征对手写数字进行识别,识别结果为标准样本库。其次,为矩识别再次扩充标准样本库,对得到的样本库再增加一些特殊手写数字样本,利用σ-可加性贴近度与改进的C-均值模糊聚类对数字进行识别,识别结果为新的标准样本库[14] 。前两步均要求牺牲数字整体识别率,确保数字识别的

高精度(≥99%) ,然后,对已扩充的样本库中的样本进行(正交)小波(Zernike、Hu)矩变换,建立了具有平移,尺寸及旋转不变性的样本特征库[13] 。

1.3.6基于动态权值集成的手写数字识别

本方法是一种动态权值集成的多分类器手写数字识别方法。该识别方法以图像预处理和字符特征提取为基础,采用BP神经网络识别作为核心识别分类器,对多个神经网络识别器的输出向量进行动态权值集成确定最后的识别结果。 在预处理方面,本方法着重研究了光照不均字符灰度图像的二值化问题,提出了一种基于高斯拉普拉斯(LoG)算子的边缘零交叉二值化方法,该方法能够适应光照不均和噪声等干扰,其二值化后的字符图像能够很好地保持本来形态[14] 。在特征提取方面,本方法提取了三种有效特征向量,分别为原始点阵向量、宏观特征、宏观特征和微观特征。通过分析研究,利用三种不同特征向量进行字符分类,分类结果具有很好的互补性。分类识别器采用了BP神经网络。对BP神经网络的训练算法进行了研究,提出一种综合优化训练算法,使网络训练速度得到提高,网络收敛也得以保证。将三种不同特征向量作为神经网络的输入,设计了三个不同网络结构的神经网络分类器,并提出动态权值的多分类器集成方法对三个分类器进行系统集成,提高了系统的性能和识别精度。实验结果表明该系统对手写数字具有较高的识别率。

1.3. 7基于量子神经网络的手写体数字识别

本方法的主要内容是采用基于多层激励函数的量子神经网络的方法对手写体数字识别进行研究。量子神经网络是将量子神经元与模糊理论相结合的模糊神经系统,它能将决策的不确定性数据合理地分配到各模式中,从而减少模式识别的不确定度,提高模式识别的准确性[15] 。首先,本方法针对手写体字符不同样本之间存在交叉数据的模式识别问题,将多层激励函数的量子神经网络引入字符识别中,提出一种基于量子神经网络的模式识别算法。并通过理论分析和仿真实验,证明了基于多层激励函数的量子神经网络比一般前馈神经网络更具有优越性。然后,针对手写体数字识别过程中出现的易混淆的数字对影响识别率的问题,采用量子神经网络分类器和多级分类器组合的方法设计出了手写体数字识别系统。实验结果表明同广泛使用的BP神经网络分类器相比,该手写数字识别系统各项性能指标有明显的提高。

2.系统开发工具

2. 1 Matlab开发环境

Matlab是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案并在很大程度上摆脱了传统非交互式程序设计语言如C、Fortran的编辑模式代表了当今国际科学计算软件的先进水平[16] 。

Matlab和Mathematica、Maple并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。 Matlab可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等主要应用于工程计算、控制设计、信号处理与通讯、 图像处理、信号检测、金融建模设计与分析等领域。

Matlab语言是解释型语言其语法规则非常类似BASIC语言有编程基础的人很快就可以熟悉并使用它。Matlab语言中变量的基本单位是矩阵单个的整数或浮点数则视为1×1的矩阵。变量的赋值语法是变量名=表达式注意Matlab是区分大小写的。不像其他编程语言 Matlab变量不需先定义后使用而是在使用时定义。 Matlab中的变量有两种局部变量和全局变量(用关键词global声明) 。除非很有必要一般不要使用全局变量 因为它破坏了Matlab对函数的封装。 Matlab变量的数据类型很简单只有数值变量和字符变量二种基本类型。针对某些应用Matlab还提供了类似C语言中的结构变量和类似C++中的类和对象等复杂的数据类型。Matlab语言有三种基本程序流程控制结构顺序结构、循环结构和分支结构[17] 。

Matlab软件的优势如下

(1)友好的工作平台和编程环境

(2)简单易用的程序语言

(3)强大的科学计算机数据处理能力

(4)出色的图形处理功能

(5)应用广泛的模块集合工具箱

(6)实用的程序接口和发布平台

(7)应用软件开发包括用户界面。

2.2图形用户界面与设计

随着计算机技术的飞速发展人与机器的通信方式也发生了深刻变化。从传统的命令通信方式如DOS系统演变成了图形界面下的交互通信方式如Windows系统。在图形用户界面GUI下用户可以通过鼠标等输入设备与计算机进行信息的交流选择需要运行的计算机程序并控制界面演化到三维用户界面。就算是计算机配置低没有条件体会三维的Vista界面众多的电影和游戏也已经让用户体会到了三维界面的魅力。用户界面是程序的重要组成部分特别对于网络游戏来说华丽友好的用户界面决定了游戏程序最终的成败。Matlab的图形用户界面设计虽然不要求做的像2008奥运会开幕式那么具有视觉冲击力但是通过设计也可以做的赏析悦目感觉友好[18] 。

图形用户界面或CUI是包含图形地向如窗口、 图标、菜单和文本的用户界面。以某种方式选择或激活这些对象通常引起动作或发生变化。最常见的激活方法是用鼠标或其他单击设备区控制屏幕上的鼠标指针的运动。按下鼠标按钮标志着对象的选择或其他动作。

作为强大的科学计算软件 Matlab也提供了图形界面的设计与开发功能。Matlab中的基本图形用户界面对象分为三类[19] 

(1)用户界面控制对象

(2)下拉式菜单对象

(3)内容式菜单对象。

其中 uicontrol对象能建立按钮、列表框和编辑框等图形用户界面对象uimenu能建立下拉式菜单和菜单等图形用户界面对象 uicontextmeu能够建立内容式菜单用户对象类似弹出式菜单。利用上述对象进行周密的组织和设计就可以设计出一个界面良好、操作简便和功能强大的图形用户界面[20] 。结论

随着国家信息化进程的加速手写数字识别的应用需求将越来越广泛因此

应当加强这方面的研究工作。本文对手写体数字识别的国内外现状做了介绍同时也对拥有丰富的工具箱函数的开发工具Matlab做了介绍。根据我们查阅的这些资料我们认为本课题所涉及的研究目标在国内外已经有相当成熟的理论基础和技术基础我们想要完成的部分绝大多数可以使用本专业的专业知识进行构建利用Matlab软件完成手写体数字识别的方法是可行的。

参考文献

[1]邹伟.高精度手写体数字识别的算法研究及应用[D] .北京:北京邮电大学,2001.

[2]张宏林.数字图象模式识别技术及工程实践[M] .北京:人民邮电出版社,2004.

[3]马向辰.字符识别系统中图像预处理方法的研究[D] .北京:北京科技大学,2002.

[4]侯继红,徐军.手写体数字识别技术的研究[J] .电子计算机与外部设备, no.5, 1999.

[5]柳回春,马树兀,吴平东.手写体数字识别技术的研究[J] .计算机工程,2003,29(4) :24—61.

[6]许志影,李晋平.MATLAB及其在图像处理中的应用[J] .计算机与现代化,2003(4) :64—65.

[7]章毓晋.图象处理和分析.北京:清华大学出版社[M] , 2003.

[8]冈萨雷斯.数字图像处理MATLAB版 .北京:电子工业出版社,2005.9.

[9]叶卫东,李冠英.自由手写体数字识别的一种方法[J] .现代计算机, no. 10, 1998.

[10]陈桂明,张明照,戚红雨.应用MATLAB语言处理数字信号与数字图像[M] .北京:科学出版社,2000.

[11]张平等.matlab基础与应用简明教程[M] .北京:北京航空航天大学出版社,2001.

[12]飞思科技产品研发中心.matlab6. 5辅助图像处理[M] .北京:电子工业出版社,2003.

[13]郝红卫.手写体字符的识别与集成[D] .北京:中国科学院声学研究所, 1998.

[14]傅德胜,寿益禾.图形图像处理学[M] .南京:东南大学出版社 2002.

[15]林晓帆,丁晓青,吴佑寿.手写数字识别的原理及应用[M] .北京:清华大学出版社,2002.

[16]葛哲学.精通MATLAB.北京:电子工业出版社.2008.2.

[17]毛涛涛,王正林,王玲.精通MATLAB GUI设计[A] .北京:电子工业出版社,2008.

[18]孙兆林.MATLAB 6.X图像处理[M] .北京:清华大学出版社,2002.

[19]邓魏.MATLAB在图像处理和分析中的应用[J] .农机化研究,2006.

[20]求是科技.MATLAB7.0从入门到精通[A] .北京:人民邮电出版社,2007.

欧路云:美国200G高防云-10元/月,香港云-15元/月,加拿大480G高防云-23元/月

欧路云 主要运行弹性云服务器,可自由定制配置,可选加拿大的480G超高防系列,也可以选择美国(200G高防)系列,也有速度直逼内地的香港CN2系列。所有配置都可以在下单的时候自行根据项目 需求来定制自由升级降级 (降级按天数配置费用 退款回预存款)。由专业人员提供一系列的技术支持!官方网站:https://www.oulucloud.com/云服务器(主机测评专属优惠)全场8折 优惠码:zhuji...

特网云(198元/月),高质量云虚拟主机低至0.16元/天,裸金属服务器仅需10.5元/天

特网云为您提供高速、稳定、安全、弹性的云计算服务计算、存储、监控、安全,完善的云产品满足您的一切所需,深耕云计算领域10余年;我们拥有前沿的核心技术,始终致力于为政府机构、企业组织和个人开发者提供稳定、安全、可靠、高性价比的云计算产品与服务。官方网站:https://www.56dr.com/ 10年老品牌 值得信赖 有需要的请联系======================特网云推出多IP云主机...

青云互联:洛杉矶CN2弹性云限时七折,Cera机房三网CN2gia回程,13.3元/月起

青云互联怎么样?青云互联是一家成立于2020年6月份的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务,目前提供有美国免费主机、香港主机、香港服务器、美国云服务器,让您的网站高速、稳定运行。目前,美国洛杉矶cn2弹性云限时七折,美国cera机房三网CN2gia回程 13.3元/月起,可选Windows/可自定义配置。点击进入:青云互联官网青云互联优惠码:七折优惠码:dVRKp2tP (续...

手写识别为你推荐
计算机网络实验系统技术参数及要求:机动车diandian支持ipadnetbios端口怎么关闭8909端口!其他端口就不用了win7关闭445端口win7系统怎么关闭445和135这两个端口tracerouteping命令和traceroute(tracert )在功能上的区别有哪些?ipad如何上网iPad怎么上网?请高手指点itunes备份如何用iTunes备份iPhonewin7telnet怎样开启Windows7系统中的Telnet服务
域名服务dns的主要功能为 photonvps vps.net la域名 typecho 湖南服务器托管 灵动鬼影 云全民 cpanel空间 anylink 如何用qq邮箱发邮件 空间首页登陆 万网主机管理 美国凤凰城 电信网络测速器 网页加速 卡巴斯基官网下载 万网服务器 电信主机托管 腾讯云平台 更多