识别orc识别

orc识别  时间:2021-05-13  阅读:()
InstrumentationandEquipments仪器与设备,2017,5(3),55-62PublishedOnlineSeptember2017inHans.
http://www.
hanspub.
org/journal/iaehttps://doi.
org/10.
12677/iae.
2017.
53008文章引用:彭思淇,田林晓,朱苗苗,张克华.
低成本光学字符识别读表系统研制[J].
仪器与设备,2017,5(3):55-62.
DOI:10.
12677/iae.
2017.
53008DevelopofLowCostMeterReadingSystembyOpticalCharacterRecognitionSiqiPeng,LinxiaoTian,MiaomiaoZhu,KehuaZhang*CollegeofEngineering,ZhejiangNormalUniversity,JinhuaZhejiangReceived:Aug.
15th,2017;accepted:Sep.
1st,2017;published:Sep.
7th,2017AbstractInordertorealizelowcostopticalcharacterrecognitionandstorageofrecognitiondata,theopti-calcharacterrecognitionmeterreadingsystembasedonRaspberryPiwasbuilt.
Atthesametime,westudiedthealgorithmsofopticalrecognition,datastorageandimageprocessingusedinthissystem.
First,animagewithameterdigitalisobtainedfromthecamera.
Second,usingOpenCVtoperformimagepreprocessingsuchasnormalizedsize,grayscaleprocessing,Gaussianblur,bina-rizationprocessing,extractionofconnectivityareas.
Finally,usingTesseractforOCRrecognitiontoobtain,recordandstoreopticalcharacterdata.
Underthelightenvironmentdesignedbythesystem,theexperimentalresultsshowthattheaccuracyofrateofdigitalrecognitioncanachieve100%andrecognitiontimeislessthan1secondafterpreprocessing.
Theopticalcha-racterrecognitionsystembasicallymeetstherequirementswithhighaccuracy,fastspeedandgoodstability.
KeywordsComputerVision,ImageProcessing,OCR,DigitRecognition低成本光学字符识别读表系统研制彭思淇,田林晓,朱苗苗,张克华*浙江师范大学工学院,浙江金华收稿日期:2017年8月15日;录用日期:2017年9月1日;发布日期:2017年9月7日摘要为了实现低成本的光学识别以及对识别数据的云传输和储存,基于RaspberryPi建立了通过光学字符识*通讯作者.
彭思淇等DOI:10.
12677/iae.
2017.
5300856仪器与设备别的读表系统.
并对该系统所采用的光学识别、数据存储、图像处理等算法进行研究.
首先从摄像头获取一张带有电表数字的图像,利用OpenCV对其进行归一化尺寸、灰度处理、高斯模糊、二值化处理、提取连通区域等图像预处理,最后使用Tesseract进行OCR识别得到光学字符数据并进行记录和储存.
实验结果表明:在系统设计的光照环境下,图像预处理后的数字光学识别成功率达到100%,识别时间低于1秒.
基本满足光学字符识别系统的准确率高、速度快、稳定性好等要求.
关键词计算机视觉,图像处理,OCR,数字识别Copyright2017byauthorsandHansPublishersInc.
ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY).
http://creativecommons.
org/licenses/by/4.
0/1.
引言城市规模的不断扩大,随即带来越来越大的管理信息量,便需要城市管理的智能化程度的不断提高.
对于电力资源的管理离不开电表的智能化管理,而目前的手工抄表模式工作量巨大,并且人工处理过程中容易出现错误,基于此需求进行系统研制,通过图像处理和字符识别的应用来实现管理系统的统一化、标准化、实时性[1][2].
图像识别的主要目的是利用计算机自动处理图片信息,用来取代人工去对图像进行分类和识别.
对图像上信息的识别而言,即光学识别(OpticalCharacterRecognition,OCR),Tesseract-OCR是较为强大的识别技术[3],而且该项技术是完全开源的.
而传统OCR技术对图像的要求较大,所以对图像进行前期处理有利于达到更好的识别效果[4].
当前OCR技术应用在电表识别的案例中采用的处理设备比较昂贵,胡立夫[5]等人研究可持式的低成本设备,通过设计具有获取图像、图像处理、光学识别和数据存储等技术的内置嵌入式系统以完成数字识别、数据记录和统计等任务.
本文为了解决现阶段识别方法的价格昂贵、存在错误率和识别图像要求高等难题,在进行光学识别之前进行图像处理,并通过试验来选取系统最优的处理模式和参数.
本文研发系统的目的是将数字图像的光学识别应用于电表的抄表工作,以此来实现减少抄表的工作量、节省工作时间和提高识别准确率[6].
本文的识别系统的硬件设备是树莓派,其与现有的大型识别系统来比较,具有成本低、速度快、设备体积小、易于携带和操作开发周期短等优点.
2.
读表系统的构成与工作原理2.
1.
读表系统的硬件构成读表系统工作流程模块图,如图1所示.
它的硬件部分主要由摄像头、光源和控制芯片等组成.
光源采用节能的LED灯组,给图像获取提供必要的光线条件,从而保证较高的识别准确率.
获取图像的摄像头采用树莓派官方摄像头(RaspberryPiCameraModulev2).
控制和处理系统的硬件采用树莓派(RaspberryPi),在树莓派上的读表系统主要有图片处理、OCR识别、数据记录表存储和云传输等功能.
2.
2.
读表系统的工作原理该系统的基本工作原理为:通过树莓派摄像头获取待识别的电表图像,然后对图像进行预处理,OpenAccess彭思淇等DOI:10.
12677/iae.
2017.
5300857仪器与设备Figure1.
Systemprocessmodulediagram图1.
系统流程模块图处理后的图像使用OCR识别,识别后的数据记录在设备.
工作流程为:LED灯源开启后,提供必要的光线环境,树莓派发出获取图片的控制命令,摄像头开始工作,聚焦完毕后获取一张带有电表数字的图片保存在设备.
如图2所示,图像处理的步骤为归一化尺寸、灰度化、高斯模糊、二值化处理和连通区域提取,所有的图像处理通过采用开源的Python-OpenCV程序实现.
经过处理后的图像具有较高的可识别性,使用Python内安装的Tesseract模块对图像进行OCR识别,得出电表显示的数字.
每次识别完之后将数据以txt文件保存在设备,可通过GPRS通讯模块或者WIFI连接网络后将汇总数据发送到云端.
3.
读表系统软件的关键算法3.
1.
高斯模糊算法及用OpenCV的实现高斯模糊算法,实质上是一种数据平滑(DataSmoothing)技术.
应用在图像处理上,实质是"模糊"像素点,每一个像素都取周围像素的平均值.
高斯模糊算法为了合理分配权重,依据据图像的连续性,使得距离越近的点权重越大,距离越远的点权重越小.
高斯模糊算法的核心权重分配模式即是正态分布(高斯分布).
正态分布的密度函数称为"高斯函数(Gaussianfunction)",由于需要处理像素点为二维的,故需要使用公式(1)二维高斯函数:()()222221,e2πxyGxyσσ+=(1)利用高斯函数可以求得每个点的权重,选定中心点之后可以得到权重矩阵,每个点的像素值乘以各自的权重得到最后的高斯模糊矩阵.
为了简化算法计算步骤,图像采取灰度化处理,即只需要对每个像素点的灰度值进行高斯模糊处理.
在Python-OpenCV中实现的方法是调用cv2.
GaussianBlur函数:()()blurcv2.
GaussianBlurimg,5,5,0=函数的第一个参数"img"是图像源,光学字符读表系统的此处图像是灰度化图像,第二个参"(5,5)"是高斯矩阵的尺寸,第三个参数"0"是标准差(高斯公式中的"σ"值).
根据高斯公式可知道,高斯矩阵的尺寸越大,标准差越大,图像模糊程度就越大.
如图3所示,分别采用左边"(5,5)"和右边"(11,11)"的高斯矩阵尺寸进行图像的高斯模糊处理,得出的"(11,11)"尺寸下的模糊程度更大.
3.
2.
图像二值化在OpenCV实现的原理图像二值化能够去除图像里的绝大部分的背景和噪声,并且提取出目标物体,常用的实现方法就是控制器ControllerLED摄像头camera获取图像光源照明图像处理OCR识别数据统计彭思淇等DOI:10.
12677/iae.
2017.
5300858仪器与设备Figure2.
Imageprocessingflowchart图2.
图像处理流程图Figure3.
ContrastdiagramofGaussianblur图3.
高斯模糊对比示意图归一化尺寸灰度处理高斯模糊二值化处理提取连通区域图像处理OCR识别pytesseract除去颜色干扰除去较大部分噪音干扰凸显目标轮廓统一尺寸原始图像跟踪轮廓,得到待识别图像电表数字彭思淇等DOI:10.
12677/iae.
2017.
5300859仪器与设备设置一个阈值,用阈值将图像的的数据分为两部分,一个是大于阈值的像素群,另一个是小于阈值的像素群,分别进行像素值的置换处理.
在Python-OpenCV中提供了cv2.
threshold(阈值)函数:()T,threshInvcv2.
thresholdimg,x,y,Methods=第一个参数"img"是指图像源,光学字符读表系统的此处来源是高斯模糊处理之后的图像,第二个参数"x"是用来对像素值进行分类的阈值,第三个参数"y"是指赋予新的像素值(最大值),第四个参数"Methods"指不同的阈值方法.
不同的阈值方法对阈值上下两部分的像素点的处理方式不同(图4).
THRESH_BINARY方法对大于阈值的像素设定为阈值函数中的最大值"y",小于阈值的像素点设定为0,如图5所示.
THRESH_BINARY_INV方法对大于阈值的像素点设定为0,小于阈值的设定为最大值,如图6所示.
THRESH_TRUNC方法对大于阈值的像素点设定为该阈值,对小于阈值的像素点不进行改变,如图7所示.
Figure4.
Pixelpointvalue(solidline)andthreshold(dottedline)ofinitialimage图4.
初始图像像素点值(粗实线)和阈值(虚线)Figure5.
THRESH_BINARYmethod图5.
THRESH_BINARY方法Figure6.
THRESH_BINARY_INVmethod图6.
THRESH_BINARY_INV方法Figure7.
THRESH_TRUNCmethod图7.
THRESH_TRUNC方法彭思淇等DOI:10.
12677/iae.
2017.
5300860仪器与设备THRESH_TOZERO方法将大于阈值的像素点设定为0,小于阈值的像素点不进行改变,如图8所示.
图8中THRESH_TOZERO_INV方法将大于阈值的像素点不进行改变,对小于阈值的像素点设定为0,如图9所示.
相反的阈值方法处理的像素点数值不同,处理完之后的图像效果相反,如图10、图11所示.
Figure8.
THRESH_TOZEROmethod图8.
THRESH_TOZERO方法Figure9.
THRESH_TOZERO_INVmethod图9.
THRESH_TOZERO_INV方法Figure10.
THRESH_BINARYeffectdiagram图10.
THRESH_BINARY方法效果示意图Figure11.
THRESH_BINARY_INVeffectdiagram图11.
THRESH_BINARY_INV方法效果示意图彭思淇等DOI:10.
12677/iae.
2017.
5300861仪器与设备4.
读表系统参数试验及结果4.
1.
高斯矩阵尺寸试验数据用不同的高斯矩阵尺寸对相同的10张样本图像进行高斯模糊处理,之后的图像处理步骤一致,通过对比,尺寸为(5,5)的高斯模糊效果最终实现的图像识别率最高,故光学字符读表系统选用(5,5)的矩阵尺寸,如图12所示.
4.
2.
图像二值化处理的参数选择由于每张图像进行灰度化之后的灰度值都有一定的差距,所以阈值的大小不能固定在某个数值,本文的读表系统在对电表类样本进行试验之后建议取值区间为25~75,如表1所示.
为了最大限度地体现电表数字的轮廓,选用255作为最大值.
由于电表数字较为单一且轮廓较为简单,可以直接选用二值化函数中的THRESH_BINARY/THRESH_BINARY_INV作为阈值模式,较为极端的处理能够更好的去除噪音,只需要凸显数字的形状.
4.
3.
系统识别效果图对电表图片进行尺寸归一化以后得到原始图片如图13所示,经过本文3.
1和3.
2章节的关键算法处理后得到最后的待识别图片,系统随即用Tesseract(Python环境下)进行OCR识别,得到电表数字.
系统试验结果,如图14所示,得到的字符"9138"就是电表显示的数字.
Figure12.
Differentgaussmatrixresultlinegraph图12.
不同高斯矩阵尺寸识别率折线图Table1.
Theproposedvalueofbinarizationprocessingarguments表1.
系统二值化处理参数建议值表参数名称取值(系统选用建议值)阈值x25-75最大值y255模式MethodsTHRESH_BINARY/THRESH_BINARY_INV彭思淇等DOI:10.
12677/iae.
2017.
5300862仪器与设备Figure13.
Theoriginalpictureofthemeter图13.
电表原始图像Figure14.
Thesystemidentificationresults图14.
系统识别结果图5.
结论为了实现电表数字的自动化识别,缩短电表数据记录的过程,减少仪器成本和人为错误率,将光学识别应用在电表数字识别上,本文建立了电表数据的精准识别和数据记录的系统.
首先介绍了读表系统的工作原理、硬件组成、图像处理算法和工作流程,并对核心图像处理的算法进行了研究,最后对关键参数的选值进行分析和验证.
试验结果表明:在高斯矩阵设定为(5,5)且二值化处理的阈值设定区间为25~75的条件下,在试验设定的光照环境下,能够全部成功识别,成功率可达到100%,并且每张识别时间都小于1秒,满足光学字符读表系统的要求.
致谢本文获得2017国家级大学生创新创业训练计划资助.
参考文献(References)[1]林阳,郭丙轩,肖雄武,牛科科,赵欣,李大军.
利用多种投票策略的水表读数字符分割与识别[J].
科学技术与工程,2017,17(10):1671-1815.
[2]华伟,孙文凯,单光瑞,贾锴,骆钊.
基于OCR技术的变电站防误操作系统[J].
电力信息和通信技术,2017,15(4).
[3]翟娟秀,普布旦增,周欢欢,王程新,解颐.
基于Tesseract-ocr的藏文脱机识别[J].
科技创业,2016(21):1665-2272.
[4]陈晓东,杨伟旗,关鑫,汪洋.
复杂背景下航检视频字符的识别算法与应用[J].
内蒙古工业大学学报,2017,36(1):1001-5167.
[5]胡立夫,齐胜男,张海军.
基于神经网络的电表数字识别技术研究[J].
沈阳航天大学学报,2011,28(2).
[6]郭静,罗华,张涛.
机器视觉与应用[J].
电子科技,2014,27(7).
期刊投稿者将享受如下服务:1.
投稿前咨询服务(QQ、微信、邮箱皆可)2.
为您匹配最合适的期刊3.
24小时以内解答您的所有疑问4.
友好的在线投稿界面5.
专业的同行评审6.
知网检索7.
全网络覆盖式推广您的研究投稿请点击:http://www.
hanspub.
org/Submission.
aspx期刊邮箱:iae@hanspub.
org

提速啦(900元/月),杭州BGP E5-2665/89*2 32核 48G 100G防御

提速啦的来历提速啦是 网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑提速啦的市场定位提速啦主要代理市场稳定速度的云服务器产品,避免新手购买云服务器的时候众多商家不知道如何选择,妮妮云就帮你选择好了产品,无需承担购买风险,不用担心出现被跑路 被诈骗的情况。提速啦的售后保证提速啦退款 通过于合作商的友好协商,云服务器提供3天内全额退款,超过3天不退款 物理机部分支持当天全额退款提速啦提现 充...

knownhost西雅图/亚特兰大/阿姆斯特丹$5/月,2个IP1G内存/1核/20gSSD/1T流量

美国知名管理型主机公司,2006年运作至今,虚拟主机、VPS、云服务器、独立服务器等业务全部采用“managed”,也就是人工参与度高,很多事情都可以人工帮你处理,不过一直以来价格也贵。也不知道knownhost什么时候开始运作无管理型业务的,估计是为了扩展市场吧,反正是出来较长时间了。闲来无事,那就给大家介绍下“unmanaged VPS”,也就是无管理型VPS,低至5美元/月,基于KVM虚拟,...

Megalayer 香港CN2优化线路VPS主机速度和性能综合评测

对于Megalayer云服务器提供商在之前也有对于他们家的美国服务器和香港服务器进行过评测和介绍,但是对于大部分网友来说需要独立服务器和站群服务器并不是特别的普及,我们很多网友使用较多的还是云服务器或者VPS主机比较多。在前面也有在"Megalayer新增香港VPS主机 1GB内存 50GB SSD 2M带宽 月59元"文章中有介绍到Megalayer商家有新增香港CN2优化VPS主机。那时候看这...

orc识别为你推荐
计算机xpFDCphp支持ipad尺寸(mm)操作區域手控win7关闭445端口如何快速关闭445端口iphone连不上wifi我的苹果手机连不上无线,其它手机能,怎么回事?只是家里的连不上重庆电信宽带管家中国电信10000管家用着怎么样啊??联通iphone4联通iphone4跟苹果的iphone4有什么不一样? 比如少了什么功能? 还是什么的?谷歌sb为什么百度一搜SB是谷歌,谷歌一搜SB是百度?迅雷快鸟用迅雷快鸟提示:您所在的网络暂不支持迅雷快鸟
虚拟主机推荐 主机屋 softbank官网 老左博客 lighttpd 申请个人网页 天翼云盘 闪讯官网 香港亚马逊 网页提速 海外空间 789 dnspod 腾讯数据库 上海联通 湖南铁通 htaccess 建站论坛 带宽测速 招聘瓦工 更多