识别图片识别文字

图片识别文字  时间:2021-05-13  阅读:()
HansJournalofDataMining数据挖掘,2020,10(1),90-95PublishedOnlineJanuary2020inHans.
http://www.
hanspub.
org/journal/hjdmhttps://doi.
org/10.
12677/hjdm.
2020.
101009文章引用:文伟海,杨立洪,周瑶.
基于SVM的印刷体数学公式识别的研究[J].
数据挖掘,2020,10(1):90-95.
DOI:10.
12677/hjdm.
2020.
101009ResearchonRecognitionofPrintedMathematicalFormulaBasedonSVMWeihaiWen,LihongYang,YaoZhouSchoolofMathematics,SouthChinaUniversityofTechnology,GuangzhouGuangdongReceived:Jan.
2nd,2020;accepted:Jan.
9th,2020;published:Jan.
16th,2020AbstractTraditionalmathematicalformularecognition,usuallybasedonOCRtechnologyforimageandtextrecognition,cutsthesymbolofthetargetformula,buildsthemathematicalsymboldatabase,comparesthesimilarity,andthenreturnsthesymbolnameofthemaximumsimilarityastherec-ognitionresult.
Inviewoftheactualsituation,therearesomedifferencesintheformula,suchasfontsize,thickness,italics,variousfontsandsoon.
Basedonthecharacteristicsofprintedma-thematicalformulas,thispaperreconstructsthecharacterstandardlibrary,andcombineswiththemachinelearningidea,usesSVMalgorithmtorecognizeformulas,andfurtherextractsthecharacterfeatures,improvestheaccuracyofformularecognition.
Theexperimentalresultsshowthattherecognitionresultsaregood.
KeywordsFormulaRecognition,StandardLibrary,MachineLearning,SVM基于SVM的印刷体数学公式识别的研究文伟海,杨立洪,周瑶华南理工大学数学学院,广东广州收稿日期:2020年1月2日;录用日期:2020年1月9日;发布日期:2020年1月16日摘要传统的数学公式识别,通常建立在OCR技术进行图片文字识别的基础上,对目标公式进行符号切割,通过构建数学符号数据库,然后两两比较相似度,然后返回最大相似度的符号名称,作为识别结果.
该方文伟海等DOI:10.
12677/hjdm.
2020.
10100991数据挖掘法,对数学符号数据库要求极高,鉴于实际情况,公式存在字号大小、粗细体、正斜体、各种字体等差异,导致该方法识别效果不佳.
本文基于印刷体数学公式特点,重新构建字符标准库,并结合机器学习思想,应用SVM算法进行公式识别,并进一步提取字符特征,提升公式识别精度,实验结果显示,识别结果良好.
关键词公式识别,标准库,机器学习,SVMCopyright2020byauthor(s)andHansPublishersInc.
ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY).
http://creativecommons.
org/licenses/by/4.
0/1.
引言随着互联网和信息技术的不断发展,中国在线教育已逐步进入智能教育时代,如拍照搜题,拍照阅卷以及拍照题库等教育类型应用层出不穷.
另外,与传统的纸质书籍相比,电子书籍具有便于修改、储存和检索的优势,越来越多的人们倾向于从电子书籍中学习新知识.
因此,将印刷体扫描图像转化为可编辑的文本,对于在线教育的发展与科技发展水平、教育理念变革以及用户教育需求升级和生活方式转变具有非常重大的意义.
目前这方面发展比较成熟的技术是光学字符识别技术(OCR),能够较精确地识别中英文以及阿拉伯数字,但对数学公式的识别效果不佳.
数学公式符号种类繁多、公式结构复杂,以及符号含义的多样性,让传统的OCR技术力所不及.
本文将研究提高数学公式识别精度,为数学公式的全面识别提出一点新思路.
数学公式识别作为实用性较强的技术引起了国内外专家和学者的广泛关注和研究.
1968年,Anderson首次提出数学公式的识别问题[1].
1996年,Blostein和Grbavec给出了公式识别的定义以及提出了公式识别的重新构图法.
在Okamoto等人的系统中[2][3],首先采用目标结构分析法递归分割字母以及符号,然后建立相对应的字符关系树,最后传统的模板匹配算法来进行数学公式的识别.
LeeHJ和LeeMC创建的系统中,通过提取数学公式行高度、文档位置信息、相邻行间隔大小等特征[4][5],来识别和提取公式.
为了解决系统误判问题,采用连通域分割的方法,先切分公式、优化公式粘连、字符识别和逻辑分析重组、最后把结果储存为LATEX格式.
国内有靳简明的MathReader数学公式识别系统,其利用Parzen窗进行公式定位,结合水平垂直投影技术、连通域分割技术和统计学特征分析技术进行公式识别,然后定义了11种公式来重构表达式并输出[6].
王琪辉则建立了面向公式符号识别的卷积神经网络结构,并通过大量的对比实验确定网络的最优参数[7].
综上所述,数学公式的识别问题研究较早,但是数学公式(特别是微积分公式)结构复杂,识别难度大,还是有很多亟待解决的难题.
本文在结合前人研究的研究成果,通过对数学公式进行分析、总结,进一步提取公式符号特征,使用支持向量机(SVM)对数学公式进行识别,并加入朴素贝叶斯(NaiveBayes,NB)模型作为对比分析.
NB是基于条件概率的分类算法,通过概率大小来进行分类,而SVM通过数据点到分割线的距离远近来进行分类.
在传统机器学习领域,NB和SVM是最常用分类算法,在不同的分类问题上性能也有所不同.
本文选取NB作为对比,旨在测试SVM模型的效率和准确性,力求建立一个性能优良的SVM模型,为传统机器学习模型在公式识别技术的研究提供一些指导.
OpenAccess文伟海等DOI:10.
12677/hjdm.
2020.
10100992数据挖掘2.
关键技术根据结合机器学习的思想,采用word、latex常见的数学公式字符作为训练样本,基于支持向量机(SVM)构造数学公式识别分类器,提高公式识别精度.
其基本流程图如图1:Figure1.
Flowchartofformularecognition图1.
公式识别流程图1)图像倾斜校正基于Hough变换图像倾角检测方法.
对图像边缘线进行Hough变换,根据Hough变换对图像交点进行投票,找出边缘曲线的倾斜角,并以此矫正图像的倾斜角度.
2)公式字符切割基于数学公式特征符号的结构,将公式中的字符分割成独立个体,并保留字符的位置信息.
本文结合投影法切割速度快和连通法切割效果好的特点,将两种算法整合,优化公式切割流程,能在保留准确位置信息前提下,提高切割准确率,实验证明该方法的切割效果极佳.
3)公式字符识别构建数学公式常用字符的字符库,本文提取了每个字符的"九宫格"和宽高比特征,采用SVM建立分类模型.
同时,将SVM与模板匹配和朴素贝叶斯方法的识别结果进行比较,在速度和精度上,SVM都胜于上述两种方法.
4)公式结构分析与组合本文在公式切割中,通过二值化图像矩阵提取公式字符的位置特征(),,,xywh(其中x,y表示该字符在二值化矩阵中的坐标,w,h分别表示宽和高),根据数学公式的符号组合方式,构建不同组合逻辑.
例如,根号的"半包围"组合方式、定积分的"上下标"组合方式等,对公式进行结构分析.
3.
核心算法3.
1.
公式切割算法通常公式切割的算法是投影法和连通法,两种算法各有优缺点.
投影法算法复杂度低,切割速度快,但是切割效果不佳,如24bac型的公式无法进一步切割;连通法的特点是,切割效果好,但是算法复杂度相对较高,切割速度慢.
本文将两种算法整合,进行公示切割,实验证明该方法的切割效果极佳.
算法步骤如下:文伟海等DOI:10.
12677/hjdm.
2020.
10100993数据挖掘Step1:对待识别公式行,用投影法进行公式切割,返回切割结果,并记录切割完毕的所有字符的位置特征(),,,xywh;Step2:识别切割好的字符,删除能识别的字符,并返回识别结果{xxyywwhhvaluevalueStep3:未能识别的字符,用连通法进行切割;Step4:再次识别切割好的字符,返回识别结果{xxyywwhhvaluevalue3.
2.
公式识别算法3.
2.
1.
模型原理本文运用支持向量机(SVM)算法进行公式识别,其基本原理[8]如下:假设训练数据集{}1122mmSxyxyxy=,其中nixR∈,{}1,1iy∈,1表示负类,1表示正类,一般的二分类问题,为求得最优分类超平面需要求解如下优化问题:()1,1111min,2.
.
0,1,2,,0mmijijijiijiimijiyyKxxstCimyαααααα====≤≤==∑∑∑其中,(),ijKxx为核函数,iα为拉格朗日系数,C为惩罚系数.
用SVM进行公式字符识别,其分类为多分类问题,一般为线性不可分,文本中SVM针对线性不可分的分类问题加入核函数.
使用径向基内核(Radialbasisfunctionkernel,RBF),其分界面为曲线,对线性不可分问题有良好的拟合效果.
另外,SVM一般应用于二分类问题,本文使用python的机器学习库sklearn中的支持向量机模型svm.
svc(),用于本文的字符识别多分类问题.
其基本原理是构造多层二分类器,将一个n分类问题分解为第1类和剩余n1类的二分类问题,以此类推,构造最终的多分类模型.
3.
2.
2.
模型评估对于分类问题,其模型结果,可用"混淆矩阵"呈现如下表1:Table1.
Confusionmatrix表1.
混淆矩阵真实情况预测结果正例反例正例TPFN反例FPTN查全率:TPpTPFP=+查准率:TPRTPFN=+F1-score:文伟海等DOI:10.
12677/hjdm.
2020.
10100994数据挖掘122**==++样例总数PRTPFPRTPTN4.
实证分析4.
1.
模型数据集根据印刷体数学公式常见字符,本文构建的数学公式字符库包括word、latex、pdf等文档形式中的数字、字母、希腊字母、数学符号等,鉴于图像大小、清晰度不同等因素,选取多个字号构建字符库,具体的字符库构成见下表2:Table2.
Compositionofcharacterlibrary表2.
字符库构成类别数字、字母、希腊字母、公式符号字号六号、小五号、五号、11号、小四号、四号、小三号、三号、小二号字体宋体、Calibri(西文正文)、微软雅黑、楷体、TimesNewRoman等9种字体.
样本源word、pdf、LaTeX、mathtype4.
2.
模型结果将数据集3/7比例随机划分为训练集和测试集,建立模型,返回模型结果如下表3:Table3.
BayesandSVMmodelaccuracy表3.
Bayes和SVM模型准确率方法精度召回率F1-scoreBayes0.
8830.
8660.
868SVM0.
9730.
9770.
974测试结果显示,SVM方法进行字符分类,精度高,识别效果较好.
4.
3.
测试结果为进一步测试模型识别效果,随机抽取三篇英文版数学文档,按照文档识别流程,分别采用直接匹配法、Bayes法识别、SVM法识别,统计识别结果如下表4:Table4.
TestresultsofEnglishmathematicsdocuments表4.
英文数学文档测试结果方法精度时间模板匹配法84%59minBayes74%12minSVM96%9min测试结果显示,SVM方法进行字符识别,精度高,识别速度快.
5.
结论本文构建印刷体数学公式字符数据标准库,结合机器学习的思想,构建大量的数学公式字符作为训文伟海等DOI:10.
12677/hjdm.
2020.
10100995数据挖掘练样本,基于SVM构造数学公式识别多分类器.
采用直接模板匹配、朴素贝叶斯和支持向量机三种方法进行比较,实验结果表明,在传统机器学习领域,支持向量机模型在印刷体数学公式识别中有非常良好的效果.
参考文献[1]Anderson,R.
H.
(1968)Syntex-DirectedRecognitionofHand-PrintedTwo-DimensionalMathematics.
In:InteractiveSystemsforExperimentalAppliedMathematics.
AcademicPress,NewYork,436-459.
https://doi.
org/10.
1016/B978-0-12-395608-8.
50048-7[2]Twaakyondo,H.
M.
andOkmoto,M.
(1995)StructureAnalysisandRecognitionofMathematicalExpressions.
Proceed-ingsofthe3thInternationalConferenceonDocumentAnalysisandRecognition,Montreal,Canada,14-16August1995,430-437.
[3]Okamoto,M.
,Imai,H.
andTakagi,K.
(2001)PerformanceEvaluationofaRobustMethodforMathematicalExpres-sionRecognition.
Proceedingsofthe6thInternationalConferenceonDocumentAnalysisandRecognition,Seattle,WA,USA,13September2001,121-128.
[4]Lee,H.
-J.
andLee,M.
-C.
(1994)UnderstandingMathematicalExpressionsUsingProcedureOrientedTransformation.
PatternRecognition,27,447-457.
https://doi.
org/10.
1016/0031-3203(94)90121-X[5]Lee,H.
J.
andWang,J.
S.
(1995)DesignofaMathematicalExpressionRecognitionSystem.
Proceedingsof3rdInter-nationalConferenceonDocumentAnalysisandRecognition,Montreal,Canada,14-16August1995,1084-1087.
[6]Scientific,W.
(1997)HandbookofCharacterRecognitionandDocumentImageAnalysis.
WorldScientific,Singapore.
[7]王琪辉.
基于深度学习的印刷体数学公式符号识别方法研究[D]:[硕士学位论文].
沈阳:沈阳工业大学,2016.
[8]张学工.
关于统计学习理论与支持向量机[J].
自动化学报.
2000,26(1):32-42.

Vultr新注册赠送100美元活动截止月底 需要可免费享30天福利

昨天晚上有收到VULTR服务商的邮件,如果我们有清楚的朋友应该知道VULTR对于新注册用户已经这两年的促销活动是有赠送100美元最高余额,不过这个余额有效期是30天,如果我们到期未使用完的话也会失效的。但是对于我们一般用户来说,这个活动还是不错的,只需要注册新账户充值10美金激活账户就可以。而且我们自己充值的余额还是可以继续使用且无有效期的。如果我们有需要申请的话可以参考"2021年最新可用Vul...

DiyVM:499元/月香港沙田服务器,L5630*2/16G内存/120G SSD硬盘/5M CN2线路

DiyVM是一家成立于2009年的国人主机商,提供的产品包括VPS主机、独立服务器租用等,产品数据中心包括中国香港、日本大阪和美国洛杉矶等,其中VPS主机基于XEN架构,支持异地备份与自定义镜像,VPS和独立服务器均可提供内网IP功能。商家VPS主机均2GB内存起步,三个地区机房可选,使用优惠码后每月69元起;独立服务器开设在香港沙田电信机房,CN2线路,自动化开通上架,最低499元/月起。下面以...

白丝云-美国圣何塞4837/德国4837大带宽/美西9929,26元/月起

官方网站:点击访问白丝云官网活动方案:一、KVM虚拟化套餐A1核心 512MB内存 10G SSD硬盘 800G流量 2560Mbps带宽159.99一年 26一月套餐B1核心 512MB内存 10G SSD硬盘 2000G流量 2560Mbps带宽299.99一年 52一月套餐...

图片识别文字为你推荐
中证财通中国可持续发展100(ECPI长江航道周服务信息excursionsios5配置route支持ipad支持ipad支持ipad支持ipad请仔细阅读在本报告尾部的重要法律声明win10445端口Win10系统开放端口号怎样查看?
Oray域名注册服务商 高防服务器租用选锐一 免费国际域名 国外vps租用 vps交流 金万维动态域名 服务器评测 堪萨斯服务器 鲨鱼机 国外服务器网站 私人服务器 42u机柜尺寸 主机屋免费空间 商务主机 52测评网 已备案删除域名 新世界服务器 1元域名 上海电信测速网站 美国盐湖城 更多