识别图片转换文字

图片转换文字  时间:2021-05-13  阅读:()

ICS01.
140.
20A14备案号:中华人民共和国档案行业标准DA/TXX—2017纸质档案数字副本光学字符识别(OCR)工作规范Specificationforopticalcharacterrecognition(OCR)ofdigitalcopiesofpaper-basedrecords(征求意见稿)2017-XX-XX发布2017-XX-XX实施国家档案局前言本标准按照GB/T1.
1—2009给出的规则起草.
本标准的附录A是资料性附录,附录B是规范性附录.
本标准由国家档案局提出并归口.
本标准起草单位:本标准主要起草人:纸质档案数字副本光学字符识别(OCR)规范1范围本标准规定了纸质档案数字副本光学字符识别(OCR)的工作组织、方案制定、实施过程、成果管理与应用、性能和指标、业务评价要求.
本标准适用于形成的、印刷字迹清晰、文本规范的纸质档案数字副本的光学字符识别(OCR)工作.
2规范性引用文件下列文件对于本文件的应用是必不可少的.
凡是注日期的引用文件,仅所注日期的版本适用于本文件.
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件.
GB2312—1980信息交换用汉字编码字符集基本集GB/T9704—2012党政机关公文格式GB18030—2005信息技术中文编码字符集DA/T13—1994档号编制规则DA/T18—1999档案著录规则DA/T22—2015归档文件整理规则DA/T31纸质档案数字化技术规范3术语和定义3.
1字符character供组织、控制或表示数据用的元素集合中的一个元素.
[GB18030-2005,4术语和定义]3.
2字符集characterset多个字符的集合.
字符集包含的字符个数不同,常见字符集名称有ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等.
3.
3光学字符识别(OCR)OpticalCharacterRecognition;OCR通过信息技术对图像文件中的字符形状进行识别、文字转换和文本输出、呈现的过程.
3.
4纸质档案数字副本digitalcopiesofpaper-basedrecords纸质档案经过数字化加工过程后形成的,存储在磁带、磁盘、光盘等载体上并能被计算机等电子设备识别的数字图像.
3.
5档案OCR成果OCRachievementsofrecords记录通过OCR技术获取的纸质档案数字副本文字内容的文件.
3.
6识别准确率recognitionaccuracy通过OCR技术识别正确字符的比率.
识别准确率=(识别正确字符数/应识别字符总数)*100%3.
7识别速度recognitionspeed单位时间内通过OCR技术识别字符的数量.
4总则4.
1档案OCR应当纳入数字档案馆(室)资源建设范畴,统筹规划,有序实施,逐步实现常态化.
4.
2档案OCR应当科学开展,以有利于实现档案信息检索、计算机辅助编目、编研开发和数据挖掘为原则.
4.
3档案OCR应当基于档案数字化工作,档案OCR成果与纸质档案数字副本之间应建立准确、可靠的关联关系.
4.
4应当釆取有效的管理和技术手段,加强档案OCR的过程管理和质量控制,确保档案OCR过程规范、成果可靠、数据安全.
4.
5涉密纸质档案数字副本的OCR工作,应符合涉密档案相关的管理和技术要求.
5工作组织5.
1机构及人员5.
1.
1应建立或依托档案数字化工作机构,配备相应素质和技术水平的工作人员,组织开展档案OCR工作的统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等.
5.
1.
2档案OCR工作实行服务外包的,应建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全.
对外聘的工作人员,应进行安全审查.
5.
2基础设施5.
2.
1应配备或依托档案数字化工作场地、机房等,合理规划、配备和管理设施设备,确保设施设备能够满足档案OCR的实际需要.
5.
2.
2应配备或开发相应性能先进、安全可靠的电子档案管理系统、OCR软件系统,建立有助于档案OCR的式样库、特征数据库等,提升档案OCR质量.
5.
3流程控制5.
3.
1档案OCR流程包括图像输入、图像预处理、比对识别、修改校正、成果整理输出等业务环节.
应依据相关技术标准,制定档案OCR工作流程和业务环节的操作规范,对全过程进行有效控制.
5.
3.
2应加强对档案OCR工作全流程的质量管理和安全管理,建立完善的质量问题发现、修正机制,确保档案信息安全.
5.
4工作文件与元数据5.
4.
1应建立档案OCR工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收报告、成果移交材料等的管理工作文件,,采取服务外包的还应包括项目招标文件、投标文件、中标通知书、项目合同、保密协议、操作规程、监管记录等,加强对档案OCR工作的管理.

5.
4.
2应参照相关标准,提出档案OCR工作流程中相关元数据设计、捕获、著录和管理的基本要求,与对应的纸质档案数字副本管理过程元数据实施融合管理,并纳入入数字档案馆(室)应用系统数据库.
6方案制定6.
1确定工作策略6.
1.
1OCR工作开展前,应当依据纸质档案数字副本OCR项目的计划、合同、招投标书等有关项目文件对OCR工作的识别系统(OCR软件,见附录A)、网络系统、基础设施、保障能力等方面进行业务评价.
对不符合要求的评价项目须整改达到评价指标要求后方能开展纸质档案数字副本OCR工作.

6.
2.
2评价通过后,应根据以下因素,制定档案OCR的工作策略:——图像资源:即符合输入标准的可识别的彩色(24BITS)、灰度(256阶)和黑白二值图像.
一般应为TIFF、BMP、JPG、PDF(图像)、OFD(图像)格式文件.
——OCR引擎:对图像包含文字进行高速和高识别率的OCR软件开发包.
——OCR软件:装备OCR引擎的软件,可高速稳定输出识别结果.
应根需要识别的目标,按照项目资源的成本风险平衡原则确定OCR的范围、质量、效率、技术等要求.
——基础设施:支持系统运行的建筑、设施和设备,包括介质的场外存放场所、备用的机房及辅助设施.
——专业技术支持能力:对系统的运转提供支撑和综合保障的能力,以实现系统的预期目标.
包括硬件、系统软件和应用软件的问题分析和处理能力、网络系统安全运行管理能力、沟通协调能力等.
——运行维护管理能力:保障系统相关的设备和软件正常运行,提供长期、及时、全面的技术支持的能力.
包括运行环境管理、系统管理、安全管理和变更管理等.
——灾难恢复预案:对系统灾难实行快速、有效的响应和恢复.
包括灾难紧急响应,灾后系统重建及重续运行,通信、后勤、技术等相关保障机制建设.
6.
2制定技术方案6.
2.
1应当根据确定的档案OCR工作策略制定OCR各工作系统技术方案,包含OCR的数据管理系统、OCR识别处理系统和网络系统.
技术方案中所涉及的系统应满足如下条件:——与档案管理系统相当的安全保护级别;——具有可扩展性;——对档案管理系统无明显可用性和性能影响.
6.
2.
2为确保技术方案满足档案OCR工作策略的要求,应对技术方案进行确认和验证,并记录和保存验证及确认的结果.
按照确认的OCR软件技术方案进行开发,实现所要求的数据系统、数据处理系统和网络系统.

6.
2.
3按照经过确认的技术方案,应制定OCR软件各阶段的系统安装及测试计划,以及支持不同关键业务功能的系统安装及测试计划,并组织最终用户共同进行测试.
确认以下各项功能可正确实现:——对识别图像进行预处理;——数据识别及校验;——输出档案OCR成果;——数据安全管理.
7档案OCR的实施7.
1图像输入7.
1.
1档案OCR实施前,应当先评估纸质档案数字副本质量是否符合OCR的基本要求.
评估内容一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等.
7.
1.
2纸质档案数字副本的图像分辨率宜为300dpi,不应低于200dpi.
特殊情况下,如文字偏小、密集、清晰度较差等,可以适当提高分辨率.
文件命名应符合DA/T13—1994、DA/T22—2015、DA/T31的规定.
7.
1.
3对质量不能达到档案OCR工作基本要求的纸质档案数字副本,应按照DA/T31的要求重新数字化后导入.
7.
2图像预处理7.
2.
1二值化7.
2.
1.
1在识别处理前,应对彩色图像进行灰度化和二值化处理;对灰度图像进行二值化处理.
OCR软件应采取局部自适应二值化等算法,并支持自动或手动调节.
7.
2.
1.
2OCR软件应具备亮度和对比度值自动、手动调节功能.
亮度和对比度值的设定以调整后的图像中文字的笔画连贯清晰为准.
7.
2.
2图像降噪7.
2.
2.
1对图像中印刷体字符进行识别处理前,需要根据噪声的特征对待识别图像进行降噪处理,提升识别处理的精确度.
7.
2.
2.
2OCR软件的降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方.
7.
2.
3倾斜校正7.
2.
3.
1对图像进行识别前,应进行图像方向检测并进行自动水平或垂直倾斜校正.
软件应支持由用户指定图像倾斜的角度,并然后采用相应的图像旋转算法进行手工倾斜校正.
7.
2.
3.
1图像质量控制程序应自动检测图像处理质量.
对无法达到质量要求的图像进行标注.
7.
3比对识别7.
3.
1版式分析7.
3.
1.
1OCR软件在对比识别前应对图像中的字符块结构进行版式分析,把图像中相似的版块信息划分到一起.
如横排文本、竖排文本、表格、图形等.
7.
3.
1.
2OCR软件可采取多种分析方法,自动检测各版块类型,对图像内部区域进行逻辑归类,记录各版块的位置,存储版面信息.
7.
3.
2档案特征分析7.
3.
2.
1归档章分析.
建立归档章式样库,自动识别图像中的归档章,并根据归档章样式,识别出字段位置,如全宗号、年度、机构、保管期限、件号、页数等.
7.
3.
2.
2公文内容分析.
建立公文格式库,可准确识别公文的版头、主体、版记三部分,识别公章、签章等区域,比照公文样式,识别份密级、发文单位、标题、日期等公文要素.
公文要素OCR识别要求参见附录B.

7.
3.
2.
3表格分析.
建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿纸、备考表等表格模板,识别表格中的字段位置.
7.
3.
2.
4印章分析.
识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式恢复.
7.
3.
3识别和匹配7.
3.
3.
1OCR软件应抽取字体、字号、粗体、斜体、首行缩进等字符特征,通过相似度计算方法,与特征数据库比对,识别为计算机文字内码.
7.
3.
3.
2OCR软件的特征数据库应存储多种印刷体字符、常用签名和批注手写体字符,具备可更新和可扩充性.
对使用频率高的汉字、英文、数字以及常用的符号、常用签名和批注手写体字符应建立高频库.
OCR软件应将无法识别的手写体筛选出来,通过人工识别,并将识别结果存入字符库.

7.
3.
3.
3OCR软件应通过将比对后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的字词对识别文字进行除错或更正,以提高OCR识别准确率.
7.
4修改校正7.
4.
1OCR软件应对识别的文本进行自动语义识别和校正,通过词汇库和语义库,对识别后文本中的字符、词汇、语句进行自动进行逐层分析更正.
词汇库和语义库应具备更新和自动学习功能.
7.
4.
2OCR软件应对候选字、拒认字和可能有问题的字词、语句进行标记.
7.
4.
3OCR软件应支持以人工方式对OCR结果进行图像与识别文字对照、修正等校正的功能,以满足更高识别准确率的特殊要求.
7.
5成果整理输出7.
5.
1成果整理7.
5.
1.
1OCR软件可按照纸质档案数字化图像的版式对OCR结果的段落和表格进行版面理解与重建.
重建后OCR结果的段落编排、表格样式应与纸质档案数字副本图像一致.
7.
5.
1.
2OCR软件应自动分析、提取符合GB/T9704-2012要求党政机关公文的各公文要素,包括份号、密级和保密期限、紧急程度、发文机关名称、发文字号、签发人、标题、主送机关等.
档案OCR成果结果中各公文要素位置应与纸质档案数字副本图像一致.

JustHost俄罗斯VPS有HDD、SSD、NVMe SSD,不限流量低至约9.6元/月

justhost怎么样?justhost服务器好不好?JustHost是一家成立于2006年的俄罗斯服务器提供商,支持支付宝付款,服务器价格便宜,200Mbps大带宽不限流量,支持免费更换5次IP,支持控制面板自由切换机房,目前JustHost有俄罗斯6个机房可以自由切换选择,最重要的还是价格真的特别便宜,最低只需要87卢布/月,约8.5元/月起!总体来说,性价比很高,性价比不错,有需要的朋友可以...

易速互联月付299元,美国独立服务器促销,加州地区,BGP直连线路,10G防御

易速互联怎么样?易速互联是国人老牌主机商家,至今已经成立9年,商家销售虚拟主机、VPS及独立服务器,目前商家针对美国加州萨克拉门托RH数据中心进行促销,线路采用BGP直连线路,自带10G防御,美国加州地区,100M带宽不限流量,月付299元起,有需要美国不限流量独立服务器的朋友可以看看。点击进入:易速互联官方网站美国独立服务器优惠套餐:RH数据中心位于美国加州、配置丰富性价比高、10G DDOS免...

Megalayer 香港CN2优化线路VPS主机速度和性能综合评测

对于Megalayer云服务器提供商在之前也有对于他们家的美国服务器和香港服务器进行过评测和介绍,但是对于大部分网友来说需要独立服务器和站群服务器并不是特别的普及,我们很多网友使用较多的还是云服务器或者VPS主机比较多。在前面也有在"Megalayer新增香港VPS主机 1GB内存 50GB SSD 2M带宽 月59元"文章中有介绍到Megalayer商家有新增香港CN2优化VPS主机。那时候看这...

图片转换文字为你推荐
电子行业动态跟踪报告浙江世纪华通集团股份有限公司支持ipad支持ipad支持ipad支持ipadVTLHiosnetbios端口如何组织netbios端口的外部通信photoshop技术什么是ps技术重庆宽带测速重庆电信测速我的网速溢出
服务器配置技术网 59.99美元 xen 免费博客空间 台湾谷歌网址 湖南服务器托管 php空间申请 双拼域名 刀片服务器是什么 股票老左 老左正传 免费cdn 免费外链相册 阿里云免费邮箱 photobucket 114dns 国外网页代理 服务器防御 开心online 腾讯云平台 更多