浅谈新疆地区少数民族文字识别系统的发展进度
【摘要】数字资源为新兴时代图书馆必不可少的资源之一而文字识别技术是建立数字资源过程中的重要环节之一。本文以新疆维吾尔自治区内的维、哈、柯等少数民族文字为主题提出了少数民族地区数字文献事业发展的进展和现状
【关键词】新疆 民族文字识别发展进度
我国是多民族国家尤其是在新疆维吾尔自治区共有13个少数民族在这富饶的土地上共同生存和繁荣发展。在我国少数民族语言文字政策的大力支持下我区各民族都在使用各自的语言文字并通过在语言文字领域不断引进新兴技术使各自的文字领域创造了数字化、 自动化的新的局面。本文提出的少数民族文字识别系统指的是使用某种数字技术把现存的少数民族文字编写的纸质文献通过扫描形式先转化为计算机能识别的标准图像格式再用类似于中文文字识别软件OCR等转换工具把以图像格式保存的文字转换成WINDOWS等系统的WORD或其他文本格式文件的过程。这些文本文件形成后根据使用者的需求会直接被使用或再进行二次加工用P DF文件或HTM L网页文件等软载体传播并提供给读者阅读。文字识别系统为后者提供准备工作和硬条件也就是为电子图书等数字文献的形成做中转的作用如图1。介绍新疆地区少数民族文字识别系统之前我们必须先了解其文字背景和特点首先简单介绍一下我区少数民族文字现状。
一、少数民族文字基本情况
在新疆地区维吾尔族、哈萨克族、柯尔克孜族等属于突厥语系的民族现在都使用自己的语言和文字实现各种交流和沟通。这几个民族使用文字的历史原因使用文字变化多样化、因时代不同而使用文字不同等特点已经导致文字的不统一性和不确定性。在解放前后都已经使用过新、旧文字两种文字表达方式。而他们现在用的文字是国家按有关语言文字的特征在阿拉伯文字的基础上模仿性创造出的文字表达方式是在阿拉伯文字的基础上更改并简化了部分环节后产生的新的字母既有阿拉伯文字的有些特征并有自己的特点和不同。维吾尔文字使用32个字母哈萨克文使用33个字母柯尔克孜文使用30个字母 1983年版这三种语言文字在各自中间也有些共同点和不同地方。
目前虽然有关这些语言文字识别的研究有了些新的进展其实幅度还是不能满足使用者对新技术的发展需求可以说是出于发展的初级阶段。由于阿拉伯文和这些语言字符集上的相似性可以借鉴阿拉伯文研究成果。但是阿拉伯文字识别的研究远远落后于拉丁文、中文等文字识别技术的研究大部分的研究采用的是结构化的方法。
二、少数民族文字自动识别的特点
因为跟阿拉伯文字有不同点这些语言文字的识别技术也会有自己的特点和不同之处简单总结为以下几点
ucloud:全球大促活动降价了!这次云服务器全网最低价,也算是让利用户了,UCloud商家调低了之前的促销活动价格,并且新增了1核1G内存配置快杰型云服务器,价格是47元/年(也可选2元首月),这是全网同配置最便宜的云服务器了!UCloud全球大促活动促销机型有快杰型云服务器和通用型云服务器,促销机房国内海外都有,覆盖全球20个城市,具体有北京、上海、广州、香港、 台北、日本东京、越南胡志明市、...
百驰云成立于2017年,是一家新国人IDC商家,且正规持证IDC/ISP/CDN,商家主要提供数据中心基础服务、互联网业务解决方案,及专属服务器租用、云服务器、云虚拟主机、专属服务器托管、带宽租用等产品和服务。百驰云提供源自大陆、香港、韩国和美国等地骨干级机房优质资源,包括BGP国际多线网络,CN2点对点直连带宽以及国际顶尖品牌硬件。专注为个人开发者用户,中小型,大型企业用户提供一站式核心网络云端...
全球领先的IDC服务商华纳云“美国服务器”正式发售啦~~~~此次上线的美国服务器包含美国云服务器、美国服务器、美国高防服务器以及美国高防云服务器。针对此次美国服务器新品上线,华纳云也推出了史无前例的超低活动力度。美国云服务器低至3折,1核1G5M低至24元/月,20G DDos防御的美国服务器低至688元/月,年付再送2个月,两年送4个月,三年送6个月,且永久续费同价,更多款高性价比配置供您选择。...