浅谈新疆地区少数民族文字识别系统的发展进度
【摘要】数字资源为新兴时代图书馆必不可少的资源之一而文字识别技术是建立数字资源过程中的重要环节之一。本文以新疆维吾尔自治区内的维、哈、柯等少数民族文字为主题提出了少数民族地区数字文献事业发展的进展和现状
【关键词】新疆 民族文字识别发展进度
我国是多民族国家尤其是在新疆维吾尔自治区共有13个少数民族在这富饶的土地上共同生存和繁荣发展。在我国少数民族语言文字政策的大力支持下我区各民族都在使用各自的语言文字并通过在语言文字领域不断引进新兴技术使各自的文字领域创造了数字化、 自动化的新的局面。本文提出的少数民族文字识别系统指的是使用某种数字技术把现存的少数民族文字编写的纸质文献通过扫描形式先转化为计算机能识别的标准图像格式再用类似于中文文字识别软件OCR等转换工具把以图像格式保存的文字转换成WINDOWS等系统的WORD或其他文本格式文件的过程。这些文本文件形成后根据使用者的需求会直接被使用或再进行二次加工用P DF文件或HTM L网页文件等软载体传播并提供给读者阅读。文字识别系统为后者提供准备工作和硬条件也就是为电子图书等数字文献的形成做中转的作用如图1。介绍新疆地区少数民族文字识别系统之前我们必须先了解其文字背景和特点首先简单介绍一下我区少数民族文字现状。
一、少数民族文字基本情况
在新疆地区维吾尔族、哈萨克族、柯尔克孜族等属于突厥语系的民族现在都使用自己的语言和文字实现各种交流和沟通。这几个民族使用文字的历史原因使用文字变化多样化、因时代不同而使用文字不同等特点已经导致文字的不统一性和不确定性。在解放前后都已经使用过新、旧文字两种文字表达方式。而他们现在用的文字是国家按有关语言文字的特征在阿拉伯文字的基础上模仿性创造出的文字表达方式是在阿拉伯文字的基础上更改并简化了部分环节后产生的新的字母既有阿拉伯文字的有些特征并有自己的特点和不同。维吾尔文字使用32个字母哈萨克文使用33个字母柯尔克孜文使用30个字母 1983年版这三种语言文字在各自中间也有些共同点和不同地方。
目前虽然有关这些语言文字识别的研究有了些新的进展其实幅度还是不能满足使用者对新技术的发展需求可以说是出于发展的初级阶段。由于阿拉伯文和这些语言字符集上的相似性可以借鉴阿拉伯文研究成果。但是阿拉伯文字识别的研究远远落后于拉丁文、中文等文字识别技术的研究大部分的研究采用的是结构化的方法。
二、少数民族文字自动识别的特点
因为跟阿拉伯文字有不同点这些语言文字的识别技术也会有自己的特点和不同之处简单总结为以下几点
搬瓦工最新优惠码优惠码:BWH3HYATVBJW,节约6.58%,全场通用!搬瓦工关闭香港 PCCW 机房通知下面提炼一下邮件的关键信息,原文在最后面。香港 CN2 GIA 机房自从 2020 年上线以来,网络性能大幅提升,所有新订单都默认部署在香港 CN2 GIA 机房;目前可以免费迁移到香港 CN2 GIA 机房,在 KiwiVM 控制面板选择 HKHK_8 机房进行迁移即可,迁移会改变 IP...
青云互联怎么样?青云互联是一家成立于2020年6月的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务,目前提供有美国免费主机、香港主机、香港服务器、美国云服务器,让您的网站高速、稳定运行。美国cn2弹性云主机限时8折起,可选1-20个IP,仅15元/月起,附8折优惠码使用!点击进入:青云互联官方网站地址青云互联优惠码:八折优惠码:ltY8sHMh (续费同价)青云互联活动方案:美国洛杉矶...
妮妮云的来历妮妮云是 789 陈总 张总 三方共同投资建立的网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑妮妮云的市场定位妮妮云主要代理市场稳定速度的云服务器产品,避免新手购买云服务器的时候众多商家不知道如何选择,妮妮云就帮你选择好了产品,无需承担购买风险,不用担心出现被跑路 被诈骗的情况。妮妮云的售后保证妮妮云退款 通过于合作商的友好协商,云服务器提供2天内全额退款,超过2天不退款 物...