国家数字图书馆中文信息处理

gbk编码表时间:2021-02-20 阅读:()

翟喜奎/国家图书馆业务管理处北京100081摘要:国家数字图书馆负有重点收藏和长期保存中文数字资源,建立中文数字资源保障中心,建设中文数字资源查询基地的责任.
因此,中文信息处理在国家数字图书馆中的应用具有重要作用.
本文对中文信息处理以及国家图书馆数字图书馆中文信息处理标准规范进行介绍;指出中文信息处理标准规范在国家数字图书馆建设中的必要性和重大意义.

关键词:数字图书馆,中文信息处理,汉字属性字典1引言数字图书馆是面向未来互联网发展的信息管理模式.
以数字资源的制作、存储、管理、传输和服务为主要特征的数字图书馆技术,是21世纪国际科技文化竞争的焦点之一.
中国国家图书馆数字图书馆是信息技术和网络技术发展的必然结果,是传统图书馆在信息网络时代的拓展与延伸.
根据国家图书馆的职能,国家图书馆数字图书馆在数字资源建设方面,全面收藏中文文献信息,是全球最大的中文文献提供中心;负有重点收藏和长期保存中文数字资源、建立中文数字资源保障中心、建设中文数字资源查询基地的责任[1].
因此,中文信息处理在国家数字图书馆建设中具有重要作用.

中文信息处理包括汉字编码字符集、中文信息输入、输出、中文信息处理基础研究等各个方面.
为了规范、指导数字图书馆建设,国家图书馆制定了一系列数字图书馆的相关标准规范.
中文信息处理是国家图书馆数字图书馆标准规的一部分.
主要包括五个方面内容:1、汉字属性字典规范;2、古籍用字规范;3、生僻字、避讳字处理规范;4、计算机中文信息处理规范;5、中文文献全文版式还原与全文输入XML规范.
通过数字图书馆中文信息处理标准规范的制定与实施,指导数字图书馆数字资源制作、存储、管理、传输和服务完整过程的建设.

2汉字属性字典规范汉字属性字典规范是确保数字图书馆建设的重要标准规范之一.
针对数字图书馆文献类型复杂,使用汉字字符数量大等特点,汉字属性字典规范要求处理的汉字范围为GB18030-2005(UNICODE5.
1、ISO10646-2003)所包括的全部汉字.
汉字属性字典规范的基本内容是汉字字型标准化、汉字标准发音、字型特征(包括汉字总笔画数量、汉字起笔至末笔笔形值、部首笔画数量、部首序号、部首外起笔至末笔笔形值、异体字数量、异体字字型等)、各种编码(包括四角号码、输入编码、其他汉字字符集编码等)以及构词和使用频度等.

汉字属性字典规范应解决①代码转换;②为检索提供规范;③汉字排序;④字音转换;⑤为文字研究提供汉字的基本属性;⑥提供汉字电子工具等应用问题.
汉字属性字典规范是建立汉字属性系统的基础,是汉字信息处理系统的一个重要组成部分,可以使计算机处理中文信息的功能更为齐全,提高效率,促进标准化.
对汉字属性字典规范的研究和利用是中文信息处理技术不断深入发展以及数字图书馆深入应用的必然结果.
因此,对汉字属性字典规范的研究与应用具有很重要的意义.

2.
1汉字属性字典规范与其它规范的关系汉字属性字典规范是中文信息处理的基础;也是古籍用字规范、生僻字和避讳字处理规范、计算机中文信息处理规范的基础.
古籍用字规范、生僻字和避讳字处理规范、计算机中文信息处理规范是汉字属性字典规范的具体应用.

2.
2汉字属性字典研究现状在汉字属性研究方面,自80年代中期,我国相继研制出了一些具有应用价值的汉字属性字典、汉字属性库和汉字属性系统.
基于GB13000.
1《信息技术通用多八位编码字符集》即(ISO/IEC10646.
1-1993)、UNICODE1.
0的汉字属性标准研究已经完成,解决的汉字数量只是基本集20902个汉字.
但是,基于UNICODE5.
1(ISO/IEC10646:2003)的汉字属性标准研究,当前还是空白,除了已经解决的汉字基本集20902个汉字之外,还要解决的汉字数量是扩充A集6582个汉字、扩充B集42711个汉字.
要加速该方面的基础研究,满足数字图书馆资源建设以及实际应用的需求.

为了适应未来数字图书馆的发展和应用,已有的汉字属性研究还需要进一步拓展和深入.
首先,需要将汉字属性研究的汉字数量从20902字扩大到70195字;需要对汉字属性研究的内容根据应用的需求不断扩充;需要对汉字的有些属性,根据ISO/IEC10646进行相应的调整、补充;需要加强对属性数据的维护与更新.

国家图书馆汉字属性字典规范要求处理的汉字范围为是GB18030-2005(UNICODE5.
1、ISO10646-2003)所包括的全部汉字(即7万多字),要求满足数字图书馆资源建设以及实际应用的需求.
汉字属性字典规范是中文信息处理的基础,为中文信息处理提供基础数据,为中文信息处理应用提供支撑.
目前,国内外对汉字属性字典研究在7万多字范围的还是空白,因此,在处理难度上可想而知.

2.
3代码转换汉字编码字符集是汉字的存储和传输码,一般又称为汉字内码,也叫做汉字的机内码.
汉字编码字符集是计算机可以识别的编码,适用于汉字处理、汉字通信等系统之间的信息交换[2].

汉字输入编码是输入汉字时使用的编码,一般又称为汉字外码,也叫做汉字的机外码.
汉字输入编码跟特定输入法相对应,通过汉字外码转换成汉字内码输入到计算机中.

汉字属性字典规范提供我国已经颁布的《信息交换用汉字编码字符集》中的字符与其他国家和地区的汉字信息交换码的对照关系,实现我国与不同国家、地区之间的机读数据的相互转换;汉字属性字典规范提供汉字输入编码与汉字编码字符集的对照关系,解决超大字符集的汉字输入问题.

2.
3.
1国内外汉字编码字符集[2](1)GB2312-80《信息交换用汉字编码字符集-基本集》中国于1980年3月颁布了第一个汉字编码字符集标准,即GB2312-80《信息交换用汉字编码字符集-基本集》.
该标准符合ISO2022编码体系结构.
1981年5月1日开始正式实施,它奠定了中国中文信息处理技术的发展基础.
(2)编码字符集的繁体字和简体字对应编码1984年"全国计算机与信息处理标准化技术委员会"提出编码字符集的繁体字和简体字对应编码的原则,并做出了制定六个信息交换用汉字编码字符集的计划.
这六个集分别命名为基本集(GB2312-80)、第一辅助集(辅一,GB12345-90)、第二辅助集(辅二,GB7589-87)、第三辅助集(辅三,GB13131-1991)、第四辅助集(辅四,GB7590-87)、第五辅助集(辅五,GB13132-1991).
其中,基本集、辅二集、辅四集是简体字集,辅一集、辅三集、辅五集分别是基本集、辅二集、辅四集的繁体字映射集,且简/繁字在两个字符集中同码(个别简/繁关系为一对多的汉字除外).
这六个集均采用双七位编码方式,但为了避开ASCII表中的控制码,每个七位只选取了94个编码位置.
所以每张代码表分94个区和94个位.
其中前15区作为拼音文字及符号区或保留未用,16区到94区为汉字区.
(3)GB13000《信息技术通用多八位编码字符集》1990年中国颁布了GB13000《信息技术通用多八位编码字符集》.
随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途的要求.
1993年国际标准化组织发布了ISO/IEC10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》.
我国等同采用此标准制定了GB13000.
1-1993.
该标准采用了全新的多文种编码体系,收录了中、日、韩20902个汉字,是编码体系未来发展方向.

(4)GBK编码字符集1995年12月完成GBK规范.
GBK编码是GB2312-80国标码的扩充(其中GB表示国标,K表示扩展).
但是GBK编码本身不是国家标准.
该编码规范完全兼容GB2312-80.

(5)GB18030-2005《中文编码字符集》2005年中国颁布了国家标准GB18030-2005《中文编码字符集》替代了GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993、GB18030-2000之后最重要的汉字编码标准,是未来我国计算机系统必须遵循的基础性标准之一,该标准是国家强制性标准.
在中国大部分计算机系统仍然采用GB2312编码.
GB18030与GB2312一脉相承,较好地解决了旧系统向新系统的转换问题,并且改造成本较小.
从我国信息技术和信息产业发展的角度出发,考虑到解决我国用户的需要及解决现有系统的兼容性和对多种操作系统的支持,采用GB18030是我国目前较好的选择,而GB13000.
1更适用于未来国际间的信息交换.
考虑到GB18030和GB13000的兼容问题,标准起草组编制了GB18030与GB13000.
1的代码映射表,使得两个编码体系可以自由转换.
同时,还开发了GB18030基本点阵字型库.
(6)台湾字符集《中文资讯交换码CCCII》.
CCCII是ChineseCharacterCodeforInformationInterchange的缩写,是经台湾中研院中美会及国科会等单位支持,于1979年12月集合由台湾图书馆学者、文字学家及电脑专家组成"国字整理小组"提出的汉字编码.
经过一些修改,被美国采纳为美国国家标准ANSIZ39.
64-1989,同时也被称为东亚字符编码(EACC)用于图书馆书籍目录方面.
《通用汉字标准交换码CNS11643》.
1983年10月,台湾科学委员会、教育部国语推行委员会、中央标准局、行政院主计处电子资料处理中心共同制定了《通用汉字标准交换码》(ChineseIdeographicStandardCodeforInformationInterchange,简称CISCII码),经试用修订,1986年8月4日由台湾中央标准局公布为法定标准,标准编号为CNS11643.
这一标准于1992年5月21日重新修订公布,更名为《中文标准交换码》(ChineseStandardInterchangeCode).
1995年1月4日,台湾中央标准局又公布了CNS11643-1《中文标准交换码使用方法》.
上述两个汉字字符集,CNS11643为通用的标准交换码,适用面较广.
CCCII使用面相对较窄,主要应用于图书馆,相当于行业规范.

BIG-5码是1984年台湾资讯工业策进会根据《通用汉字标准交换码》制订的编码方案.

(7)日本字符集标准1978年,日本政府公布了日本工业标准JISC6226-1978《信息交换用汉字字符集》.
该标准于1983年进行了修订,新增加了4个汉字,并将该标准编号改为JISX0208-1983.
1990年日本发布了第二个日本汉字编码字符集标准JISX0212-1990,作为日本汉字交换码辅助集.
1993年日本发布了第三个日本汉字编码字符集标准JISX0221-1993,该标准是有20,902个汉字的编码标准.
接着,有了1996年的《表外汉字字体表试案》,日本政府在公布该方案时,并且声明,它"是法令、公用文书、报纸、杂志、广播电视等一般社会生活中,使用表外汉字字体的依据","这个字体表将明治以来传统的印刷文字字体(并非《康熙字典》字体的本身,而是以《康熙字典》为依据作成的明治以来的铅字字体即《康熙字典体》)置于印刷标准字体的地位.
"目前,日本最新汉字编码字符集标准是JISX0221-1:2001.
(8)韩国字符集标准1987年韩国制定了韩国标准编码字符集KSC5601-1987,共有8224个字符.
1991年韩国制定了编码字符集的辅助集KSC5657-1991,增收汉字2856个.
(9)ISO/IEC10646与UNICODE国际标准化组织(ISO)于1984年开始研究、制定《信息技术通用多八位编码字符集(UCS)》国际标准,即ISO/IEC10646.
1993年5月,该标准的第一部分:体系结构与基本多文种平面(即ISO/IEC10646.
1)正式发布.
前后经历了九年的时间.
ISO/IEC10646-1的第二版更加全面,即ISO/IEC10646-1:2000.
与ISO/IEC10646-1:2000等同的工业标准是Unicode3.
0,Unicode是UniversalCode的简称,即统一编码.
Unicode除了作为ISO/IEC10646编码的另一种称谓外,Unicode同时还是由HP,IBM,APPLE,MICROSOFT等一些国际知名企业组成的一个联盟的名称.
该联盟的主要宗旨就是要通过市场手段推进多文种的统一编码,因此称为Unicode.
它的广泛使用将会使得软件开发费用大幅度降低,开发更为快捷,可共享资源更为丰富,使用者的投入也将大幅度降低,便于推广.
软件也可以实现一个版本在世界范围内通用,从此不再需要多个版本、多种语言的产品了.
目前兼容和支持该标准的已有许多大型厂商,如微软、苹果、SUN、甲骨文等国际性软件公司.

目前,ISO/IEC10646国际标准的最新版本是2003年修订的ISO/IEC10646:2003等同的工业标准是Unicode5.
1.
2.
3.
2汉字编码字符集代码转换汉字属性字典规范提供上述我国已经颁布的《信息交换用汉字编码字符集》与其他国家和地区的汉字字符集信息交换码的对照关系,通过字符集转换表实现我国与不同国家、地区之间的机读数据的相互转换功能.

在数字图书馆的应用中,汉字编码字符集国家图书馆采用了ISO/IEC10646-2003的标准字符集(即UNICODE5.
1),该标准字符集已经发展到7万多汉字,而国家的强制标准GB18030字符集在2005年才由27533个汉字扩充到7万多汉字.
可见,中文发源地的汉字编码字符集标准严重的落后于ISO的国际标准.
在数字图书馆资源建设中,国家图书馆在进行古籍全文数字化时,遇到ISO/IEC10646-2003的标准字符集中没有涵括的汉字近5000字,计划今年将字符集中没有涵括的汉字提交给IRG委员会进行讨论.

在数字图书馆系统中,需要核心的汉字编码字符集.
核心的编码字符集国家图书馆也采用ISO10646-2003标准(即UNICODE5.
1),在表现层可以通过汉字属性字典规范进行汉字编码字符集代码转换,实现不同国家、地区之间的机读数据的相互转换功能,这样系统的处理核心就只需一套字符集,而不需要多套.
[3]2.
3.
3汉字输入编码代码转换汉字属性字典规范提供汉字输入编码与汉字编码字符集的对照关系,解决超大字符集的汉字输入问题.
汉字属性字典规范提供以汉字字形为依据的汉字输入编码,如:四角号码、郑码、五笔字形、部首、笔画等;提供以汉字发音为依据的拼音输入编码等.
读者可以根据自己的喜好选择适合自己输入编码,通过汉字属性字典规范可以将汉字外码转换成汉字内码输入到计算机,解决超大字符集的汉字输入问题.

2.
4为检索提供规范汉字属性字典规范提供国家正形的通用汉字与异体汉字(包括繁体字)间的连接信息、以满足汉字信息检索和文字规范方面的使用要求.

在数字图书馆检索中通过汉字属性字典标准规范可以实现简、繁字同级检索;异体字、生僻字、避讳同级检索等.

2.
5汉字排序[4]汉字属性字典规范提供按国家有关部门规范的按照汉语拼音、部首、笔画、笔形和四角号码等排序方法对汉字进行排序所需的序值信息,满足检索结果的汉字排序以及在计算机系统上建立文件、显示、打印输出时所需的排序要求.
汉字排序规则采用国标《GB/T13418-92文字条目通用排序规则》.
2.
5.
1汉字汉语拼音排序法汉字汉语拼音排序法是按照汉字发音和声调来归并排列汉字的一种方法.
它的一般形式是:先按汉字的发音和声调来归并汉字,按字母的序列排序.
音、调相同依笔画数多少排列.
笔画数相同,再依起笔笔形(横、竖、撇、点、折)排列先后顺序,起笔笔形顺序再相同的,再依汉字字符集内码.

2.
5.
2汉字部首排序法汉字部首排序法是以部首归并汉字的一种排检方法.
它是先把汉字按其所属的部首归并集中.
部首按笔画数多少排列先后顺序,笔画数目相同的部首,依起笔笔形(横、竖、撇、点、折)排列先后顺序.
同属一个部首的字,其先后顺序仍然是先按部首之外的笔画数排列,部首之外的笔画数目相同的,再依起笔笔形顺序排列,起笔笔形顺序再相同的,再依汉字字符集内码.

2.
5.
3汉字笔画排序法汉字笔画排序法是按照笔画数目及起笔笔形来归并排列汉字的一种方法.
它的一般形式是:先按笔画数多少来归并汉字,笔画数相同,再依起笔笔形(横、竖、撇、点、折)排列先后顺序,起笔笔形顺序再相同的,再依汉字字符集内码.

2.
5.
4汉字笔形排序法汉字笔形排序法是按照起笔笔形来归并排列汉字的一种方法.
它的一般形式是:按起笔笔形(横、竖、撇、点、折)排列先后顺序,起笔笔形顺序相同的,再依汉字字符集内码.

2.
5.
5汉四角号码排序法汉字四角号码排序法是一种以数码来代表汉字四角的笔形并据此来排列汉字先后次序的方法.
先按四角号码数多少来归并汉字.
四角号码相同,依字中"横"笔的多少排列.
"横"笔相同,依整体字的笔数排列.
整体字的笔数相同,再依起笔笔形(横、竖、撇、点、折)排列先后顺序,起笔笔形顺序再相同的,再依汉字字符集内码.

2.
5.
5计算机处理汉字排序规则用计算机处理汉字排序问题的规则,见下表:因素1因素2因素3因素4因素5汉字汉语拼音排序法汉语拼音声调总笔画数汉字起笔至末笔笔形值内码汉字部首排序法部首序号部首外汉字笔数部首外汉字起笔至末笔笔形值内码汉字笔画排序法总笔画数汉字起笔至末笔笔形值内码汉字笔形排序法汉字起笔至末笔笔形值内码汉字四角号码排序法四角号码横笔数总笔画数汉字起笔至末笔笔形值内码2.
6字音转换汉字属性字典规范提供汉字与汉语拼音、韦氏拼音、注音字母间的转换信息、以满足国内外用户对汉字罗马化的要求,以及查询要求.
[5]通过汉字属性字典规范字音转换可以实现汉语拼音自动生成;汉语拼音与韦氏拼音、注音字母间的自动转换.
在实现汉语拼音自动生成时,多音字需要人工干预.

2.
7为文字研究提供汉字的基本属性汉字属性字典规范可为文字研究提供汉字的偏旁部首、笔画、笔顺、笔形、音、调等方面的基本属性信息,为利用计算机进行各种统计和分析研究提供依据.

2.
7.
1偏旁部首汉字属性字典规范在偏旁部首方面采用双部首制,即201部首和214部首共存.
对每个汉字即标引201部首也标引214部首,为汉字部首排序提供基本信息.

201部首是1983年国家文字改革委员会、国家出版局制定的《汉字统一部首表(草案)》.
《汉字统一部首表(草案)》是国家的部首标准草案.
201部首是在214部的基础上增删分合而成,共201个部首,还有若干附形部首.
《汉语大字典》遵从了201部首排序.
国家图书馆中文文献部首排序法也采用了201部首序列.

214部首始创于东汉许慎所作的《说文解字》,为后世所承用.
但不同的字书分部标准不同,部首数目及其性质亦不尽相同.
从《说文》的540部起,呈逐步减少的趋势.
明代《字汇》定为214部,被清代《康熙字典》所继承.
因《康熙字典》的权威性,214部成为最流行的部首表,也为日本、韩国的字典所采用,ISO/IEC10646、Unicode字符集也遵从了214部首排序.
2.
7.
2笔画、笔顺、笔形基本属性汉字属性字典规范提供汉字的笔画、笔顺、笔形等方面的基本属性信息,为利用计算机进行各种统计和分析研究提供依据,为汉字排序提供基础数据.

笔画是构成汉字字形的最小连笔单位.
笔顺是书写每个汉字时笔画的次序和方向.
笔形是笔画的形状.
汉字的笔形依据笔势和走向可以分为数十种,最基本的笔形有五种,一般又称作"札"字笔顺法.
笔形其排列顺序为一(横)丨(竖)丿(撇)丶(点)乛(折),分别用序号1、2、3、4、5表示.

汉字属性字典规范提供三种笔画、笔顺、笔形等方面的基本属性信息.

(1)整个汉字的笔画、笔顺、笔形基本属性汉字属性字典规范提供了整个汉字的笔画、笔顺、笔形等方面的基本属性信息,为利用计算机对整个汉字进行各种统计和分析研究提供依据,为汉字的笔画排序、笔形排序提供基础数据.

(2)201部首序列的笔画、笔顺、笔形基本属性汉字属性字典规范提供了国家汉字部首标准(草案)201部首序列的部首、部首序号;201部首的笔画、笔顺、笔形;201部首外的笔画、笔顺、笔形等方面的基本属性信息,为利用计算机进行以201部首序列排序提供基础数据;为以201部首序列进行各种统计和分析研究提供依据.

(3)214部首序列的笔画、笔顺、笔形基本属性汉字属性字典规范提供了汉字的214部首序列的部首、部首序号;214部首的笔画、笔顺、笔形;214部首外的笔画、笔顺、笔形等方面的基本属性信息,为利用计算机进行以214部首序列排序提供基础数据;为以214部首序列进行各种统计和分析研究提供依据.

2.
7.
3音、调基本属性汉字属性字典规范提供了汉字的音、调等方面的基本属性信息,为利用计算机生成字音转换表提供基本属性信息;为各种统计和分析研究提供依据.

2.
8汉字电子工具汉字属性字典规范提供了汉字的《康熙字典》和《汉语大字典》位置标引信息,为数字文献提供汉字在《康熙字典》和《汉语大字典》的具体位置信息,间接起到电子工具书的作用.

2.
8.
1康熙字典位置标引汉字属性字典规范提供康熙字典位置标引信息,所标引和处理的汉字范围是GB18030-2005(UNICODE5.
1、ISO10646-2003)所包括的全部汉字.
具体格式为xxxx.
xx1,小数点前四位表示康熙页码;小数点后两位表示字位;最后一位:0表示康熙字典有此字;1表示康熙字典无此字,当无此字时,应排在同部首、笔画的最后一个字之后.

示例1:"街"1109.
170,表示该字照康熙字典的排序,应在康熙部首的"行"部,第1109页,第17个字;因为最后一位为0,表示康熙字典有此字.

示例2:"衔"1109.
131,表示该字照康熙字典的排序,应在康熙部首的"行"部,因为最后一位为1,表示康熙字典无此字;因此,应在第1109页,第13个字后面.
(即康熙部首的"行"部,因为该字是5画,所以排在"行"部5画字的最后一个字之后,即1109页,第13个字之后.
)2.
8.
2汉语大字典位置标引汉字属性字典规范提供汉语大字典位置标引信息,所标引和处理的汉字范围是GB18030-2005(UNICODE5.
1、ISO10646-2003)所包括的全部汉字.
具体格式为Xxxxx.
xx1.
数字的最高一位X表示汉语大字典的卷数;小数点前四位表示汉语大字典页码;小数点后两位表示字位;最后一位:0表示汉语大字典有此字;1表示汉语大字典无此字,当无此字时,应排在同部首、笔画的最后一个字之后.

示例1:"街"20831.
160,表示该字照汉语大字典的排序,应在汉语大字典部首的"彳"部,第2卷,第803页,第16个字;因为最后一位为0,表示汉语大字典有此字.

示例2:"衐"20826.
091,表示该字照汉语大字典的排序,应在汉语大字典部首的"彳"部,因为最后一位为1,表示汉语大字典无此字;因此,应在第2卷,第826页,第9个字后面.
(即汉语大字典部首的"彳"部,因为该字是7画,所以排在"彳"部7画字的最后一个字之后,即第2卷,第826页,第9个字之后.
)3古籍用字规范和生僻字、避讳字处理规范古籍用字规范和生僻字、避讳字处理规范是汉字属性字典规范的具体应用.
针对数字图书馆古籍文献类型复杂,使用汉字字符数量大等特点,古籍用字规范和生僻字、避讳字处理规范要求处理的汉字范围要大于GB18030-2005(UNICODE5.
1、ISO10646-2003);具体要求处理汉字范围是与古籍相关的全部汉字(超出部分需要造字).
古籍用字规范和生僻字、避讳字处理规范的基本内容是汉字字型标准化、汉字标准发音、字型特征(包括汉字总笔画数量、汉字起笔至末笔笔形值、部首笔画数量、部首序号、部首外起笔至末笔笔形值、异体字数量、异体字字型等)、各种编码(包括四角号码、输入编码、其他汉字字符集编码等)以及构词和使用频度等.

古籍用字规范和生僻字、避讳字处理规范应解决①为检索提供规范;②汉字排序;③为古籍研究提供古音信息;④为文字研究提供汉字的基本属性;⑤代码转换;⑥提供汉字电子工具;⑦为古籍全文数字化减少自定义字和大量非规范用字;⑧为古籍中的个性化用字进行规范.

3.
1为检索提供规范古籍用字规范和生僻字、避讳字处理规范提供国家正形的通用汉字与异体汉字(包括繁体字、生僻字、避讳字)间的连接信息;对古籍用字进行标引;对生僻字、避讳字进行规范以满足汉字信息检索和文字规范方面的使用要求.

3.
2汉字排序古籍用字规范和生僻字、避讳字处理规范提供按国家有关部门规范的按照汉语拼音、部首、笔画、笔形和四角号码等排序方法对汉字进行排序所需的序值信息,满足检索结果的汉字排序以及在计算机系统上建立文件、显示、打印输出时所需的排序要求.
汉字排序规则采用国标《GB/T13418-92文字条目通用排序规则》.
3.
3为古籍研究提供古音信息古籍用字规范和生僻字、避讳字处理规范提供上古音声纽、上古音韵部、上古音声调、上古音拟音、中古音:韵摄、中古音:开合、中古音、中古音反切、中古音声类、中古音韵部、中古音声调、中古音拟音、近古音韵部、近古音声母、近古音声调、近古音拟音等信息,以满足古籍研究与阅读需求.

3.
4为古籍中的个性化用字进行规范古籍用字规范和生僻字、避讳字处理规范提供国家正形的通用汉字与异体汉字(包括繁体字、生僻字、避讳字)间的规范化信息,为古籍全文数字化减少自定义字和大量非规范用字以及为古籍中的个性化用字进行规范以满足数字图书馆应用的需求.

4计算机中文信息处理规范计算机中文信息处理规范是汉字属性字典规范的具体应用.
要求处理的汉字范围为GB18030-2005(UNICODE5.
1、ISO10646-2003)所包括的全部汉字.
计算机中文信息处理规范是对文件格式、存储格式、传输格式、检索处理能力、全文显示能力等进行规范.

计算机中文信息处理规范应解决①为文件格式提供规范;②为存储格式提供规范;③为传输格式提供规范;④为检索提供规范;⑤为全文显示提供规范;⑥为文献排序提供规范;⑦为资源的可交互性、未来全文资源的知识挖掘进行规范.

4.
1为文件格式提供规范计算机中文信息处理规范提供音频、视频、动画片、图形、图像、文本等文件格式规范,指导数字图书馆资源建设.
音频文件为WAV、MID/MIDI、MP3、MP2、AIF/AIFF、AU、WMA等.
视频文件为MPEG/MPG、QTM、AVI、RM/RA、MOV、DAT、FLC等.
动画片文件为AVI、3GP、MP4、ASF、WMV、SMV、GIF等.
图形文件为DXF、GIF、CGM、CDR、EPS、HPGL、PCD、PCT、DRM、PCX、TIF、TGA、BMP、WMF、WPG、JPG等.
图像文件为BMP、GIF、JPG、PSD、TIF/TIFF、3DS、WMF、PCX、PSP、PNG等.
文本文件为PDF、RTF、HTML、DOC、TXT、MCW、XML等.

4.
2为存储格式提供规范计算机中文信息处理规范提供数字图书馆资源存储格式规范.
存储格式规范的原则是规范性、通用性、应用性和适用性.
该规范要依据现有的国家或国际标准.
应用范围要包括音频、视频、动画片、图形、图像、文本等数据文件.

针对具体数据文件制定存储内容.
如:全文数据要存储为全文的XML数据、还原数据要对应相应的图像文件;图像文件要存储扫描的原始图像文件、缩略图等.

制定数据文件存储方式:压缩和不压缩.
制定数据文件存储的数据组织规范等.
4.
3为传输格式提供规范计算机中文信息处理规范提供数字图书馆数据传输格式规范.
对每种数据类型给出所有常用格式的列表及说明,给出所有常用格式转换工具列表及说明.

4.
4为检索提供规范计算机中文信息处理规范提供国家正形的通用汉字与异体汉字(包括繁体字、生僻字、避讳字)间的连接信息;对计算机用字进行标引;对计算机中文信息处理进行规范以满足汉字信息检索和文字规范方面的使用要求.

4.
5为文献排序提供规范计算机中文信息处理规范提供按国家有关部门规范的按照汉语拼音、部首、笔画、笔形和四角号码等排序方法对汉字进行排序所需的序值信息,满足检索结果的汉字排序以及在计算机系统上建立文件、显示、打印输出时所需的排序要求.
汉字排序规则采用国标《GB/T13418-92文字条目通用排序规则》.
5中文文献全文版式还原与全文输入XML规范中文文献全文版式还原与全文输入XML规范是确保数字图书馆工程建设的重要规范之一.
针对中文文献版式复杂,使用汉字字符数量大,常有系统外字出现等特点,中文文献全文版式还原与全文输入XML规范必须能够对全部中文文献进行详细标记说明(主要用于古籍文献,兼顾普通文献),形成中文文献全文版式还原与全文输入XML规范格式.
根据中文文献全文版式还原与全文输入XML规范文件能够在互联网上全方位、实时再现中文文献原貌(重点是古籍),能够提供全文检索所需信息;能够进行中文文献长期存储与保存.
为此,必须提供强大、灵活、可统一实施的中文文献全文版式还原与全文输入XML规范标记策略和标记方法;支持系统字与系统外字描述,提供强大中文文献全文版式还原与全文输入XML规范响应和处理机制;中文文献全文版式还原与全文输入XML规范应易学习、使用和管理.

中文文献全文版式还原与全文输入XML规范应指导数字资源的建设与应用全过程.

国家图书馆数字图书馆中文信息处理,目前主要包括汉字属性字典规范;古籍用字规范;生僻字、避讳字处理规范;计算机中文信息处理规范;中文文献全文版式还原与全文输入XML规范.
计划下半年完成研制.
除此之外,国家图书馆数字图书馆中文信息处理还应包括中文文献主题词、名称、分类等标准规范,形成国家数字图书馆中文信息处理标准规范体系,指导数字图书馆数字资源制作、存储、管理、传输和服务整个建设过程.

参考文献[1]世源科技工程有限公司.
国家图书馆二期工程暨国家数字图书馆工程数字图书馆系统部分:初步设计[R].

展开全文