可进行自然语言全文检索的实现编辑功能的典籍类数据库龙语瀚堂典籍数据库社科文献出版社北京时代瀚堂科技有限公司北京龙戴特信息技术有限公司联合制作一、龙语瀚堂典籍数据库开发缘起㈠、古籍整理与研究的现状随着现代计算机技术的发展和人们对传统文化的重视,在中国传统文化领域里利用信息技术对古籍数据库建设的工作得到高度重视和快速发展.
众所周知,传统的二字节编码技术只能处理2万多汉字,而汉字在古籍中种类总量超过五万,这还没有包括甲骨文、金文、简帛等出土文献研究中使用的无法隶定的汉字.
因此,现有的计算机技术在使部分古籍实现了数字化、网络化的同时却依然对大量的生僻字、古字束手无策.
就像我们在探究汉字起源时所经常用到的《说文解字》、《康熙字典》等字书类、小学类古籍就是因为含有大量的生僻字,至今仍无法很好的实现通用的数字化版本,更有大量甲骨文、金文等历史文献,仍然处在手工化研究的阶段.
研究人员在遇到电脑上无法检索或编辑的生僻字的时候,往往利用造字、利用符号表示、利用手工制作卡片、利用语言对字的组成的描述等手段来表述,从而给学术之间的交流和传播带来了极大的不便.
㈡、目前古籍数据库的应用现状数据库供应商和机构自建是目前古籍类数据库资源建设的两个主要渠道.
常见的古籍数据库有《国学宝典》、《中国基本古籍库》、《四库全书》等.
这些古籍数据库均是以资源量取胜.
《国学宝典》收录3800余套历代典籍,《中国基本古籍库》更是以万余套古籍的收纳成为目前国内最大的古籍数据库.
我们在肯定这些数据库对古籍数字化的贡献和典范作用的同时,不可否认的是这些它们在技术上的瓶颈——对于生僻字的处理没有达到完全数字化,使其在内容方面有着不可避免的缺陷——对生僻汉字出现频率较高的字书类、小学类、金文类等古籍的处理均被长期搁置.
汉字经过数千年的发展和演化,目前流传下来的总数量大约7万左右,大量的汉字由于使用人群和领域的狭窄,被归结为"死字".
但是这些生僻汉字大量的存在于中国的古代典籍中,与常用汉字一起构成"汉字"这一中华文明的载体,它们对于历史和文明的考证有着不可或缺的作用,其本身也是文化遗产的重要组成部分.
在一般的古籍中约有1‰的汉字属这类"死字",而在诸如《说文解字》等小学类古籍中,它们出现的频率甚至高达3%以上!
因此,舍弃了生僻字而建构的这些中文知识库都不是真正完整的!
二、龙语瀚堂典籍数据库开发意义㈠、龙语瀚堂典籍数据库标志着汉学研究进入四字节时代为了解决古汉语数字化处理的瓶颈问题,人们在编码和计算机技术的结合方面做了很多的工作.
首先,大量的生僻字已经被置于四字节的编码区并确定了统一编码.
其次,在微软的OfficeXP简体中文版中也预装了四字节的字库.
《龙语瀚堂典籍数据库》处理系统正是在此基础上,采用了基于Unicode的四字节编码和自然语言全文检索的典籍文献数字化构建技术,解决了四字节实际应用中的一系列相关问题,从而使四字节技术真正得到开发和应用,不但结束了古籍研究手工抄写、图片替代、生硬造字的历史,也标志着计算机汉字处理开始进入到了四字节字符的领域.
由于该系统使用了国际通用的基于Unicode的文字编码,使得它不但能够很好地支持二字节编码的常用汉字,而且彻底突破了古籍整理和研究中生僻汉字数字化的瓶颈,开创性地实现了对所有汉字通用的典籍文献数字化.
㈡、建立在数据库层级的学术研究的意义在用户群较为集中的高校领域内,以往的学习和研究,往往人手一册《说文解字》或《集韵》、《广韵》,在研究的过程中,无论是学生还是老师,总是处于一本一本翻书查找资料、手工加书签、做卡片的过程,更何况面临大量的造字工作.
而当关于该学科所有的相关资料和典籍集合成库的时候,使用者不但可以自由的浏览、检索、下载和编辑,同时数据库本身的统计功能更可以使以往繁复的查询工作在毫秒间完成,大大减少研究者的工作量,例如可以瞬时得到关于《康熙字典》中对于《五音集韵》的引用次数是948次.
除此之外更为可贵的是,建立在数据库层级的研究往往会延伸出更多地角度和发掘出更多的研究领域.
后来者之所以能超越前人,除了对前人成果的继承之外,更需要有独特而客观的视角和发现.
这一点对于五千年没有发生断层的中国传统文化的研究具有极其重要的意义.
三、龙语瀚堂典籍数据库的特点㈠、具有在通用浏览器上自由编辑和浏览的功能建立在Unicode超大字符集之上的《龙语瀚堂典籍数据库》处理系统采用四字节编码技术使计算机可处理的文字种类数达到7万之多,即彻底解决这些四字节汉字在计算机平台上的录入、显示、编辑、检索、查询和管理.
在所有已经装有Unicode超大字符集的计算机内,这些文字可以自如的在MS-office上进行复制、粘贴和通过互联网进行广泛发布,从而结束了古籍研究手工抄写、图片替代、生硬造字的时代,也为研究者、古文字爱好者查阅、认知生僻字、罕用字提供了便捷的途径,使得整理所有古籍类图书信息化成为现实,对于中华文化的保存和发展具有极为重要的意义.
㈡、独有的四字节自然语言全文检索技术目前的互联网全文检索都是基于二字节字符系统的(即UCS-2),但是如果需要建构真正意义上的中国知识库,那么基于二字节字符的现有技术就有其不可避免的缺陷.
《龙语瀚堂典籍数据库》www.
dragoninfo.
cn是全球第一个支持四字节字符(即UCS-4)、基于互联网的自然语言海量文本全文超高速检索系统.
该引擎可以从海量的含有UCS-4字符的文本中在毫秒量级内进行信息抽取.
目前它可以在不安装任何客户端程序的条件下,在微软平台上检索、显示和管理的人类字符总数量达到7万个.
由于在四个字节字符方面拥有的核心技术和专利池,和对含有四字节汉字内容的版权群,形成了对以UCS-2为技术核心的目前大量古籍数据库及其它检索网站的战略优势,为其主导甚至全球范围的网络检索领域的发展、建构领先的超级知识库提供了坚实的技术保证.
㈢、内容自动累加成库该项技术目前已经申请国家专利,《龙语瀚堂典籍数据库》现有的古籍资源可进行自动累加,用户更可以自主添加各种图书资料.
换句话说,使用者完全可以利用龙语瀚堂典籍数据库系统建立起自己专署的电子图书馆,查阅电子图书馆中的任何文字信息,最终解决翻纸版书查出处过程繁琐的问题.
这项功能无论是对于历史、博物馆界、图书馆界、还是对于各种的研究机构甚或个体的研究者,都可以通过它来建立一个与自己研究领域或方向相关的专业数据库,其中的图书配合数据库光盘同步出版的商业模式,可广泛的应用于出版领域——用户在图书采购的同时,获取图书对应的数据库光盘,并通过光盘的安装,内容自动累加,建立个人的图书数据库.
同样,出版社自身完全可以利用它将历年出版的书籍整理成库,充分发挥其资源优势,在弹指间查出某篇文章甚至某个人某句话在历本书中的出处、前后语境等,一扫编辑人员查出处找源头,或者搜集海量选题资料的困难.
无论是图书馆还是出版社均可以利用此项功能实现其从单本图书资源的提供者转变成海量且系统性的数据库资源供应者.
四、龙语瀚堂典籍数据库的内容建立在先进技术基础上的龙语瀚堂典籍数据库是一个专门基于四字节汉字处理的古籍处理系统.
其本身自带了汉字研究所必须用到的《说文解字》、《康熙字典》等字书类数据库.
目前已经建成或正在建设的数据库包括"字书类数据库"、"殷周金文库"、"中国古印库"、"金文文献库"、"古籍期刊库"、"中国简帛库"、"甲骨文库"等,这些内容都是因为在此之前由于四字节处理技术瓶颈未被突破而无法在计算机平台上实现数字化的内容.
除此之外还有大量的碑文、金石拓片、石刻,并同时尝试蒙文、藏文、梵文等其他民族语言和文化的整理.
具体内容详见下表:数据库名称内容涵盖说明功能字书类数据库《说文解字》(大徐本)、《康熙字典》、《尔雅音图》提供多种检索方式,繁简自动转换、与原书对照,全库无造字.
所有字书类数据经过精细勘校,并配套出版纸本图书全文检索浏览功能版本对照导出编辑原文打印中国古文字库以单字的图文并茂的方式呈现中国古文字内容,包括每个汉字从甲骨文到楷书演变过程的所有信息2005年内推出《说文解字》、《汗简》、《古文四声韵》中的古文.
其他内容陆续上网殷周金文库《殷周金文集成释文》、《金文集成》未收器(81年以前)、伪作青铜器表等铭文注释全文,并陆续提供器物照片、线图、铭文拓片、铭文临摹、器物物理数据等内容中国古钱、古印库收录战国、汉代、明清以来的印章、古币提供拓片、注释、出处等内容考古、文字学书目库收录所有考古学、文字学的参考书目与篇目资料包括书、刊名、作者、出版社等相关信息简帛库基于互联网的所有关于简帛研究的文章集成2005年内推出台湾国学报告数据库包括考古、历史、文字学等人文学科的台湾政府研究报告与学术论文2005年内推出中国音韵库包括《集韵》、《广韵》、《五音集韵》等传统韵书,以及音韵学领域学术论文和罕见古韵书2005年内推出小学类数据库《说文解字段注》、《说文句读》、《说文解字义证》、《说文通训定声》、《说文解字诂林》、《说文解字系传》等,是研究《说文》系列的专业数据库目前提供段玉裁《说文解字注》全文,以及《说文通训定声》演示版本,其他图书陆续提供上网金文文献库包括中国近现代金文研究的历史文献和学术专著2006年中推出古籍核心期刊库包括目前古籍研究的核心学术期刊及学报2006年中推出甲骨文库包括中国近现代甲骨文研究的历史文献和学术专著2006年中推出中国古籍库包括所有中国历史典籍,包括《十三经注疏》、《二十五史》等常见古籍2005年至2006年内陆续推出五、龙语瀚堂典籍数据库使用指南计算机软件要求:操作系统:MicrosoftWindows2000或以上版本软件:MicrosoftOfficeXP简体中文版或以上版本浏览器标准:建议标准InternetExplorer6.
0输入法龙语瀚堂典籍数据库页面提供专门针对生僻汉字的输入方法,解决研究人员最基本的录入问题.
新概念五笔输入法是目前唯一支持unicode超大字符集的五笔输入软件.
该输入法在www.
dragoninfo.
cn上提供下载.
高效的全文检索系统无论用户从首页选定数据库还是直接开始检索,系统经过分布检索,从"总库——指定数据库——指定书目——内容显示"三个环节得出最终全部资源内容.
而在任何环节中,用户都可以重新选定某个数据库,或者直接返回首页面对总库进行关键字的检索.
在所有检索结果页面之前,系统根据关键字,实现到每部图书的检索结果统计.
这本身就已经含有了一定的学术价值.
关于unicode超大字符集"方正—超大字符集"的安装地址是C:\WINDOWS\Fonts目录之下.
一般情况下,只要用户计算机的操作系统是windows2000/XP以上,则系统本身就已经自带了字库.
或者可以根据www.
dragoninfo.
cn提供的下载链接,可实现免费下载.
一旦用户安装有"方正—超大字符集",则在龙语瀚堂典籍数据库下实现对于生僻汉字的录入、显示、检索、编辑等功能.
六、龙语瀚堂典籍数据库上市时间表龙语瀚堂典籍数据库的整理及发布工作已经完成的部分,包括字书类、殷周金文库、古钱古印、考古文学书目库,目前正处免费试用期.
其他数据库内容已经开始整理,预计在2005年12月和2006年5月份进行两次较大规模的发布.
具体内容请见下表:2005年9月份2005年12月份2006年5月份字书类数据库台湾国学报告数据库金文文献库殷周金文库简帛库甲骨文库中国古钱、古印库音韵库古籍核心期刊库考古、文字学书目库小学类数据库中国古籍库中国古文字库悠久的历史和灿烂的文明使中国拥有让全世界惊叹的浩如烟海的古籍文献和出土文物,对它们的保存和研究是我们这代人的责任和义务.
在信息化时代,这一切必须依靠现代的计算机技术,过去由于技术瓶颈问题使得大量的文献资料无法在计算机平台上进行整理,而如今龙语瀚堂典籍数据库系统则彻底的解决了这些问题.
它的专利种类包括了四字节全文检索技术、四字节网络检索的网站构建方法、四字节汉字编辑工具、图书内容自动累加等,这些技术将为图书馆、博物馆、档案馆、出版社、研究所等专业机构的数字化建设提供坚实的平台,使中国古代经书典籍特别是古籍、善本等文献资料以电子文件的形式进行永久保存,实现真正意义上的传播和推广.
我们相信基于龙语瀚堂典籍数据库系统的技术,中国历史文化的数字化整理必将步入一个全新的领域.
飞讯云官网“飞讯云”是湖北飞讯网络有限公司旗下的云计算服务品牌,专注为个人开发者用户、中小型、大型企业用户提供一站式核心网络云端部署服务,促使用户云端部署化简为零,轻松快捷运用云计算。飞讯云是国内为数不多具有ISP/IDC双资质的专业云计算服务商,同时持有系统软件著作权证书、CNNIC地址分配联盟成员证书,通过了ISO27001信息安全管理体系国际认证、ISO9001质量保证体系国际认证。 《中华...
3C云国内IDC/ISP资质齐全商家,与香港公司联合运营, 已超6年运营 。本次为大家带来的是双12特惠活动,香港美国日本韩国|高速精品|高防|站群|大带宽等产品齐全,欢迎咨询问价。3C云科技有限公司官方网站:http://www.3cccy.com/客服QQ:937695003网页客服:点击咨询客户QQ交流群:1042709810价目表总览升级内存 60元 8G内存升级硬盘 1T机械 90元 2...
提速啦的来历提速啦是 网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑 由赣州王成璟网络科技有限公司旗下赣州提速啦网络科技有限公司运营 投资1000万人民币 在美国Cera 香港CTG 香港Cera 国内 杭州 宿迁 浙江 赣州 南昌 大连 辽宁 扬州 等地区建立数据中心 正规持有IDC ISP CDN 云牌照 公司。公司购买产品支持3天内退款 超过3天步退款政策。提速啦的市场定位提速啦主...