事业发展·现代化建设2009年7月摇July,2009图书馆实体信息资源组织的两大发展路径王松林摘摇要摇随着搜索引擎的日益学术化,图书馆非但没有对互联网信息资源进行有效的书目控制,而且其实体信息资源的组织也有被搜索引擎资源组织所替代的趋势.
针对搜索引擎资源组织的优缺点,提出图书馆实体信息资源的两大发展路径———章节化组织和FRBR化组织.
前者可以解决网络阅读"短、平、快冶的问题,后者则可解决检全率尤其是检准率的问题.
图1.
参考文献15.
关键词摇图书馆摇实体信息资源摇信息组织摇章节组织摇FRBR分类号摇G254ABSTRACT摇Asthesearchenginegraduallybecomesacademic熏libraryhasnoteffectivelytakenbibliographiccontrolofthenetworkedinformationresource.
Instead熏thereisatrendthatitsphysicalinformationresourceorganizationwillbereplacedbythesearchengine蒺sresourceorganization.
Consideringthemeritsanddrawbacksofthesearchengine蒺sresourceorganization熏theauthorproposestwowaysandmeansofthelibrary蒺sphysicalinformationresourceorganization熏whicharepiece鄄analyticalorganizationandFRBR穴FunctionalRequirementsforBibliographicRecords雪organization.
Thefirstdealswiththeproblemsofbeingshort熏easy鄄understandingandquickinthenetworkedreading熏andthesecondaddressestheproblemsofrecallratio熏andespeciallyofprecisionratio.
1fig.
15refs.
KEYWORDS摇Library.
摇Physicalinformationresource.
摇Informationorganization.
摇Piece鄄analyticalorganization.
摇FRBR.
CLASSNUMBER摇G254摇摇信息资源可分实体信息资源和网络信息资源两大类,如果说对网络信息资源的组织是搜索引擎的强项,那么对实体信息资源的组织则是图书馆的强项.
如同现在搜索引擎力图将实体信息资源组织纳入自己的范围一样,图书馆最初也曾想对互联网上的信息资源进行书目控制,并在1997年创办了网络编目的专业期刊《因特网编目杂志》(JournalofInternetCatalo鄄ging)[1].
但随着搜索引擎的日益学术化,图书馆非但没有对互联网信息资源进行有效的书目控制,其实体信息资源的组织也逐渐被搜索引擎资源组织所替代.
因此,如何利用现有技术来组织实体信息资源,以扬搜索引擎之长而避其之短,就成为图书馆人不得不思考的一个问题.
本文在此抛砖引玉,希望引起图书馆人的进一步思考.
1摇扬搜索引擎之长,使实体信息资源组织章节化从1999年到2008年,中国出版科学研究所发布了五次调查结果.
其中,第四次调查统计结果表明:纸书阅读率6年来持续走低,而网络阅读率6年间却增长了6.
5倍[2];而最近一次调查统计结果则表明:网络阅读率已以36.
5%的比率首次超过了34.
7%的图书阅读率[3].
2007年,OCLC的成员调查报告《网络世界的共享、隐私和信任》数据显示,与2005年相比,现今用户使用搜索引擎的比例由71%上升至90%,使用网上书店的比例由50%上升至55%,只有图书馆网站的使用比例由30%下降至20%[4].
另据中国互联网络信息中心(CNNIC)2009年1月13日发布的《第23次中国互联网络发展状况统计报告》数据显示:截至2008年底,我国互联网普039JournalofLibraryScienceinChina总第三五卷摇第一八二期摇Vol.
35.
No.
182及率已达22.
6%(首次超过全球平均水平的21.
9%),网民人数已达2.
98亿(其中2.
7亿人使用宽带上网),未来还有增长的趋势.
因此,图书馆需要研究阅读及网络阅读的特点并找到适合网络阅读的实体信息资源组织方法.
1.
1摇阅读及网络阅读的特点从读者主体看,读者分生活读者、学习读者和工作读者三类;从阅读取向看,阅读分资讯阅读、修养阅读和愉悦阅读三种.
其中,最广泛的读者群不是文学读者,而是文章读者.
因为生活、学习和工作中的读物绝大多数是实用文章(新闻文、应用文、教科书、学术文等),即使是消闲性、学习性、专业性文学阅读,也伴随着大约一半的文章阅读(文学评论、文学史等).
概言之,文章读者的实用阅读是国民阅读的主流,更是人类阅读的主体[5].
世界上的书,主要是具有千百年历史的纸本书(p鄄book)和只有十多年历史的电子书(e鄄book).
当印刷文本被大量转换成视觉文本、电子文本时,国民阅读便进入了读图时代和读网时代,因此,国民阅读率的统计应该包括读电子书的网民.
归纳起来,网络阅读的主要特点是"短、平、快冶.
所谓"短冶,是指网络阅读的文章短小精悍;所谓"平冶,是指网络阅读的文章浅显易懂;所谓"快冶,是指网络阅读的文章获取快捷.
而这其中,又以"短冶最为突出,因为短小精悍的网络文章比较适应人们现今生活、工作的快节奏,也符合在现今的信息海洋中获取知识的需求[6].
1.
2摇实体信息资源组织的章节化面对如今网民喜爱短小精悍的文章阅读,图书馆又该如何进一步进行载体表现层面上的实体信息资源组织呢笔者认为,图书馆在对实体信息资源进行组织时,可参照国家图书馆的做法,在建了中文图书书目数据库后再对它们建立一个中文图书目次信息数据库,但是更加提倡像亚马逊的书内搜索(SearchInside)以及Google、读秀知识库等检索系统那样,在将书作了整体描述后再对其章节进行组织.
对书的章节进行组织,其实就是将书"打碎冶后进行组织的一种方法.
而将书"打碎冶组织将利用CNMARC中的327内容附注字段及其相应的检索字段.
原来CNMARC的327字段第二个指示符未定义,第一个指示符定义为"完整程度指示符冶(即赋"0冶表示内容附注不完整,赋"1冶表示内容附注完整),其唯一一个可重复的$a子字段记录附注内容(即章节信息).
由此看来,原来CNMARC中的327字段简单等同于其464单册分析字段[7].
在《新版中国机读目录格式使用手册》中,CNMARC的327内容附注字段除了保留其第一个指示符的定义外,另外还将其第二个指示符定义为"结构指示符冶(即赋"#冶表示非结构式附注,赋"1冶表示结构式附注).
其次,如果内容附注是非结构式的,全部附注文字均记入可重复的$a子字段;如果内容附注为结构式的,全部附注文字则分别记入可重复的$a(最高一层章节)、$b(一级子章节)、$c(二级子章节)、$d(三级子章节)、$e(四级子章节)、$f(五级子章节)、$g(六级子章节)、$h(七级子章节)和$i(八级子章节)子字段,以及$p(页码)和$z(其他信息)子字段.
可见,现在CNMARC中的327内容附注字段要比其464单册分析字段更具层次感,也更能满足读者对图书章节的组织要求[8].
CNMARC的327内容附注字段,无论在单馆计算机编目还是在联机联合编目中,各馆过去普遍都不重视,更不要说那些已将编目业务外包出去的图书馆了.
但在不断变化的信息和技术环境下,图书馆若要有效地支撑其实体信息资源的管理与访问,必须要向亚马逊的书内搜索以及Google、读秀知识库等检索系统学习,否则会因全文搜索的检索效果越来越差而落伍.
除此之外,Google另一想法是要为数字图书馆资源建立高水平的逐词索引(word鄄by鄄wordindex,即以文献全文的所有有效词作为索引标目并注明其出处).
与人工索引相比,Google的逐词索引更加深入,可最大限度地挖掘出值得寻找的信息,并使社会上的信息原子极快地发生裂变.
这些动向都需引起图书馆人的足够重视.
040王松林:图书馆实体信息资源组织的两大发展路径WangSonglin:TwoWaysandMeansoftheLibrary蒺sPhysicalInformationResourceOrganization2009年7月摇July,20092摇避搜索引擎之短,使实体信息资源组织FRBR化使用搜索引擎的人都有这样的一种体验,即每次搜索的结果少则数十上百条、多则数千上万条,其有用信息常被无用信息所淹没.
而随着实体信息资源的增长,图书馆的OPAC书目检索也有这种日益"搜索引擎化冶的趋势,即搜索的结果有时也会成百上千,常常使检索者感到无所适从.
如用国家图书馆的OPAC:淤输入检索词"曹雪芹冶,设定作者检索,命中记录竟有584条之多;设定所有字段检索,命中记录竟有734条之多;于输入检索词"红楼梦+石头记+金玉缘冶,设定题名检索,命中记录竟有1955条之多;盂输入检索词"红楼梦+曹雪芹冶,设定所有字段检索,命中记录竟有562条之多;榆输入检索词"红楼梦冶,设定主题检索,命中记录竟有1201条之多;设定题名检索,命中记录竟有2124条之多;设定所有字段检索,命中记录更是高达2279条之多[9].
众所周知,《红楼梦》是曹雪芹身后唯一留世的作品,如果曹雪芹像英国文学家哈代那样是位多产作家并被译为多个语种,那各馆OPAC书目显示又该呈现一种什么情景上个世纪末,国际图联颁布的FRBR(FunctionalRequirementsforBibliographicRecords:finalre鄄port,书目记录功能需求)[10],可以化解上述馆藏书目数据库日益"搜索引擎化冶的趋势.
2.
1摇FRBR的主要内容FRBR既不是一个新的ISBD,也不是一部编目规则,而是一个实体-关系模型(以下简称"FRBR模型冶)[11].
FRBR模型的最核心部分是定义了一系列与图书馆目录相关的事物类别(实体)、从属于每个类别的特征(属性),以及可能存在于各种类别之间的关系.
首先将与图书馆目录相关的实体定义为三组,其中,第一组实体包含从属于文献的四个受编实体,从内容到载体分别为作品(Work)、内容表达(Expres鄄sion)、载体表现(Manifestation)和单件(Item);FRBR模型定义的第二组实体是能创造一个作品,实现一个内容表达,产生或订购一个载体表现,修改或处理一个单件的个人(Person)和团体(Corporatebody);FRBR模型定义的第三组实体是用于反映一个作品的主题实体.
除了以上一、二组实体外,另外主要使用的实体是概念(Concept)、物体(Object)、事件(Event)和地点(Place).
以上FRBR模型中的每一个实体都由一系列的"属性冶表征,如作品的属性有作品题名(Titleofthework)、作品形式(Formofwork)、作品日期(Dateofthework)、其他识别特征(Otherdistinguishingcharacteristic)、预期的结果(Intend鄄edtermination)、预期的受众(Intendedaudience)和作品的背景(Contextforthework)等;个人的属性有个人名称(Nameofperson)、日期信息(Datesofperson)、个人头衔(Titleofperson)和其他相关标识(Otherdesignationassociatedwiththeperson)等.
其次,第一组实体(作品、内容表达、载体表现和单件)之间的关系是"结构关系冶;第二组实体(个人和团体)和第一组的任何实体之间的关系是"责任关系冶;FRBR模型中的任何实体与独立实体"作品冶之间的关系是"主题关系冶.
此外,FRBR模型的实体之间还存在一些更加"微妙冶的关系,比如两个不同作品间或同一个作品的两个不同内容表达间的"整/部关系冶(整/部关系也存在于两个不同载体表现之间或同一载体表现的两个不同单件之间),两个不同作品间或相同作品的两个不同内容表达间的"智力关系冶,以及两个不同载体表现、同一载体表现的两个不同单件、或一个载体表现与另一个不同的载体表现的单件之间的"再生关系冶.
2.
2摇FRBR的实现方式如上所述,FRBR仅是一个实体-关系模型,而不是一个数据模型.
因为FRBR为每个实体所定义的属性在很多情况下都太一般化,以致于如果不加提炼就无法将它像一般的模型那样实现.
例如题名可以有不同的性质,尽管FRBR为作品、内容表达和载体表现这三个实体的每一个实体都定义了一个题名属性,但是这041JournalofLibraryScienceinChina总第三五卷摇第一八二期摇Vol.
35.
No.
182种"题名概念冶的分类还不足以覆盖实际的需要和目前在用的题名类型.
FRBR既然不是一个数据模型,那它又是如何被"实现冶的呢最好的情况是基于它设计一个中间数据模型,最差的情况是就将它错当成一个数据模型.
但不管是哪种情况,不是将一个现存的格式映射到FRBR上,就是将FRBR映射到一个新的格式上;后者将直接影响现存的机读目录格式,而前者则直接影响现存的OPAC检索界面.
由于在短时期内改变现存机读目录格式的可能性不大,所以国外的研究之前大都放在将一个现存的格式映射到FRBR上[11],其原理就像剥笋那样将一个作品的内容表达、载体表现和单件层层进行剥离,如图1所示:图1摇基于FRBR模型的检索基于FRBR模型的分面检索结果,其结构层次鲜明,可以显示各书目记录间的关联性,且便于读者/用户辨别和理解检索结果中的各实体间的关系,从而大大节省了其检索时间与精力.
前述《红楼梦》若基于FRBR模型来检索,其结果肯定不会一次出现上述成百上千条记录.
当然,这种前台整合的显示需要后台信息资源组织的配合.
在这方面,美国的做法是在内容表达和/或载体表现的数据记录上增加004和990字段.
其中,004字段用来链接内容表达和/或作品记录,990字段则用来反映本记录的实体类型(即作品、内容表达或载体表现).
笔者认为,将一个现存的格式映射到FRBR上来的做法是种被动做法、权宜之计,而将FR鄄BR映射到一个新的格式上来的做法才是一种主动进取、长效之计[12].
随着时间的推移,目前采用将FRBR映射到一个新的格式上来的呼声越来越高,并进一步影响到对编目条例和机读目录的修改[13].
因为现存的编目条例和机读目录格式还不能很好地适应FRBR结构化或层次化的信息组织要求,尤其还都缺乏对内容表达的记录基础[14].
3摇结语为扬搜索引擎之长、解决网络阅读"短、平、快冶的问题,图书馆可利用机读目录对实体信息资源进行章节化组织;为避搜索引擎之短、解决检全率尤其是检准率的问题,图书馆可利用机读目录对实体信息资源进行FRBR化组织.
虽然机读目录目前在OPAC上检索不成问题,但这种存贮在特定数据库中的机读目录数据目前还无法被搜索引擎搜索和索引.
为此,图书馆还需不断优化软硬件设备,加强网站建设,或将书目记录交付给搜索引擎,以方便读者/用户从搜索引擎上获取,从而增加图书馆网站的访问量.
如OCLC的OpenWorldCat就计划将其书目数据送给Google和Yahoo,使习惯利用搜索引擎检索书目信息的用户成为自己潜在的用户.
2006年5月23日,北京大学图书馆与百度签定了独家战略合作框架协议,即北京大学图书馆将其图书书目数据授权给百度,使读者/用户可以通过百度来检索北京大学图书馆的馆藏书目.
技术力量较弱的图书馆,甚至可以考虑将自己的书042王松林:图书馆实体信息资源组织的两大发展路径WangSonglin:TwoWaysandMeansoftheLibrary蒺sPhysicalInformationResourceOrganization2009年7月摇July,2009目记录以博客等形式让网络蜘蛛自动抓取.
如此,读者/用户就可以通过搜索引擎来检索和利用图书馆的书目数据.
加上以Google为代表的搜索引擎均以相关度排序,图书馆的书目数据在搜索结果中肯定排序靠前.
此外,不靠搜索引擎而主动将机读目录数据XML化放在网上发布,也不失为一种好方法.
但是,无论是前面一种被动方式,还是后面一种主动方式,如果图书馆的实体信息资源组织与其数字图书馆资源的建设结合起来,那将起到事半功倍的效果.
图书馆的地位与作用随着信息资源普遍可获得性的程度提高在不断下降[15].
现在,Google等搜索引擎又开始独领风骚,图书馆更需考虑自己的生存空间和发展前途.
以往搜索引擎的信息组织对象一般是普通的网页,这对图书馆不构成致命的威胁;而今有些搜索引擎已经转向学术搜索领域,并用自己的先进技术与其他信息机构进行合作,这使图书馆真正到了"狼来了冶的时代.
一旦Google等搜索引擎可以担负起图书馆的使命———组织世界文献信息,那图书馆还有多大的生存空间和发展前途图书馆的正确做法是在感到危机的同时,积极考虑扬长避短,真正做到"与狼共舞冶.
参考文献:[1]摇胡小菁.
编目的未来[J].
大学图书馆学报,2008(3):18-22,37.
[2]摇王余光,李雅.
图书馆与社会阅读研究述略[J].
山东图书馆季刊,2008(2):4-12.
[3]摇朱光,陈斯斯.
网络浏览取代"青灯黄卷冶[N].
新民晚报,2008鄄08鄄23(A6).
[4]摇Sharing,privacyandtrustinournetworkedworld[EN/OL].
[2009鄄01鄄13].
http://www.
oclc.
org/reports/sharing/default.
htm.
[5]摇曾祥芹.
用科学阅读观引领大众阅读新潮[J].
山东图书馆季刊,2008(2):1-3,25.
[6]摇董一凡.
"浅阅读冶不应遭遇"深谴责冶[J].
图书馆杂志,2009(1):26-29.
[7]摇潘太明等.
中国机读目录格式使用手册(修订版)[M].
北京:科学技术文献出版社,2001:280-281.
[8]摇国家图书馆.
新版中国机读目录格式使用手册[M].
北京:北京图书馆出版社,2001:231-235.
[9]摇富平.
按照FRBR模型构造书目检索体系的思路[J].
数字图书馆论坛,2008(2):28-39.
[10]摇IFLAStudyGrouponFunctionalRequirementsforBibliographicRecords.
Functionalrequirementsforbibliographicrecords:finalreport.
[R/OL].
[2009鄄01鄄13].
http://www.
ifla.
org/VII/s13/fr鄄br/frbr.
pdf.
[11]摇PatrickLeBoeuf.
美好的FRBR新世界[J].
王松林,译.
国家图书馆学刊,2006(4):82-86,96.
[12]摇王松林.
从FRBR看编目条例和机读目录格式之变革路向[J].
中国图书馆学报,2004(6):21-25.
[13]摇顾犇.
国际文献编目领域标准规范发展进展[G]//中国科学技术信息研究所,全国信息与文献标准化技术委员会编.
信息资源组织及其标准规范学术研讨会论文集.
北京:编者,2008:84-92.
[14]摇胡晓鹰.
FRBR概念模型与CNMARC之比较研究[J].
图书馆论坛,2007(5):110-114.
[15]摇程焕文.
关于改变图书馆学研究立场的思考:从"用户永远都是正确的冶说起[J].
中国图书馆学报,2008(3):89-93,102.
王松林摇南京政治学院上海分院教授、博士生导师.
通讯地址:上海.
邮编:200433.
(收稿日期:2009鄄02鄄19)043
Spinservers是Majestic Hosting Solutions,LLC旗下站点,主营美国独立服务器租用和Hybrid Dedicated等,数据中心位于美国德克萨斯州达拉斯和加利福尼亚圣何塞机房。TheServerStore.com,自 1994 年以来,它是一家成熟的企业 IT 设备供应商,专门从事二手服务器和工作站业务,在德克萨斯州拥有 40,000 平方英尺的仓库,库存中始终有...
轻云互联成立于2018年的国人商家,广州轻云互联网络科技有限公司旗下品牌,主要从事VPS、虚拟主机等云计算产品业务,适合建站、新手上车的值得选择,香港三网直连(电信CN2GIA联通移动CN2直连);美国圣何塞(回程三网CN2GIA)线路,所有产品均采用KVM虚拟技术架构,高效售后保障,稳定多年,高性能可用,网络优质,为您的业务保驾护航。活动规则:用户购买任意全区域云服务器月付以上享受免费更换IP服...
酷番云怎么样?酷番云就不讲太多了,介绍过很多次,老牌商家完事,最近有不少小伙伴,一直问我台湾VPS,比较难找好的商家,台湾VPS本来就比较少,也介绍了不少商家,线路都不是很好,有些需求支持Windows是比较少的,这里我们就给大家测评下 酷番云的台湾VPS,支持多个版本Linux和Windows操作系统,提供了CN2线路,并且还是原生IP,更惊喜的是提供的是无限流量。有需求的可以试试。可以看到回程...
落伍论坛为你推荐
快递打印快递单打印时快递单子怎么放置?1433端口路由器1433端口怎么开启网站联盟百度网盟是什么,怎么加入godaddy通过什么网址可以查godaddy的域名信息怎么点亮qq空间图标如何点亮QQ空间图标小米3大概多少钱小米3现在多少钱qq空间打扮QQ空间怎么打扮如何打扮人人逛街包公免费逛街打一成语机械键盘轴打游戏用机械键盘到底什么轴好?安全漏洞如何发现系统安全漏洞
免费网站域名注册 域名主机管理系统 快速域名备案 如何注销域名备案 亚洲大于500m 主机点评 blackfriday cdn服务器 腾讯云数据库 mobaxterm 服务器cpu性能排行 dd444 坐公交投2700元 网站木马检测工具 上海服务器 空间登陆首页 中国域名 阿里云手机官网 攻击服务器 黑科云 更多