第57卷第18期2013年9月中国网络信息存档及其与国外的比较———基于国家图书馆WICP项目的研究刘青孔凡莲[摘要]为了更好地保存我国的网络信息资源,通过对国家图书馆开展的网络信息存档项目———网络信息资源采集与保存实验项目(WICP)发展现状的分析以及与其他国家网络信息资源存档项目的比较,发现我国网络信息资源保存项目需要在资源采集方式、经费支撑、法律保障、合作保存、开发利用等方面继续努力,特别是要争取早日实现网络信息资源的法定呈缴与合作保存.
[关键词]网络信息存档采集保存比较WICP[分类号]G250DOI:10.
7536/j.
issn.
0252-3116.
2013.
18.
014本文系广东省哲学社会科学规划项目"基于信息价值链模型的公共部门信息增值再利用策略研究———基于广东政府信息公开及再利用的实证分析"(项目编号:GD12CTS02)研究成果之一.
[作者简介]刘青,华南师范大学经济与管理学院教授,博士,硕士生导师;孔凡莲,华南师范大学经济与管理学院硕士研究生,通讯作者,Email:kflianff@163.
com.
收稿日期:2013-07-03修回日期:2013-08-23本文起止页码:80-86,93本文责任编辑:王传清网络信息资源在现代生活中扮演着越来越重要的角色,越来越多的信息以Web形式发布.
与传统信息相比,网络信息具有许多特点,数量多,更新迅速,但最需要注意的是网络信息的挥发性,导致其寿命非常短暂.
这使得网络信息的保存任务变得极为迫切,因为网络信息资源与传统信息一样,是中华文明成果的重要组成部分,是中国文化遗产的一部分,需要得到妥善的保护与保存.
根据中国互联网信息中心(CNNIC)《第31次中国互联网络发展状况统计报告》[1],截至2012年12月底,我国域名总数为1341万个,网站总数达到268万个,网页总量为1227亿个,比2011年同期增长41.
7%,网民数量达到5.
64亿,互联网普及率为42.
1%.
这些数据充分显示了互联网在人们生活中的地位越来越重要,网络信息是人们生活中不可或缺的一部分.
网络存档就是收集已经存储在网络上的各种资料并保存,保证这些资料在以后的研究中能被方便利用.
20世纪90年代以来,国内外许多国家开展了网络信息资源保存实验项目,其中美国的InternetArchive、澳大利亚的PANDORA等最具有代表性.
2003年,来自多个国家的13个成员机构组成了国际互联网保存协会(InternationalInternetPreservationConsortium,IIPC),目前成员已经发展到45个,中国于2007年加入.
中国国家图书馆也意识到了网络信息保存的重要性,认为网络信息资源对国家图书馆的馆藏发展和服务具有战略意义,国家图书馆应该像收集传统图书馆资料一样,全面收集各种有价值的网络信息资源.
为了保存珍贵而又脆弱的网络信息资源,保存中华文明优秀的文化遗产,2003年,国家图书馆开始了网络信息资源保存的试验,开启了网络信息资源采集与保存实验项目———WICP(WebInformationCollectionandPreservation),希望通过此次试验探索出适合中国网络信息存档的实现路径.
到目前为止该项目已经存储了大量专题信息,并不断地进行完善.
除了国家图书馆进行的网络信息存档试验,北京大学计算机网络与分布式系统实验室开发建设了中国网页历史信息存储与展示系统"中国Web信息博物馆"(WebInfoMall),该系统收录几乎所有中文网站的网页信息,已经维护超过75亿的中文网页,并还在快速增长.
这两个项目是目前国内比较成功的网络信息存档实践,此外,国家图书馆积极参与国际网络信息存档实践,不仅加入国际互联网保存协会,还积极承办网络信息保存国际会议,分别于2004、2007年承办数字资源长期保存领域主流的国际性系列会议iPRES(InternationalConferenceonPreservationofDigitalObjects),不但有利于促进我国网08第57卷第18期2013年9月络信息保存意识的提高,对国内开展网络信息长期保存工作也有着非常重要的促进作用.
网络信息存档是一个重要课题,需要进行更多的探索实践,才能担负起保存中华文明优秀文化遗产的重任.
1国内外网络信息存档研究述评比较国内外研究成果,相同点是都从各国网络信息存档项目切入,从雏形到逐步完善,逐步总结经验.
不同点主要体现在研究方法和具体的研究内容两个方面.
研究方法上,国外综合利用文献调查法、实地调研法等多种方法,全面获取信息;国内的研究大多采用文献调查法,缺乏一定实践数据的支撑.
在研究内容方面,国外研究的特点主要有:①重视技术研究,包括采集技术和保存技术,尤其是选择性采集策略和长期保存技术的研究;②重视对每个网络信息保存项目进行经验总结,例如Marcum在2004年的一篇文章中对现有网络信息存档项目的组织、运行和成果利用进行了全面分析,对项目的后续发展有很大的作用[2];③重视不同领域存档信息的利用,涵盖社会科学数据、政府电子信息、电子健康记录数据、地理空间数据等各个方面,而国内研究大多为政府信息和时政热点问题;④重视合作,包括与国内不同机构的合作以及国家与国家之间的合作,典型案例是英国UKWAC项目和北欧的NWA项目[3],合作既方便全面收集信息,又可以分担经费以及合作开发先进技术.
国内的研究大致分为三种类型:单纯介绍国外网络信息存档项目、介绍国外网络信息存档项目并总结经验启示以及对国内网络信息存档项目的介绍.
其中第二种类型最多,这类研究的优点是可以充分学习国外的经验,但是也存在不足,因为各国的国情不同,我们不能生搬硬套国外的经验,需要充分考虑我国的客观条件.
例如上文提到的个人电子健康记录数据保存,在西方国家发展比较成熟,但是我国的个人电子健康记录还处于发展阶段,这方面的经验就不能照搬.
第一种类型的研究主要包括对美国、澳大利亚、挪威、英国等网络信息存档项目的介绍,内容包括启动时间、负责机构、收集策略、收集内容、保存利用等各个方面.
第三种类型,即有关国内网络信息存档项目的介绍在2004年达到顶峰,包括对国家图书馆WICP项目和中国网络信息博物馆的介绍等,但是在2004年之后,对这两个项目的研究逐渐减少,并没有进行后续研究和经验总结,这也应该是国内网络信息存档落后于西方国家的原因之一.
国内研究的亮点之一是提出了构建省级网络信息保存中心的设想[4],虽然还没有付诸实施,但仍然是一个非常大的进步.
2WICP的发展2003年初,国家图书馆组成网络文献收集与保存试验小组,开展了网络信息资源采集与保存试验项目,目的是通过试验发现网络文献收集、整理、编目、保存和服务中存在的问题,提出解决问题的方案;确定保存对象,根据其特点确定技术路线和策略;试验性收集、整理、保存数据并提供服务;提出业务整合的方案等.
经过近10年的发展,该项目已经取得了一定的成果,保存了大量的数据,并进行网络资源获取平台立项研发,进一步提高了服务水平.
2.
1国家图书馆网络信息存档事业的发展历程为了更高效地进行中国互联网信息资源的长期保存工作,2009年国家图书馆成立了国家图书馆互联网信息保存保护中心,并于2012年11月开通网站.
国家图书馆互联网信息保存保护中心是中国国家图书馆成立的致力于中国互联网信息资源长期保存和保护的机构,它的成立是中国的互联网保护事业的里程碑,标志着互联网保护工作即将进入大发展时期,开创了中国互联网保护工作统筹规划、合作共建的新局面.
表1国家图书馆网络信息存档大事记时间(年)事项2003国家图书馆开展中国互联网保存保护实验项目(WICP)2005网络信息采集成果服务网站上线.
该网站分为热点专题和政府网站两部分,提供存档资源浏览服务2007加入国际互联网保存联盟(IIPC)2009WICP项目推出"中国事典"网络信息专题存档网站,再现我国年度重大历史事件,实现了对这些珍贵中华数字文化遗产的保存与展示2010网络信息采集知识库上线.
该知识库是互联网保存保护中心对于国际网络采集领域的重要信息的收集、整理之后的结果展示2011网页资源获取平台立项研发.
网页资源获取系统是国家图书馆开发的网络资源工作平台.
系统注重于数字保存,将网络文档保存为符合ISO28500标准的WARC文档,实现了网络资源的长期保存.
同时系统集网络资源的采集、保存、编目和发布与服务功能于一身,为图书馆员提供了一个流畅的网络资源采编存阅的一体化平台国家图书馆对不同的网络信息采取了不同的整合策略,对于浅层网络信息采取的是网络信息资源采集与保存试验项目,对于深层网页采取的是网络数据库导航模式(onlinedatabasepreservation,ODBN).
WICP收集的是静态网页,并且针对网站和网页的不同特点分别进行镜像存档和专题存档,镜像存档主要采集政府网站、电子报刊、中国学等内容,专题存档主要采集像北京奥运会、非典专题、中国载人航天工程等对中国18中国网络信息存档及其与国外的比较———基于国家图书馆WICP项目的研究刘青孔凡莲比较重要的事件的内容.
在WICP项目试验的基础上,2009年国家图书馆又推出了"中国事典"网络信息专题存档网站,实现了对珍贵的中华数字文化遗产的保存与保护.
到目前为止主要展示的是2006-2008年三年间的重要事件,2006年保存的事件有新农村建设、"十一五"规划、文化遗产日、2006文博会、青藏铁路通车、长征胜利70周年、中非合作论坛北京峰会;2007年的有第三届两岸经贸文化论坛、建党85周年、香港回归十周年、好运北京、科学发现共建和谐、2007上海特奥会、十七大、嫦娥一号探月等事件;2008年包括2008年全国两会、拉萨3·14打砸抢烧事件、5·12汶川大地震、2008北京奥运会、2008北京残奥会、三聚氰胺奶粉事件、神七飞天、两岸三通、金融风暴、南方雪灾等事件.
截至2012年,国家图书馆互联网信息资源保存保护中心保存的全部专题数据量为6252.
213G,全部专题数据网站为2785个,全部网站数量为88705个,其中,政府网站数量有85920个,占了绝大部分[5].
2.
2WICP项目试验成果WICP项目的目的是通过试验发现网络信息存档中存在的问题,并提出解决方案,通过几年的试验,国家图书馆基本确定了网络信息资源采集与保存的各项工作方针.
在试验过程中,发现信息采集、整合、保存、利用各个环节都面临挑战,包括技术、经济、责任体系、法律等各个方面,针对这些问题,国家图书馆分别采取了针对性的措施.
技术方面,国家图书馆采用IIPC推荐的软件工具包进行采集试验,"完成了13538个政府网站的采集,最终采集到数据总量达1468GB,总计39939774个文档.
进行政府网站域名的收集,收集了gov.
cn域名74897个(包含域名、子域名、主机名),其中www域名3万余个.
"[6]虽然经过试验发现这套系统在中文编码、索引创建、数据存储等方面存在一些不足,并不是完全适合中文信息采集与保存的系统,但是与经过试验的其他系统相比,这一系统是相对比较完善的.
国家图书馆会持续跟踪与研究网络信息资源采集与保存的技术和方法,不断改进中文网络资源采集与保存的技术与环境.
WICP项目的模式图见图1.
其他方面,由于网络信息存档是一件非常耗费人力、物力和财力的大工程,单靠国家图书馆一个机构的力量并不能较好地完成这项重任,国家图书馆会担负主要责任,并与图书馆、档案馆等机构进行合作.
在之前的试验中,国家图书馆已经采用了镜像存档和专题图1WICP项目模式存档两种方式,都取得了一定的成果,接下来国家图书馆需要联合其他机构合作建立自动化的选择性收集系统,并实行基于协作的分布式保存,这样可以集中多方力量进行长期保存,所需经费由国家图书馆馆长协调.
另外,法律问题也是网络信息存档面临的挑战,网络信息资源同其他出版物一样具有知识产权,网络信息资源的采集必须取得知识产权所有者的同意才能进行,但是网络信息数量浩大,种类繁多,解决知识产权问题并不容易,所以网络信息的采集需要尽快取得法律认可.
2.
3国家图书馆互联网信息保存保护中心的服务2.
3.
1国家图书馆网络信息保存保护中心的目标国家图书馆互联网信息保存保护中心为网络信息的采集与保存任务制定了阶段性目标和长期目标.
阶段性目标包括:开展网站历史查询、网络资源内容快照、个人及企业网站保存、网络存档内容定制服务、网页内容保护服务等,摸索新业务模式和好的推广方式;研究网络数据挖掘,寻找对所存档网络资源的更深度应用;定期开展对博客、视频网站、知名图书馆、大学等有特色的资源的采集;制作更多的领域性网络存档应用.
长期目标有:借鉴国际经验,探索适合中文互联网信息资源存档解决方案,扩大互联网保护的影响力;开展国际交流,推进中国互联网资源保存工作规范化、标准化,拓展服务领域;开发服务项目,鼓励和支持各种文化机构从事互联网内容的收集和保存,成为一个网络信息存档立法的强有力的倡导者.
2.
3.
2国家图书馆网络信息保存保护中心的存档资源服务与公共服务国家图书馆网络信息保存保护中心为用户(机构和个人)提供网络资源的代存档服务,以帮助用户长期保存其提交具有自有知识产权的互联网资源.
具体的服务方式是:用户通过填写代存档资源信息表,提交所需保存资源的URL或URL列表,并授权中心对其进行长期保存,中心通过采集软件对用28第57卷第18期2013年9月户提交的URL对应资源进行采集与保存.
用户提交的内容必须保证不侵犯他人隐私,不触犯相关法律,不使用或存储他人信息,不侵犯著作权、商标、专利以及其他专有权利.
国家图书馆网络信息保存保护中心的资源统计数据显示,截至2012年,收集保存的全部专题数据量为6252.
213G,全部政府网站数据量17780G,全部数据合计为24032.
213G,全部专题网站个数为2785个,全部政府网站个数为85920个,全部数据网站个数合计为88705个.
从这些数据可以看出,国家图书馆网络信息存档中心收集保存的数据量已经非常大,但是通过网站只能得到总的数据量,并不能通过网站访问这些存档资源,这给所存档信息的利用带了极大的不方便;另外,在所有数据中,政府信息占了绝大部分,说明所收集保存的信息结构不够合理,需要进行充实,也就是说,采集策略要得当,要重视对网络信息的价值判断与筛选.
3WICP项目与国外网络信息存档项目的比较网络信息存档项目收集存储于互联网上的数据并保存,确保被保存的数据能够为未来的科学研究所利用.
网络信息存档像其他的信息资源管理一样,工作流程包括网络信息的采集、组织、存储、利用等几个环节,其中采集、保存和利用是其主线,构成网络信息存档的骨架.
采集工作是整个网络信息存档的基础,没有信息的采集,网络信息存档就是空谈;保存是利用的基础,如果不能长期保存,前期的采集工作就是无用功;利用是网络信息存档项目价值的体现,也是检验信息采集效果的最终标准.
3.
1采集策略比较各国的网络信息存档项目分别采取了不同的采集策略,主要有完整性采集、选择性采集以及联合采集等几种方式.
另外,在具体的信息资源采集过程中,经费问题、呈缴规定也是比较重要的问题.
3.
1.
1各国网络信息存档项目采集策略分析网络信息的特殊性和网站性质的复杂性,使得不同类型网络信息的采集需要不同的方式.
长期以来,图书馆和档案馆有从政府机构、捐助者获取信息的传统,或者是接受出版单位的法定呈缴,这一方法仍然适用于网络信息存档[7].
但是并不是所有的网络信息采集都能够采用此种方式获取,在网络信息呈缴法律还不完善的情况下,有许多信息的版权问题是需要妥善处理的,可以采取与出版商签订协议、付费使用等各种途径.
表2是对国家图书馆开展的WICP项目与其他国家开展的网络信息存档项目采集策略的比较.
表2各国网络信息存档项目的采集策略比较国家项目时间(年)经费来源采集方式呈缴规定中国WICP2003馆内预算联合采集无美国IA1996网页抓取服务的收益、合作伙伴、政府补贴、社会捐助、Kahlo-Austin基金完整性采集LCWA2004美国国家数字信息基础设施及保存计划、商业机构的资助选择性采集(专题收集)WebatRisk2004美国国家数字信息基础设施及保存计划选择性采集法定呈缴日本WARP2002不详选择性采集法定呈缴澳大利亚PANDORA1996国家图书馆每年提供大约100万澳元选择性采集部分呈缴英国UKWAC2001UKWAC6个成员机构分担选择性采集法定呈缴法国BnFWebArchive2001不详联合采集法定呈缴挪威Paradigma2001经费使用向国家图书馆馆长汇报完整性采集法定呈缴澳大利亚是开展网络信息存档项目最早的国家之一,1996年开展的PANDORA[8]项目采取了比较典型的选择性采集策略,澳大利亚学者C.
Law曾解释过采取选择性采集策略而不是完整性采集策略的原因:收集和保存数字信息非常复杂、费时和昂贵,因此现阶段国家图书馆只能将精力集中在那些现在和未来具有研究价值的资源上[9].
而且在网络信息泛滥的今天,很多网络信息是没有保存价值的,所以图书馆制订了一系列关于网站和联机出版物选择的指导原则,其工作流程和收集周期都有明确的规定,最重要的是要获得网络信息出版者的许可,这避免了后期利用过程中的版权纠纷.
但是由于选择性采集策略具有主观性,会在一定程度上损害事实的完整面貌,所以需要辅之以完整性采集策略,定期进行完整性采集,以弥补选择性采集的不足.
3.
1.
2比较结果分析网络信息采集问题.
通过表2可以看出,采用完整性采集方法的有美国的IA项目和挪威的Paradigma项目,其他项目大都采用选择性采集策略,这说明选择性采集策略还是占有一定的优势的.
除了完整性采集和选择性采集,中国国家图书馆的WICP项目和法国的BnFWebArchive采取的是联合采集策略.
"无论选择性收集还是全面收集,它们自身都有无法克服的问题,而它们之间的优缺点具有互补性,一种联合采集策略的提出就成为必然.
"[10]这种联合采集38中国网络信息存档及其与国外的比较———基于国家图书馆WICP项目的研究刘青孔凡莲策略看起来是最完美的选择,但在实际操作过程中,需要专业人员的判断,包括:①对哪一部分信息实行完整性采集,对哪一部分实行选择性采集;②对选择性采集所要采集的信息进行筛选.
经费问题.
网络信息保存是一项资金投入巨大的长期工程,需要雄厚的财力支持.
美国网络信息存档项目的经费来源是非常多元化的,不仅有政府补贴、社会捐助,还有各种商业捐赠以及服务收费等,比如,"LCWA项目的资金来自于政府的'国家数字信息基础设施及保存计划',哥伦比亚大学图书馆的网络信息采集项目则是在AndrewW.
Mellon基金的资助下进行的"[11].
而我国WICP项目的经费来源是馆内预算,这对于本身财政压力就非常大的图书馆来说是一笔不小的开支,如何保证网络信息存档项目拥有足够的财力支持是一个重要的问题.
法律问题.
法律问题主要是指网络信息资源的呈缴问题,从表2中可以看到,国际上主要的网络信息保存项目都有法定呈缴或者部分呈缴规定,只有将网络信息资源纳入到法定呈缴的行列,才能更好地保存网络信息资源.
我国并没有一部完整的呈缴法规,但是对于传统印刷型出版物和实体电子出版物的呈缴都有相关的规定,网络信息的呈缴一直没有得到法律保障,而且网络信息与传统出版物存在很大的差别,对具体的呈缴范围、呈缴时间、呈缴数量、呈缴方式等应当作出明确的规定.
3.
2保存与利用比较信息采集是网络信息资源存档项目的基础,信息保存是关键,而利用是网络信息存档项目的价值所在.
一方面,通过不同的采集策略采集到的信息并不是全都需要保存的,保存环节需要对这些信息进行筛选,只保存具有保存价值的信息;另一方面,保存策略的选择对于信息的保存也非常重要.
信息的利用是对网络信息存档项目的最终考验,保存的信息利用率越高,说明网络信息存档项目的价值越高.
3.
2.
1各国网络信息存档项目保存与利用分析M.
Day教授认为,当前的项目更加侧重于资源的收集,相对来说,对于保存的技术关注则要少得多.
短时间内,这不会有什么错误,但是从长远考虑,必须要分析研究各种不同的保存策略(迁移、移植、更新)等[12].
所以说,在今后的网络信息资源保存研究中,要多注重对信息保存的研究.
信息的保存是为了利用,网络信息保存项目的最终目的是为了提供利用,充分发挥所保存信息的价值是保存利用的基础.
美国IA项目的目标非常贴切地阐述了这一道理,即全面采集和保存全球网络中公开可用的信息资源,使现在和以后的学者和研究人员能永久访问.
表3对各国网络信息存档项目的保存与利用情况进行了比较:表3各国网络信息存档项目的保存与利用比较国家项目保存内容利用方式中国WICP镜像存档:政府网站、电子报刊;专题存档:2008年北京奥运会、非典专题、中国载人航天工程、国家图书馆媒体报道馆内利用美国IA收录世界范围内的网络信息资源开放利用LCWA总统大选、2001年9·11事件、2003年伊拉克战争、2005年罗马教皇过渡、2006年达尔富问题、2009年印度尼西亚大选馆内外均可WebatRisk加州政治博客、非洲政治活动、2003年加州罢免选举、2009年H1N1流感、2010年冬季奥运会馆内外均可日本WARP收集国家机关、地方政府、国立大学、地方性文化活动等网站上的信息以及网站上免费公开的电子杂志开放利用澳大利亚PANDORA政府的公开出版物、教育机构出版物、会议论文、电子期刊、索引和代理商提供的项目、在某主题领域运行三年以上和记载当前重要社会、政治等内容的网站(如选举网站、2000年悉尼奥运会网站等)根据版权的不同对资源的利用设置严格的用户检索等级英国UKWAC大英图书馆:政治、民族文化、重大历史事件;国家档案馆:政府部门的网络资源;联合信息;系统委员会:远程高等教育、进修项目威廉图书馆:医疗信息公开获取法国BnFWebArchive法国大选的专题、对法国网络信息(.
fr)的全面收集馆内利用挪威Paradigma网页、命名为ftp.
no的FTP文件、所有在"no.
"域名下的网络新闻组和某些限制检索文件限制检索利用3.
2.
2比较结果分析保存问题.
保存问题从根本上不仅仅是一个技术问题,更是资源和机制的问题[13].
网络信息保存不同于网络信息的存储,存储是指网络信息保存到网络信息保存项目的过程,而保存更多地是指网络信息的长期保存,即"存档"以供利用.
WebArchive(WA)中存档的信息不但数量庞大而且不断增长,同时,内容类型多样,对象间存在复杂的链接关系,不同时间段采集的内容同时存在,相较于其他数字资源的长期保存,WA的长期保存面临着更为严峻的挑战[14].
这些挑战包括网络信息的复本问题、实时更新、同时访问等,"IIPC的保存工作组一直在探讨其他数字资源保存策略对于WebArchive的适用性,并致力于识别WA长期保存所面临的特殊性问题"[15],并提出迁移、仿真、记录、转换等多种长期保存策略.
可以看出,网络信息的48第57卷第18期2013年9月保存是一项复杂的工程,单单靠一个机构或者一个部门是很难完成的,所以,建立网络信息合作保存体系势在必行.
合作体系包括多个方面:首先是图书馆之间、图书馆与档案馆、博物馆、数字化中心等机构的合作;其次是在当前法律环境不健全的情况下与出版者的合作;最后还有国际合作.
以上每一个维度的合作都是不可或缺的.
利用问题.
上述各种方式的保存归根到底都是为了利用,如果不能方便地被利用,保存再多的资源都没有意义.
网络存档信息的可访性取决于一个国家的法律环境[16],比如说新西兰呈缴法规定新西兰国家图书馆可以保存国内任何可以公开访问的网站并且可以向公众提供所保存信息的利用.
当前在我国网络信息呈缴规定和网络信息著作权的规定还不完善的情况下,可以参照澳大利亚PANDORA项目的经验,该项目通过与网络信息版权所有者进行协商,将网络出版物分为4种:无限制出版物、部分商业限制出版物、商业限制出版物和全部限制出版物,受限制的出版物在一段时间之后可以解除限制供检索访问.
另外,内部用户和外部用户拥有不同的访问权限,这些都是值得我们参照的做法.
4启示随着网络信息资源的膨胀以及网络信息重要性的提高,网络信息存档逐渐成为国际研究热点之一,并召开了多次国际会议探讨此问题.
我国网络信息存档工作自2003年开展以来已经取得了丰富的成果,比较突出的是国家图书馆WICP和中国Web信息博物馆已经保存了大量有价值的信息并提供检索利用.
但是由于国内网络信息存档工作起步较晚,经验不足,人力资源、经费保障、技术支持等方面与欧美国家相比还存在一定差距,未来的发展仍然面临着巨大挑战.
通过与国外先进项目的比较,可以从中得到启发,为我国网络信息存档工作的发展提供借鉴.
4.
1实行联合采集策略,并侧重于选择性采集完整性采集策略的实施有一定的难度.
首先,网络信息数量庞大,质量参差不齐,完整性采集策略需要耗费大量的人力、物力、财力,对于网络信息保存机构来说是不现实的,而且利用率会很低;其次,一部分网络信息具有知识产权,完整性采集策略需要解决这部分信息的知识产权问题,操作非常复杂;最后,目前大部分网络信息保存项目在开启时都设定了特定的目标,收集特定范围的信息,这本身就属于选择性采集策略.
实际上,采取完整性采集的美国IA项目也是相对的完整,该项目的目标是"全面采集和保存全球网络中公开可用的信息资源,使现在和以后的学者和研究人员能永久访问",或者说是"保存全球网络空间的所有内容",然后对保存范围内的网络信息进行采集,这实际上也是选择性采集,比如中国国内许多没有保存的网络信息在美国IA项目保存的资源中能够找到,但是并不是所有的网络信息存档项目都能做到这一点.
目前国家图书馆互联网信息保存保护中心的采集策略主要侧重于选择性采集专题存档,其中比较重要的是专题的选择与信息的评价问题,评价与选择是密不可分的,信息的评价在网络信息存档这一领域本质上是指评估信息的价值,然后决定是否需要进行保存,要保存多久,实际上也是一种选择的过程.
专题存档需要人的判断,但是信息专业人员的判断需要耗时耗力,只能用于小型的存档项目,对于大型的存档项目来说,需要制定一定的标准,利用机器人来完成.
4.
2实施网络信息存档国家战略,保障网络信息存档经费来源网络信息存档项目的开展初期就需要大量的财力支持,但是它的投资回报却是一个长期的过程,大部分商业机构看不到这种长期回报,不愿提供赞助,而且网络信息存档项目本质上属于公益性质,其回报是不明显的,甚至公众也不能清楚意识到它的意义所在.
所以说,网络信息资源的保存只能依靠国家战略的实施,依靠政府的资助才能正常地运转,像美国LCWA和IA获得的商业性赞助,目前对我国来说还是比较难以实现的,但是可以尽量争取.
另外,对于某些比较深层次的服务项目,可以收取一定的费用,这种收费服务项目在国外已经有比较成功的案例.
为了使网络信息存档项目能够正常运转,我们必须努力开拓网络信息存档的资金来源途径,增加商业捐助、社会捐助,设立基金资助项目等.
4.
3完善网络信息呈缴制度,将网络信息呈缴纳入法律法规中网络信息中很大一部分属于公共领域的资源,但是随着知识产权保护的呼声越来越高,网络信息也逐渐纳入了知识产权保护的范围,这给网络信息的采集增加了难度.
网络信息的法定呈缴是解决这一问题最直接的方法,但是目前我国制定呈缴法的条件还不够成熟,网络信息著作权的权属还不够规范,所以,可以采取与出版者进行协商的方式,在征得许可后进行采集,避免引起不必要的纠纷.
58中国网络信息存档及其与国外的比较———基于国家图书馆WICP项目的研究刘青孔凡莲呈缴本制度,特别是网络信息呈缴在我国公民中普及率不是很高,为了提高公众的呈缴意识,可以向日本学习:日本规定每年的5月25日为"呈缴本日",以这一天为代表致力于普及呈缴本制度,还专门设计了"呈缴本制度普及标志".
4.
4以国家图书馆为中心,建立网络信息合作保存体系建立一套以国家图书馆为中心的合作分散型网络信息资源保存网络,首要是发挥国家图书馆的领导作用.
国际上的网络信息保存项目,绝大部分都是由国家图书馆负责的,国家图书馆肩负保存文献信息资源的责任,也有向出版机构索取出版物的权利,理应作为网络信息资源保存的主导力量.
澳大利亚PANDORA项目的负责人曾经将该项目的成功归功于两个方面:一是澳大利亚图书馆之间良好的合作传统;二是国家图书馆在其中的领导作用[17].
可见国家图书馆在网络信息资源保存中的重要作用———建立了与州图书馆及其他学术机构的合作框架.
目前,PANDORA项目共有10个合作伙伴,分布在澳大利亚的各个州[18].
合作分散的保存系统是指在国家图书馆的统一领导下,档案馆、博物馆等机构承担一部分保存责任.
比如说档案馆比较擅长保存政府信息,那么就由档案馆负责保存收集到的政府网络信息资源.
2001年1月,美国国家档案文件署(NARA)要求所有的联邦机构对他们的公共站点进行快照.
英国的公用档案局将唐宁街10号网站的快照在2001年6月大选之前传送给国家档案局[16].
这些都是过往档案馆保存网络信息的例子.
另外,高校图书馆也可以参与到网络信息资源保存系统中来,高校本身就属于学术研究教育机构,由高校图书馆保存学术性网络信息资源是最合适的,如澳大利亚墨尔本大学成立了网络信息资源保存小组,我国高校图书馆也可以建立类似的试验小组,尝试进行网络学术资源的长期保存与利用.
最后,应该鼓励个人进行公益性的网络信息存档,例如美国"9·11"事件中,美国人A.
D.
Williams个人收集的资料甚至比某些专业性机构还要完整.
除了国内各机构的合作,还要加强国际合作.
国外网络信息资源保存启动较早,到目前已经取得了不错的成绩,积极参与到国家合作中,可以学习国外许多先进的做法和经验,使我国网络信息资源的保存少走弯路.
4.
5实现所保存信息的开放利用,提高利用率影响网络信息利用的因素有两个:一个是资源的丰富程度,这在前面的资源采集和保存工作中已经完成;另一个就是确保公众能够方便地获取,这样才能充分实现网络信息保存项目的价值.
鉴于其中某些商业信息的公开可能会影响商业机构的利益,对于这部分信息可以采取延期开放的策略,如延期3个月或6个月,直到不再影响信息的原来拥有者的权益.
至于政府部门的信息,除了机密性文件外,都可以正常对公众开放,提供获取利用.
另外,应扩大网络信息保存项目的知名度,加强宣传,让更多的公众知晓网络信息资源保存项目的重要性,并唤起公众自发保存网络信息的自觉性.
网络信息存档是一项长期的复杂工程,国家图书馆的WICP项目从2003年开展以来取得了一定的成果,但是与国际上网络信息存档发展比较成熟的项目相比还存在差距,我们需要在分析自身不足的基础上,借鉴其他国家的先进经验,取长补短,做好网络信息资源长期保存工作,保护好中华文明的优秀成果.
参考文献:[1]中国互联网信息中心.
《第31次中国互联网络发展状况统计报告》[EB/OL].
[2013-08-14].
http://www.
cnnic.
net.
cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/t20130115_38508.
htm.
[2]MarcumDB.
Landscapeofdigitalarchiving[J].
LawLibraryJournal,2004,96(4):605-608.
[3]王婷,吴振新,高凡.
国际网络信息资源保存的合作机制分析[J].
图书馆建设,2009(3):6-9,13.
[4]蔡晓川.
建设省级网络信息保存中心的思考———以南京图书馆为例[J].
情报资料工作,2007(6):46-49.
[5]国家图书馆互联网信息资源保存保护中心[OL].
[2013-08-14].
http://navi.
nlc.
gov.
cn/WEB_GT_INDEX/tongji.
phplanguage=31.
[6]张炜,张文静.
中国网络信息采集工作研究现状分析———以国家图书馆为例[J].
图书馆建设,2008(7):43-46,51.
[7]NiuJinfang.
AnoverviewofWebarchiving[EB/OL].
[2013-09-24].
http://www.
dlib.
org/dlib/march12/niu/03niu/.
hfml.
[8]澳大利亚网络信息存档项目PANDORA[OL].
[2013-08-14].
http://pandora.
nla.
gov.
au/.
[9]LawC.
PANDORA:Australianelectronicheritageinabox[N].
InternationalPreservationNews,2003-12-26、13-17.
[10]安兴茹.
欧美国家图书馆网络信息保存的收集策略研究及启示[J].
图书馆杂志,2007(9):52-55.
[11]吕艳飞.
中美网络信息资源长期保存项目比较研究[D].
重庆:西南大学,2012.
[12]DayM.
CollectingandpreservingtheWorldWideWeb:AfeasibilitystudyundertakenfortheJISCandWelcomeTrust[D].
ClavortonDown:UKOLN,UniversityofBath,2003.
[13]GuthrieKM.
Archivinginthedigitalage[J].
EDUCASEReview,2001(6):56-65.
(下转第93页)68第57卷第18期2013年9月[6]王蠡.
开放性学习系统与学习型团队建设[J].
中国职工教育,2007(9):17-18.
[7]蔡自兴,徐光.
人工智能及其应用[M].
3版.
北京:清华大学出版社,2003:181.
[8]雒焕国.
迷信的学习机制探析———从学习心理学的角度看迷信的形成[J].
甘肃高师学报,2001(4):85-89.
[9]刘宇,王建武.
解读语言的模糊性与歧义性[J].
陕西工学院学报,2004(2):88-91.
[10]王波,吴汉华,姚晓霞,等.
2011年高校图书馆发展报告[EB/OL].
[2013-08-01].
http://162.
105.
140.
111/zxdt.
[11]陆荣双.
地方高校图书馆人才队伍现状分析[J].
科技广场,2012(2):214-216.
[12]龙斌.
地方高校图书馆员队伍建设的思考[J].
农业图书情报学刊,2012(1):219-221,封3.
[13]王德敏,万彩霞,支蕾.
地方高校图书馆学科馆员队伍建设的思考[J].
农业图书情报学刊,2012(8):213-215,封3.
[14]李向英.
浅析高校图书馆员队伍现状及加强队伍建设的对策[J].
内蒙古科技与经济,2013(1):141,143.
[15]贾东琴.
基于战略的大学图书馆组织结构变革模式分析[J].
国家图书馆学刊,2013(1):10-17,51.
AnalysisoftheFactorsHinderingtheDevelopmentofaLearningLibraryZhangFengeYuanHaiboYinHongHuRongYichunUniversityLibrary,Yichun336000[Abstract]Buildingthelearninglibraryhasbeenatrendoflibraryorganizationconstruction.
Therearevariousfactorsthatbaffleitsdevelopmentandhindertheprocessofestablishingthelearninglibraryatpresent.
Thesefactorsincludetheoldlearningconcept,thevariousbackwardlearningmodels,andthelimitationsoflearningorganizationknowledge.
Analysisofthesevariousfactorscangetabetterunderstandingofhowtoestablishthelearninglibraryandreformtheunreasonableplacestoremovebarriersbettertoachieveacoordinateddevelopmentofthelibrarystaff.
[Keywords]libraryleaningorganizationlearningLib欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟raryorganizationallearning(上接第86页)[14]IIPCPreservationWorkingGroup.
Preservingaccessmakingmoreinformedguessesaboutwhatworks[EB/OL].
[2013-08-14].
http://www.
netpreserve.
org/sites/default/files/resources/preservingaccess.
pdf.
[15]王芳,史海燕.
国外WebArchive研究与实践进展[J].
中国图书馆学报,2013,39(2):36-45.
[16]WebbC.
DigitalpreservationAmanylayeredthing:ExperienceatthenationallibraryofAustralia[EB/OL].
[2013-08-14].
http://proj1.
sinica.
edu.
tw/~ndaplib/service/ebook/pub107.
pdf#page=71.
[17]CrawfordW.
PaperPersists:Whyphysicallibrarycollectionsstillmatter[EB/OL].
[2013-08-14].
http://members.
aol.
com/gleposky/crawford1.
html.
[18]赵俊玲.
国外关于网络信息资源保存的研究[J].
中国图书馆学报,2004,30(3):82-85.
WebArchivingofChinaandComparisonwithForeignCountries:AResearchBasedontheProjectWICPbyNationalLibraryofChinaLiuQingKongFanlianSchoolofEconomic&Management,SouthChinaNormalUniversity510006[Abstract]Inordertopreservethewebinformationresourcesofourcountry,thispaperanalyzesthedevelopmentsituationofWICPwhichisinthechargeofNationalLibraryofChina.
AndwiththecomparisonofseveralfamousforeignWebArchivingprojects,itisfoundthatweshouldstrengthenmanyaspects,includingacquisitionmethods,fundingsupport,legalprotection,cooperativepreservation,openaccessandsoon.
Especiallyweshouldstriveforlegaldepositandcooperativepreservationofwebinformationresources.
[Keywords]WebarchiveacquisitionpreservationcomparisonWICP39
lcloud怎么样?lcloud零云,UOVZ新开的子站,现在沪港iplc KVM VPS有端午节优惠,年付双倍流量,200Mbps带宽,性价比高。100Mbps带宽,500GB月流量,10个,512MB内存,优惠后月付70元,年付700元。另有国内独立服务器租用,泉州、佛山、成都、德阳、雅安独立服务器低至400元/月起!点击进入:lcloud官方网站地址lcloud零云优惠码:优惠码:bMVbR...
Sharktech荷兰10G带宽的独立服务器月付319美元起,10Gbps共享带宽,不限制流量,自带5个IPv4,免费60Gbps的 DDoS防御,可加到100G防御。CPU内存HDD价格购买地址E3-1270v216G2T$319/月链接E3-1270v516G2T$329/月链接2*E5-2670v232G2T$389/月链接2*E5-2678v364G2T$409/月链接这里我们需要注意,默...
香港云服务器最便宜价格是多少钱一个月/一年?无论香港云服务器推出什么类型的配置和活动,价格都会一直吸引我们,那么就来说说香港最便宜的云服务器类型和香港最低的云服务器价格吧。香港云服务器最便宜最低价的价格是多少?香港云服务器只是服务器中最受欢迎的产品。香港云服务器有多种配置类型,如1核1G、2核2G、2核4G、8到16核32G等。这些配置可以满足大多数用户的需求,无论是电商站、视频还是游戏、小说等。...
国外网盘为你推荐
美国免费主机免费主机可以建几个站?已备案域名查询怎样知道一个网站是不是真的已经备案?域名注册查询如何查域名注册信息台湾vps台湾服务器 哪里稳定速度快?香港虚拟空间最稳定香港虚拟主机空间在哪里?手机网站空间QQ空间技巧的手机网站啊?虚拟主机mysql怎么管理虚拟主机上的MYSQL?(高分回报)最好的虚拟主机哪家的虚拟主机比较好?长沙虚拟主机长沙点航网络科技有限公司怎么样?域名解析域名解析是什么意思为什么要域名解析?
厦门虚拟主机 个人域名备案流程 justhost site5 java主机 老左博客 网站实时监控 网站挂马检测工具 华为网络硬盘 美国十次啦服务器 天互数据 web服务器的架设 cn3 免费美国空间 免费高速空间 hkt linode支付宝 starry 贵阳电信测速 登陆qq空间 更多