元搜索引擎:原理与利用王芳张晓林(四川联合大学信息管理系,成都,610064)文摘:本文对元搜索引擎的基本结构和运行过程进行了分析,并结合实例介绍了元搜索引擎的类别与特点.
关键词:元搜索引擎,搜索引擎,桌面搜索引擎,信息检索Meta-SearchEngines:PrinciplesandApplicationsWangFang,ZhangXiaolin(DepartmentofLibraryandInformationScience,SichuanUnionUniversity,Chengdu,610064)Abstract:Thepapergivesananalysisofthebasicstructureandfunctionalprocessofmetasearchengines,anddescribeswithexamplesthecategoriesandcharacteristicsofthesenewsearchtools.
Keywords:Metasearchengines,Searchengines,Desktopsearchengines,informationretrieval1.
前言Internet/WWW的迅速发展带来丰富的和动态变化的网络化信息资源,同时也呼唤新的检索机制与能力.
搜索引擎技术应运而生,通过采集标引众多网络站点来提供全局性网络资源控制与检索机制,从而帮助用户方便地在网络中准确检索所需信息[1-3],著名的Yahoo!
、Infoseek、AltaVista、悠游(GoYoYo)等就是典型代表.
然而,当搜索引擎数量迅速增加、各自使用的检索方式日益复杂时,如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索引擎的"集成"资源与检索能力等就成为制约网络信息检索技术进一步优化和发展的重要问题.
正是面对这个挑战,检索工具开发者设计了元搜索引擎(Meta-SearchEngines),能够利用多个搜索引擎进行网络信息查询.
2.
元搜索引擎的基本结构与运行原理2.
1.
元搜索引擎的基本性质与结构所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作(Searchthesearchengines)[4-5],其基本结构如图1所示.
图1我们可将元搜索引擎看成具有双层C/S结构的系统,用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户.
当然,某些元搜索引擎具有略微不同的机制,我们将在下面讨论元搜索引擎实例时具体介绍.
2.
2.
搜索引擎和元搜索引擎的区别搜索引擎与元搜索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联结界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟逻辑整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作.
元搜索引擎中各独立搜索引擎被称为"成员搜索引擎",它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出.
不过,有些元搜索引擎给出的全局外部模式不够完善.
2.
3.
元搜索引擎的基本运行过程根据分布式数据库系统的原理,我们可以用图2初步描述元搜索引擎基本运行过程的概念模型[6]:图2根据该模型,元搜索引擎的主要功能有:(1)搜索引擎的选择:元搜索引擎一般允许用户选择合适的搜索引擎集合具体进行检索,选择方式包括选择一个搜索引擎、选择全部搜索引擎、选择满足一定条件的若干个搜索引擎(例如最快的或最好的三个).
有些元搜索引擎只能使用固定的搜索引擎集合.
(2)检索指令的转换:由于每个搜索引擎都有自己的查询语言,因此元搜索引擎需要将用户通过统一界面以统一形式输入的全局检索指令转换为各个成员搜索引擎的局部指令语言,这可利用"全局/局部指令字典"来实现.
但指令语言转换并不是异形指令的简单、机械互换,应做到:①对应指令的功能性质一致性;②对应指令的功能作用范围一致;③对应指令的逻辑结构和构成一致;④对应指令的逻辑结果一致.
全局指令既要准确地表达所有成员搜索引擎指令语言的共同特点和指令形式,又要能够以一定方式执行有关成员搜索引擎指令的特殊功能.
目前,指令转换尚有较多不足之处.
(3)局部结果转换和全局结果组织:从各搜索引擎返回的结果具有自己的数据格式,元搜索引擎需要依照用户要求或系统设置值将各个局部结果转换为全局结果要求的形式,并构成逻辑上统一的整体结果集合和格式呈交用户.
全局格式转换与检索指令转换一样,要在数据项数量、逻辑内容、名称、长度、位置等方面准确地表达所有成员搜索引擎局部格式的共同特点和要求,又要能根据全局模式的要求对数据进行处理,还要协调不同的局部格式可能存在的差异,对某些搜索引擎特有的信息段要适当处理,保证对每一个命中记录具有尽可能详细的描述资料.
元搜索引擎还应对全局结果进行剔重、排序等处理.
2.
4.
自动选择的实现方式前面提到,用户可选择满足一定条件的若干搜索引擎同时进行检索.
一般地,元搜索引擎将根据一定条件自动实施这种选择[7].
(1)"选择最好"模式:元搜索引擎可能采取以下方式来选择"最好"的搜索引擎,例如它可跟踪一定时期各类检索式检索成员搜索引擎的命中记录数的统计分布,根据该分布来确定相对于一定主题的"最好"搜索引擎.
或者,元搜索引擎可对成员搜索引擎的索引数据库进行某种方式的分类统计,建立类目与URL数量的对应关系,并据此确立"最好"的搜索引擎.
例如,Profusion和SavvySearch就提供了类似的功能.
(2)"选择最快"模式:元搜索引擎系统可能采取下列两种方式来选择"最快"的搜索引擎:A.
随机产生方式:元搜索引擎以并行方式将检索指令传送给若干搜索引擎,选择最先返回的几个(比如前三个)结果集并组织成全局结果集,忽略后面的其他结果集.
B.
先验式:检索工具研制者在大量测试数据基础上,制定相应的控制字典,明确标明某一类信息与搜索引擎检索速度的映射关系.
用户提交检索式后,元搜索引擎首先进行概念分析,确认它隶属的类别范畴,然后对照控制字典通过一定的算法选择最快的前几个搜索引擎.
该方式涉及的技术细节较多,包括词表的建立、维护,词表中用于速度测试的词汇的选定,对成员搜索引擎的定期速度测试等,都将对测试结果的可靠性产生较大影响.
3.
元搜索引擎的分类按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-one式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎.
3.
1多线索式元搜索引擎所谓多线索式元搜索引擎指利用唯一的、确定的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具.
如Metacrawler、Savvysearch、Profusion等都是属于多线索式元搜索引擎.
在理想状态下,这类元搜索引擎应具有以下特征:(1)统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制,但所有成员搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索.
(2)检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言,并自动地实现元搜索引擎指令与其成员搜索引擎指令的转换,用户使用同一指令语言检索不同的搜索引擎的索引数据库.
(3)统一结果集的组织与显示:元搜索引擎提供全局组织器,对各搜索引擎返回的结果进行处理以形成全局结果集,并以统一格式显示,主要涉及数据格式转换、剔重、统一排序等.
3.
2ALL-IN-ONE方式所谓ALL-IN-ONE方式是指元搜索引擎界面以任意顺序或分类罗列多个(一般都是数十个)搜索引擎,但元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制.
用户可通过这类元搜索引擎了解有关的搜索引擎、联入所选择的搜索引擎,但元搜索引擎没有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户,例如ALLINONE元搜索引擎(www.
albany.
net/allinone.
html).
这种ALL-IN-ONE方式的元搜索引擎确切地说只是搜索引擎的罗列,它们具有以下特点:(1)仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎.
(2)只能选择一个搜索引擎进行检索.
(3)对各独立搜索引擎检索界面的复制可能是部分的或全部的.
(4)直接利用所选搜索引擎的显示格式呈送给用户3.
3桌面元搜索引擎[8]以上各类元搜索引擎都是通过网上调用方式在线使用,还有另外一类元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元搜索引擎,称之为桌面元搜索引擎.
这些桌面元搜索引擎可从网络上下载,例如EchoSearch(www.
symantec.
com/iff/),Webcompass(http://www.
qdeck.
com/products/webcompass)、Webseeker(www.
ffg.
com/seeker/).
桌面元搜索引擎是一个包括多个成员搜索引擎的完整系统,它们往往允许用户自定义检索式运行的搜索引擎集合(例如一个或全部成员搜索引擎),甚至可由用户添加新的搜索引擎,例如EchoSearch和WebCompass.
这些桌面元搜索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能,例如用户定义结果排序方式、删除重复记录、确认链点的合法性等功能.
4.
实际元搜索引擎分析下面我们通过对三个著名的元搜索引擎的介绍来进一步分析元搜索引擎的特点.
4.
1.
MetaCrawlerMetaCrawler[9]由华盛顿大学的ErikSelberg等共同研制,1997年初被go2net收购,目前已发展成为一个优秀的多线索式搜索引擎.
它可同时调用6个搜索引擎并行检索,包括Lycos、Infoseek、WebCrawler、Excite、AltaVista和Yahoo!
.
它可使用简单检索和高级检索.
检索式中关键词间用空格分开,允许包括一个或多个短语(短语用""标志);词前加"+"号或"-"号表示结果中必须包括的词或禁止出现的词;圆括号中的词当作一个整体处理.
图形界面提供了相当于布尔操作AND、OR的选项和短语检索,检索范畴可限制在Web、新闻组、计算机产品或文件中.
MetaCrawler高级检索界面中还能定义等待检索的最大时间(5秒-2分钟)和从每个搜索引擎返回的最大结果数(10,20,30).
它能整体地集成查询结果,删除重复的URL,将将结果排序以统一的格式显示给用户.
而且,MetaCrawler具有自动核实功能,它将存储各个搜索引擎返回的结果并确认和删除死链.
4.
2.
SavvySearchSavvySearch[10]是一个并行检索的元搜索引擎,它可调用21个独立的搜索引擎,检索包括Web、Usenet新闻组、软件、参考工具、人、技术报告等信息.
每次最多可同时检索5个搜索引擎的数据库.
它根据历次检索获取有关统计数据,从而可依据搜索引擎对提问式的可能有用程度,将21个搜索引擎进行分组排序,以确定每次选择的5个搜索引擎.
SavvySearch提供布尔逻辑算法和词组检索:allqueryterm(AND),anyqueryterm(OR)和allquerytermasaphrase.
但不是所有的成员搜索引擎都能正确处理布尔操作符,结果可能不精确.
检索可在一定的资源类型中进行,如Web资源、人、或学术资料等.
在SavvySearch中用户可指定每个搜索引擎返回结果的数目,而且如果选择了"integrateresult"选项,系统将对结果集作删重处理.
检索结果包括发现资源的搜索引擎的名称、可链接的网页标题、URL、文件大小、相关程度和页面开始的十几个单词.
4.
3.
ProFusionProFusion[11]也是一个并行检索的搜索引擎,最多可同时调用9个独立的搜索引擎.
搜索引擎的调用方式分为:a.
系统自动选择最好的3个;b.
系统自动选择最快的3个;c.
全部调用;d.
用户从中选取任意个搜索引擎.
Profusion会按每个搜索引擎的语法分析查询,对于真正的布尔查询可以从下拉菜单中选择"Boolean",短语检索选择"phrase",检索范畴可选则Web或Usenet.
在检索式中可直接用圆括号()、AND(或&)、OR(或|)、NOT(!
)和NEAR(~),操作符必须大写,且操作符前后都要有空格.
Profusion能够综合搜索结果并为结果排序,但它不能显示每个结果来自哪个搜索引擎.
另外,它还提供个性化的结果页面.
在免费注册后,Profusion会为用户维护一个页面.
每周或每月重复运行查询,一旦发现变化就会发电子邮件通知该用户.
前几天看到网友反馈到PacificRack商家关于处理问题的工单速度慢,于是也有后台提交个工单问问,没有得到答复导致工单自动停止,不清楚商家最近在调整什么。而且看到有网友反馈到,PacificRack 商家的之前年付低价套餐全部下架,而且如果到期续费的话账单中的产品价格会涨价不少。所以,如果我们有需要续费产品的话,谨慎选择。1、特价产品下架我们看到他们的所有原来发布的特价方案均已下架。如果我们已有...
使用此源码可以生成QQ自动跳转到浏览器的短链接,无视QQ报毒,任意网址均可生成。新版特色:全新界面,网站背景图采用Bing随机壁纸支持生成多种短链接兼容电脑和手机页面生成网址记录功能,域名黑名单功能网站后台可管理数据安装说明:由于此版本增加了记录和黑名单功能,所以用到了数据库。安装方法为修改config.php里面的数据库信息,导入install.sql到数据库。...
数脉科技六月优惠促销发布了!数脉科技对香港自营机房的香港服务器进行超低价促销,可选择30M、50M、100Mbps的优质bgp网络。更大带宽可在选购时选择同样享受优惠,目前仅提供HKBGP、阿里云产品,香港CN2、产品优惠码续费有效,仅限新购,每个客户可使用于一个订单。新客户可以立减400元,或者选择对应的机器用相应的优惠码,有需要的朋友可以尝试一下。点击进入:数脉科技官方网站地址数脉科技是一家成...