元搜索引擎:原理与利用

搜索引擎9238  时间:2021-01-31  阅读:()

王芳张晓林(四川联合大学信息管理系,成都,610064)文摘:本文对元搜索引擎的基本结构和运行过程进行了分析,并结合实例介绍了元搜索引擎的类别与特点.

关键词:元搜索引擎,搜索引擎,桌面搜索引擎,信息检索Meta-SearchEngines:PrinciplesandApplicationsWangFang,ZhangXiaolin(DepartmentofLibraryandInformationScience,SichuanUnionUniversity,Chengdu,610064)Abstract:Thepapergivesananalysisofthebasicstructureandfunctionalprocessofmetasearchengines,anddescribeswithexamplesthecategoriesandcharacteristicsofthesenewsearchtools.
Keywords:Metasearchengines,Searchengines,Desktopsearchengines,informationretrieval1.
前言Internet/WWW的迅速发展带来丰富的和动态变化的网络化信息资源,同时也呼唤新的检索机制与能力.
搜索引擎技术应运而生,通过采集标引众多网络站点来提供全局性网络资源控制与检索机制,从而帮助用户方便地在网络中准确检索所需信息[1-3],著名的Yahoo!
、Infoseek、AltaVista、悠游(GoYoYo)等就是典型代表.
然而,当搜索引擎数量迅速增加、各自使用的检索方式日益复杂时,如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索引擎的"集成"资源与检索能力等就成为制约网络信息检索技术进一步优化和发展的重要问题.
正是面对这个挑战,检索工具开发者设计了元搜索引擎(Meta-SearchEngines),能够利用多个搜索引擎进行网络信息查询.
2.
元搜索引擎的基本结构与运行原理2.
1.
元搜索引擎的基本性质与结构所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作(Searchthesearchengines)[4-5],其基本结构如图1所示.
图1我们可将元搜索引擎看成具有双层C/S结构的系统,用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户.
当然,某些元搜索引擎具有略微不同的机制,我们将在下面讨论元搜索引擎实例时具体介绍.

2.
2.
搜索引擎和元搜索引擎的区别搜索引擎与元搜索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联结界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟逻辑整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作.
元搜索引擎中各独立搜索引擎被称为"成员搜索引擎",它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出.
不过,有些元搜索引擎给出的全局外部模式不够完善.

2.
3.
元搜索引擎的基本运行过程根据分布式数据库系统的原理,我们可以用图2初步描述元搜索引擎基本运行过程的概念模型[6]:图2根据该模型,元搜索引擎的主要功能有:(1)搜索引擎的选择:元搜索引擎一般允许用户选择合适的搜索引擎集合具体进行检索,选择方式包括选择一个搜索引擎、选择全部搜索引擎、选择满足一定条件的若干个搜索引擎(例如最快的或最好的三个).
有些元搜索引擎只能使用固定的搜索引擎集合.

(2)检索指令的转换:由于每个搜索引擎都有自己的查询语言,因此元搜索引擎需要将用户通过统一界面以统一形式输入的全局检索指令转换为各个成员搜索引擎的局部指令语言,这可利用"全局/局部指令字典"来实现.
但指令语言转换并不是异形指令的简单、机械互换,应做到:①对应指令的功能性质一致性;②对应指令的功能作用范围一致;③对应指令的逻辑结构和构成一致;④对应指令的逻辑结果一致.
全局指令既要准确地表达所有成员搜索引擎指令语言的共同特点和指令形式,又要能够以一定方式执行有关成员搜索引擎指令的特殊功能.
目前,指令转换尚有较多不足之处.

(3)局部结果转换和全局结果组织:从各搜索引擎返回的结果具有自己的数据格式,元搜索引擎需要依照用户要求或系统设置值将各个局部结果转换为全局结果要求的形式,并构成逻辑上统一的整体结果集合和格式呈交用户.
全局格式转换与检索指令转换一样,要在数据项数量、逻辑内容、名称、长度、位置等方面准确地表达所有成员搜索引擎局部格式的共同特点和要求,又要能根据全局模式的要求对数据进行处理,还要协调不同的局部格式可能存在的差异,对某些搜索引擎特有的信息段要适当处理,保证对每一个命中记录具有尽可能详细的描述资料.
元搜索引擎还应对全局结果进行剔重、排序等处理.

2.
4.
自动选择的实现方式前面提到,用户可选择满足一定条件的若干搜索引擎同时进行检索.
一般地,元搜索引擎将根据一定条件自动实施这种选择[7].

(1)"选择最好"模式:元搜索引擎可能采取以下方式来选择"最好"的搜索引擎,例如它可跟踪一定时期各类检索式检索成员搜索引擎的命中记录数的统计分布,根据该分布来确定相对于一定主题的"最好"搜索引擎.
或者,元搜索引擎可对成员搜索引擎的索引数据库进行某种方式的分类统计,建立类目与URL数量的对应关系,并据此确立"最好"的搜索引擎.
例如,Profusion和SavvySearch就提供了类似的功能.

(2)"选择最快"模式:元搜索引擎系统可能采取下列两种方式来选择"最快"的搜索引擎:A.
随机产生方式:元搜索引擎以并行方式将检索指令传送给若干搜索引擎,选择最先返回的几个(比如前三个)结果集并组织成全局结果集,忽略后面的其他结果集.
B.

先验式:检索工具研制者在大量测试数据基础上,制定相应的控制字典,明确标明某一类信息与搜索引擎检索速度的映射关系.
用户提交检索式后,元搜索引擎首先进行概念分析,确认它隶属的类别范畴,然后对照控制字典通过一定的算法选择最快的前几个搜索引擎.
该方式涉及的技术细节较多,包括词表的建立、维护,词表中用于速度测试的词汇的选定,对成员搜索引擎的定期速度测试等,都将对测试结果的可靠性产生较大影响.

3.
元搜索引擎的分类按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-one式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎.

3.
1多线索式元搜索引擎所谓多线索式元搜索引擎指利用唯一的、确定的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具.
如Metacrawler、Savvysearch、Profusion等都是属于多线索式元搜索引擎.
在理想状态下,这类元搜索引擎应具有以下特征:(1)统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制,但所有成员搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索.
(2)检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言,并自动地实现元搜索引擎指令与其成员搜索引擎指令的转换,用户使用同一指令语言检索不同的搜索引擎的索引数据库.

(3)统一结果集的组织与显示:元搜索引擎提供全局组织器,对各搜索引擎返回的结果进行处理以形成全局结果集,并以统一格式显示,主要涉及数据格式转换、剔重、统一排序等.

3.
2ALL-IN-ONE方式所谓ALL-IN-ONE方式是指元搜索引擎界面以任意顺序或分类罗列多个(一般都是数十个)搜索引擎,但元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制.
用户可通过这类元搜索引擎了解有关的搜索引擎、联入所选择的搜索引擎,但元搜索引擎没有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户,例如ALLINONE元搜索引擎(www.
albany.
net/allinone.
html).
这种ALL-IN-ONE方式的元搜索引擎确切地说只是搜索引擎的罗列,它们具有以下特点:(1)仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎.
(2)只能选择一个搜索引擎进行检索.
(3)对各独立搜索引擎检索界面的复制可能是部分的或全部的.
(4)直接利用所选搜索引擎的显示格式呈送给用户3.
3桌面元搜索引擎[8]以上各类元搜索引擎都是通过网上调用方式在线使用,还有另外一类元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元搜索引擎,称之为桌面元搜索引擎.
这些桌面元搜索引擎可从网络上下载,例如EchoSearch(www.
symantec.
com/iff/),Webcompass(http://www.
qdeck.
com/products/webcompass)、Webseeker(www.
ffg.
com/seeker/).
桌面元搜索引擎是一个包括多个成员搜索引擎的完整系统,它们往往允许用户自定义检索式运行的搜索引擎集合(例如一个或全部成员搜索引擎),甚至可由用户添加新的搜索引擎,例如EchoSearch和WebCompass.
这些桌面元搜索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能,例如用户定义结果排序方式、删除重复记录、确认链点的合法性等功能.

4.
实际元搜索引擎分析下面我们通过对三个著名的元搜索引擎的介绍来进一步分析元搜索引擎的特点.

4.
1.
MetaCrawlerMetaCrawler[9]由华盛顿大学的ErikSelberg等共同研制,1997年初被go2net收购,目前已发展成为一个优秀的多线索式搜索引擎.
它可同时调用6个搜索引擎并行检索,包括Lycos、Infoseek、WebCrawler、Excite、AltaVista和Yahoo!
.
它可使用简单检索和高级检索.
检索式中关键词间用空格分开,允许包括一个或多个短语(短语用""标志);词前加"+"号或"-"号表示结果中必须包括的词或禁止出现的词;圆括号中的词当作一个整体处理.
图形界面提供了相当于布尔操作AND、OR的选项和短语检索,检索范畴可限制在Web、新闻组、计算机产品或文件中.
MetaCrawler高级检索界面中还能定义等待检索的最大时间(5秒-2分钟)和从每个搜索引擎返回的最大结果数(10,20,30).
它能整体地集成查询结果,删除重复的URL,将将结果排序以统一的格式显示给用户.
而且,MetaCrawler具有自动核实功能,它将存储各个搜索引擎返回的结果并确认和删除死链.

4.
2.
SavvySearchSavvySearch[10]是一个并行检索的元搜索引擎,它可调用21个独立的搜索引擎,检索包括Web、Usenet新闻组、软件、参考工具、人、技术报告等信息.
每次最多可同时检索5个搜索引擎的数据库.
它根据历次检索获取有关统计数据,从而可依据搜索引擎对提问式的可能有用程度,将21个搜索引擎进行分组排序,以确定每次选择的5个搜索引擎.
SavvySearch提供布尔逻辑算法和词组检索:allqueryterm(AND),anyqueryterm(OR)和allquerytermasaphrase.
但不是所有的成员搜索引擎都能正确处理布尔操作符,结果可能不精确.
检索可在一定的资源类型中进行,如Web资源、人、或学术资料等.
在SavvySearch中用户可指定每个搜索引擎返回结果的数目,而且如果选择了"integrateresult"选项,系统将对结果集作删重处理.
检索结果包括发现资源的搜索引擎的名称、可链接的网页标题、URL、文件大小、相关程度和页面开始的十几个单词.

4.
3.
ProFusionProFusion[11]也是一个并行检索的搜索引擎,最多可同时调用9个独立的搜索引擎.
搜索引擎的调用方式分为:a.
系统自动选择最好的3个;b.
系统自动选择最快的3个;c.
全部调用;d.
用户从中选取任意个搜索引擎.
Profusion会按每个搜索引擎的语法分析查询,对于真正的布尔查询可以从下拉菜单中选择"Boolean",短语检索选择"phrase",检索范畴可选则Web或Usenet.
在检索式中可直接用圆括号()、AND(或&)、OR(或|)、NOT(!
)和NEAR(~),操作符必须大写,且操作符前后都要有空格.
Profusion能够综合搜索结果并为结果排序,但它不能显示每个结果来自哪个搜索引擎.
另外,它还提供个性化的结果页面.
在免费注册后,Profusion会为用户维护一个页面.
每周或每月重复运行查询,一旦发现变化就会发电子邮件通知该用户.

青果网络618:洛杉矶CN2 GIA/东京CN2套餐年付199元起,国内高防独服套餐66折

青果网络怎么样?青果网络隶属于泉州市青果网络科技有限公司,青果网络商家成立于2015年4月1日,拥有工信部颁发的全网IDC/ISP/IP-VPN资质,是国内为数不多具有IDC/ISP双资质的综合型云计算服务商。青果网络是APNIC和CNNIC地址分配联盟成员,泉州市互联网协会会员单位,信誉非常有保障。目前,青果网络商家正式开启了618云特惠活动,针对国内外机房都有相应的优惠。点击进入:青果网络官方...

TTcloud:日本独立服务器促销活动,价格$70/月起,季付送10Mbps带宽

ttcloud怎么样?ttcloud是一家海外服务器厂商,运营服务器已经有10年时间,公司注册地址在香港地区,业务范围包括服务器托管,机柜托管,独立服务器等在内的多种服务。我们后台工单支持英文和中文服务。TTcloud最近推出了新上架的日本独立服务器促销活动,价格 $70/月起,季付送10Mbps带宽。也可以跟进客户的需求进行各种DIY定制。点击进入:ttcloud官方网站地址TTcloud拥有自...

ZJI韩国BGP+CN2服务器,440元起

ZJI又上新了!商家是原Wordpress圈知名主机商:维翔主机,成立于2011年,2018年9月启用新域名ZJI,提供中国香港、台湾、日本、美国独立服务器(自营/数据中心直营)租用及VDS、虚拟主机空间、域名注册等业务。本次商家新上韩国BGP+CN2线路服务器,国内三网访问速度优秀,适用8折优惠码,优惠后韩国服务器最低每月440元起。韩国一型CPU:Intel 2×E5-2620 十二核二十四线...

搜索引擎9238为你推荐
软银赛富请问如何投资私募股权?在哪买?cf蜗牛外挂蜗牛透视如何使用骁龙750g和765g哪个好骁龙730G和骁龙835、联发科Helio G90T哪个更好?电热水器和燃气热水器哪个好电热水器和燃气热水器哪个好?轿车和suv哪个好SUV和轿车哪个好等额本息等额本金哪个好等额本金和等额本息哪个划算?如果想在5-10年内还清贷款哪类更划算一些?炒股软件哪个好炒股软件真的那么好用吗?dnf魔枪士转职哪个好dnf平民魔枪士转什么好qq空间登录不上为什么我登不进去QQ空间360云查杀360手机安全卫士的云查杀功能是否可靠?
免备案虚拟主机 jsp虚拟主机 花生壳域名贝锐 5折 香港vps99idc directspace 全球付 博客主机 godaddy优惠码 华为4核 台湾谷歌网址 gg广告 789电视 服务器是干什么的 电信虚拟主机 ca187 东莞服务器托管 中国linux 攻击服务器 asp空间 更多