搜索引擎搜索引擎9238

搜索引擎9238  时间:2021-01-31  阅读:()

第6章Internet信息检索工具——搜索引擎6.
1搜索引擎的基本概念Internet是一个广阔的信息海洋,漫游其间而不迷失方向有时会是相当困难的.
如何快速准确地在网上找到需要的信息已变得越来越重要.
搜索引擎(SearchEngine)是一种网上信息检索工具,在浩瀚的网络资源中,它能帮助你迅速而全面地找到所需要的信息.

1.
搜索引擎的定义搜索引擎是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统.
它是一些在Web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务.
一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词.
当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接.
搜索引擎既是用于检索的软件又是提供查询、检索的网站.
所以,搜索引擎也可称为Internet上具有检索功能的网页.
搜索引擎也是目前Internet对信息资源进行组织的主要方式.
搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引.
由于不需要人们的介入,速度得以大大的提高.
其覆盖面和及时性也得以大大的提高.
Spider或Robot是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率.
它的运行方式为:从一个或一组RUL开始,访问该RUL所指HTML文件中所有的RUL锚链,然后再以这些新的RUL为起始点,继续进行本地索引,直到再也没有满足条件的新的RUL为止.
在记录新的RUL时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了.
搜索引擎的数据检索方式主要是关键字的匹配方式:如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等.
能为用户提供全文索引、约束性检索、基于布尔关系的查询方式,并对查询结果根据某种算法和规则评分和排序.
引擎系统虽然能在WWW信息资源范围内自动发现新的信息,对其所覆盖的资料进行自动更新,并根据检索规则和从其他服务器上得到的数据类型对进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,根据用户的请求返回相应的结果,但是由于系统需将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,资源消耗过大,增加被搜索结点的负担;又由于链路效率太低,对一些连接代价很大的获得索引,难免有不能及时加入的新WWW地址.
此外,由于各搜索引擎标引方式没有统一的规范,有的对网页全文进行索引,有的仅标引网页的标题、RUL、关键段落的前几个单词或文本的前100个词,生成关键词的技术也不一样,有的支持MetaTags,接受网页制作者自定义关键词和摘要,有的则不支持MetaTags,仅仅利用网页的前几行字作为摘要.
此外,搜索引擎大多采用自然语言标引和检索,没有受控词表,同义词和近义词得不到控制,词间的关系得不到揭示.
因此,搜索引擎的信息组织与标引缺乏控制,信息查询的命中率、准确率、查全率差强人意,往往是输入一个检索式,得到一大堆网页地址,但其中大部分是冗余信息.
2.
搜索引擎的主要任务各种搜索引擎的主要任务都包括以下三个方面:(1)信息搜集.
各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的"网页搜索软件",在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录.
由于网络文档的不断变化,机器人也不断地把以前已经分类组织的目录更新.
(2)信息处理.
将"网页搜索软件"带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容.
在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异.
有的搜索引擎把"网页搜索软件"发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词.
故有的搜索引擎数据库很大,而有的则较小.
当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展.
(3)信息查询.
每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径.
分类目录查询是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息.
关键词查询是利用建立的网络资源索引数据库向网上用户提供查询"引擎".
用户只要把想要查找的关键词或短语输入查询框中,并按"Search"按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式).
用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息.

Megalayer美国独立服务器新用户首月优惠350元(30M优化不限流量)

Megalayer 商家在开始看到有提供香港服务器、香港站群服务器的时候有介绍过,后来就一直没有怎么关注。但是前几天有看到网友使用到他们家的美国独立服务器问其如何的,但是我没有使用过就不好评论,这不前几天也有介绍到Megalayer美国独立服务器。以及我们也有看到商家有提供美国站群服务器和美国大带宽服务器产品,可选30M不限制流量CN2优化线路,以及100M不限制流量国际带宽线路。新年元旦后,Me...

Asiayun:枣庄电信Asiayun美国Cera葵湾VPSvps月付,美国CERA VPS月付26元/年

亚洲云Asiayun怎么样?亚洲云成立于2021年,隶属于上海玥悠悠云计算有限公司(Yyyisp),是一家新国人IDC商家,且正规持证IDC/ISP/CDN,商家主要提供数据中心基础服务、互联网业务解决方案,及专属服务器租用、云服务器、云虚拟主机、专属服务器托管、带宽租用等产品和服务。Asiayun提供源自大陆、香港、韩国和美国等地骨干级机房优质资源,包括BGP国际多线网络,CN2点对点直连带宽以...

ProfitServer$34.56/年,西班牙vps、荷兰vps、德国vps/不限制流量/支持自定义ISO

profitserver怎么样?profitserver是一家成立于2003的主机商家,是ITC控股的一个部门,主要经营的产品域名、SSL证书、虚拟主机、VPS和独立服务器,机房有俄罗斯、新加坡、荷兰、美国、保加利亚,VPS采用的是KVM虚拟架构,硬盘采用纯SSD,而且最大的优势是不限制流量,大公司运营,机器比较稳定,数据中心众多。此次ProfitServer正在对德国VPS(法兰克福)、西班牙v...

搜索引擎9238为你推荐
桌面背景图片淡雅高清桌面背景图片怎么搞月付百万的女人们既然男人大都觉得下体毛发多的女人比较性感..那为什么那些特殊职业的女人们大多把下体的毛脱掉呢..?涡轮增压和自然吸气哪个好自然吸气与涡轮增压发动机哪个更好帕萨特和迈腾哪个好2019帕萨特和迈腾哪个好?隔音怎么样?手动挡和自动挡哪个好自动挡手动挡哪个好?机械表和石英表哪个好石英表和机械表哪个好英语词典哪个好英语词典哪个好清理手机垃圾软件哪个好清理手机垃圾的软件哪个好牡丹江教育云空间登录云空间的账号密忘了可是那个上面有不有不让重新申请一个怎么办网页qq空间登录为什么我用网页登录QQ空间时,没有登录界面,直接进去一个QQ空间,请问是怎么回事?
wordpress主机 blackfriday 256m内存 java主机 http500内部服务器错误 好玩的桌面 英文站群 qingyun asp免费空间申请 赞助 1g空间 卡巴斯基免费试用 免费cdn Updog 789电视剧 移动服务器托管 服务器维护 广州虚拟主机 后门 cdn加速技术 更多