搜索引擎搜索引擎9238

搜索引擎9238  时间:2021-01-31  阅读:()

第6章Internet信息检索工具——搜索引擎6.
1搜索引擎的基本概念Internet是一个广阔的信息海洋,漫游其间而不迷失方向有时会是相当困难的.
如何快速准确地在网上找到需要的信息已变得越来越重要.
搜索引擎(SearchEngine)是一种网上信息检索工具,在浩瀚的网络资源中,它能帮助你迅速而全面地找到所需要的信息.

1.
搜索引擎的定义搜索引擎是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统.
它是一些在Web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务.
一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词.
当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接.
搜索引擎既是用于检索的软件又是提供查询、检索的网站.
所以,搜索引擎也可称为Internet上具有检索功能的网页.
搜索引擎也是目前Internet对信息资源进行组织的主要方式.
搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引.
由于不需要人们的介入,速度得以大大的提高.
其覆盖面和及时性也得以大大的提高.
Spider或Robot是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率.
它的运行方式为:从一个或一组RUL开始,访问该RUL所指HTML文件中所有的RUL锚链,然后再以这些新的RUL为起始点,继续进行本地索引,直到再也没有满足条件的新的RUL为止.
在记录新的RUL时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了.
搜索引擎的数据检索方式主要是关键字的匹配方式:如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等.
能为用户提供全文索引、约束性检索、基于布尔关系的查询方式,并对查询结果根据某种算法和规则评分和排序.
引擎系统虽然能在WWW信息资源范围内自动发现新的信息,对其所覆盖的资料进行自动更新,并根据检索规则和从其他服务器上得到的数据类型对进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,根据用户的请求返回相应的结果,但是由于系统需将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,资源消耗过大,增加被搜索结点的负担;又由于链路效率太低,对一些连接代价很大的获得索引,难免有不能及时加入的新WWW地址.
此外,由于各搜索引擎标引方式没有统一的规范,有的对网页全文进行索引,有的仅标引网页的标题、RUL、关键段落的前几个单词或文本的前100个词,生成关键词的技术也不一样,有的支持MetaTags,接受网页制作者自定义关键词和摘要,有的则不支持MetaTags,仅仅利用网页的前几行字作为摘要.
此外,搜索引擎大多采用自然语言标引和检索,没有受控词表,同义词和近义词得不到控制,词间的关系得不到揭示.
因此,搜索引擎的信息组织与标引缺乏控制,信息查询的命中率、准确率、查全率差强人意,往往是输入一个检索式,得到一大堆网页地址,但其中大部分是冗余信息.
2.
搜索引擎的主要任务各种搜索引擎的主要任务都包括以下三个方面:(1)信息搜集.
各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的"网页搜索软件",在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录.
由于网络文档的不断变化,机器人也不断地把以前已经分类组织的目录更新.
(2)信息处理.
将"网页搜索软件"带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容.
在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异.
有的搜索引擎把"网页搜索软件"发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词.
故有的搜索引擎数据库很大,而有的则较小.
当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展.
(3)信息查询.
每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径.
分类目录查询是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息.
关键词查询是利用建立的网络资源索引数据库向网上用户提供查询"引擎".
用户只要把想要查找的关键词或短语输入查询框中,并按"Search"按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式).
用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息.

gcorelabs:CDN业务节点分布100多个国家地区,免费版提供1T/月流量

卢森堡商家gcorelabs是个全球数据中心集大成的运营者,不但提供超过32个数据中心的VPS、13个数据中心的cloud(云服务器)、超过44个数据中心的独立服务器,还提供超过100个数据中心节点的CDN业务。CDN的总带宽容量超过50Tbps,支持免费测试! Gcorelabs根据业务分,有2套后台,分别是: CDN、流媒体平台、DDoS高防业务、块存储、cloud云服务器、裸金属服务器...

2021年国内/国外便宜VPS主机/云服务器商家推荐整理

2021年各大云服务商竞争尤为激烈,因为云服务商家的竞争我们可以选择更加便宜的VPS或云服务器,这样成本更低,选择空间更大。但是,如果我们是建站用途或者是稳定项目的,不要太过于追求便宜VPS或便宜云服务器,更需要追求稳定和服务。不同的商家有不同的特点,而且任何商家和线路不可能一直稳定,我们需要做的就是定期观察和数据定期备份。下面,请跟云服务器网(yuntue.com)小编来看一下2021年国内/国...

HostYun(月18元),CN2直连香港大带宽VPS 50M带宽起

对于如今的云服务商的竞争着实很激烈,我们可以看到国内国外服务商的各种内卷,使得我们很多个人服务商压力还是比较大的。我们看到这几年的服务商变动还是比较大的,很多新服务商坚持不超过三个月,有的是多个品牌同步进行然后分别的跑路赚一波走人。对于我们用户来说,便宜的服务商固然可以试试,但是如果是不确定的,建议月付或者主力业务尽量的还是注意备份。HostYun 最近几个月还是比较活跃的,在前面也有多次介绍到商...

搜索引擎9238为你推荐
316不锈钢和304哪个好保温杯不锈钢316和304哪个好电脑杀毒软件哪个好电脑杀毒软件哪个好用帕萨特和迈腾哪个好迈腾与帕萨特那个好?华为p40和mate30哪个好华为p40手机。跟荣耀30哪个好?朗逸和速腾哪个好朗逸和新速腾哪个性能更好点?手机音乐播放器哪个好手机音乐播放器哪个好无纺布和熔喷布口罩哪个好无纺布除了做尿布湿口罩这些,还有其他什么用处吗?雅思和托福哪个好考托福好考还是雅思好考哇?看书软件哪个好读书软件哪个好电动牙刷哪个好电动牙刷和普通牙刷哪个好,有何区别?
中文域名注册 a5域名交易 dns是什么 kdata 12u机柜尺寸 轻量 华为4核 柚子舍官网 1g内存 最好的qq空间 申请免费空间和域名 cloudlink 宏讯 服务器维护 云服务器比较 iki 双线空间 免费网络空间 广东主机托管 大化网 更多