搜索引擎搜索引擎9238

搜索引擎9238  时间:2021-01-31  阅读:()

第6章Internet信息检索工具——搜索引擎6.
1搜索引擎的基本概念Internet是一个广阔的信息海洋,漫游其间而不迷失方向有时会是相当困难的.
如何快速准确地在网上找到需要的信息已变得越来越重要.
搜索引擎(SearchEngine)是一种网上信息检索工具,在浩瀚的网络资源中,它能帮助你迅速而全面地找到所需要的信息.

1.
搜索引擎的定义搜索引擎是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统.
它是一些在Web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务.
一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词.
当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接.
搜索引擎既是用于检索的软件又是提供查询、检索的网站.
所以,搜索引擎也可称为Internet上具有检索功能的网页.
搜索引擎也是目前Internet对信息资源进行组织的主要方式.
搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引.
由于不需要人们的介入,速度得以大大的提高.
其覆盖面和及时性也得以大大的提高.
Spider或Robot是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率.
它的运行方式为:从一个或一组RUL开始,访问该RUL所指HTML文件中所有的RUL锚链,然后再以这些新的RUL为起始点,继续进行本地索引,直到再也没有满足条件的新的RUL为止.
在记录新的RUL时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了.
搜索引擎的数据检索方式主要是关键字的匹配方式:如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等.
能为用户提供全文索引、约束性检索、基于布尔关系的查询方式,并对查询结果根据某种算法和规则评分和排序.
引擎系统虽然能在WWW信息资源范围内自动发现新的信息,对其所覆盖的资料进行自动更新,并根据检索规则和从其他服务器上得到的数据类型对进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,根据用户的请求返回相应的结果,但是由于系统需将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,资源消耗过大,增加被搜索结点的负担;又由于链路效率太低,对一些连接代价很大的获得索引,难免有不能及时加入的新WWW地址.
此外,由于各搜索引擎标引方式没有统一的规范,有的对网页全文进行索引,有的仅标引网页的标题、RUL、关键段落的前几个单词或文本的前100个词,生成关键词的技术也不一样,有的支持MetaTags,接受网页制作者自定义关键词和摘要,有的则不支持MetaTags,仅仅利用网页的前几行字作为摘要.
此外,搜索引擎大多采用自然语言标引和检索,没有受控词表,同义词和近义词得不到控制,词间的关系得不到揭示.
因此,搜索引擎的信息组织与标引缺乏控制,信息查询的命中率、准确率、查全率差强人意,往往是输入一个检索式,得到一大堆网页地址,但其中大部分是冗余信息.
2.
搜索引擎的主要任务各种搜索引擎的主要任务都包括以下三个方面:(1)信息搜集.
各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的"网页搜索软件",在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录.
由于网络文档的不断变化,机器人也不断地把以前已经分类组织的目录更新.
(2)信息处理.
将"网页搜索软件"带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容.
在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异.
有的搜索引擎把"网页搜索软件"发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词.
故有的搜索引擎数据库很大,而有的则较小.
当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展.
(3)信息查询.
每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径.
分类目录查询是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息.
关键词查询是利用建立的网络资源索引数据库向网上用户提供查询"引擎".
用户只要把想要查找的关键词或短语输入查询框中,并按"Search"按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式).
用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息.

Spinservers美国圣何塞服务器$111/月流量10TB

Spinservers是Majestic Hosting Solutions,LLC旗下站点,主营美国独立服务器租用和Hybrid Dedicated等,数据中心位于美国德克萨斯州达拉斯和加利福尼亚圣何塞机房。TheServerStore.com,自 1994 年以来,它是一家成熟的企业 IT 设备供应商,专门从事二手服务器和工作站业务,在德克萨斯州拥有 40,000 平方英尺的仓库,库存中始终有...

创梦网络-四川大带宽、镇江电信服务器云服务器低至56元

达州创梦网络怎么样,达州创梦网络公司位于四川省达州市,属于四川本地企业,资质齐全,IDC/ISP均有,从创梦网络这边租的服务器均可以备案,属于一手资源,高防机柜、大带宽、高防IP业务,一手整C IP段,四川电信,一手四川托管服务商,成都优化线路,机柜租用、服务器云服务器租用,适合建站做游戏,不须要在套CDN,全国访问快,直连省骨干,大网封UDP,无视UDP攻击,机房集群高达1.2TB,单机可提供1...

90IDC-香港云主机,美国服务器,日本KVM高性能云主机,创建高性能CLOUD只需60秒即可开通使用!

官方网站:点击访问90IDC官方网站优惠码:云八五折优惠劵:90IDCHK85,仅适用于香港CLOUD主机含特惠型。活动方案:年付特惠服务器:CPU均为Intel Xeon两颗,纯CN2永不混线,让您的网站更快一步。香港大浦CN2測速網址: http://194.105.63.191美国三网CN2測速網址: http://154.7.13.95香港购买地址:https://www.90idc.ne...

搜索引擎9238为你推荐
马云卸任软银董事马云个人资料天气预报哪个好用哪个最准确分小时的那种天气预报app,哪个准确方便使用等额本息等额本金哪个好到底是等额本息好还是等额本金好?英语词典哪个好英语词典哪种更好啊?英语词典哪个好什么英语词典好?手机浏览器哪个好用手机用哪个浏览器好一点网校哪个好初中网校哪个好?云盘哪个好免费的网盘哪个实用?51个人空间登录我在电脑上用的是Q号登录51个人空间,在手机上怎么却不能用Q号登录51个人空间了电信dns服务器地址广西电信应该填什么DNS服务器地址?
域名抢注 广东服务器租用 n点虚拟主机管理系统 罗马假日广场 日志分析软件 贵州电信宽带测速 css样式大全 标准机柜尺寸 嘉洲服务器 100m空间 ntfs格式分区 1g空间 免费高速空间 国外免费asp空间 爱奇艺会员免费试用 卡巴斯基是免费的吗 dnspod 东莞主机托管 腾讯网盘 攻击服务器 更多