电子技术论文发表可以让网络工程师用来评职称,也可以作为学者之间的学术交流来使用.
本篇论文是选自计算机期刊《信息与电脑》上的一篇论文范文,全文如下,以供各位同行下载及参考.
【摘要】网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一,如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求是目前所面临的重要问题.
本文重点阐述了搜索引擎的WebSpider(网络蜘蛛)的搜索策略和搜索优化措施,提出了一种简单的基于广度优先算法的网络蜘蛛设计方案,并分析了设计过程中的优化措施.
【关键词】搜索引擎,网络蜘蛛,搜索策略0引言近年来,随着Internet技术的广泛应用,传统的通用搜索引擎,如Google、Fast、AltaVista和GoTo等正面临巨大的挑战.
挑战之一是Web信息资源呈指数级增长,搜索引擎无法索引所有页面.
据统计,目前Web上静态页面的数量超过40亿个,而且这一数量还在以平均每天730万个页面的速度递增.
在过去的几年中,尽管各种通用搜索引擎在索引技术、索引数量上有所提高,但远远无法跟上Web本身的增长速度,即使是目前全球最大的搜索引擎Google,其索引的页面数量仅占Web总量的40%;挑战之二是Web信息资源的动态变化,搜索引擎无法保证对信息的及时更新.
近年来的研究表明,Web上的页面平均50天就有约50%的页面发生变化,而目前通用搜索引擎更新的时间至少需要数星期之久;挑战之三是传统的搜索引擎提供的信息检索服务,不能满足人们日益增长的对个性化服务的需要.
因此如何设计网络蜘蛛(WebSpider)来更有效率的爬取互联网上的内容成为搜索引擎的一个首要问题.
在设计网络蜘蛛时,不仅需要充分考虑到爬取的效率和站点设置的灵活性还要确保系统的稳定性.
一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能.
本文在分析网络蜘蛛的工作原理的基础上,提出了一种基于广度优先搜索算法的网络蜘蛛的实现,并对提高网络蜘蛛搜索效率的相关看法.
由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数.
[2]例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层.
如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的.
这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到.
80vps怎么样?80vps最近新上了香港服务器、美国cn2服务器,以及香港/日本/韩国/美国多ip站群服务器。80vps之前推荐的都是VPS主机内容,其实80VPS也有独立服务器业务,分布在中国香港、欧美、韩国、日本、美国等地区,可选CN2或直连优化线路。如80VPS香港独立服务器最低月付420元,美国CN2 GIA独服月付650元起,中国香港、日本、韩国、美国洛杉矶多IP站群服务器750元/月...
稳爱云(www.wenaiyun.com)是创建于2021年的国人IDC商家,主要目前要出售香港VPS、香港独立服务器、美国高防VPS、美国CERA VPS 等目前在售VPS线路有三网CN2、CN2 GIA,该公司旗下产品均采用KVM虚拟化架构。机房采用业内口碑最好香港沙田机房,稳定,好用,数据安全。线路采用三网(电信,联通,移动)回程电信cn2、cn2 gia优质网络,延迟低,速度快。自行封装的...
ZJI本月新上线了香港葵湾机房站群服务器,提供4个C段238个IPv4,支持使用8折优惠码,优惠后最低每月1400元起。ZJI是原Wordpress圈知名主机商家:维翔主机,成立于2011年,2018年9月更名为ZJI,提供中国香港、台湾、日本、美国独立服务器(自营/数据中心直营)租用及VDS、虚拟主机空间、域名注册等业务,所选数据中心均为国内普遍访问速度不错的机房。葵湾二型(4C站群)CPU:I...