应用技术-基于元搜索的网页消重方法研究0)12/3)45,3&6-"(78-"(9)"/!
)/6.
(:'3-')谢!
蕙!
秦!
杰!
(河南工业大学信息科学与工程学院河南郑州"#$$$%)摘!
要:本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提出一种基于元搜索的网页消重算法.
介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性.
关键词:消重特征码元搜索引擎网页元数据摘要相似度%!
引言随着网络技术的飞速发展,网络提供给人们的信息资源越来越多,要想在浩瀚的网络资源中查找到有用的信息,搜索引擎起到了重要作用.
但是现在的搜索引擎技术并不完善,存在一些亟待解决的问题,最主要的问题之一是存在大量的重复网页[%].
对用户而言,如果查询到的是重复信息,严重影响查询效率.
对互联网系统而言,如果采集到大量重复网页,既浪费信息检索时间又浪费存储空间.
网络机器人(&'()*+)采集互联网中的相关信息,采集信息的数量非常巨大,采集结果的处理,需要进行消重处理后,才能作为有效的信息.
若单单依靠人工进行去重处理,不仅耗费宝贵的人力资源,而且时效性也不能满足实际需要.
为了解决这些问题,网页消重成为搜索引擎所研究的一项重要技术.
,!
网页消重技术网页消重技术是指对内容重复的网页进行识别,处理和合并,以节省网页数据库的存储空间和在网页数据库上进行操作的时间的过程[,].
!
"#网页消重技术主要思想根据网页重复原因不同对应的判断网页是否重复的方法也有所不同,但是几乎所有的消重技术都基于这样一个基本思想[-]:根据一定的算法为每个文档计算出一组指纹(.
(/0*+'+(/1),若两个文档拥有一定数量的相同指纹,则认为这两个文档的内容重叠性较高,也即二者是重复网页.
对于234相同的网页,为了避免重复搜集同一234网页,主要使用排除相同234的方法:网络蜘蛛把访问过的网页地址变成信息指纹存放到哈希表中,在抓取新的网页时,把网页的地址解析成指纹,判断比较该指纹是否存在于哈希表中,若存在则表示已下载过,若不存在则下载且把这个指纹存放到该哈希表中.
当然这个算法要保证几乎不能产生相同的网址指纹.
针对内容相同的网页,当前比较成功的搜索引擎系统大多是基于关键词匹配和结合向量空间向量模型来完成消重任务的.
典型的系统包括56607*和天网系统[-].
通常这类系统的消重工作过程大致是:在对网络蜘蛛已抓取回来的网页进行分析时,首先对网页进行净化,提取出网页的主题以及与主题相关的内容,这些内容包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等信息,根据网页的关键词、摘要、正文等信息提取网页的特征项,构造评价函数,根据两个网页的特征项的相似度判断网页是否重复.
!
"!
现有主流网页消重技术[#]89:;算法计算出每篇文档中各个单词的词频,将文档用词频向量的方法表示出来,计算,个词频向量之间的距离,在一定的范围之内就判断为相似的文档.
/1=1(7@&1*+(/0)算法,首先将一篇文档分成由/个字组成的&A(/07*&,一篇文章就可以由/个&A(/07*&来表示,再按照一定的过滤规则将过滤出!
"计算机系统应用.
//0年第0期应用技术-的作为该篇文档的代表,参加比较的就是这些被选出来的算法是对.
/0算法的一种改进,它从过滤这方面着手,尽量过滤掉尽可能多的重复次数较多的北大的天网系统在搜集并分析一篇网页时,提取并记录了网页中出现的关键词,同时根据公式赋予每个关键词一个权值,这些关键词的权值构成一个向量空间,可以用来表示该网页.
并以关键词作为网页的特征项.
清华大学使用的提取方法是在文章中逗号,句号的前后各取1个汉字,作为字符串.
哈工大使用的方法是在文章中各个句号的前后各取2个汉字.
虽然提取汉字的方法不同,但是都是以标点作为文中的提取标记,这种方法效率较高,因为提取字符串是线性时间的,就是把一个3($1)时间复杂度的问题转变成了3($)时间复杂度的问题,不失为一种好方法.
!
"#现有网页消重技术的局限我们为网页消重算法设计的评价指标包括算法复杂度、查全率和准确率三个方面,其中查全率是指去重算法所发现的转载网页占总网页的百分比,而准确率反映了算法所发现的转载网页中有多少是真正的转载网页.
当前提出的网页消重算法还比较少,在这些算法中还存在着很多的局限.
/04*算法去重效率不高,要求存储空间较大;.
/0算法准确率不高,比较次数过多,效率下降;()*+,-"算法效率和准确率比较平均,占用硬盘空间大.
国内几种算法大都是对国外算法的沿用,在算法效率,准确率,时效性等方面都存在各种问题.
56一种基于元搜索引擎的网页消重方法该元搜索引擎模型,选择若干成员搜索引擎,针对用户的单个查询请求,调用成员搜索引擎的搜索结果,存储到数据库,经过相应的结果融合,再返回给用户.
不同搜索引擎的检索结果中会有一定程度的重复,为了使元搜索引擎获得用户满意的高质量的检索结果,必须尽量消除重复.
一般来说,会有以下几种情况:!
最简单的重复情况是结果具有相同的789,可以很容易的排除;"同一文档存在常见的别名,或者是同一文档被做了链接因而具有差异较大的别名;#同一文档具有不同的版本或拷贝,放在不同的位置,此时存放的主机也可能不相同,此种情况最难识别.
考虑到元搜索引擎的特殊性,可以充分利用成员搜索引擎提供的结果基本信息,如网页地址,网页标题,网页摘要等.
因此,该网页消重算法选择结果网页集合中每条记录的网页地址,网页标题,网页摘要作为判断网页重复性分析的依据.
算法具体设计方案如下:(:)网页元数据提取元搜索引擎模型调用源搜索引擎,得到搜索结果———结果网页记录集,直接提取网页集合中每条记录的标题,地址和摘要作为网页元数据.
(1)提取网页摘要特征串针对网页的摘要,用文本中分隔标记把文本分成若干句子,从句子中提取特征码,把特征码按顺序连接起来构成该文本的特征串.
(5)摘要相似度评价函数为了实现去重模块中判断摘要相似度功能,摘要相似因子设计如下:A$BC$.
其中是相似因子,A$是两个特征串中特征码相同的个数,C$是两个特征串的特征码的个数,相似因子的值即为相似度.
判断C$的值:如果两特征串含特征码的个数相等,则C$的值即特征串的特征码个数值;否则是两个特征串的特征码个数的较小值.
判断A$的值:比较特征码是否相同.
每有一组特征码相同,A$的值就加:.
设计系统阈值3;,若两个摘要的相似因子小于该阈值则该两个摘要重复,否则不重复.
(D)消重算法描述!
提取记录的网页元数据;判断网页地址是否重复.
如果地址相同,则重复,转$;否则,转";"判断网页标题是否重复.
如果标题相同,则转#;否则,转%;#依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,判断相似度,若相似度大于系统阈值3;:,则两条记录重复,否则,转&;%依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,若相似!
".
//0年第0期计算机系统应用应用技术-度大于系统阈值!
"#,则两条记录重复,否则,转!
;!
将提取出的特征码插入平衡搜索树中,并转";#结束.
$%实验验证采用以上介绍的算法,我们在元搜索引擎系统中对一批数量在&''—#''的网页集合进行处理,将实验结果与人工判别的结果进行比较,发现重复网页的准确率达到()!
以上.
在成员搜索引擎个数固定的情况下,我们对算法的响应时间做测试,测试结果如表&所示.
从实验结果可以看出,去重处理过程中的主要时间用于特征码的提取.
表&%算法去重处理时间网页数目(个)特征码提取时间(*)去重处理时间(*)%%当结果集合网页数目固定时,我们对算法执行时间与成员搜索引擎数目的关系做了测试.
测试结果如图&表明,选择适当的成员搜索引擎,权衡它们的数量和性能,才能充分发挥该算法的性能.
图&%算法性能与成员搜索引擎个数的关系-%结束语将该方法用于元搜索引擎系统中,能有效提高检索质量,返回给用户更为准确的结果.
经分析发现,这种算法的主要缺陷在于所提取的特征码信息只代表了这些标点周围的信息,未提供网页摘要的内容信息.
并且,算法的去重过程中主要时间用于特征码的提取.
所以下一步工作是重点改进特征码提取方法,提高特征码提取效率并且使特征码更能表现网页摘要的内容.
参考文献.
白广慧/网页排重技术研究与应用/中国科学院,0112/0陈基漓,牛秦洲/基于特征码的网页去重/微计算机信息,0112,00(3):.
.
34.
.
5/3吴平博,陈群秀,马亮/基于特征串的大规模中文网页快速去重算法研究/中文信息学报,0113,.
6(0):07435/89/9/A/B%CD>E,F/GHH$I($%*DGJ"#;$D>D$;*;HK$L$#>K,M%J"H;N,%CE/!
AOKPQORS,0116:5334588/5郑德全,胡熠,于浩,赵铁军,王青松/多载体数据流中的特定信息识别研究/软件学报,0113,.
8(T):.
5374.
583/29,*E);;A);,U/K)$V>W,L>%D>#/B$*&$*E%"#$(>D%&X%M(;##%(D$;*@/P*E@;H0111!
AOP*D%*>ID$;*>#A;*H%O>*>E%L%*D;HS>D>(KPQORS),O>C0111/6K)>;Y)$Z%,9$4[;*EF%*,F%$4Z$*EO>/!
@C@D%L>DI$(@D,&C;*">>L%D%D$E%4@(>#%&,I"#$(>D%&;(,L%*D&%D%(D$;*/\*;X#%&E%>*&P*H;L>D$;*KC@D%L@,0116,.
8:0.
64030/!
"计算机系统应用0117年第7期
CloudCone针对中国农历新年推出了几款特别套餐, 其中2019年前注册的用户可以以13.5美元/年的价格购买一款1G内存特价套餐,以及另外提供了两款不限制注册时间的用户可购买年付套餐。CloudCone是Quadcone旗下成立于2017年的子品牌,提供VPS及独立服务器租用,也是较早提供按小时计费VPS的商家之一,支持使用PayPal或者支付宝等付款方式。下面列出几款特别套餐配置信息。CP...
很久没有分享PhotonVPS的消息,最近看到商家VPS主机套餐有一些更新所以分享下。这是一家成立于2008年的国外VPS服务商,Psychz机房旗下的站点,主要提供VPS和独立服务器等,数据中心包括美国洛杉矶、达拉斯、芝加哥、阿什本等。目前,商家针对Cloud VPS提供8折优惠码,优惠后最低2G内存套餐每月4美元起。下面列出几款主机配置信息。CPU:1core内存:2GB硬盘:30GB NVm...
Chia矿机,Spinservers怎么样?Spinservers好不好,Spinservers大硬盘服务器。Spinservers刚刚在美国圣何塞机房补货120台独立服务器,CPU都是双E5系列,64-512GB DDR4内存,超大SSD或NVMe存储,数量有限,机器都是预部署好的,下单即可上架,无需人工干预,有需要的朋友抓紧下单哦。Spinservers是Majestic Hosting So...
网页地址为你推荐
linesns支持ipadwordpresswordpress 到底是个什么东西?我要简单明了易懂的介绍。。苹果appstore宕机苹果appstore打不开怎么办企业建网站企业为什么要建网站中国企业信息网全国企业信息公示系统怎么查询企业信息波音737起飞爆胎美国737MAX又紧急迫降,为什么它还在飞?购物车(淘宝)为什么推荐购物车购买,是什么意思啊?curl扩展大神帮忙看下centos 7.2 系统 php7.0.12的 curl 扩展怎么开启,谢谢啦三五互联股票三五互联是干什么的?
广东服务器租用 安徽双线服务器租用 com域名价格 免费cn域名 ddos omnis idc评测网 360抢票助手 一元域名 合肥鹏博士 好看qq空间 php空间申请 七夕促销 789电视网 申请网页 备案空间 smtp服务器地址 西安主机 贵阳电信 atom处理器 更多