网页网页地址

网页地址  时间:2021-04-18  阅读:()
应用技术-基于元搜索的网页消重方法研究0)12/3)45,3&6-"(78-"(9)"/!
)/6.
(:'3-')谢!
蕙!
秦!
杰!
(河南工业大学信息科学与工程学院河南郑州"#$$$%)摘!
要:本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提出一种基于元搜索的网页消重算法.
介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性.
关键词:消重特征码元搜索引擎网页元数据摘要相似度%!
引言随着网络技术的飞速发展,网络提供给人们的信息资源越来越多,要想在浩瀚的网络资源中查找到有用的信息,搜索引擎起到了重要作用.
但是现在的搜索引擎技术并不完善,存在一些亟待解决的问题,最主要的问题之一是存在大量的重复网页[%].
对用户而言,如果查询到的是重复信息,严重影响查询效率.
对互联网系统而言,如果采集到大量重复网页,既浪费信息检索时间又浪费存储空间.
网络机器人(&'()*+)采集互联网中的相关信息,采集信息的数量非常巨大,采集结果的处理,需要进行消重处理后,才能作为有效的信息.
若单单依靠人工进行去重处理,不仅耗费宝贵的人力资源,而且时效性也不能满足实际需要.
为了解决这些问题,网页消重成为搜索引擎所研究的一项重要技术.
,!
网页消重技术网页消重技术是指对内容重复的网页进行识别,处理和合并,以节省网页数据库的存储空间和在网页数据库上进行操作的时间的过程[,].
!
"#网页消重技术主要思想根据网页重复原因不同对应的判断网页是否重复的方法也有所不同,但是几乎所有的消重技术都基于这样一个基本思想[-]:根据一定的算法为每个文档计算出一组指纹(.
(/0*+'+(/1),若两个文档拥有一定数量的相同指纹,则认为这两个文档的内容重叠性较高,也即二者是重复网页.
对于234相同的网页,为了避免重复搜集同一234网页,主要使用排除相同234的方法:网络蜘蛛把访问过的网页地址变成信息指纹存放到哈希表中,在抓取新的网页时,把网页的地址解析成指纹,判断比较该指纹是否存在于哈希表中,若存在则表示已下载过,若不存在则下载且把这个指纹存放到该哈希表中.
当然这个算法要保证几乎不能产生相同的网址指纹.
针对内容相同的网页,当前比较成功的搜索引擎系统大多是基于关键词匹配和结合向量空间向量模型来完成消重任务的.
典型的系统包括56607*和天网系统[-].
通常这类系统的消重工作过程大致是:在对网络蜘蛛已抓取回来的网页进行分析时,首先对网页进行净化,提取出网页的主题以及与主题相关的内容,这些内容包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等信息,根据网页的关键词、摘要、正文等信息提取网页的特征项,构造评价函数,根据两个网页的特征项的相似度判断网页是否重复.
!
"!
现有主流网页消重技术[#]89:;算法计算出每篇文档中各个单词的词频,将文档用词频向量的方法表示出来,计算,个词频向量之间的距离,在一定的范围之内就判断为相似的文档.
/1=1(7@&1*+(/0)算法,首先将一篇文档分成由/个字组成的&A(/07*&,一篇文章就可以由/个&A(/07*&来表示,再按照一定的过滤规则将过滤出!
"计算机系统应用.
//0年第0期应用技术-的作为该篇文档的代表,参加比较的就是这些被选出来的算法是对.
/0算法的一种改进,它从过滤这方面着手,尽量过滤掉尽可能多的重复次数较多的北大的天网系统在搜集并分析一篇网页时,提取并记录了网页中出现的关键词,同时根据公式赋予每个关键词一个权值,这些关键词的权值构成一个向量空间,可以用来表示该网页.
并以关键词作为网页的特征项.
清华大学使用的提取方法是在文章中逗号,句号的前后各取1个汉字,作为字符串.
哈工大使用的方法是在文章中各个句号的前后各取2个汉字.
虽然提取汉字的方法不同,但是都是以标点作为文中的提取标记,这种方法效率较高,因为提取字符串是线性时间的,就是把一个3($1)时间复杂度的问题转变成了3($)时间复杂度的问题,不失为一种好方法.
!
"#现有网页消重技术的局限我们为网页消重算法设计的评价指标包括算法复杂度、查全率和准确率三个方面,其中查全率是指去重算法所发现的转载网页占总网页的百分比,而准确率反映了算法所发现的转载网页中有多少是真正的转载网页.
当前提出的网页消重算法还比较少,在这些算法中还存在着很多的局限.
/04*算法去重效率不高,要求存储空间较大;.
/0算法准确率不高,比较次数过多,效率下降;()*+,-"算法效率和准确率比较平均,占用硬盘空间大.
国内几种算法大都是对国外算法的沿用,在算法效率,准确率,时效性等方面都存在各种问题.
56一种基于元搜索引擎的网页消重方法该元搜索引擎模型,选择若干成员搜索引擎,针对用户的单个查询请求,调用成员搜索引擎的搜索结果,存储到数据库,经过相应的结果融合,再返回给用户.
不同搜索引擎的检索结果中会有一定程度的重复,为了使元搜索引擎获得用户满意的高质量的检索结果,必须尽量消除重复.
一般来说,会有以下几种情况:!
最简单的重复情况是结果具有相同的789,可以很容易的排除;"同一文档存在常见的别名,或者是同一文档被做了链接因而具有差异较大的别名;#同一文档具有不同的版本或拷贝,放在不同的位置,此时存放的主机也可能不相同,此种情况最难识别.
考虑到元搜索引擎的特殊性,可以充分利用成员搜索引擎提供的结果基本信息,如网页地址,网页标题,网页摘要等.
因此,该网页消重算法选择结果网页集合中每条记录的网页地址,网页标题,网页摘要作为判断网页重复性分析的依据.
算法具体设计方案如下:(:)网页元数据提取元搜索引擎模型调用源搜索引擎,得到搜索结果———结果网页记录集,直接提取网页集合中每条记录的标题,地址和摘要作为网页元数据.
(1)提取网页摘要特征串针对网页的摘要,用文本中分隔标记把文本分成若干句子,从句子中提取特征码,把特征码按顺序连接起来构成该文本的特征串.
(5)摘要相似度评价函数为了实现去重模块中判断摘要相似度功能,摘要相似因子设计如下:A$BC$.
其中是相似因子,A$是两个特征串中特征码相同的个数,C$是两个特征串的特征码的个数,相似因子的值即为相似度.
判断C$的值:如果两特征串含特征码的个数相等,则C$的值即特征串的特征码个数值;否则是两个特征串的特征码个数的较小值.
判断A$的值:比较特征码是否相同.
每有一组特征码相同,A$的值就加:.
设计系统阈值3;,若两个摘要的相似因子小于该阈值则该两个摘要重复,否则不重复.
(D)消重算法描述!
提取记录的网页元数据;判断网页地址是否重复.
如果地址相同,则重复,转$;否则,转";"判断网页标题是否重复.
如果标题相同,则转#;否则,转%;#依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,判断相似度,若相似度大于系统阈值3;:,则两条记录重复,否则,转&;%依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,若相似!
".
//0年第0期计算机系统应用应用技术-度大于系统阈值!
"#,则两条记录重复,否则,转!
;!
将提取出的特征码插入平衡搜索树中,并转";#结束.
$%实验验证采用以上介绍的算法,我们在元搜索引擎系统中对一批数量在&''—#''的网页集合进行处理,将实验结果与人工判别的结果进行比较,发现重复网页的准确率达到()!
以上.
在成员搜索引擎个数固定的情况下,我们对算法的响应时间做测试,测试结果如表&所示.
从实验结果可以看出,去重处理过程中的主要时间用于特征码的提取.
表&%算法去重处理时间网页数目(个)特征码提取时间(*)去重处理时间(*)%%当结果集合网页数目固定时,我们对算法执行时间与成员搜索引擎数目的关系做了测试.
测试结果如图&表明,选择适当的成员搜索引擎,权衡它们的数量和性能,才能充分发挥该算法的性能.
图&%算法性能与成员搜索引擎个数的关系-%结束语将该方法用于元搜索引擎系统中,能有效提高检索质量,返回给用户更为准确的结果.
经分析发现,这种算法的主要缺陷在于所提取的特征码信息只代表了这些标点周围的信息,未提供网页摘要的内容信息.
并且,算法的去重过程中主要时间用于特征码的提取.
所以下一步工作是重点改进特征码提取方法,提高特征码提取效率并且使特征码更能表现网页摘要的内容.
参考文献.
白广慧/网页排重技术研究与应用/中国科学院,0112/0陈基漓,牛秦洲/基于特征码的网页去重/微计算机信息,0112,00(3):.
.
34.
.
5/3吴平博,陈群秀,马亮/基于特征串的大规模中文网页快速去重算法研究/中文信息学报,0113,.
6(0):07435/89/9/A/B%CD>E,F/GHH$I($%*DGJ"#;$D>D$;*;HK$L$#>K,M%J"H;N,%CE/!
AOKPQORS,0116:5334588/5郑德全,胡熠,于浩,赵铁军,王青松/多载体数据流中的特定信息识别研究/软件学报,0113,.
8(T):.
5374.
583/29,*E);;A);,U/K)$V>W,L>%D>#/B$*&$*E%"#$(>D%&X%M(;##%(D$;*@/P*E@;H0111!
AOP*D%*>ID$;*>#A;*H%O>*>E%L%*D;HS>D>(KPQORS),O>C0111/6K)>;Y)$Z%,9$4[;*EF%*,F%$4Z$*EO>/!
@C@D%L>DI$(@D,&C;*">>L%D%D$E%4@(>#%&,I"#$(>D%&;(,L%*D&%D%(D$;*/\*;X#%&E%>*&P*H;L>D$;*KC@D%L@,0116,.
8:0.
64030/!
"计算机系统应用0117年第7期

ProfitServer折优惠西班牙vps,荷兰vps,德国vps,5折优惠,不限制流量

profitserver正在对德国vps(法兰克福)、西班牙vps(马德里)、荷兰vps(杜廷赫姆)这3处数据中心内的VPS进行5折优惠促销。所有VPS基于KVM虚拟,纯SSD阵列,自带一个IPv4,不限制流量,在后台支持自定义ISO文件,方便大家折腾!此外还有以下数据中心:俄罗斯(多机房)、捷克、保加利亚、立陶宛、新加坡、美国(洛杉矶、锡考克斯、迈阿密)、瑞士、波兰、乌克兰,VPS和前面的一样性...

Friendhosting四五折促销,VPS半年付7.5欧元起

Friendhosting发布了针对“系统管理日”(每年7月的最后一个星期五)的优惠活动,针对VPS主机提供55%的优惠(相当于四五折),支持1-6个月付款使用,首付折扣非永久,优惠后最低套餐首半年7.18欧元起。这是一家保加利亚主机商,成立于2009年4月,商家提供VDS和独立服务器租用等,数据中心目前可选美国洛杉矶、保加利亚、乌克兰、荷兰、拉脱维亚、捷克和波兰等8个地区机房。下面以最低套餐为例...

收到几个新商家投稿(HostMem,无忧云,青云互联,TTcloud,亚洲云端,趣米云),一起发布排名不分先后

7月份已经过去了一半,炎热的夏季已经来临了,主机圈也开始了大量的夏季促销攻势,近期收到一些商家投稿信息,提供欧美或者亚洲地区主机产品,价格优惠,这里做一个汇总,方便大家参考,排名不分先后,以邮件顺序,少部分因为促销具有一定的时效性,价格已经恢复故暂未列出。HostMem部落曾经分享过一次Hostmem的信息,这是一家提供动态云和经典云的国人VPS商家,其中动态云硬件按小时计费,流量按需使用;而经典...

网页地址为你推荐
互联网网易yeah空间文章空间的文章被人推荐有什么好处企业信息查询系统查企业信息哪个的软件好?的是cuteftpyixingjia合家欢是一种什么东西?大飞资讯单仁资讯集团怎么样宜人贷官网宜信信用贷款上征信吗腾讯公司电话腾讯公司总部电话多少温州商标注册温州商标注册?什么是seoseo标题和seo关键词是什么意思
域名服务器 万网域名管理 金万维动态域名 西安服务器 cve-2014-6271 ixwebhosting godaddy优惠券 12u机柜尺寸 全能主机 怎么测试下载速度 可外链网盘 世界测速 重庆双线服务器托管 搜索引擎提交入口 银盘服务是什么 监控服务器 贵阳电信测速 申请免费空间 免费网络空间 阵亡将士纪念日 更多