网页网页检测

网页检测  时间:2021-05-19  阅读:()
收稿日期:修返日期:基金项目:国家"&()"计划资助项目;国家"-')"计划资助项目;计算所知识创新科研课题资助项目改进的基于布尔模型的网页查重算法!
连/浩%,!
,刘/悦%,许洪波%,程学旗%(%0中国科学院计算技术研究所,北京%"""-";!
0中国科学院研究生院信息学院,北京%"""*&)摘/要:提出一种基于布尔模型的网页查重算法,利用布尔模型寻找适当的特征,建立索引以减少网页文档之间的比较次数.
实验验证了这种算法的性能,并取得了较好的效果.
关键词:网络;特征;布尔模型;相似网页中图法分类号:12)"%0'///文献标识码:.
///文章编号:(!
""()3456789:;29;@3;:;8:7AB.
6AC7:DE,9@;A%,+JNIOM4;$P7%01#)2).
3,+1&#($(4056(,3)*70&(#0($,8(&9&1!
!
+)22(5%&)#,;:56'5%(701))2,+1&59;@AA6;9BEAAA6;9BEA59;@9B476:45:A;$:Q;;B=;>59;@R.
B;5C;::VAA29;@!
/引言如今,网络中的数据呈现出爆炸式增长的趋势,以=;>为例,据可靠估计,其增长速度可以达到每六个月翻一番,!
""*年年底,最大的搜索引擎可以索引到的=;>网页的数目大概为-"亿X%""亿,这还只是=;>数据的一小部分.
微软曾作过一个试验,从网络中下载了%个网页,下载这些网页耗费了%%周的时间.
实验发现这些网页中有!
&0!
Y是相似网页,而且这些相似网页中还有!
!
0!
Y是完全重复的(一字不差);另外相似网页十分稳定地存在,一对相似的网页在%"个星期以后极有可能还是相似的网页.
从该实验可以看出,网络中存在大量的相似网页,它们降低了网页采集器的工作效率,浪费了一些数据挖掘工具的资源,使用户的工作效率下降,如何能够尽可能准确地去除这些重复的网页就是我们所面临的问题.
(/网页查重的起源早在!
"世纪("年代初,就有学者研究阻止大规模拷贝程序的技术和软件.
但是这只是用于复制检测,也就是剽窃检测,其目的在于知识产权的保护,Z::;B@:;7B在%&('年提出了基于属性计数法(.
::C7>4:;+A4B:7B)检测软件剽窃的方法.
但是,单纯的属性计数法抛弃了太多的程序结构信息,导致错误率太高.
[;C8A和=7@;[-]在%&&'年指出,对于仅仅使用属性计数法的检测算法,增加向量维数并不能降低错误率.
改进属性计数法的措施就是加入程序的结构信息,结合结构度量(\:C48:4C;F;:C78@),也称为控制流(+AB:CA6$S6AQ)来检测剽窃.
现在检测程序复制都是用各种方法综合属性计数和程序结构度量[%%X%)].
29C];C等人[%%]和+6A4D[%!
]分别对上述的各种程序复制检测方法作了详细的介绍和评述.
在二十年后,出现了自然语言的复制检测,这一部分就涉及到了网页查重技术.
%&&)年,.
C7^AB9大学的F9B>;C提出了一个\7S[']工具,用于在大规模文件系统中寻找内容相似的文件.
\7S工具提出了近似指纹(.
55CAT7E9:;W7B;C5C7B:@),就是用基于字符串匹配的方法来度量文件之间的相似性.
这个思路被后来很多的文本复制检测系统所采用.
%&&#年,\:9BSAC上探测文本复制的方法.
同期,贝尔实验室的J;7B:^;开发了_Z.
G.
[%']系统用于剽窃检测.
_Z.
G.
系统采用与\7S基本相同的方法,与之类似的方法还有,CA-,在!
@@:年提出的.
$&1将文章按!
个字一组分成一个&2%&!
,其中%是集合中文档的总数目,!
是这些文档中出现了&7,4对于重复的定义是:如果两篇文章之间有超过"DK的用词相同,而且长度相差不超过正负ADK,则这两篇文章就是重复的.
另外他认为现在对于网页查重的研究忽视了对正文部分结构差异的研究,他还试图将重复的网页按照正文部分的结构分成L*8-,;3,L54M>,43)>7,C79-,3)>7,F>8'9和%-N)09)>7五类.
L*8-,;3表示一对相似的网页正文部分第一段是完全一样的,而L54M>,43)>7则意味着正文的中间若干段是相似的.
O'2,H(>,Q>>25-)对于重复的定义就要简单得多:如果两篇文章之间有超过(个特征相同,则它们就是相似的.
由于1>7,4的定义需要明确找出两篇重复的网页中哪一篇是拷贝,所以在不考虑网页其他特征(如创建时间、站内链接关系等)的情况下,我们很难判断重复网页中哪一篇是拷贝,因此在利用布尔模型的查重算法中,对于重复的定义就是使用O'2/&,(随机取了其中的$!
%),硬件平台为@#&!
#AB,#C内存.
采取%值作为算法比较的依据:%7$D*D+((*:+),其中*为正确率,+为召回率.
对比算法为/0EF)0(特征的维数为$,)和基于标点符号的特征串算法.
实验结果如表%所示.
各算法的综合性能比较如图&所示.
6"实验分析由表%可以看到,C**5EG*(25与/0EF)0的%值相差不太大,效果稍微好一点,但是C**5EG*(25的速度几乎比/0EF)0快了&GHI3以上,效率比/0EF)0高一些.
这两种算法在扫描全文、提取特征和计算词频这部分是相同的,但是/0EF)0在文档两两比较时只是在判断全文长度时过滤了一次,而C**5EG*(25利用两篇文档之间不同的特征个数再过滤了一次,所以其文档两两之间的比较次数比/0EF)0少了很多,速度加快了一些.
基于标点符号的特征串算法只需要定位文章中标点符号的位置,无需扫描全文,但是它的代价是比较次数较多,随着语料集合的增加,比较的次数慢慢增多,速度也会逐渐下降,比较次数与语料大小成线性关系,这是该算法的主要瓶颈.
它的效果比C**5EG*(25和/0EF)0算法要差一些.
/0EF)0的正确率比C**5EG*(25稍高,如果将特征的维数取得更多,/0EF)0的正确率可以达到&,,J,但是效率会下降.
而C**5EG*(25就不存在这样的问题,如果需要提高正确率,只需要控制文档的二进制码异或后结果中为&的特征个数即可.
阈值改变了,但是文档之间的比较次数不会增加,所以效率不会下降太多.
基于标点符号的特征串算法只限于找到&,,J重复的文档(一字不差),所以有大量的重复文档它无法确定,其正确率为&,,J.
C**5EG*(25的召回率比/0EF)0稍高一些,由于C**5EG*(25判定重复的依据没有/0EF)0那么强势,所以它分辨KL/出来的重复文档肯定会比/0EF)0要多.
而且@4MN对于重复的定义原本就有缺陷:即使两篇文档有超过+个特征相同,在+不是文档特征总数的情况下,这两篇文档就不可能&,,J相似,所以使用C**5EG*(25必然会出现两篇文档被错误判断成重复的情况.
既然基于标点符号的特征串算法只能找到&,,J重复的文档,显然有大量稍作修改的重复文档它是无法确定的,这也是其召回率较低的原因.
微软的实验可以验证网络中的数据,虽然增长速度较快,但是不同的网页还是占了大部分,有;,J以上的网页是不同的.
如果能使用某种机制快速找出那些不同的网页,也就不需要两两计算文档之间的相似度了.
9"结论和展望本文提出了一种基于布尔模型的网页查重算法,利用布尔·]8;.
8$8]中文信息学报,ABBE,&C(A):AF#EG[E]鲍军鹏,沈钧毅,刘晓东,等自然语言文档复制检测研究综述[>]软件学报,ABBE,&H(&B):&CGE#&CIB[H]宋擒豹,沈钧毅数字商品非法复制和扩散的监测机制[>]计算机研究与发展,ABB&,EF(&):&A&#&AG[G]王建勇,谢正茂,雷鸣,等近似镜像网页检测算法的研究与评价[>]电子学报,ABBB,AF(增刊):&AD,&EB#&EA[I]@:8(4+J"38)38K93=35:+"354;38:L:+K4"35490;74=[,]M+.
#644)38K;.
9.
,V:+63:#@.
538:W,.
20%474673.
8@46-:83;=;1,.
=2*74+'5K.
+37-=;]$OOO!
+:8;:673.
8;.
8O)*6:73.
8,&DFD,EA(A):DH#DD[&A],5.
*K-MM5:K3:+3;=38P:7*+:5:8)M+.
K+:==38KL:8K*:K4;:'81U4+U34/487!
.
.
5;:8)!
46-8.
5.
K34;[Y]Y4;4:+6-@4=.
+:8#)::,9#BB#BG,%42:+7=487.
,V:+63:#@.
538:W,.
20%474673.
8@46-:83;=;:=34,:55:8P4:+#%*2536:74%474673.
8:=4;,53,53]1L]-772:6;:*6)X]^6;_]!
-4;3;],ABBB[G],9>48;48,Y98.
)K+:;;!
4=2.
+:5%:7:@:8:K4=487[,]$OOO!
S%O,&DDDEI#HH[I],-+3;73:89>48;48,Y36-:+)!
98.
)K+:;;,@36-:45%9.
.
!
-4!
9'LA%:7:@.
)45[>]1L]-772:6;:*6)X]^6;_]!
-4#;3;],ABBB[C]N:8KL*(:8K,!
:8K\.
8K,\*\:8K'T374=2.
+:5Y45:73.
8:5'5K4#(+:T:;4).
8T,%@[>]>.
*+8:5.
48;48,-+3;73:89,9:57483;93=.
8:L3K-7#N43K-7$8)4a38K.
.
-8!
-.
+87.
8,'()*59:77:+'P.
U45'22+.
:6-7.
@.
)45P.
/38!
4=2.
+:5%:7:(:;4;[,]!
-4&B7-$874+8:73.
8:590=#2.
;3*=.
8!
4=2.
+:5Y42+4;487:73.
8:8)Y4:;.
838K:8)7-4H7-$874+#8:73.
8:5,.
8]>.
*+8:5.
<9.
<7/:+4,&DDH,G(I):&E#&F[&E]N-:7:+4!
4=2.
+:5%:7:(:;4@:8:K4=48790;74=;[OT]1L]-7#72:73=46.
8;*576.
=],&DDF#BF#&G作者简介:王路帮(&DCH#),男,讲师,硕士,主要研究方向为数据库、知识库及Y.
*K-集理论等;汤庸(&DIH#),男,教授,博导,博士,主要研究方向为数据库、知识库与,9,N等.
·DE·第A期连b浩等:改进的基于布尔模型的网页查重算法bbb

Raksmart VPS主机如何设置取消自动续费

今天有看到Raksmart账户中有一台VPS主机即将到期,这台机器之前是用来测试评测使用的。这里有不打算续费,这不面对万一导致被自动续费忘记,所以我还是取消自动续费设置。如果我们也有类似的问题,这里就演示截图设置Raksmart取消自动续费。这里我们可以看到上图,在对应VPS主机的【其余操作】中可以看到默认已经是不自动续费,所以我们也不要担心被自动续费的。当然,如果有被自动续费,我们确实不想续费的...

青云互联19元/月,美国洛杉矶CN2GIA/香港安畅CN2云服务器低至;日本云主机

青云互联怎么样?青云互联美国洛杉矶cn2GIA云服务器低至19元/月起;香港安畅cn2云服务器低至19元/月起;日本cn2云主机低至35元/月起!青云互联是一家成立于2020年的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务。青云互联本站之前已经更新过很多相关文章介绍了,青云互联的机房有香港和洛杉矶,都有CN2 GIA线路、洛杉矶带高防,商家承诺试用7天,打死全额退款点击进入:青云互联...

妮妮云(119元/季)日本CN2 2核2G 30M 119元/季

妮妮云的知名度应该也不用多介绍了,妮妮云旗下的云产品提供商,相比起他家其他的产品,云产品还是非常良心的,经常出了一些优惠活动,前段时间的八折活动推出了很多优质产品,近期商家秒杀活动又上线了,秒杀产品比较全面,除了ECS和轻量云,还有一些免费空间、增值代购、云数据库等,如果你是刚入行安稳做站的朋友,可以先入手一个119/元季付的ECS来起步,非常稳定。官网地址:www.niniyun.com活动专区...

网页检测为你推荐
尊敬的浪潮英信服务器用户:generatingcsspreviouslybit图书馆学、情报学期刊投稿指南win7勒索病毒补丁我的电脑是windows7系统,为什么打不了针对勒索病毒的补丁(杀毒软件显chromeframechrome需要frame吗google分析怎样学会使用谷歌分析? 我自己想往网站分析走。google分析谷歌的Search Console 和 Google Analytics有何区别google统计怎样将Google分析转换成中文显示Google中文专题交流fastreport2.5护套线BV2.5中的2.5是指什么尺寸,单位是什么,BV又是什么意思?
泛域名 域名备案只选云聚达 fastdomain pw域名 视频存储服务器 美国便宜货网站 realvnc 500m空间 七夕快乐英文 怎样建立邮箱 seednet 网站卫士 服务器干什么用的 中国电信测速网 备案空间 114dns 美国迈阿密 登陆qq空间 空间申请 cdn服务 更多