算法网页检测

网页检测  时间:2021-05-19  阅读:()
摘要随着互联网的发展,大量近似重复的文本广泛存在于现实世界中,如何检测这些近似重复的文本成为了一个研究的热点问题,这一技术在不同领域存在着很多应用:数字图书馆中相似内容的自动链接、数字知识产权保护(剽窃检测)、近似重复网页检测(搜索引擎优化)、数据去重、垃圾邮件检测等.
采用传统的哈希算法(SHA1、MD5等)只能鉴别完全相同的文档,不适用于存在细微修改的近似文档.
当前,近似重复检测的主要方法是生成文本指纹,通过计算文本间文本指纹的距离,衡量文本的相近程度.
本文在研究该领域的三种代表性算法(shingling、I-Match、simhash)的基础上,提出了融合这些算法优点的改进算法并进行了系统实现和验证,主要工作包括三个方面:(1).
提出了基于shingle特征的simhash算法.
Shingling算法以连续词串作为特征,有利于提高检测的准确率,但生成指纹集合、计算集合基于Jaccard相似度的距离,计算量大.
Simhash算法以指纹间的汉明距离度量相似性,计算量小,且指纹占用空间小.
但simhash算法以单词为特征,不能很好的表征文档的语义.
本文将shingles作为simhash算法的输入特征,以提高simhash算法的准确率.
(2).
提出了基于随机词典的多指纹simhash算法.
I-Match算法完全依赖单词的IDF值去除近似重复文本间的不同单词,检测的召回率很低.
基于随机词典的I-Match算法提出利用原始文档集的词典随机生成多个子词典,子词典分别过滤文档,生成多个I-Match指纹,以提高I-Match方法的稳定性.
对于同样是生成单指纹比对的simhash算法,本文引入基于随机词典的I-Match算法的提高召回率的方法,以提高simhash算法的召回率.
(3).
以"中美百万册数字图书馆"中的图书数据构建了一个近似重复文本检测数据集,对上述两种改进算法在该数据集上进行了的实验验证.
在最优参数、F-measure的度量上,基于shingle特征的simhash算法的0.
7469比原simhash算法的0.
6117提高了22%;融合算法的0.
8805比基于shingle特征的simhash算法的0.
7469提高了18%,比原始的simhash算法提高了43%.
实验表明两点改进思路对相应性能的提升都得到了验证,最终的融合算法比原始simhash算法在F-值度量上有较大提升.
本文认为,取得如此性能提升的主要原因是,依据三种经典算法的特点,进行了有针对性的融合,改进了simhash算法的特征选择策略和指纹生成策略,分别有利于simhash算法准确率和召回率的提升.
关键词:近似重复文本检测、网页去重、simhash算法DocumentfingerprintanditsapplicationinnearduplicatedocumentdetectionJunFanMicroelectronicsDirectedbyTieJunhuangWiththerapiddevelopmentoftheWorldWideWeb,disseminationreproducedorplagiarismother'sliteraturewithorwithoutmodificationhasbecomeveryeasy.
Thereareahugenumberofthesekindsofduplicateddocumentsintherealworld.
Howtodetectthesenearduplicatedocumentshasbecomeahotresearchtopic.
Thereisawiderangeofapplications.
Suchas:Automaticallylinkofduplicatedocumentinthedigitallibrary,protectionofintellectualproperty(orcalledplagiarismdetection),nearduplicatewebpagedetection(onekindofsearchengineoptimizationtechnique),datadeduplication,spamdetection.
TraditionalHashalgorithmslikeSHA1,MD5canonlydetectdocumentsexactlythesameornot.
Theycan'thandledocumentswithminormodifications.
Themainmethodinnearduplicatedocumentdetectionisgeneratingdocumentfingerprints,measurethesimilarityofdocumentsthroughthedistanceofthecorrespondingdocumentfingerprints.
Inthisarticle,wedescribedthethree"stateofart"algorithm(shingling,I-Match,simhash)indetail.
Wedidsomefusionbasedonthecharactersofeachclassofalgorithmsmentionedabove,implementedasystemandsomeexperiments.
Ourworksare:1.
Shinglingbasedsimhashalgorithm:theinputfeatureofshinglingalgorithmisk-shingles(wordsequencesoflengthk),itisbenefitfortheprecisionofdetection.
ButthemeasureofdistanceoffingerprintsisJaccardsimilarityofset,haveahighcomputationalcomplexity.
Thedistanceoffingerprintsinsimhashalgorithmishammingdistance;itislowincomputationalcomplexity,andsmallinspace.
Buttheinputfeatureofthesimhashalgorithmiswordsofthedocument;itcan'trepresentthedocumentwell.
Inthisarticle,weusethek-shingles(wordsequencesoflengthk)asthefeaturesofthesimhashalgorithmtoimproveprecisionofsimhashalgorithm.
2.
Multiplerandomlexiconsbasedsimhashalgorithm:theeffectivenessoftheI-MatchalgorithmisbasedonfilteringdifferentwordsinnearduplicatedocumentsbyIDFvaluesofthewordstotally.
Ithasalowrecall.
ThemultiplerandomlexiconsbasedI-MatchalgorithmfilterdocumentsbyrandomlycreatedlexiconsandgeneratemultiplefingerprintstoimprovethestabilityoftheI-Matchalgorithm.
Thismethodisapplicabletoothersingle-signaturebasedalgorithm,suchassimhash.
Wefilterdocumentsbyrandomlycreatedlexiconsandgeneratemultiplesimhashfingerprintstoimproverecall.
3.
Weconstructanearduplicatedocumentdetectdatasetbasedonthebooksinthe"China-USMillionBookDigitalLibraryProject".
Wetestedouralgorithmsinthissyntheticdataset.
Withthebestparameters'setandintheF-measure'sview,fromtheshinglingbasedsimhashalgorithmtothesimhashalgorithm,wegeta22%improvementfrom0.
7469to0.
6117.
Fromthefusionalgorithmtotheshinglingbasedsimhashalgorithm,wegetan18%improvementfrom0.
8805to0.
7469.
Ourfusionalgorithmgetsa43%improvementcomparedwiththesimhashalgorithmintotal.
Theexperimentresultprovestheefficiencyoftheabovetwoalgorithms.
ThefusedintegratedalgorithmperformsmuchbetterthantheoriginalsimhashalgorithmintheF-measure'sview.
Withsuchanimprovement,credittothetargetedfusionbasedonthecharactersofeachalgorithms.
Weimprovedthefeatureselectionstrategyandthefingerprintgenerationstrategyofthesimhashalgorithm,whichhelptoimproveprecisionandrecallcorrespondingly.
Keywords:nearduplicatedocumentdetection、nearduplicatewebpagedetection、simhashalgorithm

BuyVM老牌商家新增迈阿密机房 不限流量 月付2美元

我们很多老用户对于BuyVM商家还是相当熟悉的,也有翻看BuyVM相关的文章可以追溯到2014年的时候有介绍过,不过那时候介绍这个商家并不是很多,主要是因为这个商家很是刁钻。比如我们注册账户的信息是否完整,以及我们使用是否规范,甚至有其他各种问题导致我们是不能购买他们家机器的。以前你嚣张是很多人没有办法购买到其他商家的机器,那时候其他商家的机器不多。而如今,我们可选的商家比较多,你再也嚣张不起来。...

bgpto:独立服务器夏季促销,日本机器6.5折、新加坡7.5折,20M带宽,低至$93/月

bgp.to对日本机房、新加坡机房的独立服务器在搞特价促销,日本独立服务器低至6.5折优惠,新加坡独立服务器低至7.5折优惠,所有优惠都是循环的,终身不涨价。服务器不限制流量,支持升级带宽,免费支持Linux和Windows server中文版(还包括Windows 10). 特色:自动部署,无需人工干预,用户可以在后台自己重装系统、重启、关机等操作!官方网站:https://www.bgp.to...

Hosteons - 限时洛杉矶/达拉斯/纽约 免费升级至10G带宽 低至年$21

Hosteons,一家海外主机商成立于2018年,在之前还没有介绍和接触这个主机商,今天是有在LEB上看到有官方发送的活动主要是针对LEB的用户提供的洛杉矶、达拉斯和纽约三个机房的方案,最低年付21美元,其特点主要在于可以从1G带宽升级至10G,而且是免费的,是不是很吸引人?本来这次活动是仅仅在LEB留言提交账单ID才可以,这个感觉有点麻烦。不过看到老龚同学有拿到识别优惠码,于是就一并来分享给有需...

网页检测为你推荐
拼音输入法搜狗拼音输入法4contentgoogle设备ipadipad连不上wifi苹果ipad突然连不上网了,是怎么回事?网络是好的,手机能上网。iphone连不上wifi为什么苹果手机连不上wifi微信都发不出去?itunes备份如何用iTunes备份iPhonetcpip上的netbios禁用tcp/ip上的netbios对网络应用软件的正常运行有没有影响?win7telnet怎样在win7下打开telnet 命令micromediaMacromedia翻译成中文是什么?google分析google分析打不开了?
虚拟主机测评 域名备案信息查询 荷兰服务器 vpsio mach 网络星期一 网站监控 搜狗抢票助手 tk域名 typecho hnyd 河南移动网 免费申请个人网站 鲁诺 香港新世界中心 申请网页 中国电信宽带测速器 带宽租赁 smtp服务器地址 江苏徐州移动 更多