超链接百度搜索引擎如何检测网站的黑链和垃圾链接

黑链接  时间:2021-01-31  阅读:()

百度搜索引擎如何检测网站的黑链和垃圾链接

登封招聘网http://www.so 82.c o m

黑链又称暗链、隐藏链接是黑帽手法中相当普遍的一种手段是指用非正常手段获取的其他网页的反向链接最常见的黑链就是通过各种网页程序漏洞获取搜索引擎权重或网页级别(PR)较高的网页的管理权限代码(Webshell)进而在被黑网页上链接自己的网页。该手段是搜索引擎中进行作弊最有效最迅速的方法之一在暴利行业使用尤多例如游戏、外挂、彩铃等业务的行业。现有的黑链检测方法主要包括以下几种:

其一、 网站管理人员通过经常查看网页源代码的方式检查网页是否被挂上黑链。其二、查看网页中的链接是否可访问如果存在未知链接则怀疑被挂上黑链删除该未知链接。其三、通过FTP工具查看网页文件的修改时间如果存在修改时间异于大多数文件修改时间的文件则该文件就可能被修改了文件源代码挂了黑链。上述几种黑链检测方法都需要大量的人工操作一方面浪费人力资源对网站管理人员的黑链知识提出较高要求无法实现黑链的自动检测;另一方面对于新出现的黑链作弊方式很难及时有效地发现。

百度搜素引擎提供了一种检测黑链的算法处理装置以便于实现黑链的自动检测。具体技术方案如下:

S1、提取待检测网页的超链接逐一对获取的超链接执行黑链检测流程.黑链检测流程包括:Al、判断超链接的视觉特征参数是否满足预设的不可见特征要求如果是,则确定该超链接为黑链。百度黑链检测算法的测试案例中在黑链检测流程的步骤Al中如果判断结果为否则进一步执行步骤A2;A2、判断该超链接的外链引用次数是否超过预设的次数阀值如果是则确定该超链接为黑链。

百度黑链检测算法的测试案例中如果所述A2的判断结果为否则将该超链接加入白名单数据库结束对该超链接的黑链检测流程。百度黑链检测算法的测试案例中在所述步骤Sl之前还包括:SO、将所述待检测网页的网址与已有的白名单数据库进行匹配如果匹配得上则确定所述待检测网页不存在黑链结束流程;否则继续执行所述步骤Slo百度黑链检测算法的测试案例中所述确定该超链接为黑链进一步包括:获取该超链接的网页内容特征;将获取的内容特征与已挖掘出的恶意特征数据库进行匹配如果匹配得上则确定该超链接为黑链。

百度黑链检测算法的测试案例中所述恶意特征数据库中存储有被识别为黑链的网页的关键词;所述将获取的内容特征与已挖掘出的恶意特征数据库进行匹配具体包括:将获取的该超链接的网页标题t it le或网页元信息l}Z eta与所述恶意特征数据库中存储的关键词进行匹配。

百度黑链检测算法的测试案例中在确定出该超链接为黑链后进一步包括:从该黑链的网页中进一步提取关键词将该关键词存储于恶意特征数据库。百度黑链检测算法的测试案例中在所述步骤Al中当所述视觉特征参数为颜色设置参数

时对应的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者当所述视觉特征参数为字体参数时对应的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数阀值;或者当所述视觉特征参数为关键字位置参数时对应的不可见特征要求为该超链接的关键字位置在所述待检测网页的可见范围之外;或者当所述视觉特征参数为链接展现参数时对应的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。

百度黑链检测算法的测试案例中所述恶意特征数据库存储有被确定为黑链的链接;该方法还包括:从网页库中获取超链接中包含了所述恶意特征数据库中链接的网页对该网页中的其他超链接逐一执行所述黑链检测流程并将检测出的黑链加入所述恶意特征数据库;或者从网页库中找出与所述恶意特征数据库中链接的网页相似度满足预设相似度要求的网页将找出的网页作为待检测网页转至步骤Sl处开始执行然后将检测出的黑链加入所述恶意特征数据库。一种检测黑链的装置 该装置包括:链接提取模块用于提取待检测网页的超链接并将提取的超链接逐一提供给检测模块;检测模块用于判断超链接的视觉特征参数是否满足预设的不可见特征要求如果是则将该超链接发送给黑链确定模块;黑链确定模块用于将接收到的超链接确定为黑链。

百度黑链检测算法的测试案例中该装置还包括:引用次数判断模块用于在所述检测模块的判断结果为否时判断该超链接的外链引用次数是否超过预设的次数阂值如果是则将该超链接发送给所述黑链确定模块。百度黑链检测算法的测试案例中该装置还包括:白名单维护模块用于在所述引用次数判断模块的判断结果为否时将该超链接加入白名单数据库。百度黑链检测算法的测试案例中该装置还包括:白名单判断模块用于将所述待检测网页的网址与已有白名单数据库进行匹配如果匹配得上则确定所述待检测网页不存在黑链;否则触发所述链接提取模块。百度黑链检测算法的测试案例中该装置还包括:恶意特征匹配模块用于获取发送给所述黑链确定模块的超链接获取该超链接的网页内容特征将获取的内容特征与已挖掘出的恶意特征数据库进行匹配如果匹配得上则将该超链接发送给所述黑链确定模块。百度黑链检测算法的测试案例中所述恶意特征数据库中存储有被识别为黑链的网页的关键词;所述恶意特征匹配模块在将获取的内容特征与已挖掘出的恶意特征数据库进行匹配时具体将获取的该超链接的网页标题title或网页元信息Meta与所述恶意特征数据库中存储的关键词进行匹配。

百度黑链检测算法的测试案例中该装置还包括:恶意特征库维护模块用于在所述黑链确定模块将该超链接确定黑链后从该黑链的网页中进一步提取关键词将该关键词存储于恶意特征数据库。百度黑链检测算法的测试案例中在所述检测模块中当所述视觉特征参数为颜色设置参数时采用的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者当所述视觉特征参数为字体参数时采用的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数I-7值;或者当所述视觉特征参数为关键字位置参数时采用的不可见特征要求为该超链接的关键字位置在所述待检测网页的可见范围之外;或者当所述视觉特征参数为链接展现参数时采用的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。百度黑链检测算法的测试案例中所述恶意特征数据库存储有被确定为黑链的链接;该装置还包括:恶意特征库挖掘模块用于从

网页库中获取超链接中包含了所述恶意特征数据库中链接的网页将该网页中的其他超链接逐一提供给所述检测模块并将所述黑链确定模块确定的黑链加入所述恶意特征数据库;或者从网页库中找出与所述恶意特征数据库中链接的网页相似度满足预设相似度要求的网页将找出的网页作为待检测网页提供给所述链接提取模块然后将所述黑链确定模块确定的黑链加入所述恶意特征数据库。

由以上技术方案可以看出百度黑链检测算法提供了一种自动实现黑链检测的方式无需手工操作不再受限于网站管理员对黑链知识的掌握 由于百度黑链检测算法基于黑链的基本行为特性 即不可见的视觉特征 因此即便是新出现的黑链只要满足该基本行为特性均能够及时有效地发现。

【附图说明】

图1为百度黑链检测算法实施例一提供的检测黑链的方法流程图;图2为百度黑链检测算法实施例二提供的对超链接的视觉特征参数进行检测的流程图;图3为百度黑链检测算法实施例四提供的检测黑链的装置结构图。

【具体实施方式】为了使百度黑链检测算法的目的、技术方案和优点更加清楚下面结合附图和具体实施例对百度黑链检测算法进行详细描述。

实施例一、 图1为百度黑链检测算法实施例一提供的检测黑链的方法流程图如图1所示该方法可以包括以下步骤:步骤101 :将待检测网页的网址与已有的白名单数据库进行匹配如果待检测网页存在于白名单数据库中则确定该待检测网页不存在黑链结束流程;否则执行步骤102。进行黑链检测时可以首先调用白名单数据库进行检测。在百度黑链检测算法实施例中可以预先将已经确认的没有被挂黑链的网页的url存储在白名单数据库中该白名单数据库可以是一个动态更新的数据库可以采用手工方式进行添加也可以在本实施例步骤104中确定某超链接安全时将该超链接加入白名单数据库。本步骤用于提高黑链的检测效率并不是百度黑链检测算法的必要步骤。步骤102:提取该待检测网页的超链接逐一对获取的超链接执行步骤103至步骤106。针对待检测网页进行黑链检测时 目的是为了检测该待检测网页中是否被挂上了黑链 因此提取其中所有的超链接逐一进行检测。步骤103:判断超链接的视觉特征参数是否满足预设的不可见特征要求如果是则确定该超链接为可疑链接执行步骤105;否则执行步骤1040经观察被挂的黑链通常都具有一些不可见特征 目的是为了不易被察觉这些特征通过链接的视觉特征参数体现这些视觉特征参数包括但不限于:颜色设置参数、字体参数、关键字位置参数、链接展现参数等中的一种或任意组合。当视觉特征参数为颜色设置参数时对应的不可见特征要求可以为该超链接的颜色设置参数与待检测网页背景颜色一致。当视觉特征参数为字体参数时其中字体参数可以为:字体大小和/或字体高度对应的不可见特征要求可以为该超链接的字体参数的值小于或等于预设字体参数阀值。例如字体大小小于1像素或者字体高度小于1像素等。当视觉特征参数为关键字位置参数时关键字位置参数可以通过d iv标签中的le ft和top参数体现对应的不可见特征要求可以为该超链接的关键字位置在待检测网页的可见范围之外。当视觉特征参数为链接展现参数时链接展现参数可以为滚动文字(marq u e e)

标签中的此时对应的不可见特征要求可以为该超链接以跑马灯形式闪现;链接展现参数还可以为显示属性(d isp la y)参数该参数可以是d iv标签中的、 do c ume nt.write中的或者javascript中的此时对应的不可见特征要求为该超链接不显示。具体检测将以实施例二为例进行描述。

步骤104:判断该超链接的外链引用次数是否超过预设的次数阀值如果是则确定该超链接为可疑链接执行步骤105;否则将该超链接加入白名单数据库结束对该超链接的判断流程。在通过步骤103所述的检测方式没有确定出可疑链接时还可以通过本步骤进行进一步的判断如果一个超链接被挂在其他网页上的次数即外链引用次数超过预设的次数阂值说明该超链接多次被挂在其他网页上这通常是不正常的现象例如多个视频或音频等网页上均挂了一个相同的卖药的超链接则该卖药的超链接很有可能就是黑链。其中预设的次数阀值通常采用经验值。优选地在判断出该超链接的外链引用次数没有超过预设的次数阀值时可以进一步存在一个审核的步骤待审核确认后可以将该超链接加入白名单从而避免误报。步骤105:获取该超链接的网页内容特征。在确定出可疑链接时为了提高检测准确性可以进一步对该超链接进行基于内容特征的检测。本步骤中获取的网页内容特征可以包括但不限于:网页标题(t it le)、 网页元信息((Metes)等。步骤106:将获取的内容特征与已挖掘出的恶意特征数据库进行匹配如果匹配得上则确定该超链接为黑链。

百度黑链检测算法实施例中恶意特征数据库的形成可以通过手工的方式预先设置也可以通过自动挖掘的方式形成。恶意特征数据库中至少存储有被识别为黑链的网页的关键词该关键词可以从网页title和/或Metes中提取关键词用于在黑链检测过程中将超链接的内容特征与恶意特征数据库进行匹配时使用即将从超链接的网页中提取的title或Metes与恶意特征数据库中的关键词进行匹配如果匹配得上则可以确认该超链接为黑链也就是说被检测网页存在黑链如果没有匹配上则可以确认该超链接为安全的链接。除此之外恶意特征数据库还可以存储有被识别为黑链的网页url用于进行恶意特征数据库的进一步挖掘该过程将在实施例三中详细描述。

在此从确定出的黑链的网页中进一步提取关键词将该关键词存入恶意特征数据库并将该黑链存入恶意特征数据库。在确定出黑链之后可以将黑链和挂黑链的网页(即待检测网页)进行上报。需要说明的是上述步骤105和步骤106可以是进一步的过程如果不需要足够高的准确度也可以直接将可疑链接确定为黑链。

实施例二、 图2为百度黑链检测算法实施例二提供的对超链接的视觉特征参数进行检测的流程图如图2所示该流程可以具体包括以下步骤:步骤201 :获取超链接的颜色设置参数。步骤202:判断该颜色设置参数是否与被检测网页的网页背景颜色设置一致如果是则确定该超链接为可疑链接;否则执行步骤2030如果超链接的颜色设置与其被挂在的网页背景颜色设置一致这种情况该超链接不易被察觉很有可能是黑链。这种黑链实现代码为:步骤203:获取该超链接的字体大小(fo nt-s ize)参数和字体高度(line-s ize)参数。本步骤是获取超链接的字体参数。步骤204:判断fo nt-s ize或line-s ize是否小于或等于1像素如果是则确定该超链接为可疑链接;否则执行步骤2050此处1像素是采用的一个经验值

如果超链接的链接文字大小小于或等于1像素则不易被察觉很有可能为黑链。这种黑链实现代码为:步骤203:获取该超链接的字体大小(fo nt-s ize)参数和字体高度(line-s ize)参数。本步骤是获取超链接的字体参数。步骤204:判断font-s ize或line-s ize是否小于或等于1像素如果是则确定该超链接为可疑链接;否则执行步骤2050此处1像素是采用的一个经验值 如果超链接的链接文字大小小于或等于1像素则不易被察觉很有可能为黑链。

算命最准的免费网站hsm http://www.zho uyibz.com

Sharktech:鲨鱼机房1Gbps无限流量美国服务器;丹佛$49/月起,洛杉矶$59/月起

sharktech怎么样?sharktech鲨鱼机房(Sharktech)我们也叫它SK机房,是一家成立于2003年的老牌国外主机商,提供的产品包括独立服务器租用、VPS主机等,自营机房在美国洛杉矶、丹佛、芝加哥和荷兰阿姆斯特丹等,主打高防产品,独立服务器免费提供60Gbps/48Mpps攻击防御。机房提供1-10Gbps带宽不限流量服务器,最低丹佛/荷兰机房每月49美元起,洛杉矶机房最低59美元...

spinservers($179/月),1Gbps不限流量服务器,双E5-2630Lv3/64GB/1.6T SSD/圣何塞机房

中秋节快到了,spinservers针对中国用户准备了几款圣何塞机房特别独立服务器,大家知道这家服务器都是高配,这次推出的机器除了配置高以外,默认1Gbps不限制流量,解除了常规机器10TB/月的流量限制,价格每月179美元起,机器自动化上架,一般30分钟内,有基本自助管理功能,带IPMI,支持安装Windows或者Linux操作系统。配置一 $179/月CPU:Dual Intel Xeon E...

美国VPS 美国高防VPS 香港VPS 日本VPS 首月9元 百纵科技

百纵科技湖南百纵科技有限公司是一家具有ISP ICP 电信增值许可证的正规公司,多年不断转型探索现已颇具规模,公司成立于2009年 通过多年经营积累目前已独具一格,公司主要经营香港服务器,香港站群服务器,美国高防服务器,美国站群服务器,云服务器,母机租用托管!美国CN2云服务器,美国VPS,美国高防云主机,美国独立服务器,美国站群服务器,美国母机。美国原生IP支持大批量订货 合作 适用电商 亚马逊...

黑链接为你推荐
软银支付软银支付可靠吗?天玑1000plus和骁龙865哪个好各位觉得联发科最新芯片天机1000靠谱吗?真的能打过麒麟990?华为p40和mate30哪个好荣耀30pro和华为p40对比。,哪个更值得入手?华为p40和mate30哪个好Huawei Mate30 和 P40 哪个好?手机音乐播放器哪个好手机音乐播放器什么的好?核芯显卡与独立显卡哪个好核芯显卡与独立显卡哪个好视频软件哪个好安卓系统在线看视频软件哪个好美国国际东西方大学美国新常春藤大学有哪些?qq空间登录器怎样直接登录QQ空间电信10000宽带测速怎样测试电信宽带的网速? 771212
好看的桌面背景大图 微信收钱 asp免费空间申请 双11秒杀 免费智能解析 移动服务器托管 789 什么是web服务器 腾讯数据库 深圳主机托管 hdsky 香港ip 美国vpn代理 e-mail cdn免备案空间 vim 挂马检测工具 海尔t68g qq部落24-5 租主机 更多