百度搜索引擎如何检测网站的黑链和垃圾链接
登封招聘网http://www.so 82.c o m
黑链又称暗链、隐藏链接是黑帽手法中相当普遍的一种手段是指用非正常手段获取的其他网页的反向链接最常见的黑链就是通过各种网页程序漏洞获取搜索引擎权重或网页级别(PR)较高的网页的管理权限代码(Webshell)进而在被黑网页上链接自己的网页。该手段是搜索引擎中进行作弊最有效最迅速的方法之一在暴利行业使用尤多例如游戏、外挂、彩铃等业务的行业。现有的黑链检测方法主要包括以下几种:
其一、 网站管理人员通过经常查看网页源代码的方式检查网页是否被挂上黑链。其二、查看网页中的链接是否可访问如果存在未知链接则怀疑被挂上黑链删除该未知链接。其三、通过FTP工具查看网页文件的修改时间如果存在修改时间异于大多数文件修改时间的文件则该文件就可能被修改了文件源代码挂了黑链。上述几种黑链检测方法都需要大量的人工操作一方面浪费人力资源对网站管理人员的黑链知识提出较高要求无法实现黑链的自动检测;另一方面对于新出现的黑链作弊方式很难及时有效地发现。
百度搜素引擎提供了一种检测黑链的算法处理装置以便于实现黑链的自动检测。具体技术方案如下:
S1、提取待检测网页的超链接逐一对获取的超链接执行黑链检测流程.黑链检测流程包括:Al、判断超链接的视觉特征参数是否满足预设的不可见特征要求如果是,则确定该超链接为黑链。百度黑链检测算法的测试案例中在黑链检测流程的步骤Al中如果判断结果为否则进一步执行步骤A2;A2、判断该超链接的外链引用次数是否超过预设的次数阀值如果是则确定该超链接为黑链。
百度黑链检测算法的测试案例中如果所述A2的判断结果为否则将该超链接加入白名单数据库结束对该超链接的黑链检测流程。百度黑链检测算法的测试案例中在所述步骤Sl之前还包括:SO、将所述待检测网页的网址与已有的白名单数据库进行匹配如果匹配得上则确定所述待检测网页不存在黑链结束流程;否则继续执行所述步骤Slo百度黑链检测算法的测试案例中所述确定该超链接为黑链进一步包括:获取该超链接的网页内容特征;将获取的内容特征与已挖掘出的恶意特征数据库进行匹配如果匹配得上则确定该超链接为黑链。
百度黑链检测算法的测试案例中所述恶意特征数据库中存储有被识别为黑链的网页的关键词;所述将获取的内容特征与已挖掘出的恶意特征数据库进行匹配具体包括:将获取的该超链接的网页标题t it le或网页元信息l}Z eta与所述恶意特征数据库中存储的关键词进行匹配。
百度黑链检测算法的测试案例中在确定出该超链接为黑链后进一步包括:从该黑链的网页中进一步提取关键词将该关键词存储于恶意特征数据库。百度黑链检测算法的测试案例中在所述步骤Al中当所述视觉特征参数为颜色设置参数
时对应的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者当所述视觉特征参数为字体参数时对应的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数阀值;或者当所述视觉特征参数为关键字位置参数时对应的不可见特征要求为该超链接的关键字位置在所述待检测网页的可见范围之外;或者当所述视觉特征参数为链接展现参数时对应的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。
百度黑链检测算法的测试案例中所述恶意特征数据库存储有被确定为黑链的链接;该方法还包括:从网页库中获取超链接中包含了所述恶意特征数据库中链接的网页对该网页中的其他超链接逐一执行所述黑链检测流程并将检测出的黑链加入所述恶意特征数据库;或者从网页库中找出与所述恶意特征数据库中链接的网页相似度满足预设相似度要求的网页将找出的网页作为待检测网页转至步骤Sl处开始执行然后将检测出的黑链加入所述恶意特征数据库。一种检测黑链的装置 该装置包括:链接提取模块用于提取待检测网页的超链接并将提取的超链接逐一提供给检测模块;检测模块用于判断超链接的视觉特征参数是否满足预设的不可见特征要求如果是则将该超链接发送给黑链确定模块;黑链确定模块用于将接收到的超链接确定为黑链。
百度黑链检测算法的测试案例中该装置还包括:引用次数判断模块用于在所述检测模块的判断结果为否时判断该超链接的外链引用次数是否超过预设的次数阂值如果是则将该超链接发送给所述黑链确定模块。百度黑链检测算法的测试案例中该装置还包括:白名单维护模块用于在所述引用次数判断模块的判断结果为否时将该超链接加入白名单数据库。百度黑链检测算法的测试案例中该装置还包括:白名单判断模块用于将所述待检测网页的网址与已有白名单数据库进行匹配如果匹配得上则确定所述待检测网页不存在黑链;否则触发所述链接提取模块。百度黑链检测算法的测试案例中该装置还包括:恶意特征匹配模块用于获取发送给所述黑链确定模块的超链接获取该超链接的网页内容特征将获取的内容特征与已挖掘出的恶意特征数据库进行匹配如果匹配得上则将该超链接发送给所述黑链确定模块。百度黑链检测算法的测试案例中所述恶意特征数据库中存储有被识别为黑链的网页的关键词;所述恶意特征匹配模块在将获取的内容特征与已挖掘出的恶意特征数据库进行匹配时具体将获取的该超链接的网页标题title或网页元信息Meta与所述恶意特征数据库中存储的关键词进行匹配。
百度黑链检测算法的测试案例中该装置还包括:恶意特征库维护模块用于在所述黑链确定模块将该超链接确定黑链后从该黑链的网页中进一步提取关键词将该关键词存储于恶意特征数据库。百度黑链检测算法的测试案例中在所述检测模块中当所述视觉特征参数为颜色设置参数时采用的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者当所述视觉特征参数为字体参数时采用的不可见特征要求为该超链接的字体参数的值小于或等于预设的字体参数I-7值;或者当所述视觉特征参数为关键字位置参数时采用的不可见特征要求为该超链接的关键字位置在所述待检测网页的可见范围之外;或者当所述视觉特征参数为链接展现参数时采用的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。百度黑链检测算法的测试案例中所述恶意特征数据库存储有被确定为黑链的链接;该装置还包括:恶意特征库挖掘模块用于从
网页库中获取超链接中包含了所述恶意特征数据库中链接的网页将该网页中的其他超链接逐一提供给所述检测模块并将所述黑链确定模块确定的黑链加入所述恶意特征数据库;或者从网页库中找出与所述恶意特征数据库中链接的网页相似度满足预设相似度要求的网页将找出的网页作为待检测网页提供给所述链接提取模块然后将所述黑链确定模块确定的黑链加入所述恶意特征数据库。
由以上技术方案可以看出百度黑链检测算法提供了一种自动实现黑链检测的方式无需手工操作不再受限于网站管理员对黑链知识的掌握 由于百度黑链检测算法基于黑链的基本行为特性 即不可见的视觉特征 因此即便是新出现的黑链只要满足该基本行为特性均能够及时有效地发现。
【附图说明】
图1为百度黑链检测算法实施例一提供的检测黑链的方法流程图;图2为百度黑链检测算法实施例二提供的对超链接的视觉特征参数进行检测的流程图;图3为百度黑链检测算法实施例四提供的检测黑链的装置结构图。
【具体实施方式】为了使百度黑链检测算法的目的、技术方案和优点更加清楚下面结合附图和具体实施例对百度黑链检测算法进行详细描述。
实施例一、 图1为百度黑链检测算法实施例一提供的检测黑链的方法流程图如图1所示该方法可以包括以下步骤:步骤101 :将待检测网页的网址与已有的白名单数据库进行匹配如果待检测网页存在于白名单数据库中则确定该待检测网页不存在黑链结束流程;否则执行步骤102。进行黑链检测时可以首先调用白名单数据库进行检测。在百度黑链检测算法实施例中可以预先将已经确认的没有被挂黑链的网页的url存储在白名单数据库中该白名单数据库可以是一个动态更新的数据库可以采用手工方式进行添加也可以在本实施例步骤104中确定某超链接安全时将该超链接加入白名单数据库。本步骤用于提高黑链的检测效率并不是百度黑链检测算法的必要步骤。步骤102:提取该待检测网页的超链接逐一对获取的超链接执行步骤103至步骤106。针对待检测网页进行黑链检测时 目的是为了检测该待检测网页中是否被挂上了黑链 因此提取其中所有的超链接逐一进行检测。步骤103:判断超链接的视觉特征参数是否满足预设的不可见特征要求如果是则确定该超链接为可疑链接执行步骤105;否则执行步骤1040经观察被挂的黑链通常都具有一些不可见特征 目的是为了不易被察觉这些特征通过链接的视觉特征参数体现这些视觉特征参数包括但不限于:颜色设置参数、字体参数、关键字位置参数、链接展现参数等中的一种或任意组合。当视觉特征参数为颜色设置参数时对应的不可见特征要求可以为该超链接的颜色设置参数与待检测网页背景颜色一致。当视觉特征参数为字体参数时其中字体参数可以为:字体大小和/或字体高度对应的不可见特征要求可以为该超链接的字体参数的值小于或等于预设字体参数阀值。例如字体大小小于1像素或者字体高度小于1像素等。当视觉特征参数为关键字位置参数时关键字位置参数可以通过d iv标签中的le ft和top参数体现对应的不可见特征要求可以为该超链接的关键字位置在待检测网页的可见范围之外。当视觉特征参数为链接展现参数时链接展现参数可以为滚动文字(marq u e e)
标签中的此时对应的不可见特征要求可以为该超链接以跑马灯形式闪现;链接展现参数还可以为显示属性(d isp la y)参数该参数可以是d iv标签中的、 do c ume nt.write中的或者javascript中的此时对应的不可见特征要求为该超链接不显示。具体检测将以实施例二为例进行描述。
步骤104:判断该超链接的外链引用次数是否超过预设的次数阀值如果是则确定该超链接为可疑链接执行步骤105;否则将该超链接加入白名单数据库结束对该超链接的判断流程。在通过步骤103所述的检测方式没有确定出可疑链接时还可以通过本步骤进行进一步的判断如果一个超链接被挂在其他网页上的次数即外链引用次数超过预设的次数阂值说明该超链接多次被挂在其他网页上这通常是不正常的现象例如多个视频或音频等网页上均挂了一个相同的卖药的超链接则该卖药的超链接很有可能就是黑链。其中预设的次数阀值通常采用经验值。优选地在判断出该超链接的外链引用次数没有超过预设的次数阀值时可以进一步存在一个审核的步骤待审核确认后可以将该超链接加入白名单从而避免误报。步骤105:获取该超链接的网页内容特征。在确定出可疑链接时为了提高检测准确性可以进一步对该超链接进行基于内容特征的检测。本步骤中获取的网页内容特征可以包括但不限于:网页标题(t it le)、 网页元信息((Metes)等。步骤106:将获取的内容特征与已挖掘出的恶意特征数据库进行匹配如果匹配得上则确定该超链接为黑链。
百度黑链检测算法实施例中恶意特征数据库的形成可以通过手工的方式预先设置也可以通过自动挖掘的方式形成。恶意特征数据库中至少存储有被识别为黑链的网页的关键词该关键词可以从网页title和/或Metes中提取关键词用于在黑链检测过程中将超链接的内容特征与恶意特征数据库进行匹配时使用即将从超链接的网页中提取的title或Metes与恶意特征数据库中的关键词进行匹配如果匹配得上则可以确认该超链接为黑链也就是说被检测网页存在黑链如果没有匹配上则可以确认该超链接为安全的链接。除此之外恶意特征数据库还可以存储有被识别为黑链的网页url用于进行恶意特征数据库的进一步挖掘该过程将在实施例三中详细描述。
在此从确定出的黑链的网页中进一步提取关键词将该关键词存入恶意特征数据库并将该黑链存入恶意特征数据库。在确定出黑链之后可以将黑链和挂黑链的网页(即待检测网页)进行上报。需要说明的是上述步骤105和步骤106可以是进一步的过程如果不需要足够高的准确度也可以直接将可疑链接确定为黑链。
实施例二、 图2为百度黑链检测算法实施例二提供的对超链接的视觉特征参数进行检测的流程图如图2所示该流程可以具体包括以下步骤:步骤201 :获取超链接的颜色设置参数。步骤202:判断该颜色设置参数是否与被检测网页的网页背景颜色设置一致如果是则确定该超链接为可疑链接;否则执行步骤2030如果超链接的颜色设置与其被挂在的网页背景颜色设置一致这种情况该超链接不易被察觉很有可能是黑链。这种黑链实现代码为:步骤203:获取该超链接的字体大小(fo nt-s ize)参数和字体高度(line-s ize)参数。本步骤是获取超链接的字体参数。步骤204:判断fo nt-s ize或line-s ize是否小于或等于1像素如果是则确定该超链接为可疑链接;否则执行步骤2050此处1像素是采用的一个经验值
如果超链接的链接文字大小小于或等于1像素则不易被察觉很有可能为黑链。这种黑链实现代码为:步骤203:获取该超链接的字体大小(fo nt-s ize)参数和字体高度(line-s ize)参数。本步骤是获取超链接的字体参数。步骤204:判断font-s ize或line-s ize是否小于或等于1像素如果是则确定该超链接为可疑链接;否则执行步骤2050此处1像素是采用的一个经验值 如果超链接的链接文字大小小于或等于1像素则不易被察觉很有可能为黑链。
算命最准的免费网站hsm http://www.zho uyibz.com
sharktech怎么样?sharktech鲨鱼机房(Sharktech)我们也叫它SK机房,是一家成立于2003年的老牌国外主机商,提供的产品包括独立服务器租用、VPS主机等,自营机房在美国洛杉矶、丹佛、芝加哥和荷兰阿姆斯特丹等,主打高防产品,独立服务器免费提供60Gbps/48Mpps攻击防御。机房提供1-10Gbps带宽不限流量服务器,最低丹佛/荷兰机房每月49美元起,洛杉矶机房最低59美元...
中秋节快到了,spinservers针对中国用户准备了几款圣何塞机房特别独立服务器,大家知道这家服务器都是高配,这次推出的机器除了配置高以外,默认1Gbps不限制流量,解除了常规机器10TB/月的流量限制,价格每月179美元起,机器自动化上架,一般30分钟内,有基本自助管理功能,带IPMI,支持安装Windows或者Linux操作系统。配置一 $179/月CPU:Dual Intel Xeon E...
百纵科技湖南百纵科技有限公司是一家具有ISP ICP 电信增值许可证的正规公司,多年不断转型探索现已颇具规模,公司成立于2009年 通过多年经营积累目前已独具一格,公司主要经营香港服务器,香港站群服务器,美国高防服务器,美国站群服务器,云服务器,母机租用托管!美国CN2云服务器,美国VPS,美国高防云主机,美国独立服务器,美国站群服务器,美国母机。美国原生IP支持大批量订货 合作 适用电商 亚马逊...