张羽1,王慧强2,贺英杰3(哈尔滨工程大学计算机科学与技术学院,黑龙江哈尔滨150001)E-mail:bobo_zhy@126.
com摘要:在网络态势感知系统中需要对影响网络性能的各项指标设置阈值,通过设置阈值和阈值检查可以在网络出现性能问题时及时向管理人员告警.
本文提出了一种利用BP神经网络来确定告警阈值的方法:在采集到的大量性能数据中选取典型值作为训练样本训练BP神经网络,输出该值隶属于各模糊区间的隶属度,最后利用检验样本找到各区间的分界点即为阈值.
文章还利用MATLAB对BP神经网络进行了仿真实验,验证了该方法的有效性.
关键词:网络态势感知系统;阈值;BP神经网络;MATLAB中图分类号:TP393引言随着网络技术的发展和网络通信能力的增强,各种入侵和攻击行为越来越频繁,且具有组织化、规模化等特点,传统的网络安全产品已经无法实现对整个网络安全状况的准确监控,这迫切需要有可靠的安全措施保护网络用户的信息安全,网络安全态势感知技术正是在这种情况下应运而生的.
网络安全态势感知系统要求从多角度对大规模网络的安全状况进行全面监控,强调对网络中潜在的或已经出现的异常做到及时监测,并能对未来一段时间内网络的安全状况做出合理准确的预测.
从网络态势概念角度看,态势评估和威胁评估是态势感知的两个重要环节.
态势评估包括:态势元素提取,当前态势分析和态势预测三部分.
其中,在态势分析阶段,为判断是否存在网络异常需要对影响网络性能的各项指标设置阈值,对一台网络设备或主机来说可能设置的阈值包括处理器使用率、警告持续时间等.
对一个连接则可以选择对出错率、平均利用率和总吞吐量等项设置阈值.
一旦阈值被设定,当网络性能达到一个特定的出错率或使用率时,向上层汇报.
然而,由于规模、功能、数据特点的多种多样,不同类型的网络中影响网络性能的各项指标的阈值也不尽相同,我们无法凭借查询现有资料或者以往经验来为某一特定类型的网络设定准确的阈值.
即便可以在资料中查找到经验数据,也不适用于网络态势感知系统.
针对网络告警阈值的确定所面临的这种种困境,本文提出一种面向网络态势感知的阈值确定方法,即基于BP神经网络的告警阈值确定方法.
BP神经网络在告警阈值确定中的优势由于网络态势感知系统需要通过以往的网络性能状况预测网络的未来发展趋势,这就需要采集程序长时间的采集网络性能数据,通过性能数据的变化规律,了解网络一段时间以来的发展状况.
在这种情况下,MIB(管理信息库)中的性能数据量是十分巨大的.
要处理MIB中的大量数据,单纯凭借人为手工完成是难以想象的,并且也是不现实的.
那么,如何能够快速,方便的处理大量的数据,并通过精确观察和分析,准确的确定告警阈值呢这就需要寻找到这样一种工具,它具备强大的自学习能力、记忆能力和数据的直接处理能力,并且可以通过对已有数据的学习训练,产生对新数据的准确划分.
要使这种工具要达到上述要求,那么它应该具备一定的智能性,而人工智能领域中的BP神经网络恰恰满足上述所有条件.
所谓神经网络,是指由大量的,简单的处理单元广泛地连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学系统.
在众多的人工神经网络模型中,最常用的是BP(BackPropagation)模型,即利用误差反向传播算法求解的多层前向神经网络模型.
BP神经网络在处理不确定的复杂问题上表现出较强的优越性,具有自组织,自学习的特点并且具备强大的记忆能力和数据的直接处理能力.
当神经网络各结点均采用S形函数时,一个隐含层就足以解决任意分类判决问题.
综上所述,利用BP神经网络帮助确定网络告警阈值是切实可行的.
方法描述网络态势感知系统的告警阈值确定方法有以下几个步骤组成:数据采集;样本选择;BP神经网络的结构确定;阈值的确定.
数据采集网络态势感知系统通过数据采集模块采集各个被管设备中的对象,经处理后为各个应用程序所用.
系统各个功能的实现,都是建立在对各种管理数据采集的基础之上,数据采集是实现网络态势感知的前提和基础.
面对大量需要采集的性能数据,数据采集模块的高效稳定运行起着关键作用.
管理站从被管设备中采集数据有两种方式:主动访问被管对象和被动接收告警信息.
主动访问被管对象是指管理进程通过SNMP协议发起对被管对象的请求,被管设备中的代理进程则响应该请求.
被动接收告警信息是指管理进程监听陷阱端口,接收来自代理的告警信息.
代理进程会在预定义事件发生时向管理进程发出Trap报文[12].
本文中采集程序要长期采集大量性能数据,如果数据量少的话,就无法掌握性能数据的变化规律、了解网络的发展状况.
样本选择由于采集到的数据量很大,如何从大量数据中选取典型数据作为训练样本是首先要解决的问题.
本文中采用聚类分析和选取边界样本的方法来选择样本.
聚类分析是多元统计分析的一种,也是非监督模式识别的一个重要分支.
它把一个没有类别标记的样本集按某种规则划分成若干个子集,使相似的样本尽可能归为一类,而并不相似的样本尽量划分到不同的类中.
模糊聚类分析是软划分的标志[10].
边界样本指的是距离聚类质心较远的样本[10].
文献[5]中提到,通过聚类可以快速地从大规模数据集中选择训练样本,在没有噪声数据情况下,利用边界样本训练分类器,可以保证或提高其精度,从而保证学习的性能.
综上所述,本文决定采用模糊聚类分析和选取边界样本的方法来构造BP神经网络的训练样本,以达到好的训练效果.
BP神经网络的结构确定设计BP神经网络结构,首先要考虑到问题的就是网络能否达到好的泛化能力.
泛化能力是指学习后的神经网络对测试样本或工作样本做出正确反应的能力.
没有泛化能力的神经网络是没有任何使用价值的.
确定BP神经网络的结构主要是确定其输入输出神经元数目,网络层数,隐含层神经元数目.
1988年Cybenko指出,当神经网络各结点均采用S形函数时,一个隐含层就足以解决任意分类判决问题.
文献[7]根据隐含层神经元数目与迭代次数的关系提出了一个单隐含层神经元数目的经验公式:(1),其中,n为输入层神经元数目,m为输出层神经元数目,n1为隐含层神经元数目.
该经验公式认为迭代次数最少时的隐含层神经元数目为最佳值.
阈值的确定实验将在采集到的大量数据中利用聚类分析的方法选取一些具有代表性的数据作为训练样本输入到BP神经网络中进行训练,实际输出也许为0到1之间的数,即为该类的隶属度,各类的数据交替输入,对BP神经网络进行反复训练,直至达到要求的训练精度.
然后,再选取一部分数据作为检验样本,对训练后的神经网络进行验证.
检验的目的有两点:其一是检验神经网络的泛化能力,是否能将数据正确分类;其二是通过检验不断缩小范围,直至锁定阈值,即在两相邻模糊区间的隶属度最接近的值.
在检验过程中,为尽快查找到阈值可采用折半查找的方法,能大大加快查找速度、节省时间.
所谓折半查找,就是每次选取检验样本时,应先在已检验的样本中找到隶属于相邻的模糊区间并且值最为接近的两个检验样本,把介于这两个检验样本之间且到它们的距离相等的值作为下一个检验样本.
这种方法可将样本范围很快缩小到两类边界,直至确定两模糊区间的分界点,也就是两相邻模糊区间的隶属度最接近的点,即阈值.
仿真实验4.
1实验过程本文是通过网络态势感知系统中的当前态势分析模块来分析网络性能的各项指标的,训练样本为MIB库中的一项性能指标.
本次实验选取的样本是MIB-2中的interfaces组中的性能指标ifInOctets(接口收到的字节总数).
数据是采集程序日常采集到的,包括正常数据和UDP攻击时的数据.
所以设定输出模糊区间为两个:高,正常.
输入变量一个为ifInOctets的样本值,输出变量有两个为两个模糊区间的隶属度.
输入的部分训练样本见表1.
表1训练样本与期望输出期望输出训练样本(B)正常高期望输出样本输入(B)正常高31710394430143810394730140671039513014123103988401412610731620143221073315014331102337300144371027838101其中:0:不属于该类;1:属于该类.
因为一个隐含层就足以解决任意分类判决问题,根据我们研究的具体情况,本文仅讨论含有一个隐含层的BP神经网络.
所以,网络结构分三层:输入层,隐含层,输出层.
本实验中,n=1,m=2,根据公式(1)得到n1=2.
那么,输入层1个结点,隐含层2个结点,输出层2个结点.
4.
2实验结果及误差分析本次实验选取的训练步数为1000,训练误差曲线如图4所示.
图1训练误差曲线图训练中注意的问题:样本要有代表性,要能表现网络在不同情况下的状态,包括:正常状态和异常状态.
这样才能是训练结果接近实际情况,达到预期效果.
最后,我们用检验样本对训练后的神经网络进行检验,以验证该神经网络的有效性,并采用折半查找的方法进行检验直至锁定阈值.
部分检验样本及检验结果见表2.
表2检验样本及检验结果实际输出检验样本(B)正常高期望输出样本输入(B)正常高900010.
00010148138000.
957950.
96588v1000010.
00080033137750.
96330.
96075150000.
188831137900.
960160.
96391250010.
19265137800.
962280.
96182137500.
968070.
95502137830.
961650.
96245140000.
889320.
99023137820.
961860.
96224139000.
929880.
98122137810.
962070.
96203表2中不难看出在两模糊区间隶属度最接近的值为13781,即为阈值.
结论本文提出了一种网络态势感知系统的告警阈值确定方法,并通过实验验证了该方法的有效性.
这种告警阈值确定方法适用于网络态势感知系统,它可以方便、快速的处理大量数据,避免了手工操作的复杂性.
当然,这种方法还有需要改进之处.
在今后的工作中,可考虑减少训练时间和步数的优化算法,或者采用预处理方法对训练样本进行优化等等,使网络学习效率和泛化能力得到提高.
本文只是对网络态势感知系统的告警阈值确定方法做了一次新的尝试,以后还将把神经网络与模糊逻辑相结合运用于网络态势感知当中.
参考文献Khalil,M/Nor,S.
M/Elfadil.
Neuralexpertsystemfornetworkperformancemanagement[J].
1999IEEEInternationalSymposiumonIntelligentSignalProcessingandCommunicationSystems:765-768.
.
LuoJunzhou,GuGuanqun,FeiXiang.
Anarchitecturalmodelforintelligentnetworkmanagement[J].
JournalofComputerScienceandTechnology(EnglishLanguageEdition),2000,vo1.
15,no.
2:136-143.
许花桃.
基于模糊神经网络的模糊专家系统在网络性能管理中的应用研究[D].
南宁:广西大学,2002.
王士同.
神经模糊系统及其应用[M].
北京:北京航空航天大学出版社,1998.
张莉,陈恭和.
入侵检测系统中训练样本集的构造方法[J].
计算机工程与应用,2006,(28):145-180.
张莉,郭军.
基于边界样本的训练样本选择方法[J].
北京:邮电大学学报,2006,29(4):77-80.
戚德虎,康继昌,BP神经网络的设计[J].
计算机工程与设计,1998,Vo1.
19,No.
2,48-50.
丽萨主机怎么样?丽萨主机,团队于2017年成立。成立之初主要做的是 CDN 和域名等相关业务。最近开辟新领域,新增了独立服务器出租、VPS 等业务,为了保证业务质量从一开始就选择了中美之间的 CN2 GIA 国际精品网络,三网回程 CN2 GIA,电信去程 CN2 GIA + BGP 直连智能路由,联通移动去程直连,原生IP。适合对网络要求较高的用户,同时价格也比较亲民。点击进入:丽萨主机官方网站...
提速啦的来历提速啦是 网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑 由赣州王成璟网络科技有限公司旗下赣州提速啦网络科技有限公司运营 投资1000万人民币 在美国Cera 香港CTG 香港Cera 国内 杭州 宿迁 浙江 赣州 南昌 大连 辽宁 扬州 等地区建立数据中心 正规持有IDC ISP CDN 云牌照 公司。公司购买产品支持3天内退款 超过3天步退款政策。提速啦的市场定位提速啦主...
提速啦 成立于2012年,作为互联网老兵我们一直为用户提供 稳定 高速 高质量的产品。成立至今一直深受用户的喜爱 荣获 “2021年赣州安全大赛第三名” “2020创新企业入围奖” 等殊荣。目前我司在美国拥有4.6万G总内存云服务器资源,香港拥有2.2万G总内存云服务器资源,阿里云香港机房拥有8000G总内存云服务器资源,国内多地区拥有1.6万G总内存云服务器资源,绝非1 2台宿主机的小商家可比。...