您好,欢迎来到99网。
搜索
您的当前位置:首页基于稳态模型的流异常检测算法

基于稳态模型的流异常检测算法

来源:99网
维普资讯 http://www.cqvip.com

第32卷 第19期 Vo1.32 ・计算机工程 2006年1O月 October 2O06 №l9 Computer Engineering 网络与通信・ 文章编号z looo—3428(2o06)19.__0133..03 文献标识码t A 中圈分类号z TP393 基于稳态模型的流异常检测算法 郭琳。,张大方 ,蔡文伟。,谢鲲。 (1.湖南大学计算机与通信学院,长沙410082;2.湖南大学软件学院,长沙410082) 囊要:在日常网络管理中如何实时、准确地判定流量异常是网络异常检测中的难点问题。提出了一种基于稳态模型的流异常检测算法, 采用加权均值和方差计算相结合的统计学方法对网络流量稳态模型进行建模和更新,并使用ROC曲线进行异常检测模型的性能评估。研 究表明,该算法复杂度较低,资源占用小,能够很好地实现实时自动报警功能。实验结果对进一步探索实时的网络流异常检测方法和预测 算法具有参考价值。 关翻:流量异常;异常检测;稳态模型;ROC Algorithm of Trafic fAnomaly Detection Based on Steady Model GUt Lin ,ZHANG Dafang ̄LI Wenwei ,XIE Kun。 ,(1.School ofComputer and Communications,Hunan University,Changsha410082;2.School ofSoftware,Hunan University,Changsha410082) [Abstract|It is dificultf tO detect trafic afnomaly accurately in real—time network management.A trafic afnomaly detection algorithm based on steady model is proposed.Both weighted mean value and variance statistics method are used tO build and update the steady mode1.Furthermore ROC curve method is used tO assess performance.The complexity of he tnew algorithm is comparatively low wih occupyitng little system resource and it possesses real—time auto—larm functiaon.Also simulation shows that the study is a valuable reference for advancing exploration of real—time trafic fanomaly detection. [Key words!Trafic anomalfy;Anomaly detection;Steady models;Receiver operating characteristic 网络流量管理是网络管理中重要组成部分,有效的网络 线。ROC空间是显示ADP性能的坐标系统,Y轴表示ADP 检测率DR(Detection Rate),等于1一漏检率,x轴表示误检 率FPR。连接多个ADP坐标点构成ROC曲线。如图l(a)两 条ROC曲线A和B,可以清晰地看出ADP的DR与FPR的 变化情况。 100 80 一 流量管理对提高网络的可靠性和可用性具有重要意义。从广 义上来说,网络流量管理包括网络流量建模和分析、流量预 测、流量异常检测、流量工程等。其中流量异常检测是网络 流量管理的重要环节,检测流量异常对网络异常检测具有重 要意义。导致网络流量异常的因素有:社会或自然现象,网 络设备故障以及恶意的攻击。 迄今为止,人们在异常流量检测的研究领域已经取得众 多成果,例如Paul和DavidIll对网络流进行统计分析,实现 了一种类似网络管理工具的网络异常检测系统;Roy和 Frank121通过网络流量异常检测方法检测到插入故障和广播 风暴;Rajesh和Gitae13]建立一种网络异常检测框架,基于路 由变化、延迟、丢包率的统计推理,检测路由器配置不当或 言 6o g 40 ’= 羔20 凸0 False Posiitve Rate(%1 设备失效导致的网络流量异常。 如何实时、准确地判定流量异常是网络异常检测中的难 点问题。本文基于网络稳态模型准确检测流量异常。网络稳 态模型描述网络正常运行时的网络行为。作为异常检测的依 据,它具备以下的特征:准确性与一致性、抽象性、低漏检 率和误检率。为了实时、准确地判定流量异常,减少漏检率 和误检率,选择性能最佳的异常检测临界值,本文采用加权 均值和方差计算相结合的统计学方法对网络流量稳态模型进 .(a) l0o 0 等60 4J0 殳 20 0 0 False Positive Rate(%) 行建模和更新算法进行研究。 fb1 1稳态模型性能评估的理论基硇 建立稳态模型需要一系列异常检测临界值(Anomaly Detection Threshold,ADT),从中选择性能最佳的ADT作为 异常检测模式(ADP)。为了客观评估ADP性能的好坏,Provost F等人 提出使用ROC(Receiver Operating Characteristic)曲 圈1 ROC曲线圈实碉 基金项目:国家自然科学基金资助项目(60273070,60473031) 作者筲介:郭琳(1978一),女,硕士生,主研方向:网络测试; 张大方,博士、教授、博导;黎文伟、谢鲲,博士生 收藕日期:2005—10—13 E・mail:guolin416@163.com —l33— 维普资讯 http://www.cqvip.com

但存在两种问题: (1)判断综合性能最佳的坐标点建立在直观感觉上,没有 理论基础。为此必须制定一种性能评定尺度,即ADT敏感度, 记为兀l ADT l,值越大表明该ADT综合性能越好,反之 越差。DR和FPR是影响敏感度的两个重要指标,敏感度的 大小与DR成正比,而与FPR成反比。根据斜率计算公式: tg(0)=y/x,0≤e≤90,可知斜率越大,Y相对于X就越大, 坐标点(x,y)对应的ADT的DR相对FPR就越大,该ADT 的综合性能就越好。由此得出理想异常检测临界值的定义。 定义设P为ROC曲线上一坐标点,若P对应的异常 检测临界值ADT(P)满足:兀l ADT(P)l=MAX(兀l ADT(P’) I)(P’∈ROC),则称ADT(P)为理想检测临界值,记为 P—ADT(Perfect—ADT)。 (2)性能最佳坐标点未必适合实际应用。图1(b)是某种异 常检测模型得到的性能评估ROC曲线。根据定义,图1(b) 中ROC曲线上的P—ADT是ADT(P1),但事实上ADT(P1)检 测率太低(漏检率太高),并不适合实际应用。所以原则上让 满足一定条件的局部P—ADT作为ADP。表1是图1(b)中ROC 曲线上,满足一定前提条件的局部P—ADT。 表1围1(b)中ROC曲线上一姐局部P-ADT 前提条件 局部P—ADT 无 ADT(P1) DR>60%&&FPR<l0% ADT(P3) DR>90%&&FPR<l0% ADT(Pa) 可知,ADT(P4)满足前提条件,其tg(0)值又比较理想, 所以选择ADT(P4)作为稳态模型的临界值。 2稳态模型的建立及其更新 2.1稳态模型的建立 实际网络中流量具有突发性,在建立模型进行异常检测 之前,需要收集大量实际数据,并采用了方差分析的方法 (ANOVA)进行适当处理,使数据具有连续性和平滑性,这个 步骤称为数据的预处理,详述如下: 预先收集15个工作日(周1~周5)的网络流量数据。以天 为单位,每5min采样一次,即每天采集288个网络流量数据。 把15天中采集到的15组每组288个数据存入到15×288的 二维数组数据库中。那么一天中的每一个5min间隔时刻,都 有15个值,记为xl,X2,…,xl5,用x表示这15个值的平 均值,V表示它们的标准差,即 x: 15智 y: 依据格拉布斯准则,若x。满足l x。l>kV,则x。为坏值, 应该剔除,不作为建模的构成数据因素,其中k是格拉布斯 准则系数,与置信区间为95%相对应的k=2.03。实验表明, 离当前越近一天的同时刻的网络流量与当前流量有最大的相 似性。为此,把剔除后的网络流量数据按时间先后,分别赋 予不同权值(称为流量数据影响因子)。理论上剩下数据的影 响因子按等差数列排列。 假设剩下的网络流量数据个数为N,影响因子用a。表 示,d为公差,影响因子等差数列的和为s ,那么有以下 结论: Sn=Na。+ 二 d:Sn---1 2 设al= 则s = + 二 d;实验验证Na。取值为 5Ⅳ 5 2 —134— 1/5较为合理。得到 : ;ai= +d 5JV(N一1) 5N 把x1,x!,…,x 5中剩下的数据乘上各自影响因子,用 Y表示得到的某时刻的稳态模型临界值,即 N Y-∑ (2 对于一天内288个时段,都采用该方法计算这一时刻的 模型,用Y.,Y:,…,Y2s8来表示。把这288个数据以时间 段为关键字存入数据库的另一张表中,作为描述网络一天内 各个时段流量的稳态模型。再用剩下的数据计算每一时段的 方差V’,即 _J 把288个方差也以时间段为关键字存入数据库中。若当 前观测值与之相比有显著偏离(>k V’),则认为是网络异常, 产生告警,若当前观测值在方差范围内,则对稳态模型进行 适当修正。 2.2稳态模型的更新 获得新的网络流量数据时,必须把新的网络数据作为建 模因子修正模型,按照等差数列建模原理,对加入新数据后 的数列进行影响因子计算。这里有两种方案,可通过ROC图 比较两种方案的优劣。 m 舳 ∞ ∞ 如 第1种方案,把新获得的流量数据加入到数列当中,那 么数列个数N=N+I,稳态模型均值和方差的计算方法参照建 模时候的数学处理。 第2种方案,如果已有队列中的流量数据N<15时,采 用第1种方案重新建立模型;当N=I5时,删除队列中的第1 个数据元素,即时间间隔最长的流量数据,而把新获得的数 据放在队列的最后面。队列中的数据元素保持在N=I5,客观 上有利于减少数据计算量,稳态模型均值和方差的计算参照 建模时候的数学处理,而N是常量15。 使用ROC图检验两种方案的优劣见图2。 False Positive Rate(%) 圈2 ROC曲线圈比较 图中,P 和Pe分别代表两种方案的更新模型。实验结 果为ADT(PA)的DR=94.1%,FPR=7-3%;ADT(PB)的 DR=91.2%,FPR=5.4%。ADT(PA)和ADT(PB)都满足了要成 为临界值的前提条件。再比较二者斜率大小,显然ADT(PB) 优于ADT(PA),因此,采用第2种方案进行模型更新。 2.3更新算法复杂度分析 建立模型可以在实时异常检测前离线进行,因而不计入 算法复杂度。更新模型算法包括计算公差和等差数列的元素 以及均值,即N+1次加法运算和N次乘法运算;而计算方差 的算法复杂度为o(N ),加上从数据库中读取数据和保存结 维普资讯 http://www.cqvip.com

果的时间,计算量也是微不足道的。获得新流量数据的间隔 时间是5rain,那么该系统的运行对所在主机的性能占用是非 4结束语 该算法通过方差分析的方法(ANOVA)计算过程简单,能 有效解决极不确定的网络流量的建模问题,算法可以离线完 成,具有很好的适应性。实验中,把实时采集到的数据与模 常有限的,因而可以在实际网络中使用。 3利用穗态模型进行异常检测 实验中,首先收集了15天的历史流量数据。使用这些 数据建立网络日流量稳态模型。 型结合起来发现网络异常,并通过ROC图比较两种网络流量 模型更新方案的优劣,选择性能最佳的异常检测临界值(ADT) 为了检验稳态模型建立和更新方案的实际应用效果,在 连续3天中每天随机抽取一个时间人为制造故障,引起流量 异常。对流量进行读取后,得到如图3的流量图像。 作为异常检测模式(ADP)进行异常检测。 研究证明,采用基于加权均值和方差计算相结合的统计 学方法对网络流量稳态模型进行建模和更新算法复杂度较低 (仅为o(N ,资源占用有限,能够完成实时自动报警功能, 从而实现网络管理自动化。本文的研究对进一步探索实时的 网络流异常检测方法和预测算法具有参考价值。 参考文献 时间(5min) (a) l Barford P Plonka D.Characteristics of Network Traffic F1OW Anomalies[C].Proceedings of the ACM SIGCOMM Intemet Measurement Workshop,2001—11. 2 Roy A,Maxion L,Frank E.A Case Study of Ethemet Anomalies in a Distirbuted Computing Environment[J].IEEE Transactions on Reliability,1990,39(4). 时间(5rain) (b) 3 Talpade R.Kim G Khurana S.Nomad:Traffic—based Network 圈3罔络泷量和叠形后的方差趋势 Monitoring Framework for Anomaly Detection[C].Proceedings of the 4 IEEE Symposium on Computers and Communications,1999— 07. 4 Joseph L,Zhang Fan,Shahabuddin E An Approach tO Predictive 在图中,用小黑点标出了3次服务器失效的时间,可以 发现这3次失效引起明显的流量异常。为了能更明显地观察 这3次异常,对波形进行整形,假如把图3的波形有流量值 转化为方差,对每天的288个流量数据应用下面的公式进行 转换: Detection for Service Management[C].Proceedings of the IEEE International Conference on Systems and Network Management, l999. 5 Ho L L,Cavuto D J,Papavassiliou S.Adaptive and Automated Detection of Service Anomalies in Trnsactaion—oriented、^『AN’s: V’1/古∑(¨ ,一y) i-1 人为制造的3次故障在图上表现得更加清晰,系统可准 确判断网络异常时刻。这也证明了采用基于加权的均值和方 差计算相结合的统计学方法对网络流量稳态模型进行建模和 更新的方案具有较强的异常判断能力。 (上接第132页) 裹2 试报告 测试例名称 发送Hello包 Network Analysis,Algorihms,Itmplementation and Deployment[J]. IEEE Joumal of Selected Areas in Communications,2000,1 8(5): 744 757. 量,缩短了产品上市时间。由于冒烟测试执行的频率比较高, 结果 Pass 需要进一步对冒烟测试的测试自动化进行研究。 参考文献 1赵邑新,尹霞,韩博等.策略路由的基本关系及其测试【J】.清 华大学学报(自然科学版),2002,42(10):1414—1418. 2 MaConnell S.席相霖译.快速软件开发——有效控制与完成进度 计划【M].北京:电子工业出版社,2002. 接收Hello包 发送Database Description Pass Pass 接收Database Description 发送LS Request包 Pass Pass 接收LS Request包 LSA生成 Pass Pass 3杨建华,王俊峰,谢高岗.OSPFv3协议一致性测试系统设计与实 现【J】.计算机应用,2003,23(7):18-23. 扩散过程 路由表更新 Pass Pass 4袁琦.基于IPv6的OSPF路由协议技术规范【J】_电信工程技术 测试例的编号可以追溯到需求编号,测试报告反映了系 统功能的实现情况,上面显示了OSPFv3的测试例均已通过, 这也说明该协议的实现已经完成,该IUT支持OSPFv3,这 与标准化,2004,17(1):39—43. 5余营志,赵保华,屈玉贵.基于TCL的路由协议一致性测试【J】. 北京邮电大学学报,2003,26(增刊):37-41. 6杨7邵8杨晶,赵保华,屈玉贵.基于层次结构的OSPF一致性测试【J】. 兵,李越鹏,赵保华.OSPF协议性能测试的研究与实践【J】_ 晶,屈玉贵,赵保华.路由协议一致性测试的系统设计【J】.计 是由于测试环境中的RUT是一台成熟的高端路由器产品,该 路由器是支持OSPFv3的,测试结果与预期的结果是一致的。 通信学报,2002,23(8):87—92. 计算机应用,2003,23(10):62—66. 算机应用,2001,2l(5):7-9. 一3总结 本文论述了OSPFv3协议特点、冒烟测试的方法,并在 TCL协议测试系统上实现了OSPFv3的冒烟测试,将冒烟测 试引入协议的开发中,提高了开发过程的可视性和产品的质 135— 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 99spj.com 版权所有 湘ICP备2022005869号-5

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务