老哥学习网 - www.lg9.cn 2024年05月09日 00:27 星期四
当前位置 首页 >公文范文 > 公文大全 >

基于日志信息的大规模网络异常读数检测方法

发布时间:2023-03-29 11:00:11 浏览数:

薛 莹,金景峰

(1. 陕西警官职业学院,陕西 西安 710021;
2. 陆军装备部装备项目管理中心,北京 100072)

异常读数是与同一数据集中绝大多数读数偏离的数据,通常与常规数据表现出不同的属性[1],可由执行错误、度量误差、数据变异等众多原因造成。异常读数检测是在大量数据中提取极少部分数据的操作,但这部分数据能够提供极高价值,其中包含的信息在网络入侵检测[2]、疾病诊断、灾害预测、金融欺诈等多种领域中均具有重要作用[3],在新事物、新规律的分析与掌握中也是不容忽视的存在。目前国内外业界学者在异常读数检测中投入极大的关注,对异常读数检测深入研究十分必要。

张倩倩[4]等人引入孤立度模块和放大因子优化传统AP聚类算法,采用优化后的APO算法,放大异常读数与正常数据之间的差别,完成数据离群点检测。张忠平[5]等人结合熵权距离和自然邻居估计网络读数的高斯核密度,采用相对距离检测读数偏离邻域的程度,加入相对熵权密度离群因子检测网络异常读数。邱华[6]等人采用极限学习机训练网络数据,获取局部离群因子阈值,应用该阈值聚类处理数据,完成网络异常读数检测。以上方法没有在检测异常读数前对大规模数据加以处理,导致存在准确率和检测率低、误判率高、检测时间长的问题。

为了解决上述方法中存在的问题,提出基于日志信息的大规模网络异常读数检测方法。

由于网络日志信息大规模、高维度、强时间关联、非结构化等特性,使其在直接用于网络异常读数检测时存在一定困难,预处理网络日志信息能够降低后续检测难度。

2.1 日志信息提取与融合

由于网络日志信息并非统一格式,若单独分析全部格式,会导致工作量大幅度提升,造成大量时间和资源的浪费,因此引入抽象算法合并不同格式日志信息并提取其中统一的网络事件,从而提高日志信息的可靠性,减少冗余信息造成的工作量。提取网络事件需要建立包括对象和时间的提取目标并采用该目标搜寻相关日志信息,抽象化网络事件。

1)建立事件提取源Q搜寻准则:对于日志信息集合中的任意信息,若该信息同时具有不同记录时间、源位置和目标位置[7],则认为该信息的结构为一个Q。依据搜寻准则,若成功实现Q的提取,则执行步骤2),反之算法结束;

(1)

其中,t、src和des分别表示Ui和Q对应的时间、源位置和目标位置指标。

3)通过δi和λi计算时间t对应的安全系数SQ如下所示

(2)

(3)

5)根据步骤1)到4),得到新事件,由参数SQ和Lr构成;

6)采用全部构成新事件集合{}。

通过以上方法,将日志信息统一为规范的事件。

由于算法的局限性,对网络事件提取后,仍有冗余数据存在,因此还需对事件融合处理[8]。设定融合距离,若事件a与事件b之间的距离小于融合距离,则融合事件a与事件b为新事件。事件融合具体流程如下所示:

1)设置计数器a=0、b=1和融合距离φ;

2){}中共包含m个新事件,若m>b,则计算a与b之间距离φ,反之结束计算;

3)若φ<φ,则执行步骤4),若φ≥φ,则执行步骤5);

5)a+1,b+1,返回步骤1)。

通过以上方法融合日志信息中较为相似的网络事件,减轻后续计算负担。

2.2 日志信息降维

在日志信息中存在“维数灾难”的问题,解决该问题的必要途径就是降维[9],从而提高样本密度,降低信息损失。引入核主成分分析算法对提取融合后的日志信息降维处理[10],用gk表示属性空间m个数据中的第k个数据,Ψ(gk)和Ψ(gj)分别表示gk和gj在高维空间中映射的像,计算中心化后数据协方差矩阵[11]

(4)

用τ和ξ分别表示H的特征值和特征向量,ck表示gk的数据中心,τ和ξ存在如下关系

τH=ξH

(5)

将另一像Ψ(gi),i∈[1,m]与式(5)作内积,得到

(6)

用ε表示gk和gj的核,Φ表示核矩阵,计算方式如下所示

(7)

常用核函数主要为高斯核函数ε(gk,gj)1和多项式核函数ε(gk,gj)2[12],对应表达式如下所示

(8)

式中,σ为高斯核带宽,σ>0,r为[1,m]中的整数。根据以上计算,得到日志信息数据在低维空间中的投影,完成数据降维。

为了检测日志信息的大规模网络异常读数,提出结合时空关联性的分阶段计算与过滤异常读数检测算法。

(9)

(10)

通过式(10)可以获取读数相异程度,设定阈值k,选取式(10)计算结果中前k个读数建立候选异常读数集W,具体流程如下所示:

1)在第一个时间区间T1内,利用式(9)分别求解ω、gmin和gmax,通过式(10)计算γ(·)并保存前k个(k

(11)

利用式(11)和式(10)分别计算增量和距离,若候选异常读数集中距离最小值小于γ(·),则采用新读数替换原候选异常读数。

存储读数并发送至空间邻居,重复步骤2),直至完成全部时间区间内的读数计算。

(12)

式中,σ取值越大,则γ(·)所占比例越高,γ′占比越低,μ的主要作用是检测候选异常读数点集中某点是否为真正异常读数,通常σ∈[0,0.5)。

在M个读数集中,采用μ最大的k个读数构成局部异常读数点集。

网络节点通过网络拓扑结构传递k个局部异常读数点至sink节点,传递采用多跳通信方式,sink节点将全部收到局部异常读数μ排序,其中最大的k个读数即为全局异常读数。

通过以上计算,完成基于日志信息的大规模网络异常读数检测。

为了验证基于日志信息的大规模网络异常读数检测方法整体有效性,需要对其加以测试。

4.1 实验数据与评价指标

采用4个不同日志信息集作为实验数据对比所提方法、文献[4]方法和文献[5]方法的大规模网络异常读数检测效果,日志信息数据特征如表1所示:

表1 日志信息数据特征

对日志信息集1、日志信息集2、日志信息集3和日志信息集4展开实验,以准确率、检测率、误报率和检测时间为指标统计实验结果对比3种方法的有效性。

用NTP表示异常读数被正确判定为异常的数量,NTN表示非异常读数被正确判定为非异常的数量,NFP表示非异常读数被错误判定为异常的数量,NFN表示异常读数被错误判定为非异常的数量,准确率ACC、检测率DR、误报率FAR的计算公式如下所示

(13)

4.2 实验结果分析

统计实验结果并加以计算,得到准确率、检测率和误报率实验结果如图1、图2和图3所示。

由图1可以看出,所提方法在4个日志信息集的实验中,准确率均高于文献[4]方法和文献[5]方法,在日志信息集1中准确率最高,达到93%以上,在日志信息集2中为4次实验最低,但仍保持在88%以上,而文献[4]方法和文献[5]方法的准确率大部分在70%到85%之间,仅有文献[4]方法在日志信息集1中的检测结果高于90%,可见文献[4]方法和文献[5]方法对异常读数检测的准确率均低于所提方法,因为所提方法在检测网络异常读数前对大量日志信息提取、融合并降维处理,降低后续异常读数检测的复杂度,提高检测准确率。

图1 准确率实验结果

图2 检测率实验结果

由图2可以看出,对于检测率而言,所提方法的检测率均高于88%,最高达到97%左右,文献[4]方法最高为84%左右,最低未达到60%,文献[5]方法最高为85%左右,最低在65%左右,两者检测率均低于所提方法,说明所提方法对异常读数检测具有更高的广泛性,能够适用于多类型日志信息。

分析图3可知,所提方法具有明显低于文献[4]方法和文献[5]方法的误报率,即所提方法对异常读数的判定更为准确,有效性更高,有助于提取更准确的异常读数用于后续数据分析,更适合应用于实际的网络异常读数检测之中。

图3 误报率实验结果

统计三种方法在4个日志信息集中检测异常读数所用时间,实验结果如图4所示。由图4可以看出,所提方法在4个日志信息集中的检测时间均少于文献[4]方法和文献[5]方法,即所提方法在相同条件下具有更高的效率,完成同样工作能够节省更多的时间,可以有效避免时间和精力的浪费。

图4 检测时间实验结果

在传统数据预处理中,通常会在处理时舍弃异常读数,或将异常读数作为噪声对其去噪处理,或将其平滑处理,降低其对数据集的影响,但异常读数并非无意义数据,其中蕴含着重要的信息,异常读数检测在数据挖掘中占据重要位置。为了解决目前准确率和检测率低、误判率高、检测时间长的问题,提出基于日志信息的大规模网络异常读数检测方法,预处理原始日志信息,获取更利于计算的低冗余低维度数据,结合时空关联性分段检测大规模网络异常读数。该方法能够有效地提高准确率和检测率、降低误报率、节省检测时间,有助于更好的挖掘网络异常读数用于研究之中。

猜你喜欢 读数日志准确率 一名老党员的工作日志华人时刊(2021年13期)2021-11-27“0”的读法和要领小学生学习指导·低年级(2021年6期)2021-09-10乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析健康之家(2021年19期)2021-05-23不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨医学食疗与健康(2021年27期)2021-05-132015—2017 年宁夏各天气预报参考产品质量检验分析农业科技与信息(2021年2期)2021-03-27颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察健康体检与管理(2021年10期)2021-01-03扶贫日志心声歌刊(2020年4期)2020-09-07关于游标卡尺读数问题易错点的剖析中学生数理化(高中版.高考理化)(2020年2期)2020-04-21雅皮的心情日志思维与智慧·上半月(2018年10期)2018-11-30雅皮的心情日志思维与智慧·上半月(2018年9期)2018-09-22

推荐访问:读数 检测方法 异常

相关文章:

Top