老哥学习网 - www.lg9.cn 2024年05月21日 03:09 星期二
当前位置 首页 >公文范文 > 公文大全 >

基于概念漂移的集成增量学习WSN入侵检测方法研究

发布时间:2023-03-19 14:50:09 浏览数:

◆陈海文 余员琴 王叶 李晨

(湖南交通工程学院电气与信息工程学院 湖南 421009)

无线传感器网络的爆炸式增长使得保护系统和网络免受入侵攻击成为关键,保护系统中数据真实、实时、可靠和网络免受入侵攻击变得更加重要。入侵检测系统(Intrusion Detection System,IDS)以收集网络中各种数据,通过收集到的数据可以检测恶意攻击或违反规则等造成的异常情况,是现今重要的网络安全技术之一。

IDS的设计是维护网络安全的关键技术。机器学习方法近年来被广泛应用于网络异常检测,其采用收集网络状态数据为输入特征的数据流。恶意攻击针对无线传感器网络实行入侵攻击,不是窃听网络数据,而是攻击网络节点和无线传感器网络感测的数据为目的,使传感器节点无法采集数据或数据无法正常传送,甚至使整个WSN陷入瘫痪。机器学习方法不适合WSN动态连续数据流环境,从而研究基于无线传感器网络入侵检测方法提高网络安全性能是现阶段的热点难点问题。

何翼等针对无线传感器网络能耗问题提出基于机器学习入侵检测,采用聚类方法对原始数据预处理,后利用处理后的数据生成单分类支持向量机提高WSN异常值识别准确率[1]。但传统机器学习是一个静态的数据集合建立模型,无法应用于数据流环境下。针对无法一次性收集完备的训练数据集,对未知入侵行为识别率不高,陈昌娜等提出增量集成学习算法,利用滑动窗口获得数据块,以此训练获得子分类器,再结合历史与当前数据块的结构选取子分类器进行集成,以此不断完善分类模型自适应识别未知攻击行为[2]。集成学习思想引入到增量学习中确实提升了学习效果,大多采用加权投票方式实现多个同质分类器集成,但没能很好地提高增量学习中的稳定与可塑性问题[3]。针对此问题本文提出一种基于概念漂移的集成增量学习方法(Integrated incremental learning method based on concept drift,CDIL),采用不同结构的多个基分类器组合集成增量学习模型,即异构集成增量学习模型,采集新数据训练多个基分类器加入到异构集成模型中,采用HDDM(Heoffding’s inequality based Drift Detection Method)使用Heoffding不等式可定位漂移位置,并向异构集成学习两级分类模型发送警报信号,以增量学习方式将最新送达的输入数据流更新模型,来检测入侵攻击。

概念漂移技术是衡量随时间数据分布演变的重要指标。其定义是给定数据流中的某时刻t和上一时刻t-△,若,则当前数据流稳定;
反之,则发生了概念漂移[4]。依据概念漂移的速率和变化形式分为突变型漂移、增量型漂移、渐变型漂移和重现型漂移四种类别[5],其介绍如表1所示。

表1 概念漂移种类介绍

集成学习是通过一定方式由相同或不同结构的多个基分类器组合,是强于单个分类器的集成模型,以此来提高模型准确度,适合用于多种概念漂移的数据流中。组合方法是组合模型间差异性和提升模型性能的主关键因素,而集成学习算法决定组合方法,使用不同的学习算法生成异构分类器。其框架如图1所示。

图1 集成学习框架

增量学习是早期批量学习因数据均要训练,模型无法实现或承担代价更新而提出的一种动态更新模型,以持续不断的学习新的知识来提高模型的分类准确率[6]。增量学习模型的学习过程如下。

(1)式中S是假设增量学习的训练数据集,d0是训练初始模型F0的训练数据集,dt是t时刻更新当前模型F(t-1)使用的新数据集合。

(2)式中有n条数据,是第i条数据的特征,是第i条数据的类别,n是一个大于1的数。t时刻获得更新数据集dt更新当前t-1时刻的模型F(t-1)得到更新后模型Ft。

集成增量学习融合集成学习与增量学习的优势,以集成学习为模型用增量学习不断地对模型进行动态更新。

在无线传感器网络中针对入侵攻击利用概念漂移检测数据特性异常,并向集成分类器发送警报信号,分类器利用新的到达数据来更新和保持较高的分类精度。基分类器采用主分类器和备用分类器双分类器集成学习模型设计,检测到概念漂移时,更新备用分类器,并替换主分类器来处理概念漂移数据流。基于WSN入侵检测系统(IDS)设计流程如下:

第一步:采集原始数据集。

第二步:数据预处理。

(1)清洗无用样本;

(2)连续数据归一化,One-Hot编码,字符类型数值化。

第三步:入侵检测。

(1)概念漂移数据集;

(2)概念漂移检测器检测概念漂移数据集是否异常;

(3)正常进入集成学习模型;

(4)异常进行模型新型。

第四步:输出结果。

从第一步到第四步以增量学习方式进行,其模型设计如图2所示。相比传统IDS,本模型中的漂移检测器同样是数据分析和单元处理,但同时传送给网络管理员概念漂移检测器产生检测信号,并且以此判断分类模型是否需要更新。

图2 基于概念漂移的集成增量学习模型

3.1 概念漂移检测

概念漂移检测是处理数据流分布随时间变化的关键技术,检测随时间推移的数据实体是否服从同一分布。其检测分为基于数据分布的检测、基于错误率的检测和基于多层假设检验的检测三类[7],其三类检测介绍如表2所示。

表2 概念漂移检测技术简介

基于数据分布的概念漂移检测具体方法有基于概率密度函数的漂移检测方法和分布差异性度量方法TV。最早典型的基于概率密度函数的漂移检测方法有ITA(Information-Theoretic Approach)算法[9],使用KD树(K维搜索树)将新数据和历史数据划分为多个bin(二进制文件),使用K-L散度(Kullback-Leibler Divergence,又称相对熵)来计算每个bin密度分布的差异性,使用假设检验来检测漂移;
LSDD-CDT(Least Squares Density Difference-based Change Detection Test)和其增量化版LSDD-INC(Least Squares Density Difference-based Incremental)[10],相对ITA鲁棒性更好。适应高维空间概念漂移检测,Qahtan提出PCA(Principal Component Analysis)漂移检测框架PCACD[11],应用于基主成分分析的PCA提高在高维空间密度估计的计算效率。

目前使用最广的方法是基于错误率的检测,依据分类错误率来发现概念漂移。相比基于数据分布的概念漂移检测方法提高了计算效率,因其需要先获得分类结果再进行判定,同时具有检测迟滞。其最早的检测方法有DDM(Drift Detection Method)[12],是在线计算预测错误率和标准差,以最小的错误率和标准差保存为当前值通过假设检验是否发生漂移,以其设定的漂移、警告和错误3个置信度水平,分类器的错误率与训练示例数量是正比例关联,即存在概念漂移,重构当前模型;
错误率与其偏差达到两倍,即生成警告信号;
在警告级别上,若错误降到警告阈值以下,即错误并删除此特殊窗口[13]。针对突变型漂移有良好的表现,但因渐变型漂移存在长时间触发概念漂移的假设检验水平[13],不适合于此。文献[14]Liu等人针对此情况提出扩展FWDDM(Fuzzy Windowing Drift Detection Method),改进DDM中传统窗口的一种模糊时间窗口技术。针对概念漂移的敏感性,提出EDDM(Early Drift Detection Method)计算实例距离角度进行改进DDM[15],在数据流发生缓慢变化时有较好的性能,ECDD(EWMA for Concept Drift Detection)使用观察指数加权移动平均值变化改进DDM,LLDD(Learning with Local Drift Detection),ADWIN(Adaptive Windowing)基于霍夫丁界,使用一个自适应调整大小窗口技术划分新数据和历史数据,通过新旧两者数据的均值差异检测漂移,维护窗口尺寸和空间复杂度。HDDM(Heoffding’s inequality based Drift Detection Method)[16]使用Heoffding不等式替换DDM中的假设检验并可定位漂移位置,采用检测错误率的增量和减量双样本统计检测漂移和误差估计,在恒定的时间和空间复杂度内处理每个输入值,以假正负率保证性能。

基于多层假设检验的检测是基于数据分布和错误率的概念漂移的关键技术。Zhang等人提出三层概念漂移检测方法[17]。HHT-AG(Hierarchical Hypothesis Testing With Attribute-wise Goodness-of-fit)具有少量类标的样本集上处理概念漂移。LFR(Linear Four Rate drift detection)和HLFR在线检测TP(True Positive)、TN(True Negative)、FP(False Positive)和FN(False Negative)指标变化。

3.2 两级分类器集成学习模型

集成学习是构造一组强弱分类器的高效学习算法,通过加权投票得到最终结果。由不同的学习算法生成异构分类器,针对无线传感器网络入侵检测,本文设计两级分类器集成学习模型如图3所示。

图3 两级分类器集成学习模型

第一级分类器由多个异构独立分类器组成,每个基分类器利用原始数据训练出一个分类模型,依据新数据特征给定分类和预测值,预测值为新数据的特征加上原始数据新标签组成一条新的数据实例,输入到第二级分类器,最终得到预测结果,此结构的集成学习为Stacking。其工作流程如下:

第一步:建构集成学习每级分类器两个相同的模型,一个为主分类器,一个为备用分类器,初始训练集进行主备分类器训练。

第二步:概念漂移检测器检测。

(1)检测发出警告,新到达数据流更新备用分类器;

(2)检测发出漂移,备用分类器先取代主分类器,后漂移数据自动更新主分类器,主分类器更新完后取代备用分类器,最后主备分类器同步;

(3)检测发出正常,数据流稳定,无需处理。

第三步:输出最终预测值。

第四步:由二级分类器产生的结果引入动态加权投票实现集成学习模型性能最大化。

3.3 实验设计

设计入侵检测实验数据集采用无线传感器网络入侵检测专用数据集即WSN—DS(A Dataset for Intrusion Detection Systems in Wireless Sensor Networks)[18],如表3所示。

表3 数据集分布

基于单分类模型的概念漂移集成增量学习方法(简称IL)与基于两级分类模型的概念漂移集成增量学习方法(简称CDIL)的准确性比较如图4所示。图中IL前后期模型准确率折线弧度较大,而CDIL在所有批次数据中都表现相对平滑,尤其是第73批数据中CDIL的准确率在91%以上,而IL的准确率在80%以下,CDIL的优势更加突显,可以看出CDIL比IL的准确性在二分类中更高更稳定,结果验证设计的两级分类器模型检测精度高且稳定,概念漂移的集成增量学习模型入侵检测方法有很好的鲁棒性。

图4 单基分类器与两级分类器集成增量学习模型准确率比较

本文基于WSN提出了一融合概念漂移和增量学习入侵检测方法,概念漂移检测器采用HDDM方法检测网络数据流异常,再在此基础上设计两级分类器的集成学习以模型以增量学习方式动态更新模型,来提高检测正确率及稳定性,是WSN不增加额外资源的一种有效方法。

猜你喜欢 错误率数据流分类器 优先级驱动的泛化航电网络实时性能分析航空学报(2022年7期)2022-09-05少样本条件下基于K-最近邻及多分类器协同的样本扩增分类现代电子技术(2022年15期)2022-07-28学贯中西(6):阐述ML分类器的工作流程电子产品世界(2022年4期)2022-04-21数据流和波形诊断技术在发动机故障诊断中的应用内燃机与配件(2022年2期)2022-01-17数据流安全查询技术综述网络空间安全(2019年10期)2019-03-20小学生分数计算高错误率成因及对策新课程·上旬(2019年1期)2019-03-18基于AdaBoost算法的在线连续极限学习机集成算法软件导刊(2017年4期)2017-06-20正视错误,寻求策略教师·中(2017年3期)2017-04-20利用数据流进行电控故障诊断的案例分析农机使用与维修(2016年10期)2016-11-10解析小学高段学生英语单词抄写作业错误原因试题与研究·教学论坛(2016年27期)2016-08-11

推荐访问:漂移 增量 入侵

相关文章:

Top