关键词:
物联网
入侵检测
数据不平衡
过采样
欠采样
摘要:
随着物联网设备数量的不断增加,攻击者获得了更多的机会和资源,从而导致物联网僵尸网络规模的不断扩大,这些僵尸网络对Web服务器和互联网基础设施的影响也变得越来越显著。利用大量被感染的物联网设备,攻击者发动大规模的DDoS攻击,向目标Web服务器发送海量请求,导致服务器超载,无法正常运行,甚至完全瘫痪服务。因此,面向物联网的入侵检测成为研究热点之一。
物联网的入侵检测系统训练数据集具有正常数据量庞大、攻击数据量稀少的特点,训练数据集的不平衡易导致入侵检测算法难收敛。论文从两个方面对数据的不平衡处理技术开展研究,研究过采样技术,增加数据集中攻击数据;研究欠采样技术,减少训练集中正常流量的冗余。实现训练数据流量均衡,为物联网入侵检测算法训练提供支撑。
论文的主要成果有:
(1)针对训练数据集中攻击数据量稀少的问题,提出一种KG-SMOTE过采样算法,采用K-means聚类算法对攻击数据进行聚类分析,统计各聚类的均值和标准差,利用高斯分布方法插入SMOTE合成样本,增加训练数据集中DDoS攻击流量的密度,扩展了数据多样性,实现了检测算法的快速收敛,提升了检测算法的准确率。实验表明,该方法与主流过采样技术对比,在精确率、召回率、F1-score等均有提升。
(2)针对训练数据集中正常数据量偏多的问题,提出一种DBSCAN-MST欠采样算法,采用DBSCAN对正常流量进行聚类分析,去除噪声样本,利用最小生成树算法清理决策边界,通过剔除原始数据集中不具代表性和不重要的正常流量,从而使得正常流量和攻击流量的数量比接近1:1,最终提高传统分类算法的分类性能。实验表明,该方法与主流欠采样技术对比,在召回率、F1-score、G-Mean均有提升。
(3)设计面向物联网DDoS攻击的入侵检测原型系统,采用KG-SMOTE过算法和DBSCAN-MST欠采样算法,解决训练数据集的数据不平衡问题,优化深度异常检测模型,提高模型的精度;在公开数据集MBB-Io T的测试中,论文实现的面向物联网的入侵检测系统的检测准确率、召回率等均有提升。