关键词:
入侵检测系统
入侵防御系统
机器学习
计算机网络
网络安全
算法
摘要:
Verizon在2020年进行的一项研究表明,95%的网络安全漏洞都是人为错误造成的,在2020年1月1日至5月31日期间,记录在案的网络泄密事件多达1162起。2020年前6个月泄密数据多达360亿条记录。机器学习技术的发展促进了网络安全的发展,能够用于建立强大的入侵检测和预防模型、监控网络流量和检测异常行为,如恶意软件和网络钓鱼活动。针对建立良好的检测和预防模型以确保网络基础设施的安全,已经开展了许多研究,但这些模型都存在无法检测未知的现代网络攻击的问题,本文针对这个问题,使用逻辑回归(LogReg)算法,建立了一个网络预测模型。
逻辑回归算法是一种有监督的机器学习方法,用于解决分类问题,尤其是二元情况下的分类问题,其目标是预测只有两个可能值。逻辑回归既可以是简单回归,即只假设一个自变量,也可以是多元回归,即允许使用多个自变量。它不仅能提供类别预测,还能提供概率,从而对类别预测的置信度进行量化衡量。为了使用Logistic回归获得理想的准确率,本文使用交叉熵函数将Logistic回归的二项概率分布性质改变为多项式概率分布,并使用了Newton-gce求解器,在特征选择方面,使用了遗传算法和粗糙集理论。
本文使用了1999年第三届国际知识发现和数据挖掘工具竞赛中使用KDD99数据集作为训练集,抽取10%的数据作为测试集。使用相同的数据集将本文使用算法与已有的经典算法Random Forest、Decision Tree和K-Nearest Neighbor的性能进行了比较。在检测准确率指标方面,本文算法为99.95%,Random Forest算法为99.89%,Decision Tree算法为99.82%,K-Nearest Neighbor算法为99.93%。结果表明,本文提出的算法优于相比较的这三种算法,能够准确地检测出网络入侵行为。为了测试和评估预测模型的有效性和性能,本论文使用了NSL-KDD数据集和另一个模拟网络环境的数据集。