万方+网络攻击+机器学习
1. 基于机器学习的入侵检测技术概述 – 数字安防/2016
入侵检测系统设计分析
机器学习、误用规则处理、网络数据包捕获以及数据预处理等四个部分构成,机器学习模块为该系统的关键环节 。
(一)机器学习模块。基于机器学习的入侵检测系统中的关键模块就是机器学习模块,利用该模块的训练功能可以让学习机完成检测入侵。
(二)网络数据包捕获模块。网络数据包捕获模块通常在监视和验证网络实时流量、工作情况等方面应用。对网络捕获数据包进行分析是保障网络入侵检测系统、网络安全软件、网路管理软件等安全运行的基础,而数据包嗅探器(Sniffer)的应用可以完成网络捕获数据包并进行分析这一任务,因此Sniffer就是系统高效和安全运行的保障,可以说数据包嗅探器是入侵检测系统中最为基础的程序之一。
(三)数据预处理模块。数据预处理模块的应用功能是进行大量原始数据包的预处理工作,而这些数据包的主要来源就是网络数据包捕获模块捕获所得,该阶段处理工作的完成对后续的检测分析具有十分重要的意义。
(四)误用规则处理模块。误用规则处理模块在应用过程中是以规则为基础,通过对系统中模式数据库与已存网络入侵与捕获到的信息对比分析,发现并找到存在安全隐患的行为,有效的提高了误用规则的检测的准确性,同时在检测效率方面也有积极的作用。
机器学习方法的使用
(一)基于贝叶斯分类的方法
(二)基于神经网络的方法
经实践证明,基于神经网络的入侵检测方法在误用检测应用中较为理想。例如在该方法的应用即使在低预警情况下,也可以快速将一些已知的攻击方式进行识别。
2. 基于机器学习方法的入侵检测技术 – 信息通信/2015
传统检测手段
仅仅是利用简单的模式匹配来发现是不是原有的攻击,但是这种方法却不可以预测出新的攻击,同时也不可以通过自我学习的方式来产生新的检测规则,所以入侵检测系统仍存在很多缺陷和隐患。
1.基于贝叶斯分类的方法
属于机器学习。还没学
2.基于神经网络的方法
优势:
-
神经网络能够通过大量的实例,进行训练,然后学会知识,并从中得到正常的用户或系统活动的特征模式,拥有预测的能力,从而不需要获取描述用户行为特征的特征集以及用户行为特征测度的统计分布。
-
能够把新发现的入侵攻击实例展示给神经网络,经过第二次的训练让神经网络可以对新的攻击模式做出反应,由此让入侵检测系统获得自适应的能力。
-
当入侵检测系统正常的工作模式被神经网络掌握了之后,它就可以对偏离系统正常工作的事件产生反应,还能够发现一些新的攻击模式。
-
神经网络经过训练,能够把对模式的判断和匹配转换成数值的计算,这样有利于加快系统的处理速度,使其更适合于实时处理。
3.基于基因算法的方法
属于机器学习。还没学
4.基于支持向量机的方法
属于机器学习。还没学
3. 基于深度学习的恶意URL识别 – 计算机系统应用/2018
深度神经网络能够自动提取数据特征的特性为 URL 识别提供了一种新的思路. 根据 Anh 等人, 正常和恶意 URL 具有不同的词法特征, 即字符出现的频率, 位置, 和前后字符的关系具有可以区分的特征.
提出一种完全基于 URL 字符串的词法特征, 利用深度神经网络实现的恶意 URL 识别算法.
识别算法分为 3 个阶段, 首先训练构成 URL 的字符表示为实数向量的形式; 其次基于第一步得到的映射表, 将 URL 转换成特征图像; 最后将特征图像输入卷积神经网络 CNN 去学习特征, 通过一个全连接层实现对 URL 的分类.
本算法共有两个部分: 训练部分和预测部分.
首先, 系统监控用户浏览行为过程并生成日志; 然后, 使用深度学习对日志文件进行训练得到字符的嵌入式模型; 第三步, 利用上一步得到的模型对网页 URL 进行特征转化; 最后, 使用并行的 CNN 算法训练已标注的恶意/良性 URL 特征.
在训练模型之后, 我们使用经过训练的 CNN 模型进行评估验证过程. 首先, 使用字符的嵌入式表示对日志行为数据进行特征转化; 然后, 使用训练后的CNN 模型进行词法特征提取, 最后再使用分类输出层进行恶意概率的计算
…之后是详细训练过程…
实验
本研究采用十折交叉验证对 80 000 多个 URL 进行分类验证.
在我们的实验数据集上, 模型的准确率为 0.962 、召回率为 0.879、F1 值为 0.918, 模型整体达到了很好的预测效果.
4. 基于稀疏自编码深度神经网络的入侵检测方法 – 移动通信/2018
其他方法缺陷
传统缺陷
互联网的安全防范技术不断涌现并被广泛应用:
(1)数据加密和杀毒软件等被动防范技术;
(2)对网络安全状态进行实时检测的主动防范技术。
上述两种技术都是采用数据库匹配技术实现入侵行为的识别。但是在实际的生产环境中,黑客或恶意软件的入侵行为并不是一成不变的,当出现新的入侵行为时,上述的入侵检测方法就显得无能为力了。
神经网络缺陷
采用神经网络进行网络入侵行为的检测,但是由于神经网络是基于一定规模的训练样本进行模型构建,在训练样本足够多的情况下才能保证模型的精度,而入侵行为本来就是小概率事件,因此该方法的入侵检测结果不稳定,检测正确率也不如人意。
支持向量机缺陷
支持向量机对训练样本的要求没有神经网络那么苛刻,但是其也存在致命的缺陷:参数的确定和在高维特征空间的“维数灾难”的难题。
半监督学习缺陷
半监督的方法训练少量标记的数据获得大规模的数据集,引用信息增益率从定量的角度来衡量不同网络入侵行为特征对入侵检测预测结果的影响,能够在一定程度上提高未知攻击检测的性能,但是该方法的精度与选取的半监督方法有密切的关系。
本文提出
提出一种无监督的网络入侵检测方法——基于稀疏自编码深度神经网络入侵检测方法,采用非监督学习 自动提取入侵行为特征用于入侵行为的检测。
实验
总共提取网络连接记录8 326条,其中无标签数据1 126条,有标签训练集5 065条,有标签测试集2 135条。
实验数据包括了4种常见的网络入侵行为(包括Dos、R2L、U2R以及Root权限访问以及Probing端口监视或扫描)和正常的网络行为的三种不同类型的数据。