基于深度学习的网络异常行为检测技术研究（基于神经网络的异常检测）_科技

本文目录一览：

1、网络智能课题标题怎么写
2、目标检测系列（一）：R-CNN
3、异常点检测方法
4、基于深度学习的图异常检测如何改进

网络智能课题标题怎么写

以下是几个网络智能课题标题基于深度学习的网络异常行为检测技术研究的建议基于深度学习的网络异常行为检测技术研究：

基于深度学习的网络异常行为检测技术研究（基于神经网络的异常检测）

1. 基于深度学习的网络智能算法研究

2. 神经网络在智能交通领域的应用研究

3. 基于第五代移动网络的边缘计算在智能家居中的实践与探索

4. 虚拟现实技术在网络游戏中的应用研究

5. 基于人工智能的虚拟健身助手研究与设计

6. 基于机亩档器学习的推荐系统在电商平台中的应用研究

7. 网络图像识别技术在医疗影像诊断中的研究与应用

8. 基于大数据的社交网络情感分析研究

9. 联邦学习在物联蚂并网迅物乱中的应用研究

10. 基于区块链的网络安全技术研究与实践

目标检测系列（一）：R-CNN

目标检测（object detection）是计算机视觉中非常重要的一个领域。在卷积神经网络出现之前，都利用一些传统方法手动提取图像特征进行目标检测及定位，这些方法不仅耗时而且性能较低。而在卷积神经网络出现之后，目标检测领域发生了翻天覆地的变化。最著名的目标检测系统有RCNN系列、YOLO和SSD，本文将介绍RCNN系列的开篇作RCNN。

RCNN系列的技术演进过程可参见基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN 。

目标检测分为两步：第一步是对图像进行分类，即图像中的内容是什么；第二步则是对图像进行定位，找出图像中物体的具体位置。简单来说就是图像里面有什么，位置在哪。

然而，由于不同图片中物体出现的大小可能不同（多尺度），位置也可能不同，而且摆放角度，姿态等都可以不同，同时一张图片中还可以出现多个类别。这使得目标检测任务异常艰难。

上面任务用专业的说法就是：图像识别+定位

两个不同的分支分别完成不同的功能，分类和定位。回归（regression）分支与绝告分类分支（classification）共享网络卷积部分的参数值。

还是刚才的分类识别+回归定位思路。只是现在我们提前先取好不同位置的框，然后将这个框输入到网络中而不是像思路一将原始图像直接输入到网络中。然后计算出这个框的得分，取得分最高的框。

如上，对于同一个图像中猫的识别定位。分别取了四个角四个框进行分类和回归。其得分分别为0.5,0.75,0.6,0.8，因此右下角得分最高，选择右下角的黑框作为目标位置的预测（这里即完成了定位任务）。

这里还有一个问题——检测位置时的框要怎么取，取多大？在上面我们是在257x257的图像中取了221x221的4个角。以不同大小的窗口从左上角到右下角依次扫描的话，数据量会非常大。而且，如果考虑多尺度问题的话，还需要在将图像放缩到不同水平的大小来进行计算，这样又大大增加了计算量。如何取框这个问题可以说是目标检测的核心问题之一了，RCNN，fast RCNN以及faster RCNN对于这个问题的解决办法不断地进行优化，这个到了后面再讲。

总结一下思路：

对于一张图片，用各种大小的框将图片截取出来，输入到CNN，然后CNN会输出这个框的类别以及其位置得分。

对于检测框的选取，一般是采用某种方法先找出可能含有物体的框（也就是候选框，比如1000个候选框），这些框是可以互相重叠互相包含的，这样我们就可以避免暴力枚举所有框了。

讲完了思路，我们下面具体仔细来看看RCNN系列的实现，本篇先介绍RCNN的方法。

R-CNN相比于之前的各种目标检测算法，不仅在准确率上有了很大的提升，在运行效率上同样提升很大。R-CNN的过程分为4个阶段：

在前面我们已经简单介绍了selective search方法，通过这个方法我们筛选出了2k左右的候选框。然而搜索出的矩形框大小是不同的。而在AlexNet中由于最后全连接层的存在，对于图像尺寸有固定的要求，因此在将候选框输入之前，作者对这些候选框的大小进行了统一处理——放缩到了统一大小。文章中作者使用的处理方法有两种：

（1）各向异性缩放

因为图片扭曲可能会对后续CNN模型训练产生影响，于是作者也测试了各向同性缩放的方法。有两种方法：

此外，作者对于bounding box还尝试了padding处腔亏理，上面的示意图中第1、3行就是结合了padding=0，第2、4行结果采用padding=16的结果。经过最后的试验，作伍宏神者发现采用各向异性缩放、padding=16的精度最高。

卷积神经网络训练分为两步：（1）预训练；（2）fine-tune。

先在一个大的数据集上面训练模型（R-CNN中的卷机模型使用的是AlexNet），然后利用这个训练好的模型进行fine-tune（或称为迁移学习），即使用这个预训练好的模型参数初始化模型参数，然后在目标数据集上面进行训练。

此外，在训练时，作者还尝试采用不同层数的全连接层，发现一个全连接层比两个全连接层效果要好，这可能是因为使用两个全连接层后过拟合导致的。

另一个比较有意思的地方是：对于CNN模型，卷积层学到的特征其实就是基础的共享特征提取层，类似于传统的图像特征提取算法。而最后的全连接层学到的则是针对特定任务的特征。譬如对于人脸性别识别来说，一个CNN模型前面的卷积层所学习到的特征就类似于学习人脸共性特征，然后全连接层所学习的特征就是针对性别分类的特征了。

最后，利用训练好的模型对候选框提取特征。

关于正负样本的问题：由于选取的bounding box不可能与人工label的完全相同，因此在CNN训练阶段需要设置IOU阈值来为bounding box打标签。在文章中作者将阈值设置为0.5，即如果候选框bounding box与人工label的区域重叠面积大于0.5，则将其标注为物体类别（正样本），否则我们就把他当做背景类别（负样本）。

作者针对每一个类别都训练了一个二分类的SVM。这里定义正负样本的方法与上面卷积网络训练的定义方法又不相同。作者在文章中尝试了多种IoU阈值（0.1~0.5）。最后通过训练发现，IoU阈值为0.3的时候效果最好（选择为0精度下降了4个百分点，选择0.5精度下降了5个百分点）。即当IoU小于0.3的时候我们将其视为负样本，否则为正样本。

目标检测问题的衡量标准是重叠面积：许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。故需要一个位置精修步骤。

在实现边界回归的过程中发现了两个微妙的问题。第一是正则化是重要的：我们基于验证集，设置λ=1000。第二个问题是，选择使用哪些训练对(P,G)时必须小心。直观地说，如果P远离所有的检测框真值，那么将P转换为检测框真值G的任务就没有意义。使用像P这样的例子会导致一个无望的学习问题。因此，只有当提案P至少在一个检测框真值附近时，我们才执行学习任务。“附近”即，将P分配给具有最大IoU的检测框真值G（在重叠多于一个的情况下），并且仅当重叠大于阈值（基于验证集，我们使用的阈值为0.6）。所有未分配的提案都被丢弃。我们为每个目标类别执行一次，以便学习一组特定于类别的检测框回归器。

在测试时，我们对每个提案进行评分，并预测其新的检测框一次。原则上，我们可以迭代这个过程（即重新评估新预测的检测框，然后从它预测一个新的检测框，等等）。但是，我们发现迭代不会改进结果。

使用selective search的方法在测试图片上提取2000个region propasals ，将每个region proposals归一化到227x227，然后再CNN中正向传播，将最后一层得到的特征提取出来。然后对于每一个类别，使用为这一类训练的SVM分类器对提取的特征向量进行打分，得到测试图片中对于所有region proposals的对于这一类的分数，再使用贪心的非极大值抑制（NMS）去除相交的多余的框。再对这些框进行canny边缘检测，就可以得到bounding-box(then B-BoxRegression)。

参考：

Rich feature hierarchies for accurate object detection and semantic segmentation.

RCNN-将CNN引入目标检测的开山之作-晓雷的文章

基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

R-CNN 论文翻译

异常点检测方法

一、基本概念

异常对象被称作离群点。异常检测也称偏差检测和例外挖掘。

常见的异常成因：数据来源于不同的类（异常对象来自于一个与大多数数据对象源（类）不同的源（类）的思想），自然变异，以及数据测量或收集误差。

异常检测的方法：

（1）基于模型的技术：首先建立一个数据模型，异常是那些同模型不能完美拟合的对象；如果模型是簇的集合，则异常是不显著属于任何簇的对象；在使用回归模型时，异常是相对远离预测值的对象。

（2）基于邻近度的技术：通常可以在对象之间定义邻近性度量，异常对象是那些远离其他对象的对象。

（3）基于密度的技术：仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。

二、异常点检测的方法

1、统计方法检测离群点

统计学方法是基于模型的方法，即为数据创建一个模型，并且根据对象拟合模型的情况来评估它们。大部分用于离群点检测的统计学方法都是构建一个概率分布模型，并考虑对象有多大可能符合该模型。离群点的概率定义：离群点是一个对象，关于数据的概率分布模型，它具有低概率。这种情况的前提是必须知道数据集服从什么分布，如果估计错误就造成了重尾分布。异常检测的混合模型方法：对于异常检测，数据用两个分布的混合模型建模，一个分布为普通数据，而另一个为离群点。

聚类和异常检测目标都是估计分布的参数，以最大化数据的总似然（概率）。聚类时，使用EM算法估计每个概率分布的参数。然而，这里提供的异常检测技术使用一种更简单的方法。初始时将所有对象放入普通对象集，而异常对象集为空。然后，用一个迭代过程将对象从普通集转移到异常集，只要该转移能提高数据的总似然（其实等价于把在正常对象的分布下具有低概率的对象分类为离群点）。（衡首假设异常对象属于均匀分布）。异常对象由这样一些对象组成，这些对象在均匀分布下比在正常分布下具有显著较高的概率。

优缺点：（1）有坚实的统计学理论基础，当存在充分的数据和所用的检验类型的知识时，这些检验可能非常有效；（2）对于多元数据，可用的选择少一些，并且对于高维数据，这些检测可能性很差。

2、基于邻近度的离群点检测。

一个对象是异常的，如果它远离大部分点。这种方法比统计学方法更一般、更容易使用，因为确定数据集的有意义的邻近性度量比确定它的统计分布更容易。一个对象的离群点得分由到它的k-最近邻的距离给定。离群点得分对k的取值高度敏感。如果k太小（例如1），则少量的邻近离群点可能导致较低的离群点得分；如果k太大，则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性，可以使用k个最近邻的平均距离。

优缺点：（1）简单；（2）缺点：基于邻近度的咐族数方法需要O(m^2)时间，大数据集不适用；（3）该方法对参数的选择也是敏感的；（4）不能处理具有不同密度区域的数据集，因为它使用全局阈值，不能考虑这种密度的变化。

3、基于密度的离群点检测。

从基于密度的观点来说，离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。基于密度的离群点检测与基于邻近度的离群点检测密切相关，因为密度通常用邻近度定义。一种常用的定义密度的方法是，定义密度为到k个最近邻的平均距离的倒数。如果该距离小，则密度高，反之亦然。另一种密度定义是使用DBSCAN聚类算法使用的密度定义，即一个对象周围的密度等于该对象指定距离d内对象的个数。需要小心的选择d，如果d太小，则许多正常点可能具有低密度，从而具有高离群点得分。如果d太大，则许多离群点可能具有与正常点类似的密度（和离群点得分）。使用任何密度定义检测离群点具有与基于邻近度的离群点方案类似的特点和局限性。特殊地穗轮，当数据包含不同密度的区域时，它们不能正确的识别离群点。

为了正确的识别这种数据集中的离群点，我们需要与对象邻域相关的密度概念，也就是定义相对密度。常见的有两种方法：（1）使用基于SNN密度的聚类算法使用的方法；（2）用点x的密度与它的最近邻y的平均密度之比作为相对密度。

使用相对密度的离群点检测（局部离群点要素LOF技术）：首先，对于指定的近邻个数（k），基于对象的最近邻计算对象的密度density(x,k) ，由此计算每个对象的离群点得分；然后，计算点的邻近平均密度，并使用它们计算点的平均相对密度。这个量指示x是否在比它的近邻更稠密或更稀疏的邻域内，并取作x的离群点得分（这个是建立在上面的离群点得分基础上的）。

优缺点：

（1）给出了对象是离群点的定量度量，并且即使数据具有不同的区域也能够很好的处理；

（2）与基于距离的方法一样，这些方法必然具有O(m2)的时间复杂度。对于低维数据使用特定的数据结构可以达到O(mlogm)；

（3）参数选择是困难的。虽然LOF算法通过观察不同的k值，然后取得最大离群点得分来处理该问题，但是，仍然需要选择这些值的上下界。

4、基于聚类的技术

一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇。这个方法可以和其他任何聚类技术一起使用，但是需要最小簇大小和小簇与其他簇之间距离的阈值。这种方案对簇个数的选择高度敏感。使用这个方案很难将离群点得分附加到对象上。一种更系统的方法，首先聚类所有对象，然后评估对象属于簇的程度（离群点得分）（基于原型的聚类可用离中心点的距离来评估，对具有目标函数的聚类技术该得分反映删除对象后目标函数的改进（这个可能是计算密集的））。基于聚类的离群点：一个对象是基于聚类的离群点，如果该对象不强属于任何簇。离群点对初始聚类的影响：如果通过聚类检测离群点，则由于离群点影响聚类，存在一个问题：结构是否有效。为了处理该问题，可以使用如下方法：对象聚类，删除离群点，对象再次聚类（这个不能保证产生最优结果）。还有一种更复杂的方法：取一组不能很好的拟合任何簇的特殊对象，这组对象代表潜在的离群点。随着聚类过程的进展，簇在变化。不再强属于任何簇的对象被添加到潜在的离群点集合；而当前在该集合中的对象被测试，如果它现在强属于一个簇，就可以将它从潜在的离群点集合中移除。聚类过程结束时还留在该集合中的点被分类为离群点（这种方法也不能保证产生最优解，甚至不比前面的简单算法好，在使用相对距离计算离群点得分时，这个问题特别严重）。

对象是否被认为是离群点可能依赖于簇的个数（如k很大时的噪声簇）。该问题也没有简单的答案。一种策略是对于不同的簇个数重复该分析。另一种方法是找出大量小簇，其想法是（1）较小的簇倾向于更加凝聚，（2）如果存在大量小簇时一个对象是离群点，则它多半是一个真正的离群点。不利的一面是一组离群点可能形成小簇而逃避检测。

优缺点：

（1）基于线性和接近线性复杂度（k均值）的聚类技术来发现离群点可能是高度有效的；

（2）簇的定义通常是离群点的补，因此可能同时发现簇和离群点；

（3）产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性；

（4）聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。

新颖性和离群值检测

离群值检测：训练数据包含离群值，即与其他观测值相距甚远的观测值。离群检测估计器会尝试拟合训练数据最集中的区域，忽略异常观察。

新颖性检测：训练数据不受异常值的污染，有兴趣检测新观察值是否是异常值。该情况下离群值也称为新颖性。

离群值检测和新颖性检测均用于异常检测，离群值检测称为无监督异常检测，新颖性检测称为半监督异常检测。离群值检测的情况下，离群值/异常不能形成密集的群集，可假设离群值/异常位于低密度区域；新颖性检测的情况下，只要新颖性/异常位于训练数据的低密度区域，就可以形成密集的簇。

通过对玩具数据集进行异常检测比较异常检测算法

数据集中包含一种或两种模式（高密度区域），以说明算法处理多模式数据的能力。

对于每个数据集，将生成15%的样本作为随机均匀噪声。该比例是OneClassSVM的nu参数和其他异常值检测算法的污染参数提供的值。离群值之间的决策边界以黑色显示，但是LOF除外，因为当采用LOF用于离群值检测时，没有适用于新数据的预测方法。

OneClassSVM对异常值敏感，对异常值检测执行的不好。当训练集不受异常值污染时，此估计器最适合新颖性检测。即不适用在高维中进行离群值检测或者不对基础数据的分布进行任何假设，OneClassSVM在这些情况下可能会根据其超参数给出有用的结果。

covariance EllipticEnvelope（协方差椭圆密度）假定数据是高斯分布并学习一个椭圆。在数据不是单峰时，会退化。此估计器对异常值具有鲁棒性。

IsolationFrorest和LocalOutlierFactor针对多模式数据集效果显著。LOF针对第三种数据集，明显优于其它三种估计器，该数据集中两种模式的密度不同。LOF的局部方面，即它仅将一个样本的异常评分与其邻居评分作比较，从何体现了该方法的优势。

针对最后一个均匀分布在超立方体中的数据集，很难说一个样本比另一个样本异常得多。除了OneClassSVM有些过拟合外，所有估计器都针对该情况提出不错的解决方案。针对这种情况，应该仔细观察样本的异常分数，性能好的估算器应该为所有样本分配相似的分数。

使用局部离群因子（LOF）进行离群值检测

LOF算法是一种无监督的异常检测方法，可计算给定数据点相对于其邻居的局部密度偏差。其中密度远低于其邻居的样本为异常值。

LOF算法的优势在于同时考虑了数据集的局部和全局属性：即使在异常样本具有不同底层密度的数据集中，仍能保持良好性能。问题不在于样本有多孤立，而在于样本相对于周围邻域有多孤立。

通常考虑的邻居数量（1）大于群集必须包含的最小样本数量，以便其他样本可以是相对于该群集的局部离散值；（2）小于可能是局部异常值的最大进距采样数，此类消息通常不可用，采用n_neighbors=20。

具有局部异常值的新颖性检验

LOF是一种无监督的异常检测方法，可计算给定数据点相对于其邻居的局部密度偏差，密度远低于其邻居的样本为异常值。LOF用于新颖性检验时，切勿在训练集上使用预测、决定函数、实例得分，会导致结果错误。只能对新的看不见的数据（不在训练集中）使用这些方法。

通常考虑邻居数量（1）大于群集必须包含的最小样本数，以便其他样本可以是相对于该群集的局部离群值；（2）小于可能是局部异常值的最大进距采样数，此类消息通常不可用，采用n_neighbors=20。

隔离林

在高维数据集中执行异常检测的一种有效方法是使用随机森林，分离的观察通过随机选择一个函数，随机选择所选择的特征的最大值和最小值之间的分割值。递归分区可用树结构表示，隔离样本所需的拆分数量等于从根节点到终止结点的路径长度。随机树的森林中的平均路径长度是对正态性和决策函数的度量。随机分区产生的异常路径明显较短，因此如果随机树森林为特定样本生成的较短路径，则该树代表的值很可能是异常的。

OneClassSVM

无监督的离群值检测，支持高维分布，基于libsvm

不假定数据分布的任何参数形式，可以更好的对数据的复杂形状进行建模，能够捕获真实的数据结构，难点在于调整核函数宽度参数，以便在数据散布矩阵的形状和数据过度拟合的风险间取得折中。

协方差椭圆密度

用于检测高斯分布数据集中的异常值的对象

经验协方差估计（作为非稳健估计）受到观测值异质结构的高度影响；鲁棒协方差估计能够集中于数据分布的主要模式，但是它坚持假设数据是高斯分布，产生了对数据结构的某些估计，在一定程度上是准确的。

HBOS单维效果极佳，但是标准差方法的mask 掩码效应严重。例如数据通常在100以内，但是有两个异常点，500，1000000。这个算法就不能检出500这个异常点。

对比而言，孤立森林理论上更适合大数据的异常检测，且无掩码效应。孤立森林确定异常时训练只用样本数据。每颗树样本数量默认只有256个，默认只用100颗树。所以理论上25600个样本就能确定海量数据中的异常点了。

Sklearn的 isolation forest 例子默认是读入全量数据再采样。如果配上warm up 选项就能分批放入采样。

异常检测的深度学习研究综述

基于深度学习的图异常检测如何改进

1. 使用复杂的模型：使用更复杂的深度学习模型，如卷积神经网络（CNN）、循环神经网袭罩络（RNN）或变分自编码器（VAE）等，可以提高图异常检测的准确性。

2. 结合图像和图数据：结合图像和图数据可以提高异常检测的准确性，例如可以使用卷积神经网猜激络（CNN）提取图像特征，然后将这些特征与图数据结合使用来进行异常检测。

3. 弱化异常数据的拍兆闹影响：通过对异常数据进行去噪、降维等处理，可以减少异常数据对整个图的影响，从而提高异常检测的准确性。

4. 结合其他数据源：将图数据与其他数据源结合使用，例如社交网络数据、地理信息数据、生物数据等，可以提高异常检测的准确性。

5. 优化损失函数：通过设计更合理的损失函数，可以提高异常检测模型的准确性。例如，可以设计基于图结构的损失函数、基于异常度量的损失函数等。

6. 数据增强：通过对图数据进行增强，例如添加噪声、旋转、缩放等，可以增加训练数据的多样性，提高异常检测模型的准确性。