摘 要随着5G时代的到来网络安全也是人们逐渐关注的话题。针对网络安全这部分异常检测是重点之一异常检测在金融欺诈检测、医疗诊断、网络安全等方面得到了广泛的应用。现已有许多研究者研究了基于深度学习的异常检测这一个热点话题因此本文将针对基于深度学习的异常检测进行分类并指出问题所在以及各方法的原理、优缺点和应用场景同时叙述未来可能的前景。关键词网络安全深度学习异常检测1.引言目前异常检测技术广泛应用于金融欺诈检测[1]、医疗诊断[2]、网络安全[3]、工业领域[4]、区块链[5]等方面。由于深度学习在学习及处理复杂数据方面效果较好因此深度学习可以帮助异常检测很好地处理复杂数据的检测问题。目前比较热门的应用是基于深度学习的异常检测简称深度异常检测。现实中正常数据较多而异常数据比较罕见且其异常特征具有代表性故较多的异常检测方法是基于正常数据构建正常数据模型然后判断出异常数据。本文将对各种深度异常检测方法进行分类并对各方法的原理优缺点和应用进行阐述。本文的其他部分安排如下问题与挑战部分简述异常检测时存在的挑战和问题研究现状部分按时间顺序对基于深度学习的异常检测进行简述总结与展望部分对本文进行总结并指出未来的研究方向。2.问题与挑战由于异常是一些少数且不可预测的事件从而导致异常检测存在着一些复杂问题如下[6]1未知性事件在发生之前是未知的从而可能导致一些异常。例如网络入侵。2异常类的异构性不同的异常类可能具有完全不同的异常特征。例如在监控视频中有人摔倒和抢劫在视觉上有很大的不同。3罕见性和数据类型分布不平衡异常数据较少故收集大量异常数据较为困难并且正常和异常数据分类不平衡。4异常类别的多样性现已将异常划分为点异常、条件异常和聚集异常。由于以上复杂问题使得异常检测遇到很多挑战近几年基于深度学习的异常检测对解决这些挑战起到重要作用其中一些挑战得到了很好的解决但是有些挑战尚未解决。挑战如下1异常检测召回率低。异常的罕见性和类别多样性正常与异常的定义多样且边界不够清晰故难以收集全部异常数据误判数据。而在现实应用中无监督方法仍存在高阳性因此提高异常检测召回率对于异常检测尤为重要。2对高维数据和非独立数据的异常检测。低维数据空间中异常特征较为明显而在高维数据空间中难以发现则对高维数据进行异常检测具有挑战。识别数据复杂特征关系和耦合尤为必要且仍是异常检测的主要挑战。3正常数据和异常数据的高效学习。有监督方法需要有标记的异常和正常数据而异常数据较少故有监督方法不实际。收集正常标签数据和少量异常数据较为容易故可使用弱监督和半监督的方法从而面临的挑战有使用少量异常标签数据得到数据类型表示和学习可泛化模型。4抗噪音异常检测。许多弱监督和半监督异常检测都假设在无噪音标签数据集上训练而实际上可能存在误标记数据无监督检测方法不需要标记数据。现实中存在异常数据未标记以及近似异常的数据的情况从而噪声数据比重及分布不均仍是一个挑战。5复杂异常的检测。现有方法大多数仅适用于点异常检测且主要集中于检测单数据源故需要进行多数据源检测泛化模型以适用所有异常类型。6异常解释。目前异常检测的研究未对已识别异常解释故需获取异常解释研发可解释性模型从而平衡模型可解释性与有效性。3.研究现状现已有许多学者对基于深度学习的异常检测进行研究。故本节将对已有的方法按照邻近度、分类、聚类、神经网络这四个类别进行分类阐述方法的原理、成果、优缺点以及应用。3.1 基于邻近度的方法基于近似精度熵的异常值检测算法ODAAE[7]用于粗糙集的框架中使用一种称为AAE近似精度熵的基于离群因子的度量来量化任何给定对象的离群程度从而解决最近邻域的大小确定问题。其中近似精度熵是香农信息熵在粗糙集中的扩展。该实验结果表明在真实数据集上所提出的算法对于异常值检测是有效的。与现有的基于邻近度的方法相比ODAAE不需要任何用户自定义参数并且可以避免现有方法昂贵的计算成本。该方法对对离散数据的处理效果更好。为了处理连续属性需要采用离散化方法。由于连续属性的离散化可能会导致信息丢失故还可将模型扩展为在不离散化的情况下处理连续属性。框架[8]主要通过使用代理监督从原始未标记数据创建多个伪类利用有鉴别力的 DNN 进行表示学习利用内围层优先级inlier priority新属性通过判别性DNN实现端到端 UOD使用基于负熵的分数进行度量异常值。由于内围层数据和外围层数据不区别地输入网络进行训练时内围层数据和外围层数剧内在的类别不平衡性将使网络优先考虑最小化异常值的损失从能够直接从DNN的输出中区分异常值。实验结果表明该方法显着提高了UOD性能高达30% AUROC。该框架可以从原始图像数据中实现有效的端到端UOD但是还需要探索不同的网络架构、代理监督操作和评分策略。图1 代理监督工作流(a)和学习表征的比较(b)针对深度神经网络需要大规模标记数据很难适用于无监督学习任务这一问题王虎提出通过训练神经网络来预测随机投影空间中的数据距离从而在不使用任何标记数据的情况下学习特征[9]。其中随机映射是一种经过理论验证的获得近似保留距离的方法优化表示学习器来学习隐式嵌入随机投影空间中的真实类结构从而更好地预测这些随机距离。实验结果表明该方法学习到的表示在异常检测和聚类任务中效果更优。当该方法中的损失函数仍可以使用另外一个超参数进行控制权重。图2 随机距离预测RDP框架基于机器学习的主动微波链路异常检测PMADS[10]主要使用异常链接通常具有相似的网络拓扑属性来提高检测精度用基于网络嵌入的方法将拓扑信息编码为特征使用ADAL主动学习算法通过用无监督学习将异常作为异常值从训练集中分离出来来低成本持续更新检测模型。该方法可以有效地进行微波链路的异常检测从而保持数据传输的稳健性。该方法能够实现高精度和高召回率可服务于LTE网络。图3 PMADS体系结构针对超参数的最佳默认值确定问题Oliver Urs Lenz提出了平均局部邻近度ALP[11]来解决基于最近邻距离的现有方法的某些问题且通过大量的一分类问题确定了ALP和现有描述符的最优默认超参数值从而确保了描述符的易用性。虽然平均局部邻近度该描述符可以很好用于无监督异常检测但是该描述符计算复杂度较高可通过与近似算法结合来加快计算速度精准度有待提高。基于集成方法和基于距离的数据过滤的新异常值检测算法[12]主要采用迭代方法检测未标记数据中的异常值。其中使用集成方法对未标记数据进行聚类通过迭代使用聚类成员资格阈值过滤掉相同数据中的潜在孤立异常点直到聚类的Dunn指数得分最大化基于距离的数据过滤使用来自多数聚类的每个数据点的欧氏距离度量作为过滤因子基于距离阈值从聚类后数据中删除潜在的离群聚类。该方法可以有效地检测异常性能更优但是主要局限性在于算法性能取决于阈值选择故可以通过其他方法来自动确定阈值。邻近隔离森林[13]是一种基于邻近度的扩展只需要一组成对距离即可工作使其适用于不同类型的数据基于捕获异常值与其余数据分离的原则来优化隔离通过异常数据在树中的早期隔离来检测出异常值。该方法适用于任何类型的数据在异常检测中鲁棒性较好但是还需优化训练策略以能够捕捉到异常特征的不同方面。这类方法可以有效解决异常检测召回率低和正常数据和异常数据的高效学习的问题。3.2基于分类的方法单目标生成对抗主动学习SO-GAAL异常值检测方法[14]可根据生成器和鉴别器之间的极小极大博弈直接生成信息潜在异常从而解决因维数不足而导致的信息缺失问题当其提供足够信息时应确定训练的停止节点。由于该方法不适用于没有任何先验信息的情况故将SO-GAAL的网络结构从单个生成器扩展到具有不同目标的多个生成器MO-GAAL以防止生成器陷入模式崩溃问题。可以为整个数据集生成合理的参考分布避免。该方法对不同参数都具有较强的鲁棒性易于处理各种聚类类型和高不相关可变比计算复杂度为线性复杂度但可尝试将集成学习与GAAL的迭代优化或特征选择相结合仍需进一步研究数据类型的网络结构。图4 检测过程中基于SO-GAAL的离群点检测算法针对数据集缺失值问题Vangipuram提出一种填补技术来填补缺失值和基于特征变换执行分类的分类器[15]使用基于特征变换的测度来计算特征模式聚类过程中的相似度使用基于增量聚类的测度来计算分类任务中的相似度。实验结果表明该方法效果更好但该方法可使用z空间中提出新的输入和分类措施来扩展可使用新的特征转换技术来处理归责任务从而处理数据集中常见缺失值。多层单类分类MOCCA新框架[16]用于在异常检测AD任务上训练和测试深度学习DL模型。该方法主要明确使用了深层架构的多层结构每层的特征空间都在训练时优化异常检测而在测试阶段将从训练层中提取的深度表示相结合以检测异常在训练阶段自动编码器只接受重建任务的训练在每层中最小化输出表示与参考点无异常训练数据质心之间的L2距离结合各训练层提取的深度特征来进行异常检测。该方法的平均性能较好且具有较强的泛化力。图5 MOCCA方法的示意图针对视频异常检测中较高的误报、缺乏场景理解和检测性能差的问题Thakare[17]提出具有融合后策略的多流架构主要使用异常和正常视频数据来训练深度多实例学习分类器通过在特征提取中注入时间信息来提高异常检测性能在训练时并行使用两个时空深度特征提取器然后使用这些流来训练修改后的基于多实例学习的分类器再采用模糊聚合来融合异常分数。该模型有助于检测视频中的长时间异常所提出的端到端多流架构异常检测的准确率更高性能更优。图6 端到端多流异常定位与分类体系结构基于多尺度残差分类器的网络流量异常检测方法MSRC[18]主要使用滑动窗口将网络流量划分为不同观测尺度的子序列使用小波变换技术获取多个分解尺度上每个子序列的时频信息设计堆叠自动编码器SAE学习输入数据的分布利用构建的特征空间计算重构误差向量学习利用多径残差组重构不同尺度的误差向量通过轻量级分类器完成流量异常检测。该方法异常检测性能和泛化性较好可应用于具有异常检测功能的入侵检测系统和入侵防御系统。该类方法可以有效解决正常数据和异常数据的高效学习、对高维数据和非独立数据的异常检测和复杂异常的检测问题。3.3基于聚类的方法基于邻近度和聚类的混合异常检测方法[19]利用真实数据集的高斯分布特性来分离异常通过有效地提取异常和减少假警报的数量来提高准确性。实验结果表明该方法在灵敏度、漏检率和检测结果的准确性上较好。该方法可用于空气质量检测。聚类与离群点去除算法COR[20]主要根据离群点与聚类之间的关系将原始特征空间转化为分区空间给出基于全息熵的目标函数并通过K-means优化对目标函数进行了部分求解。该方法使用一个辅助的二元矩阵完全通过K-means 在连接的二元矩阵上解决了联合聚类分析和离群点检测问题。实验结果表明该方法在聚类有效性和离群值检测上有效性且效率较好。图7 中国和美国的飞行轨迹(a)和(c)显示飞行轨迹(b)和(d)显示COR检测到的异常轨迹基于最优自编码器网络的重构误差和基于自编码器网络编码层学习表征的DBSCAN噪声[21]是多元地球化学异常的有用指标。其中基于密度的噪声空间聚类应用程序DBSCAN主要针对原始数据和等距对数比转换后的数据进行操作将与核心样本不同的噪声样本视为异常从自动编码器网络层中学习到的表示被DBSCAN聚类以检测代表地球化学异常的噪声样本。衡量二元异常与已知矿床之间关系的约登指数用于最佳阈值选择以根据导出的连续地球化学异常数据创建最佳矿产潜力图。该方法可以有效进行多元地球化学异常检测。该方法适用范围较小故还需提高其泛化力。针对基于3D建筑模型辅助标记的监督GNSS 信号类型分类的定位增强方面夏言[22]等人构建了一种结合基于聚类的异常检测和监督分类的 GNSS 观测质量识别的替代框架。其中基于层次密度的应用噪声空间聚类HDBSCAN算法用于将离线数据集标记为正常和异常观察而无需借助 3D构建模型在线系统中的监督分类器学习分类规则以进行实时异常检测。实验结果表明该方法使得离线数据集的单点定位精度有所提高该方法具有可行性和较好的泛化力但参数特征有待优化。图8 GNSS观测异常检测混合学习框架流程图深度自动编码器紧凑聚类单类支持向量机的无监督异常检测框架DAECC-OC-SVM[23]旨在结合深度神经网络自动学习表示的优势以提高异常检测性能。该方法利用深度学习的高模式管理来表征和提取特征使用深度聚类算法改进紧凑表示特征空间映射将紧凑表示作为单类分类方案的输入结合DAE的重建能力可以提高离群值的检测。该方法适用于任何需要进行异常检测的机电系统且在工业应用中具备可行性且效果较好。图9 DAECC-OC-SVM框架流程图基于复合聚类和大数据技术的实时异常检测框架[24]主要使用了流式滑动窗口局部离群因子核心集聚类算法SSWLOFCC引入了实时大数据技术来提高框架的性能同时也针对准确性、内存消耗和执行时间方面进行评估。该方法具有低能耗高效性且所提出的解决方案可用于实时准确地跟踪和检测异常情况。基于深度学习和模糊聚类Fuzz-ClustNet的心电信号心律失常检测方法[25]主要是对心电图 ECG信号数据进行降噪再分段对分割后的图像执行数据增强来平衡类别利用CNN来对增强图像进行特征提取利用模糊聚类算法来分类信号。该方法可有效用于心律失常检测。该类方法可有效解决抗噪音异常检测和复杂异常的检测问题。3.4基于神经网络的方法基于深度学习的新型机械设备异常检测方法[26]主要有基于堆叠自动编码器SAE的多特征序列表示和基于长短期记忆LSTM神经网络的异常识别这两个阶段。若历史数据未标记且缺乏异常经验知识则该方法侧重于通过多个特征序列进行异常检测。经实验结果表明该方法的效果较好。该方法可用于故障诊断。图10 基于SAE的多特征序列表示学习过程针对实时异常检测方面效率不高问题Sahil Garg等人提出了基于灰狼优化GWO和卷积神经网络CNN进行网络异常检测的混合数据处理模型[27]。该模型主要使用ImGWO 进行特征选择以获得两个目标之间的最佳权衡和使用ImCNN 进行网络异常分类。其中对GWO和CNN进行探索、利用和初始种群生成能力和各自的随机失活层方面的改进得到Improved-GWOImGWO和 Improved-CNNImCNN来增强所提出模型的能力。实验结果表明该模型在检测率、误报率和准确率方面的整体提升。该方法的适用性有待加强。图11 基于ImGWO和ImCNN的异常检测混合模型针对深度异常检测方法中特征表示学习效率低下和异常评分不理想的问题Guansong Pang提出一个新的框架及其实例DevNet[28]主要通过神经偏差学习来实现异常分数的端到端学习利用多个标记的异常和先验概率来强制执行统计上显着的偏差从而实现异常分数与正常数据对象的异常分数的统计上显着偏差。该方法可以有效地进行异常检测且可用于无监督学习但是对于一些类似于只有一两个标记异常可用的特殊情况不适用。图12 DevNet实例对应的建议框架图一种随机seq2seq模型TopoMAD[29]主要使用系统拓扑信息来组织不同组件的指标并对连续收集的指标应用滑动窗口以捕获时间依赖性使用图神经网络提取空间特征使用长短期记忆网络提取时间特征使用基于变分自动编码器的模型来确保其稳健性。该模型可以稳健地模拟受污染数据之间的空间和时间依赖性。图13 TopoMAD的整体结构针对在万物互联IoE中的异常检测Youcef Djenouri等人提出了一种新的通用深度学习DL框架[30]。该架构主要是将数据集分解成簇同时将同一簇中的相似观察值分组使用深度学习架构训练生成的集群且提出了一种新的循环神经网络来训练时间序列数据和遗传与蜂群两种进化计算算法。该方法可以使用于道路交通异常值检测和网络入侵检测。该方法具有高性能计算。Garson-pruned ELM-RNN算法[31]是一种优化的复制器神经网络算法主要使用极限学习机ELM学习和Garson算法进行了优化。其中极限学习机是具有单隐藏层的神经网络Garson算法可以解决隐藏层最佳神经元数量的确定问题。该方法可用于异常检测且速度较快准确率较高。图14 RNN结构示意图多模态时空图注意力网络MST-GAT[32]主要采用多模态图注意力网络M-GAT和时间卷积网络来捕获多模态时间序列中的时空相关性同时优化重建和预测模块。且在此基础上构建了一种基于重建概率和预测值的有效异常解释方法增加模型的可解释性。该方法可以解决多模态多元时间序列数据异常检测问题。图15MST-GAT结构图这类方法可以有效地解决异常解释、对高维数据和非独立数据的异常检测和复杂异常的检测问题。4.总结与展望5G时代下的网络安全尤为重要且其中基于深度学习的异常检测也是研究者关注的热点问题。本文对各种深度异常检测方法进行分类并对各方法进行了简要阐述。现阶段对于异常检测存在的未来有以下几种可能的方向减化数据量需求减少数据不平衡分布影响优化神经网络选择优化参数的鲁棒性优化参数值的初始化选择增强模型的可解释性以及泛化力。参 考 文 献[1] Mehbodniya, Abolfazl, et al. Financial fraud detection in healthcare using machine learning and deep learning techniques. Security and Communication Networks 2021 (2021): 1-8.[2] Zhang, Jianpeng, et al. Viral pneumonia screening on chest X-rays using confidence-aware anomaly detection. IEEE transactions on medical imaging 40.3 (2020): 879-890.[3] Alrashdi, Ibrahim, et al. Ad-iot: Anomaly detection of iot cyberattacks in smart city using machine learning. 2019 IEEE 9th Annual Computing and Communication Workshop and Conference (CCWC). IEEE, 2019.[4] Gómez, Ángel Luis Perales, et al. SUSAN: A Deep Learning based anomaly detection framework for sustainable industry. Sustainable Computing: Informatics and Systems (2023): 100842.[5] Liang, Wei, et al. Data fusion approach for collaborative anomaly intrusion detection in blockchain-based systems. IEEE Internet of Things Journal 9.16 (2021): 14741-14751.[6] Pang, Guansong, et al. Deep learning for anomaly detection: A review. ACM computing surveys (CSUR) 54.2 (2021): 1-38.[7] Jiang, Feng, et al. Outlier detection based on approximation accuracy entropy.International Journal of Machine Learning and Cybernetics10 (2019): 2483-2499.[8] Wang, Siqi, et al. Effective end-to-end unsupervised outlier detection via inlier priority of discriminative network.Advances in neural information processing systems32 (2019).[9] Wang, Hu, et al. Unsupervised representation learning by predicting random distances.arXiv preprint arXiv:1912.12186(2019).[10] Pan, Lujia, et al. Proactive microwave link anomaly detection in cellular data networks.Computer Networks167 (2020): 106969.[11] Lenz, Oliver Urs, Daniel Peralta, and Chris Cornelis. Average Localised Proximity: A new data descriptor with good default one-class classification performance.Pattern Recognition118 (2021): 107991.[12] Chakraborty, Bodhan, et al. An iterative approach to unsupervised outlier detection using ensemble method and distance-based data filtering.Complex Intelligent Systems8.4 (2022): 3215-3230.[13] Mensi, Antonella, David MJ Tax, and Manuele Bicego. Detecting Outliers from Pairwise Proximities: Proximity Isolation Forests.Pattern Recognition(2023): 109334.[14] Liu, Yezheng, et al. Generative adversarial active learning for unsupervised outlier detection.IEEE Transactions on Knowledge and Data Engineering32.8 (2019): 1517-1528.[15] Vangipuram, Radhakrishna, et al. A machine learning approach for imputation and anomaly detection in IoT environment.Expert Systems37.5 (2020): e12556.[16] Massoli, Fabio Valerio, et al. MOCCA: Multilayer one-class classification for anomaly detection.IEEE Transactions on Neural Networks and Learning Systems33.6 (2021): 2313-2323.[17] Thakare, Kamalakar Vijay, et al. A multi-stream deep neural network with late fuzzy fusion for real-world anomaly detection.Expert Systems with Applications201 (2022): 117030.[18] Duan, Xueyuan, Yu Fu, and Kun Wang. Network traffic anomaly detection method based on multi-scale residual classifier.Computer Communications198 (2023): 206-216.[19] Aggarwal, Apeksha, and Durga Toshniwal. Detection of anomalous nitrogen dioxide (NO2) concentration in urban air of India using proximity and clustering methods.Journal of the Air Waste Management Association69.7 (2019): 805-822.[20] Liu, Hongfu, et al. Clustering with outlier removal.IEEE transactions on knowledge and data engineering33.6 (2019): 2369-2379.[21] Zhang, Shuai, et al. Integration of auto-encoder network with density-based spatial clustering for geochemical anomaly detection for mineral exploration.Computers Geosciences130 (2019): 43-56.[22] Xia, Yan, et al. Anomaly detection for urban vehicle GNSS observation with a hybrid machine learning system.Remote Sensing12.6 (2020): 971.[23] Arellano-Espitia, Francisco, et al. Deep-Compact-Clustering based anomaly detection applied to electromechanical industrial systems.Sensors21.17 (2021): 5830.[24] Ariyaluran Habeeb, Riyaz Ahamed, et al. Clustering‐based real‐time anomaly detection—A breakthrough in big data technologies.Transactions on Emerging Telecommunications Technologies33.8 (2022): e3647.[25] Kumar, Sanjay, et al. Fuzz-ClustNet: Coupled fuzzy clustering and deep neural networks for Arrhythmia detection from ECG signals.Computers in Biology and Medicine(2023): 106511.[26] Li, Zhe, et al. A deep learning approach for anomaly detection based on SAE and LSTM in mechanical equipment.The International Journal of Advanced Manufacturing Technology103 (2019): 499-510.[27] Garg, Sahil, et al. A hybrid deep learning-based model for anomaly detection in cloud datacenter networks.IEEE Transactions on Network and Service Management16.3 (2019): 924-935.[28] Pang, Guansong, Chunhua Shen, and Anton van den Hengel. Deep anomaly detection with deviation networks.Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery data mining. 2019.[29] He, Zilong, et al. A spatiotemporal deep learning approach for unsupervised anomaly detection in cloud systems.IEEE Transactions on Neural Networks and Learning Systems(2020).[30] Djenouri, Youcef, et al. Emergent deep learning for anomaly detection in internet of everything.IEEE Internet of Things Journal(2021).[31] Hashmi, Adeel Shiraz, and Tanvir Ahmad. GP-ELM-RNN: Garson-pruned extreme learning machine based replicator neural network for anomaly detection.Journal of King Saud University-Computer and Information Sciences34.5 (2022): 1768-1774.[32] Ding, Chaoyue, Shiliang Sun, and Jing Zhao. MST-GAT: A multimodal spatial–temporal graph attention network for time series anomaly detection.Information Fusion89 (2023): 527-536.