本技术领域涉及数据处理,旨在提出一种DACGAN-Transformer混合内部威胁检测技术,有效应对数据不平衡问题,增强检测精度,提升内部威胁识别能力。
背景技术
公司或企业总是处于各种网络攻击的高风险之中。来自公司或企业受信任实体内部的网络攻击被称为内部威胁,通常包括故意欺诈、盗窃有价值信息,或破坏计算机系统。近些年,内部攻击呈上升趋势。尽管内部威胁检测已经研究多年,但由于缺乏真实数据和数据不平衡,内部威胁检测难以找到有效的解决方案,并不能达到应有的效果,该领域依旧有很大的发展空间。
内部威胁与外部威胁的主要区别在于攻击者的访问权限和熟悉程度。外部威胁通常来自不具备组织内部访问权限的外部个体或组织,攻击者可能通过钓鱼攻击、恶意软件等方式入侵系统。而内部威胁则是来自组织内部的人员或系统,他们已拥有访问权限,并可能利用这些权限进行恶意或过失行为。内部威胁的检测和防御相对复杂,因为它们往往发生在组织的合法用户和系统内部。
当前内部威胁检测方法主要可以分为基于异常行为分析的检测方法与基于形式化建模的检测方法两类。基于异常行为分析的检测方法主要分为基于审计日志和基于用户命令两种检测手段。基于审计日志的检测方法主要是通过用户操作留下的日志分析用户的行为模式(例如访问文件的频率、登录时间、邮件记录等)从而识别异常行为,包括那些以前从未发生过的活动,因为它们认为任何不寻常的情况都是潜在的攻击。目前大多数方法都未考虑日志的结构相关性,而是直接对日志数据提取特征,缺乏细粒度分析,无法对日志数据中的不同层次信息进行深入分析。基于用户命令异常检测方法将用户的命令序列作为分析对象,分别计算相邻命令模式出现的概率,新命令与历史命令的匹配程度来判断是否属于异常。基于形式化建模的内部威胁发现检测方法是指通过建立用户的正常行为模型,通过对比用户的现有行为,检测出偏移该模型的异常行为。该方法另一个重要工作是基于图方法的内部威胁检测方法,通过建模和分析与用户、系统、资源及其交互相关的图结构,如攻击图、攻击树、Petri网等,识别潜在的内部威胁。
此外,随着机器学习和深度学习技术的不断发展,使用机器学习和深度学习进行内部威胁检测的趋势正在上升。然而传统的机器学习方法严重依赖于特征工程,难以精确捕获正常用户和内部攻击者之间的行为模式差别,先进的深度学习技术可以从复杂数据中提取高维特征,但仍依赖于数据增强来缓解数据短缺。
为了缓解数据不平衡问题并提高模型的泛化能力,数据增广技术被广泛应用。数据增广通过生成新的样本来扩展数据集,从而增强模型的训练效果和鲁棒性。常见的数据增强策略包括对数据进行变换、添加噪声或从变换空间中随机选择样本。然而,即使某种增强策略在特定应用中能够有效提升数据集的表现,也并不意味着它在其他数据集和应用中同样适用。此外,由于维度的限制,这种采样方法在表达能力上受到制约,无法扩展到依赖众多参数的复杂变换。
生成对抗网络(GAN)是一种生成式的深度学习模型,通过生成器和判别器的互相博弈学习从给定的原始数据集中产生新数据,其中生成的数据点模拟了真实的数据分布。GAN作为数据增强的一种策略,与其他合成数据生成方法不同,能够创建逼真的数据样本,从而有效减少数据不平衡问题,并降低最终的过拟合风险。GAN最初广泛应用于图像和视频处理领域,但如今已被扩展到处理结构化和非结构化数据。在传统GAN的基础上,条件GAN(CGAN)通过引入条件变量(如类别标签或其他辅助信息)来指导数据生成,使得生成的样本更加符合特定条件的要求。辅助分类器GAN(ACGAN)进一步发展了这一思路,除了通过判别器判断数据是真实的还是生成的,还在判别器最后加入一个辅助分类器输出数据的类别标签,从而进一步增强生成器的能力,但辅助分类器与判别器共享模型参数,分类效果有限。
现有技术主要存在以下缺点:现有数据集数量少,且提供的场景不够丰富和真实,代表性不强,不能有效反映真实的内部威胁状况。现有数据集不平衡,负样本数量远少于正样本,从而影响深度学习模型的训练效果。考虑到不同系统的日志格式也不同,直接处理文本复杂且有大量数据冗余。通过模板解析,日志的固定部分被抽取为模板,变化部分作为参数存储,日志结构更加清晰,降低了处理难度,减少了数据维度和冗余。现有检测方法缺乏细粒度分析,传统的检测方法无法对日志数据中的不同层次信息进行深入分析。
实现思路