本技术涉及一种数据集构建和恶意软件识别技术,包括识别模型的构建方法和相关装置。该技术利用新样本与种子样本,通过异常检测算法识别异常样本,并将其纳入种子集,以优化识别模型。
背景技术
随着计算机编程技术的不断发展,基于各式计算机语言编程得到的软件也使得人们能够更加方便的在计算机中完成各式任务和工作,但携带恶意内容的恶意软件也随之出现,恶意的攻击正常数据文件或盗取他人劳动成果。因此,对待测软件进行是否为恶意软件的识别是十分重要的。
现有的智能恶意软件识别技术中通常采用机器学习的方法识别恶意软件,而机器学习算法的应用离不开训练数据集。现有的智能恶意软件识别技术中训练数据集包括大量的恶意及非恶意软件,但训练数据集内部同质化现象比较严重(两个相似软件之间仅有非常小的差异),即数据集的冗余程度很高,而冗余数据不但浪费数据存储空间,拉长恶意软件识别模型训练时间,甚至还可能降低恶意软件识别模型的精度。
实现思路