本技术公开了一种基于机器学习的文本数据检测方法、装置和设备。一种基于机器学习的文本数据检测方法,包括:对用于训练的文本数据进行特征提取;基于特征提取结果训练检测算法模型;基于特征提取结果和检测算法模型训练解释算法模型;基于训练得到的检测算法模型对待检测的文本数据进行检测,得到检测结果;基于训练得到的解释算法模型对待检测的文本数据进行解释,得到解释结果;对所述检测结果和解释结果进行汇总输出。本实施例的技术方案,解决了文本数据的检测内容容易被攻击者绕过,且难以自动扩展检测范围,需要维护大量规则的问题,达到了精确地对文本数据进行检测,并且可以对检测结果进行解释说明的效果。
背景技术
当前互联网的使用日益普及,互联网安全对于信息安全也愈发重要,结构化查询语言注入(Structures Query Language Injection,SQL注入)是常见的网站攻击方式,攻击者通过将恶意的SQL查询或添加语句插入到应用的输入参数中,再在后台SQL服务器上解析执行进行的攻击,来达到包括文本数据窃取等攻击目的。在现有技术中,通常基于规则策略配置相应规则内容来有针对性地检测具体SQL注入内容。
然而,现有技术存在如下技术缺陷:由于规则策略是人为设定的,因此容易被攻击者绕过,且难以自动扩展检测范围,需要维护大量规则。
实现思路