【技术实现步骤摘要】
一种基于机器学习的文本数据检测方法、装置和设备
[0001]本专利技术实施例涉及网络安全检测技术,尤其涉及一种基于机器学习的文本数据检测方法、装置和设备。
技术介绍
[0002]当前互联网的使用日益普及,互联网安全对于信息安全也愈发重要,结构化查询语言注入(Structures Query Language Injection,SQL注入)是常见的网站攻击方式,攻击者通过将恶意的SQL查询或添加语句插入到应用的输入参数中,再在后台SQL服务器上解析执行进行的攻击,来达到包括文本数据窃取等攻击目的。在现有技术中,通常基于规则策略配置相应规则内容来有针对性地检测具体SQL注入内容。
[0003]然而,现有技术存在如下技术缺陷:由于规则策略是人为设定的,因此容易被攻击者绕过,且难以自动扩展检测范围,需要维护大量规则。
技术实现思路
[0004]本专利技术提供一种基于机器学习的文本数据检测方法、装置和设备,以实现精确地对文本数据进行检测,并且可以对检测结果进行解释说明的效果。
[0005]第一方面,本 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的文本数据检测方法,其特征在于,包括:对用于训练的文本数据进行特征提取;基于特征提取结果训练检测算法模型;基于特征提取结果和检测算法模型训练解释算法模型;基于训练得到的检测算法模型对待检测的文本数据进行检测,得到检测结果;基于训练得到的解释算法模型对待检测的文本数据进行解释,得到解释结果;对所述检测结果和解释结果进行汇总输出。2.根据权利要求1所述的基于机器学习的文本数据检测方法,其特征在于,所述文本数据包括:SQL结构化查询语言注入语句。3.根据权利要求1所述的基于机器学习的文本数据检测方法,其特征在于,所述对用于训练的文本数据进行特征提取,包括:通过TF
‑
IDF特征提取方法对用于训练的文本数据进行特征提取。4.根据权利要求1所述的基于机器学习的文本数据检测方法,其特征在于,所述基于特征提取结果训练检测算法模型,包括:基于特征提取结果,对LightGBM轻量级提升学习算法进行训练,得到检测算法模型。5.根据权利要求1所述的基于机器学习的文本数据检测方法,其特征在于,所述基于特征提取结果和检测算法模型训练解释算法模型,包括:基于向量形式的特征提取结果和检测算法模型,训练解释算法模型。6.根据权利要求1所述的基于机器学习的文本数据检测方法,其特征在于,所述基于特征提取结果和检测算法模型训练解释算法模型,包括:基于特征提取结果和检测算法模...
【专利技术属性】
技术研发人员:陈嘉豪,梁彧,傅强,蔡琳,杨满智,田野,阿曼太,王杰,金红,陈晓光,
申请(专利权)人:恒安嘉新北京科技股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。