一种基于机器学习的文本数据检测方法、装置和设备制造方法及图纸

技术编号:31235811 阅读:26 留言:0更新日期:2021-12-08 10:18
本发明专利技术公开了一种基于机器学习的文本数据检测方法、装置和设备。一种基于机器学习的文本数据检测方法,包括:对用于训练的文本数据进行特征提取;基于特征提取结果训练检测算法模型;基于特征提取结果和检测算法模型训练解释算法模型;基于训练得到的检测算法模型对待检测的文本数据进行检测,得到检测结果;基于训练得到的解释算法模型对待检测的文本数据进行解释,得到解释结果;对所述检测结果和解释结果进行汇总输出。本实施例的技术方案,解决了文本数据的检测内容容易被攻击者绕过,且难以自动扩展检测范围,需要维护大量规则的问题,达到了精确地对文本数据进行检测,并且可以对检测结果进行解释说明的效果。可以对检测结果进行解释说明的效果。可以对检测结果进行解释说明的效果。

【技术实现步骤摘要】
一种基于机器学习的文本数据检测方法、装置和设备


[0001]本专利技术实施例涉及网络安全检测技术,尤其涉及一种基于机器学习的文本数据检测方法、装置和设备。

技术介绍

[0002]当前互联网的使用日益普及,互联网安全对于信息安全也愈发重要,结构化查询语言注入(Structures Query Language Injection,SQL注入)是常见的网站攻击方式,攻击者通过将恶意的SQL查询或添加语句插入到应用的输入参数中,再在后台SQL服务器上解析执行进行的攻击,来达到包括文本数据窃取等攻击目的。在现有技术中,通常基于规则策略配置相应规则内容来有针对性地检测具体SQL注入内容。
[0003]然而,现有技术存在如下技术缺陷:由于规则策略是人为设定的,因此容易被攻击者绕过,且难以自动扩展检测范围,需要维护大量规则。

技术实现思路

[0004]本专利技术提供一种基于机器学习的文本数据检测方法、装置和设备,以实现精确地对文本数据进行检测,并且可以对检测结果进行解释说明的效果。
[0005]第一方面,本专利技术实施例提供了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的文本数据检测方法,其特征在于,包括:对用于训练的文本数据进行特征提取;基于特征提取结果训练检测算法模型;基于特征提取结果和检测算法模型训练解释算法模型;基于训练得到的检测算法模型对待检测的文本数据进行检测,得到检测结果;基于训练得到的解释算法模型对待检测的文本数据进行解释,得到解释结果;对所述检测结果和解释结果进行汇总输出。2.根据权利要求1所述的基于机器学习的文本数据检测方法,其特征在于,所述文本数据包括:SQL结构化查询语言注入语句。3.根据权利要求1所述的基于机器学习的文本数据检测方法,其特征在于,所述对用于训练的文本数据进行特征提取,包括:通过TF

IDF特征提取方法对用于训练的文本数据进行特征提取。4.根据权利要求1所述的基于机器学习的文本数据检测方法,其特征在于,所述基于特征提取结果训练检测算法模型,包括:基于特征提取结果,对LightGBM轻量级提升学习算法进行训练,得到检测算法模型。5.根据权利要求1所述的基于机器学习的文本数据检测方法,其特征在于,所述基于特征提取结果和检测算法模型训练解释算法模型,包括:基于向量形式的特征提取结果和检测算法模型,训练解释算法模型。6.根据权利要求1所述的基于机器学习的文本数据检测方法,其特征在于,所述基于特征提取结果和检测算法模型训练解释算法模型,包括:基于特征提取结果和检测算法模...

【专利技术属性】
技术研发人员:陈嘉豪梁彧傅强蔡琳杨满智田野阿曼太王杰金红陈晓光
申请(专利权)人:恒安嘉新北京科技股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1