网络请求数据分类模型训练方法、分类方法及存储介质技术

技术编号:33550279 阅读:34 留言:0更新日期:2022-05-26 22:46
本发明专利技术提供了一种网络请求数据分类模型训练方法、分类方法及存储介质,训练方法包括步骤:获取多条网络请求数据,并提取各条网络请求数据中的特征数据;采用预设的特征数据匹配规则对网络请求数据中的特征数据进行匹配,获得每条网络请求数据中特征数据的数量匹配结果;采用各条合法请求数据的请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型;采用第一计算模型计算请求地址数据的文本序列生成概率;根据数量匹配结果和文本序列生成概率生成各条网络请求数据的特征向量,采用特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型。本发明专利技术从多个维度对网络请求数据进行分析,有效提高了网络数据分类的准确性。类的准确性。类的准确性。

【技术实现步骤摘要】
网络请求数据分类模型训练方法、分类方法及存储介质


[0001]本专利技术涉及数据处理
,具体而言,涉及一种网络请求数据分类模型训练方法、分类方法及存储介质。

技术介绍

[0002]随着互联网技术的发展和网络业务的拓展,网络服务也在不断增多。由于网络服务用户中,除了正常访问和使用网络服务的用户,还存在部分通过拼装非法请求数据来获取不公开信息或涉密信息的用户,使得网络服务数据和服务器资源的数据安全存在严重的安全隐患。因此,对网络请求数据进行正确分类是保证网络数据安全的重要技术手段。
[0003]目前,常用的网络请求数据分类方法是通过正则表达式对用户的请求数据进行匹配,根据匹配结果对请求数据进行分类,若匹配结果显示请求数据为非法请求,则服务器将该请求拦截并进行计数。
[0004]但是,正则表达式是预先定义的字符串的匹配规则,其匹配规则相对固定,容易被破解以绕开该匹配规则,同时针对新型数据拼装方法生成的非法请求数据的分类准确度较差。

技术实现思路

[0005]本专利技术解决的问题是如何提高网络请求数据分类的准确性。
[0006]为解决上述问题,本专利技术提供一种网络请求数据分类模型训练方法、分类方法及存储介质。
[0007]第一方面,本专利技术提供一种网络请求数据分类模型训练方法,所述网络请求数据分类模型包括第一计算模型和第二计算模型,包括:
[0008]获取多条网络请求数据,并提取各条所述网络请求数据中的特征数据,其中,所述网络请求数据包括合法请求数据,所述特征数据包括请求地址数据;
[0009]采用预设的特征数据匹配规则对所述网络请求数据中的所述特征数据进行匹配,获得每条所述网络请求数据中所述特征数据的数量匹配结果;
[0010]采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型,所述第一计算模型用于计算所述网络请求数据中所述请求地址数据的文本序列生成概率;
[0011]采用所述第一计算模型计算各条所述网络请求数据中所述请求地址数据的所述文本序列生成概率;
[0012]根据所述数量匹配结果和所述文本序列生成概率生成各条所述网络请求数据的特征向量,采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型,所述第二计算模型用于确定所述网络请求数据的合法概率。
[0013]本专利技术的网络请求数据分类模型训练方法的有益效果是:可获取多条网络请求数据作为带标签的样本数据,网络请求数据可采用历史网络请求数据,样本数据包括合法请
求数据和非法请求数据。提取各条网络请求数据中的特征数据,特征数据可包括请求地址数据、用户代理数据和证书数据等,采用预设的特征数据匹配规则对各条网络请求数据中的特征数据进行匹配,获得各条网络请求数据中特征数据的数量匹配结果,该数据匹配结果作为一个数值特征。采用合法请求数据的请求地址数据对预先构建的隐马尔科夫模型进行训练,获得第一计算模型,并采用第一计算模型计算各个网络请求数据中请求地址数据的文本序列生成概率,该文本序列生成概率作为另一个数值特征,将网络请求数据抽象成为数值特征,能够最大程度地获取其内部信息,提高后续训练得到模型的精度。采用数量匹配结果和文本序列生成概率组成的特征向量训练第一逻辑回归模型,得到第二计算模型,第二计算模型用于确定网络请求数据的合法概率,以对网络请求数据进行分类,例如可将网络请求数据的合法概率和预设阈值进行对比,根据对比结果确定网络请求数据为合法请求数据或非法请求数据。本专利技术中利用机器学习算法从多个维度学习网络请求数据的规律,相较于现有技术中采用固定格式的正则表达式匹配方法进行网络请求数据分类,训练得到的第二计算模型具有更高的分类准确性。且第二计算模型可根据输入的网络请求数据不断优化,很难被破解,大幅提高了安全性。并且,在面对新型拼装方法生成的非法请求数据时,本专利技术也能够根据学习的一般规律进行识别并拦截,应用范围广且分类准确度高。
[0014]可选地,所述网络请求数据分类模型还包括第三计算模型,所述采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型之后,还包括:
[0015]获取指定时段内的所有所述网络请求数据,并将所述指定时段内的所有所述网络请求数据按照用户进行分组,确定各个所述用户的所述网络请求数据;
[0016]采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度,并采用所述第二计算模型计算各条所述网络请求数据的合法概率;
[0017]根据各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率训练预先构建的第二逻辑回归模型,获得第三计算模型,所述第三计算模型用于确定所述用户属于高风险用户的概率。
[0018]可选地,所述采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型包括:
[0019]对各条所述合法请求数据的所述请求地址数据进行切分,获得多个切分后的数据;
[0020]对各个所述切分后的数据进行标记,获得标记后的数据,其中,将同一字符串的所述切分后的数据标记为同一数值,将不同符号的所述切分后的数据标记为不同数值;
[0021]基于前向后向算法,采用所述标记后的数据训练所述隐马尔可夫模型,获得所述第一计算模型。
[0022]可选地,所述采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型包括:
[0023]将所述特征向量输入所述第一逻辑回归模型,输出对应的所述网络请求数据的合法概率,其中,所述第一逻辑回归模型采用第一公式表示,所述第一公式包括:
[0024][0025]其中,X表示所述网络请求数据的合法概率,k
j
表示所述第一逻辑回归模型的参
数,W
j
表示所述特征向量中的第j个元素;
[0026]将所述合法概率与第一预设阈值进行比对,根据比对结果确定所述网络请求数据的第一预测标签;
[0027]根据所述第一预测标签和所述网络请求数据的第一实际标签优化所述第一逻辑回归模型的参数,直至所述第一逻辑回归模型的精度满足第一预设条件,获得所述第二计算模型。
[0028]可选地,所述采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度包括:
[0029]按照词义对各条所述网络请求数据中的所述请求地址数据进行切分,获得与各条所述网络请求数据对应的词序列;
[0030]对各个所述词序列分别进行编码,获得与各条所述网络请求数据对应的编码向量;
[0031]基于所述余弦相似度算法,根据所述编码向量采用第二公式计算各条所述网络请求数据对应的所述文本相似度,所述第二公式包括:
[0032][0033]其中,θ
i
表示第i条所述网络请求数据对应的所述文本相似度,v
i
表示与第i条所述网络请求数据对应的所述编码向量,v
j
表示与第j条本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络请求数据分类模型训练方法,其特征在于,所述网络请求数据分类模型包括第一计算模型和第二计算模型,包括:获取多条网络请求数据,并提取各条所述网络请求数据中的特征数据,其中,所述网络请求数据包括合法请求数据,所述特征数据包括请求地址数据;采用预设的特征数据匹配规则对所述网络请求数据中的所述特征数据进行匹配,获得每条所述网络请求数据中所述特征数据的数量匹配结果;采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型;采用所述第一计算模型计算各条所述网络请求数据中所述请求地址数据的文本序列生成概率;根据所述数量匹配结果和所述文本序列生成概率生成各条所述网络请求数据的特征向量,采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型,所述第二计算模型用于确定所述网络请求数据的合法概率。2.根据权利要求1所述的网络请求数据分类模型训练方法,其特征在于,所述网络请求数据分类模型还包括第三计算模型,所述采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型之后,还包括:获取指定时段内的所有所述网络请求数据,并将所述指定时段内的所有所述网络请求数据按照用户进行分组,确定各个所述用户的所述网络请求数据;采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度,并采用所述第二计算模型计算各条所述网络请求数据的合法概率;根据各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率训练预先构建的第二逻辑回归模型,获得第三计算模型,所述第三计算模型用于确定所述用户属于高风险用户的概率。3.根据权利要求1或2所述的网络请求数据分类模型训练方法,其特征在于,所述采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型包括:对各条所述合法请求数据的所述请求地址数据进行切分,获得多个切分后的数据;对各个所述切分后的数据进行标记,获得标记后的数据,其中,将同一字符串的所述切分后的数据标记为同一数值,将不同符号的所述切分后的数据标记为不同数值;基于前向后向算法,采用所述标记后的数据训练所述隐马尔可夫模型,获得所述第一计算模型。4.根据权利要求1或2所述的网络请求数据分类模型训练方法,其特征在于,所述采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型包括:将所述特征向量输入所述第一逻辑回归模型,输出对应的所述网络请求数据的合法概率,其中,所述第一逻辑回归模型采用第一公式表示,所述第一公式包括:其中,X表示所述网络请求数据的合法概率,k
j
表示所述第一逻辑回归模型的参数,W
j
表示所述特征向量中的第j个元素;将所述合法概率与第一预设阈值进行比对,根据比对结果确定所述网络请求数据的第一预测标签;
根据所述第一预测标签和所述网络请求数据的第一实际标签优化所述第一逻辑回归模型的参数,直至所述第一逻辑回归模型的精度满足第一预设条件,获得所述第二计算模型。5.根据权利要求2所述的网络请求数据分类模型训练方法,其特征在于,所述采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度包括:按照词义对各条所述网络请求数据中的所述请求地址数据进行切分,获得与各条所述网络请求数据对应的词序列;对各个所述词序列分别进行编码,获得与各条所述网络请求数据对应的编码向量;基于所述余弦相似度算法,根据所述编码向量采用第二公式计算各条所述网络请求数据对应的所述文本相似度,所述第二公式包括:其中,θ
i
表示第i条所述网络请求数据...

【专利技术属性】
技术研发人员:陈昊天张研
申请(专利权)人:安徽航天信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1