【技术实现步骤摘要】
网络请求数据分类模型训练方法、分类方法及存储介质
[0001]本专利技术涉及数据处理
,具体而言,涉及一种网络请求数据分类模型训练方法、分类方法及存储介质。
技术介绍
[0002]随着互联网技术的发展和网络业务的拓展,网络服务也在不断增多。由于网络服务用户中,除了正常访问和使用网络服务的用户,还存在部分通过拼装非法请求数据来获取不公开信息或涉密信息的用户,使得网络服务数据和服务器资源的数据安全存在严重的安全隐患。因此,对网络请求数据进行正确分类是保证网络数据安全的重要技术手段。
[0003]目前,常用的网络请求数据分类方法是通过正则表达式对用户的请求数据进行匹配,根据匹配结果对请求数据进行分类,若匹配结果显示请求数据为非法请求,则服务器将该请求拦截并进行计数。
[0004]但是,正则表达式是预先定义的字符串的匹配规则,其匹配规则相对固定,容易被破解以绕开该匹配规则,同时针对新型数据拼装方法生成的非法请求数据的分类准确度较差。
技术实现思路
[0005]本专利技术解决的问题是如何提高网络请求数据分类的准确性。
[0006]为解决上述问题,本专利技术提供一种网络请求数据分类模型训练方法、分类方法及存储介质。
[0007]第一方面,本专利技术提供一种网络请求数据分类模型训练方法,所述网络请求数据分类模型包括第一计算模型和第二计算模型,包括:
[0008]获取多条网络请求数据,并提取各条所述网络请求数据中的特征数据,其中,所述网络请求数据包括合法请求数据,所述特征 ...
【技术保护点】
【技术特征摘要】
1.一种网络请求数据分类模型训练方法,其特征在于,所述网络请求数据分类模型包括第一计算模型和第二计算模型,包括:获取多条网络请求数据,并提取各条所述网络请求数据中的特征数据,其中,所述网络请求数据包括合法请求数据,所述特征数据包括请求地址数据;采用预设的特征数据匹配规则对所述网络请求数据中的所述特征数据进行匹配,获得每条所述网络请求数据中所述特征数据的数量匹配结果;采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型;采用所述第一计算模型计算各条所述网络请求数据中所述请求地址数据的文本序列生成概率;根据所述数量匹配结果和所述文本序列生成概率生成各条所述网络请求数据的特征向量,采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型,所述第二计算模型用于确定所述网络请求数据的合法概率。2.根据权利要求1所述的网络请求数据分类模型训练方法,其特征在于,所述网络请求数据分类模型还包括第三计算模型,所述采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型之后,还包括:获取指定时段内的所有所述网络请求数据,并将所述指定时段内的所有所述网络请求数据按照用户进行分组,确定各个所述用户的所述网络请求数据;采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度,并采用所述第二计算模型计算各条所述网络请求数据的合法概率;根据各个所述用户的所有所述网络请求数据对应的所述文本相似度和所述合法概率训练预先构建的第二逻辑回归模型,获得第三计算模型,所述第三计算模型用于确定所述用户属于高风险用户的概率。3.根据权利要求1或2所述的网络请求数据分类模型训练方法,其特征在于,所述采用各条所述合法请求数据的所述请求地址数据对预先构建的隐马尔可夫模型进行训练,获得第一计算模型包括:对各条所述合法请求数据的所述请求地址数据进行切分,获得多个切分后的数据;对各个所述切分后的数据进行标记,获得标记后的数据,其中,将同一字符串的所述切分后的数据标记为同一数值,将不同符号的所述切分后的数据标记为不同数值;基于前向后向算法,采用所述标记后的数据训练所述隐马尔可夫模型,获得所述第一计算模型。4.根据权利要求1或2所述的网络请求数据分类模型训练方法,其特征在于,所述采用所述特征向量训练预先构建的第一逻辑回归模型,获得第二计算模型包括:将所述特征向量输入所述第一逻辑回归模型,输出对应的所述网络请求数据的合法概率,其中,所述第一逻辑回归模型采用第一公式表示,所述第一公式包括:其中,X表示所述网络请求数据的合法概率,k
j
表示所述第一逻辑回归模型的参数,W
j
表示所述特征向量中的第j个元素;将所述合法概率与第一预设阈值进行比对,根据比对结果确定所述网络请求数据的第一预测标签;
根据所述第一预测标签和所述网络请求数据的第一实际标签优化所述第一逻辑回归模型的参数,直至所述第一逻辑回归模型的精度满足第一预设条件,获得所述第二计算模型。5.根据权利要求2所述的网络请求数据分类模型训练方法,其特征在于,所述采用余弦相似度算法计算各条所述网络请求数据中所述请求地址数据的文本相似度包括:按照词义对各条所述网络请求数据中的所述请求地址数据进行切分,获得与各条所述网络请求数据对应的词序列;对各个所述词序列分别进行编码,获得与各条所述网络请求数据对应的编码向量;基于所述余弦相似度算法,根据所述编码向量采用第二公式计算各条所述网络请求数据对应的所述文本相似度,所述第二公式包括:其中,θ
i
表示第i条所述网络请求数据...
【专利技术属性】
技术研发人员:陈昊天,张研,
申请(专利权)人:安徽航天信息有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。