网络黑产的识别方法、装置、设备及介质制造方法及图纸

技术编号:33247923 阅读:14 留言:0更新日期:2022-04-27 18:03
本申请涉及智能决策技术,揭露了一种网络黑产的识别方法,包括:对预构建的网络行为样本集进行异常值处理,得到有效样本集;根据预设策略将所述有效样本集分组为训练集及测试集,通过决策树最优分组方法量化所述训练集及测试集,得到标准训练集及标准测试集,根据特征变量数据的信息机制,挑选有效测试集及有效训练集;根据所述有效样本集及所述有效测试集,训练预构建的黑产用户识别模型,获取目标用户关于各个入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。本申请还提出一种网络黑产的识别装置、电子设备以及存储介质。本申请可以提高网络黑产识别的准确性及效率。性及效率。性及效率。

【技术实现步骤摘要】
网络黑产的识别方法、装置、设备及介质


[0001]本申请涉及智能决策
,尤其涉及一种网络黑产的识别方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]互联网给我们各种便利的同时,也伴随着一些新的威胁和风险,例如,网络黑产。其中,所述网络黑产,指以互联网为媒介,以网络技术为主要手段,破坏计算机信息系统安全和网络空间管理秩序。
[0003]目前行业内对网络黑产的防护手段主要是根据手机号码、ip、GPS等聚集度,结合专家经验,归纳成规则策略来识别和打击网络黑产。但是,随着网络黑产日趋专业化,作弊工具层出不穷,防欺诈难度越来越大,现有的防护手段耗费时间较长,且效率越来越低,很难实现实时地对抗网络黑产,因此,目前急需一种更加快速、准确的网络黑产智能检测方法。

技术实现思路

[0004]本申请提供一种网络黑产的识别方法、装置及计算机可读存储介质,其主要目的在于解决网络黑产识别过程中,识别时间长、准确率低的问题。
[0005]为实现上述目的,本申请提供的一种网络黑产的识别方法,包括:
[0006]获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集;
[0007]根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集;
[0008]提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集;
[0009]获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集;
[0010]根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型;
[0011]识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。
[0012]可选的,所述对所述网络行为样本集进行异常值处理,得到有效样本集,包括:
[0013]对所述网络行为样本集进行去重操作,得到去重样本集;
[0014]查询所述去重样本集中的缺失值,并利用knn回归方法对所述缺失值进行补充,得到有效样本集。
[0015]可选的,所述获取所述特征变量数据的信息价值,包括:
[0016]依次从所述有效样本集中提取一个类别的特征变量数据作为目标特征变量;
[0017]提取所述目标特征变量的各个分组数据,并对所述各个分组数据进行证据权重变换,得到所述各个分组数据对应的证据权重值;
[0018]利用信息价值计算方法,根据所述各个分组数据对应的证据权重值,计算所述各个分组数据对应的信息量;
[0019]将所述各个分组数据对应的信息量进行求和,得到所述目标特征变量的信息价值。
[0020]可选的,所述根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,包括:
[0021]根据所述特征变量数据的信息价值,将所述特征变量数据进行排序,得到特征变量列表;
[0022]在所述特征变量列表中提取前预设数值的特征变量,得到初级有效特征变量集;
[0023]查询所述初级有效特征变量集中特征变量数据的缺失率;
[0024]根据预设的变量挑选条件,提取所述初级有效特征变量集中信息价值大于预设的有效阈值,且缺失率小于预设的警戒阈值的特征变量,得到有效训练集。
[0025]可选的,所述根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型,包括:
[0026]获取预构建的黑产用户识别模型,并利用所述有效训练集对所述黑产用户识别模型进行模型参数赋值,得到更新后的黑产用户识别模型;
[0027]利用所述更新后的黑产用户识别模型对所述有效测试集进行黑产识别,得到所述有效测试集的预测结果;
[0028]将所述预测结果与所述有效测试集中预构建的真实标签进行对比,得到所述黑产用户识别模型的查准率及KS值;
[0029]根据预设的模型判断标准、所述查准率及所述KS值,判断所述黑产用户识别模型是否合格;
[0030]当所述黑产用户识别模型不合格时,返回上述利用所述有效训练集对所述黑产用户识别模型进行模型参数赋值的步骤;
[0031]当所述黑产用户识别模型合格时,判定所述黑产用户识别模型训练完成。
[0032]可选的,所述识别所述有效训练集中特征变量数据对应的入参类型,包括:
[0033]获取预构建的特征工程变化列表,查询所述有效训练集中各个特征变量对应的初始参数类型,得到参数类型集合;
[0034]将所述参数类型集合进行去重操作,得到各个特征变量对应的入参类型。
[0035]可选的,所述获取目标用户关于各个所述入参类型的用户数据,包括:
[0036]利用预设埋点,获取所述目标用户在预构建的程序界面中的请求响应数据;
[0037]解析所述请求响应数据,得到所述目标用户在所述程序界面中的操作行为记录;
[0038]查询所述操作行为记录中关于所述入参类型的操作行为,得到用户数据。
[0039]为了解决上述问题,本申请还提供一种网络黑产的识别装置,所述装置包括:
[0040]异常值处理模块,用于获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集;
[0041]数据量化模块,用于根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集,及提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集;
[0042]有效样本获取模块,用于获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集;
[0043]模型构建模块,用于根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型;
[0044]黑产用户识别模块,用于识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。
[0045]为了解决上述问题,本申请还提供一种电子设备,所述电子设备包括:
[0046]至少一个处理器;以及,
[0047]与所述至少一个处理器通信连接的存储器;其中,
[0048]所述存储器存储有可被所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络黑产的识别方法,其特征在于,所述方法包括:获取预构建的网络行为样本集,并对所述网络行为样本集进行异常值处理,得到有效样本集;根据预设的样本划分策略,将所述有效样本集划分为训练集及测试集;提取所述训练集及测试集中的特征变量数据,并利用决策树最优分组方法,对所述训练集中特征变量数据进行量化操作,得到标准训练集,并根据所述标准训练集中特征变量数据对应的离散度,对所述测试集中的特征变量数据进行量化,得到标准测试集;获取所述特征变量数据的信息价值,并根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,以及从所述标准测试集中进行有效变量挑选,得到有效测试集;根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型;识别所述有效训练集中特征变量数据对应的入参类型,获取目标用户关于各个所述入参类型的用户数据,并将所述用户数据导入训练完成的所述黑产用户识别模型中,得到所述目标用户的违规识别结果。2.如权利要求1所述的网络黑产的识别方法,其特征在于,所述对所述网络行为样本集进行异常值处理,得到有效样本集,包括:对所述网络行为样本集进行去重操作,得到去重样本集;查询所述去重样本集中的缺失值,并利用knn回归方法对所述缺失值进行补充,得到有效样本集。3.如权利要求1所述的网络黑产的识别方法,其特征在于,所述获取所述特征变量数据的信息价值,包括:依次从所述有效样本集中提取一个类别的特征变量数据作为目标特征变量;提取所述目标特征变量的各个分组数据,并对所述各个分组数据进行证据权重变换,得到所述各个分组数据对应的证据权重值;利用信息价值计算方法,根据所述各个分组数据对应的证据权重值,计算所述各个分组数据对应的信息量;将所述各个分组数据对应的信息量进行求和,得到所述目标特征变量的信息价值。4.如权利要求1所述的网络黑产的识别方法,其特征在于,所述根据预设的变量挑选条件及所述信息价值,从所述标准训练集进行有效变量挑选,得到有效训练集,包括:根据所述特征变量数据的信息价值,将所述特征变量数据进行排序,得到特征变量列表;在所述特征变量列表中提取前预设数值的特征变量,得到初级有效特征变量集;查询所述初级有效特征变量集中特征变量数据的缺失率;根据预设的变量挑选条件,提取所述初级有效特征变量集中信息价值大于预设的有效阈值,且缺失率小于预设的警戒阈值的特征变量,得到有效训练集。5.如权利要求1所述的网络黑产的识别方法,其特征在于,所述根据所述有效训练集及所述有效测试集,训练预构建的黑产用户识别模型,包括:获取预构建的黑产用户识别模型,并利用所述有效训练集对所述黑产用户识别模型进行模型参数赋值,得到更新后的黑产用户识别模型;
利用所述更新后的黑产用户识别模型对所述有效测试集进行黑产识别,得到所述有效测试集的...

【专利技术属性】
技术研发人员:琚泽霞
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1