基于智能决策的异常用户识别方法、装置及计算机设备制造方法及图纸

技术编号:27253189 阅读:33 留言:0更新日期:2021-02-04 12:31
本申请实施例属于人工智能领域,涉及一种基于智能决策的异常用户识别方法、装置、计算机设备及存储介质,方法包括:获取原始数据集;对原始数据集进行数据重组,得到有标签样本和无标签样本;将有标签样本输入第一用户识别模型,以对第一用户识别模型进行第一训练,得到第二用户识别模型;对无标签样本进行数据增强,得到与无标签样本对应的增强无标签样本集;通过有标签样本以及与无标签样本对应的增强无标签样本集,对第二用户识别模型进行第二训练,得到异常用户识别模型;将待识别用户样本输入异常用户识别模型,得到用户识别结果。此外,本申请还涉及区块链技术,原始数据集可存储于区块链中。本申请提高了异常用户识别的准确性。准确性。准确性。

【技术实现步骤摘要】
基于智能决策的异常用户识别方法、装置及计算机设备


[0001]本申请涉及人工智能
,尤其涉及一种基于智能决策的异常用户识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着互联网技术的发展,越来越多的用户通过互联网获取、享受各种信息服务,而提供信息服务的平台会记录得到大量的用户信息。提供信息服务的平台经常会遇到各种异常用户,例如羊毛党,羊毛党会利用虚假信息获取大量利益,给平台带来巨大损失,同时,还可能出现异常用户进行网络欺诈以及网络攻击,因此平台需要能够对这些异常用户进行识别。
[0003]然而,传统的异常用户识别技术,通常是通过规则模型或黑名单进行识别。规则模型是基于已发现的异常用户整理成经验性规则,是以人的主观判断为基准,覆盖性差,识别的准确性较低。黑名单识别是从外部获取黑名单数据,对黑名单中出现的异常用户进行跟踪和监测,黑名单识别无法应对随时出现的新异常用户,准确性依然较低。

技术实现思路

[0004]本申请实施例的目的在于提出一种基于智能决策的异常用户识别方法、装置、计算机设备及存储介质,以解决异常用户识别准确性较低的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种基于智能决策的异常用户识别方法,采用了如下所述的技术方案:
[0006]获取原始数据集,其中,所述原始数据集包括黑名单数据、验真用户数据以及原始用户数据;
[0007]对所述原始数据集进行数据重组,得到有标签样本以及无标签样本;
[0008]将所述有标签样本输入第一用户识别模型,以通过所述有标签样本对所述第一用户识别模型进行第一训练,得到第二用户识别模型;
[0009]对所述无标签样本进行数据增强,得到与所述无标签样本对应的增强无标签样本集;
[0010]通过所述有标签样本以及与所述无标签样本对应的增强无标签样本集,对所述第二用户识别模型进行第二训练,得到异常用户识别模型;
[0011]将待识别用户样本输入所述异常用户识别模型,得到用户识别结果。
[0012]进一步的,所述对所述原始数据集进行数据重组,得到有标签样本以及无标签样本的步骤包括:
[0013]将所述黑名单数据和所述验真用户数据分别与所述原始用户数据进行数据比对,以确定有标签用户列表及初始无标签样本;
[0014]根据所述原始数据集对所述有标签用户列表进行数据填充,得到初始有标签样本;
[0015]对所述初始有标签样本和所述初始无标签样本进行特征筛选,得到有标签样本以及无标签样本。
[0016]进一步的,所述对所述初始有标签样本和所述初始无标签样本进行特征筛选,得到有标签样本以及无标签样本的步骤具体包括:
[0017]将所述初始有标签样本输入第一用户识别模型,以通过所述初始有标签样本对所述第一用户识别模型进行第三训练,得到第三用户识别模型;
[0018]将所述初始无标签样本输入所述第三用户识别模型,得到所述初始无标签样本的伪标签;
[0019]通过随机森林对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选,得到有标签样本以及无标签样本,并将筛选到的特征确定为目标特征。
[0020]进一步的,所述通过随机森林对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选,得到有标签样本以及无标签样本,并将筛选到的特征确定为目标特征的步骤包括:
[0021]将所述初始有标签样本和带有伪标签的初始无标签样本作为待筛选样本进行若干次有放回随机采样,得到若干特征筛选训练集;
[0022]基于所述若干特征筛选训练集,生成若干决策树以得到随机森林;
[0023]根据袋外数据计算所述随机森林中各决策树的第一袋外数据误差,其中,所述袋外数据来自所述各决策树所对应的特征筛选训练集;
[0024]随机改变所述袋外数据中的特征,并计算各决策树的第二袋外数据误差;
[0025]根据计算得到的第二袋外数据误差和第一袋外数据误差计算各特征的特征贡献度;
[0026]根据计算得到的特征贡献度对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选,得到有标签样本以及无标签样本,并将筛选到的特征确定为目标特征。
[0027]进一步的,所述对所述无标签样本进行数据增强,得到与所述无标签样本对应的增强无标签样本集的步骤包括:
[0028]对于每个无标签样本,根据无标签样本间的欧氏距离确定无标签样本的临近样本集,其中,所述临近样本集包括预设数量的临近样本;
[0029]对于每个临近样本,在临近样本与所述无标签样本的特征空间连线上,选取扩充样本点;
[0030]根据选取的扩充样本点以及所述无标签样本,构建得到与所述无标签样本对应的增强无标签样本集。
[0031]进一步的,所述通过所述有标签样本以及与所述无标签样本对应的增强无标签样本集,对所述第二用户识别模型进行第二训练,得到异常用户识别模型的步骤包括:
[0032]将所述有标签样本以及与所述无标签样本对应的增强无标签样本集输入所述第二用户识别模型,得到所述有标签样本的用户预测结果,以及所述增强无标签样本集中各增强无标签样本的用户预测结果;
[0033]根据所述各增强无标签样本的用户预测结果,确定所述无标签样本的用户预测结果;
[0034]将前轮第二训练中所述无标签样本的用户预测结果,作为当前第二训练中所述无
标签样本的伪标签,以计算所述有标签样本和所述无标签样本的正则化交叉熵损失;
[0035]根据所述正则化交叉熵损失对所述第二用户识别模型进行参数调整,直至模型收敛,得到异常用户识别模型。
[0036]进一步的,所述将待识别用户样本输入所述异常用户识别模型,得到用户识别结果的步骤包括:
[0037]获取待识别用户样本;
[0038]根据预设的目标特征对所述待识别用户样本进行特征筛选;
[0039]将特征筛选后的待识别用户样本输入所述异常用户识别模型,得到用户识别结果。
[0040]为了解决上述技术问题,本申请实施例还提供一种基于智能决策的异常用户识别装置,采用了如下所述的技术方案:
[0041]数据集获取模块,用于获取原始数据集,其中,所述原始数据集包括黑名单数据、验真用户数据以及原始用户数据;
[0042]数据重组模块,用于对所述原始数据集进行数据重组,得到有标签样本以及无标签样本;
[0043]第一训练模块,用于将所述有标签样本输入第一用户识别模型,以通过所述有标签样本对所述第一用户识别模型进行第一训练,得到第二用户识别模型;
[0044]数据增强模块,用于对所述无标签样本进行数据增强,得到与所述无标签样本对应的增强无标签样本集;
[0045]第二训练模块,用于通过所述有标签样本以及与所述无标签样本对应的增强无标签样本集,对所述第二用户识别模型进行第二训练,得到异常用户识别模型;
[0046]样本输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于智能决策的异常用户识别方法,其特征在于,包括下述步骤:获取原始数据集,其中,所述原始数据集包括黑名单数据、验真用户数据以及原始用户数据;对所述原始数据集进行数据重组,得到有标签样本以及无标签样本;将所述有标签样本输入第一用户识别模型,以通过所述有标签样本对所述第一用户识别模型进行第一训练,得到第二用户识别模型;对所述无标签样本进行数据增强,得到与所述无标签样本对应的增强无标签样本集;通过所述有标签样本以及与所述无标签样本对应的增强无标签样本集,对所述第二用户识别模型进行第二训练,得到异常用户识别模型;将待识别用户样本输入所述异常用户识别模型,得到用户识别结果。2.根据权利要求1所述的基于智能决策的异常用户识别方法,其特征在于,所述对所述原始数据集进行数据重组,得到有标签样本以及无标签样本的步骤包括:将所述黑名单数据和所述验真用户数据分别与所述原始用户数据进行数据比对,以确定有标签用户列表及初始无标签样本;根据所述原始数据集对所述有标签用户列表进行数据填充,得到初始有标签样本;对所述初始有标签样本和所述初始无标签样本进行特征筛选,得到有标签样本以及无标签样本。3.根据权利要求1所述的基于智能决策的异常用户识别方法,其特征在于,所述对所述初始有标签样本和所述初始无标签样本进行特征筛选,得到有标签样本以及无标签样本的步骤具体包括:将所述初始有标签样本输入第一用户识别模型,以通过所述初始有标签样本对所述第一用户识别模型进行第三训练,得到第三用户识别模型;将所述初始无标签样本输入所述第三用户识别模型,得到所述初始无标签样本的伪标签;通过随机森林对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选,得到有标签样本以及无标签样本,并将筛选到的特征确定为目标特征。4.根据权利要求3所述的基于智能决策的异常用户识别方法,其特征在于,所述通过随机森林对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选,得到有标签样本以及无标签样本,并将筛选到的特征确定为目标特征的步骤包括:将所述初始有标签样本和带有伪标签的初始无标签样本作为待筛选样本进行若干次有放回随机采样,得到若干特征筛选训练集;基于所述若干特征筛选训练集,生成若干决策树以得到随机森林;根据袋外数据计算所述随机森林中各决策树的第一袋外数据误差,其中,所述袋外数据来自所述各决策树所对应的特征筛选训练集;随机改变所述袋外数据中的特征,并计算各决策树的第二袋外数据误差;根据计算得到的第二袋外数据误差和第一袋外数据误差计算各特征的特征贡献度;根据计算得到的特征贡献度对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选,得到有标签样本以及无标签样本,并将筛选到的特征确定为目标特征。5.根据权利要求1所述的基于智能决策的异常用户识别方法,其特征在于,所述对所述
无标签样本进行数据增强,...

【专利技术属性】
技术研发人员:陶亦然
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1