异常账户的分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38017904 阅读:10 留言:0更新日期:2023-06-30 10:44
本公开提供了一种异常账户的分类方法、装置、电子设备及存储介质,可以应用于大数据、信息安全技术领域。该分类方法包括:获取待检测的M个账户数据,账户数据包括用于表征账户交易特征的数据;将M个账户数据输入训练好的目标分类模型,输出M个分类结果,分类结果用于表征所述账户数据是否异常以及异常类型;目标分类模型是利用N个样本数据和N个样本数据的标签经T轮训练得到的,N个样本数据包括M个账户数据和(N

【技术实现步骤摘要】
异常账户的分类方法、装置、电子设备及存储介质


[0001]本公开涉及大数据、信息安全
,具体涉及一种异常账户的分类方法、装置、电子设备及存储介质。

技术介绍

[0002]在异常账户识别场景中,一般利用有监督机器学习或半监督机器学习实现异常账户的识别。
[0003]对于有监督机器学习,一般通过预先标记的异常账户样本训练模型,这需要耗费大量人力物力进行打标操作。此外,由于某些隐藏账户在发生异常时未采取处理措施,使得打标不精确从而影响异常识别效果。对于半监督学习,一般通过预先给无标签样本赋予伪标签,将半监督学习模式转换为有监督学习模式,实现异常账户的识别。但是,错误的伪标签会导致模型学习到错误信息,影响异常账户识别效果。

技术实现思路

[0004]鉴于上述问题,本公开提供了一种异常账户的分类方法、装置、电子设备及存储介质。
[0005]根据本公开的第一个方面,提供了一种异常账户的分类方法,包括:
[0006]获取待检测的M个账户数据,账户数据包括用于表征账户交易特征的数据;
[0007]将M个账户数据输入训练好的目标分类模型,输出与M个账户数据相匹配的M个分类结果,分类结果用于表征账户数据是否异常以及异常类型;
[0008]其中,目标分类模型是利用N个样本数据和N个样本数据的标签经T轮训练得到的,N个样本数据包括无标签的M个账户数据和(N

M)个有标签数据,N个样本数据的标签包括(N

M)个有标签数据的标准标签和M个账户数据的软标签,软标签是利用标准标签经T轮优化得到的,标准标签包括C个异常类型,T≥1,C≥1,N≥M≥1。
[0009]根据本公开的实施例,其中,确定目标分类模型的过程包括:
[0010]根据N个样本数据和N个样本数据的标签,对初始分类模型进行T轮训练,将第T轮训练得到的第T分类模型作为目标分类模型;
[0011]其中,在每轮训练过程中,利用(N

M)个有标签数据的标准标签更新M个账户数据的软标签,软标签包括账户数据属于C个异常类型的概率。
[0012]根据本公开的实施例,其中,根据N个样本数据和N个样本数据的标签,对初始分类模型进行T轮训练,将第T轮训练得到的第T分类模型作为目标分类模型,包括:
[0013]针对第t轮训练,2≤t≤T,获取第(t

1)轮训练过程中得到的第(t

1)分类模型、与M个账户数据对应的M个第(t

1)邻居数据集,其中,每个第(t

1)邻居数据集包括与账户数据最相似的K个第(t

1)有标签数据,K≥1;
[0014]将M个账户数据和(N

M)个有标签数据输入第(t

1)分类模型,输出第t1预测结果数据集,第t1预测结果数据集包括M个账户数据在第t轮第1次训练得到的M个预测结果、以
及(N

M)个有标签数据在第t轮第1次训练得到的(N

M)个预测结果;
[0015]根据与每个账户数据对应的第(t

1)邻居数据集,计算与每个账户数据对应的第t软标签,得到与M个账户数据对应的M个第t软标签;以及
[0016]根据第t1预测结果数据集、M个第t软标签、(N

M)个标准标签优化第(t

1)分类模型,直至损失函数满足预设条件的情况下,得到第t分类模型。
[0017]根据本公开的实施例,其中,根据第t1预测结果数据集、M个第t软标签、(N

M)个标准标签优化第(t

1)分类模型,直至损失函数满足预设条件的情况下,得到第t分类模型包括:
[0018]根据第t1预测结果数据集、M个第t软标签、(N

M)个标准标签,计算在第t轮第1次训练过程中第(t

1)分类模型的第一损失函数值;以及
[0019]根据损失函数值优化第(t

1)分类模型,得到第t1分类模型;
[0020]将M个账户数据和(N

M)个有标签数据输入第t1分类模型,输出第t2预测结果数据集,第t2预测结果数据集包括M个账户数据在第t轮第2次训练得到的M个预测结果、以及(N

M)个有标签数据在第t轮第2次训练得到的(N

M)个预测结果;
[0021]根据第t2预测结果数据集、M个第t软标签、(N

M)个标准标签计算第二损失函数值,经过多轮训练直至得到的损失函数值最小,确定第t分类模型。
[0022]根据本公开的实施例,在确定第t分类模型之后,还包括:
[0023]将M个账户数据和(N

M)个有标签数据输入第t分类模型,输出第t预测结果数据集;
[0024]将第t预测结果数据集转换为一个结果序列;
[0025]根据结果序列,计算第t标签相似矩阵,第t标签相似矩阵表征M个账户数据与(N

M)个有标签数据之间的相似度;以及
[0026]针对每个账户数据,根据第t标签相似度矩阵,从(N

M)个有标签数据中选取与每个账户数据相似度最高的K个有标签数据,并将K个有标签数据作为K个第t有标签数据,形成与M个账户数据对应的M个第t邻居数据集。
[0027]根据本公开的实施例,该方法还包括:
[0028]针对第t轮训练,t=1,使用K近邻算法,计算与每个账户数据最相似的K个有标签数据,并将K个有标签数据作为K个初始有标签数据,形成与M个账户数据对应的M个初始邻居数据集;
[0029]根据与每个账户数据对应的初始邻居数据集,计算与每个账户数据对应的第1软标签,得到与M个账户对应的M个第1软标签;
[0030]利用M个账户数据、M个第1软标签、(N

M)个有标签数据、(N

M)个标准标签训练初始分类模型,以得到第1分类模型;
[0031]将M个账户数据和(N

M)个有标签数据输入第1分类模型,输出第1预测结果数据集;以及
[0032]根据第1预测结果数据集和(N

M)个有标签数据,确定M个第1邻居数据集。
[0033]根据本公开的实施例,其中,账户数据包括以下至少其中之一:总交易次数,交易额,开户时间、开户地点、设备类型、多个场景的交易次数;有标签数据包括已确定异常类型的账户数据。
[0034]根据本公开的实施例,目标分类模型的损失函数包括有标签损失项、无标签损失项和对比损失项,其中,有标签损失项表征(N

M)个有标签数据的损失,无标签损失项表征M个账户数据的损失,对比损失项表征筛选后的G个账本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常账户的分类方法,包括:获取待检测的M个账户数据,所述账户数据包括用于表征账户交易特征的数据;将所述M个账户数据输入训练好的目标分类模型,输出与所述M个账户数据相匹配的M个分类结果,所述分类结果用于表征所述账户数据是否异常以及异常类型;其中,所述目标分类模型是利用N个样本数据和所述N个样本数据的标签经T轮训练得到的,所述N个样本数据包括无标签的所述M个账户数据和(N

M)个有标签数据,所述N个样本数据的标签包括所述(N

M)个有标签数据的标准标签和所述M个账户数据的软标签,所述软标签是利用所述标准标签经T轮优化得到的,所述标准标签包括C个异常类型,T≥1,C≥1,N≥M≥1。2.根据权利要求1所述的方法,其中,确定所述目标分类模型的过程包括:根据所述N个样本数据和所述N个样本数据的标签,对初始分类模型进行T轮训练,将第T轮训练得到的第T分类模型作为所述目标分类模型;其中,在每轮训练过程中,利用所述(N

M)个有标签数据的标准标签更新所述M个账户数据的软标签,所述软标签包括所述账户数据属于所述C个异常类型的概率。3.根据权利要求2所述的方法,其中,根据所述N个样本数据和所述N个样本数据的标签,对初始分类模型进行T轮训练,将第T轮训练得到的第T分类模型作为所述目标分类模型,包括:针对第t轮训练,2≤t≤T,获取第(t

1)轮训练过程中得到的第(t

1)分类模型、与所述M个账户数据对应的M个第(t

1)邻居数据集,其中,每个所述第(t

1)邻居数据集包括与所述账户数据最相似的K个第(t

1)有标签数据,K≥1;将所述M个账户数据和所述(N

M)个有标签数据输入所述第(t

1)分类模型,输出第t1预测结果数据集,所述第t1预测结果数据集包括所述M个账户数据在第t轮第1次训练得到的M个预测结果、以及所述(N

M)个有标签数据在第t轮第1次训练得到的(N

M)个预测结果;根据与每个账户数据对应的所述第(t

1)邻居数据集,计算与所述每个账户数据对应的第t软标签,得到与所述M个账户数据对应的M个第t软标签;以及根据所述第t1预测结果数据集、所述M个第t软标签、(N

M)个所述标准标签优化所述第(t

1)分类模型,直至损失函数满足预设条件的情况下,得到第t分类模型。4.根据权利要求3所述的方法,其中,所述根据所述第t1预测结果数据集、所述M个第t软标签、(N

M)个所述标准标签优化所述第(t

1)分类模型,直至损失函数满足预设条件的情况下,得到第t分类模型包括:根据所述第t1预测结果数据集、所述M个第t软标签、(N

M)个所述标准标签,计算在第t轮第1次训练过程中第(t

1)分类模型的第一损失函数值;以及根据所述损失函数值优化所述第(t

1)分类模型,得到第t1分类模型;将所述M个账户数据和所述(N

M)个有标签数据输入所述第t1分类模型,输出第t2预测结果数据集,所述第t2预测结果数据集包括所述M个账户数据在第t轮第2次训练得到的M个预测结果、以及所述(N

M)个有标签数据在第t轮第2次训练得到的(N

M)个预测结果;根据所述第t2预测结果数据集、所述M个第t软标签、(N

M)个所述标准标签计算第二损失函数值,经过多轮训练直至得到的损失函数值最小,确定所述第t分类模型。5.根据权利要求3所述的方法,在所述确定所述第t分类模型之后,还包括:
将所述M个账...

【专利技术属性】
技术研发人员:陈李龙徐林嘉张宏韬卢健
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1