System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 黑样本数据的确定方法及装置、非易失性存储介质制造方法及图纸_技高网

黑样本数据的确定方法及装置、非易失性存储介质制造方法及图纸

技术编号:40800849 阅读:2 留言:0更新日期:2024-03-28 19:26
本申请公开了一种黑样本数据的确定方法及装置、非易失性存储介质。其中,该方法包括:获取数据集,其中,数据集包括:每个用户的相关信息,每个用户的相关信息至少包括:每个用户的交易流水数据;根据数据集确定初始名单,其中,初始名单用于记录评价指标高于预设值的多个目标用户的相关信息;对初始名单进行筛选,得到目标名单,并输出目标名单,其中,目标名单用于确定黑样本数据,黑样本数据用于指示存在违规交易行为的目标用户。本申请解决了由于实际应用场景中的数据质量差和训练数据的数量少造成的利用分类模型筛选目标数据时,准确率低的技术问题。

【技术实现步骤摘要】

本申请涉及数据处理,具体而言,涉及一种黑样本数据的确定方法及装置、非易失性存储介质


技术介绍

1、相关技术中,银行通常使用二分类机器学习模型筛选风险账户,二分类机器学习模型对数据的量级以及质量要求较高,一个精确率大于0.8的二分类模型通常需要至少上千条用户数据;因此,对于缺少训练数据积累的中小银行,在使用二分类机器学习模型筛选风险账户时,存在分类结果准确率低的问题。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种黑样本数据的确定方法及装置、非易失性存储介质,以至少解决由于实际应用场景中的数据质量差和训练数据的数量少造成的利用分类模型筛选目标数据时,准确率低的技术问题。

2、根据本申请实施例的一个方面,提供了一种黑样本数据的确定方法,包括:获取数据集,其中,数据集包括:每个用户的相关信息,每个用户的相关信息至少包括:每个用户的交易流水数据;根据数据集确定初始名单,其中,初始名单用于记录评价指标高于预设值的多个目标用户的相关信息;对初始名单进行筛选,得到目标名单,并输出目标名单,其中,目标名单用于确定黑样本数据,黑样本数据用于指示存在违规交易行为的目标用户。

3、可选地,每个用户的相关信息,还包括:每个用户的账户网络地址;根据数据集确定初始名单,包括:第一机器学习模型根据打分矩阵和每个用户的相关信息对每个用户进行打分,得到每个用户的评价指标,其中,打分矩阵的行标识为每个用户对应的第一分值,打分矩阵的列标识为每个用户对应的第二分值,第一分值是根据每个用户的账户网络地址、每个用户在预设周期内产生交易流水数据的频率和每个用户在预设周期内产生的交易流水数据的数值确定的,第二分值是根据每个用户在预设周期内产生交易流水数据的频率和每个用户在预设周期内产生的交易流水数据的数值确定的;将大于预设值的评价指标对应的多个用户的相关信息进行记录,生成初始名单。

4、可选地,根据打分矩阵和每个用户的相关信息对每个用户进行打分,得到每个用户的评价指标,包括:将每个用户的第一分值作为每个用户的第一标识,并将用户的第二分值作为每个用户的第二标识,其中,第一标识为每个用户对应的矩阵元素的行号,第二标识为每个用户对应的矩阵元素的列号;根据第一标识和第二标识共同确定每个用户对应的矩阵元素;将矩阵元素对应的分值确定为每个用户的评价指标。

5、可选地,对初始名单进行筛选,得到目标名单,包括:将初始名单中记录的数据输入第二机器学习模型,得到输出结果,其中,初始名单中记录的数据包括:评价指标高于预设值的多个目标用户中每个目标用户的交易流水数据;将每个目标用户的交易流水数据输入第二机器学习模型,得到输出结果,其中,输出结果包括:每个目标用户的标签,每个目标用户的标签用于指示每个目标用户是否存在违规行为;将标签为目标标签的每个目标用户进行记录,生成目标名单。

6、可选地,第二机器学习模型通过以下方法训练得到:获取白样本数据,其中,白样本数据为数据集中不存在违规行为的用户的交易流水数据;将白样本数据和多个目标用户的交易流水数据按照预设比例分类为训练数据和测试数据,其中,训练数据中同时包括白样本数据和多个目标用户的交易流水数据,测试数据中同时包括白样本数据和多个目标用户的交易流水数据;利用训练数据和测试数据基于分类算法训练机器学习模型,得到第二机器学习模型。

7、可选地,黑样本数据的确定方法还包括:获取目标名单中记录的用户的交易流水数据;将目标名单中记录的用户的交易流水数据添加到训练数据中,得到新训练数据;利用新训练数据和测试数据对所诉胡第二机器学习模型进行训练。

8、可选地,黑样本数据的确定方法还包括:将同时记录在初始名单和目标名单中的用户进行记录,生成最终名单;在接收到最终名单中记录的用户发出的用于进行交易的指令时拦截指令,并发送告警信息。

9、根据本申请实施例的另一方面,还提供了一种黑样本数据的确定装置,包括:获取模块,用于获取数据集,其中,数据集包括:每个用户的相关信息,每个用户的相关信息至少包括:每个用户的交易流水数据;确定模块,用于根据数据集确定初始名单,其中,初始名单用于记录评价指标高于预设值的多个目标用户的相关信息;筛选模块,用于对初始名单进行筛选,得到目标名单,并输出目标名单,其中,目标名单用于确定黑样本数据,黑样本数据用于指示存在违规交易行为的目标用户。

10、根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质中存储有计算机程序,其中,在非易失性存储介质所在设备通过运行计算机程序执行上述的黑样本数据的确定方法。

11、根据本申请实施例的另一方面,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为通过计算机程序执行上述的黑样本数据的确定方法。

12、在本申请实施例中,采用获取数据集,其中,数据集包括:每个用户的相关信息,每个用户的相关信息至少包括:每个用户的交易流水数据;根据数据集确定初始名单,其中,初始名单用于记录评价指标高于预设值的多个目标用户的相关信息;对初始名单进行筛选,得到目标名单,并输出目标名单,其中,目标名单用于确定黑样本数据,黑样本数据用于指示存在违规交易行为的目标用户的方式,通过设置的评分规则模型在初始数据集中筛选黑样本数据,将评分规则模型筛选得到的黑样本数据作为训练数据训练分类模型,利用训练后的模型筛选风险账户,并将分类模型的筛选结果加入训练数据,对训练模型进行迭代训练,达到了扩大训练数据的目的,从而实现了对于黑样本数据积累少的中小银行,通过初步筛选和迭代训练的方式扩充训练样本数据库,从而提高分类模型的训练精度、以及分类模型分类的准确度的技术效果,进而解决了由于实际应用场景中的数据质量差和训练数据的数量少造成的利用分类模型筛选目标数据时,准确率低技术问题。

本文档来自技高网...

【技术保护点】

1.一种黑样本数据的确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述每个用户的相关信息,还包括:

3.根据权利要求2所述的方法,其特征在于,根据打分矩阵和所述每个用户的相关信息对所述每个用户进行打分,得到所述每个用户的评价指标,包括:

4.根据权利要求1所述的方法,其特征在于,对所述初始名单进行筛选,得到目标名单,包括:

5.根据权利要求4所述的方法,其特征在于,所述第二机器学习模型通过以下方法训练得到:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种黑样本数据的确定装置,其特征在于,包括:

9.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有计算机程序,其中,在所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的黑样本数据的确定方法。

10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至7中任意一项所述的黑样本数据的确定方法。

...

【技术特征摘要】

1.一种黑样本数据的确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述每个用户的相关信息,还包括:

3.根据权利要求2所述的方法,其特征在于,根据打分矩阵和所述每个用户的相关信息对所述每个用户进行打分,得到所述每个用户的评价指标,包括:

4.根据权利要求1所述的方法,其特征在于,对所述初始名单进行筛选,得到目标名单,包括:

5.根据权利要求4所述的方法,其特征在于,所述第二机器学习模型通过以下方法训练得到:

6.根据权利要求5所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:范开
申请(专利权)人:北京银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1