欺诈风险预测模型生成方法、装置、介质及设备制造方法及图纸

技术编号：41177713 阅读：5 留言：0更新日期：2024-05-07 22:13

本申请提供一种欺诈风险预测模型生成方法、装置、介质及设备，涉及计算机技术领域，该方法可以触发待训练模型学习样本数据中的字符关系，以得到中间模型，再触发中间模型补全残缺数据，并基于全量补全数据及其风险值将中间模型训练为欺诈风险预测模型，这样获得的欺诈风险预测模型具备更高的预测精度，在应对字符多样性低和字符多样性高的数据时，均可以基于其数据补全能力，体现出稳定的预测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，具体而言，涉及一种欺诈风险预测模型生成方法、欺诈风险预测模型生成装置、计算机可读存储介质及电子设备。

技术介绍

1、欺诈风险预测模型，可以用于预测数据中存在的欺诈风险，在互联网金融等相关领域中，准确识别业务数据中存在的欺诈风险通常是欺诈风险需求方的核心需求，因此，在这些领域中，欺诈风险预测模型得以广泛应用。

2、在相关技术中，获取反欺诈模型的方法在于：收集符合模型训练要求的数据作为样本数据，并针对每个数据标记风险值，进而，基于样本数据和风险值训练构建的模型结构，以得到欺诈风险预测模型。但是，在欺诈风险预测模型的应用范围内，由于业务类型的不同，来自于不同欺诈风险需求方的数据形式可能是不同的，这种不同主要体现在数据的字符多样性上，例如，欺诈风险需求方a的数据为全量数据[姓名、性别、ip地址]，欺诈风险需求方b的数据非全量数据[姓名、性别]。可见，各方数据可能会区别于样本数据的数据形式，那么，基于样本数据训练得到的欺诈风险预测模型，不一定适于向各方提供欺诈风险预测服务。

3、如果将基于上述欺诈风险预测模型向各方提供欺诈风险预测服务，可能会出现以下情况：欺诈风险预测模型在应对字符多样性高的数据时具备符合要求的精度，而在应对字符多样性低的数据时，欺诈风险的预测精度迅速降低，欺诈风险预测模型的预测精度随着字符多样性的变化而变化，存在预测精度不稳定的问题。

4、需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有方案的信息。

技术实现思路

1、本申请的目的在于提供一种欺诈风险预测模型生成方法、欺诈风险预测模型生成装置、计算机可读存储介质及电子设备，可以触发待训练模型学习样本数据中的字符关系，以得到中间模型，再触发中间模型补全残缺数据，并基于全量补全数据及其风险值将中间模型训练为欺诈风险预测模型，这样获得的欺诈风险预测模型具备更高的预测精度，在应对字符多样性低和字符多样性高的数据时，均可以基于其数据补全能力，体现出稳定的预测精度。

2、本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

3、根据本申请的一方面，提供一种欺诈风险预测模型生成方法，该方法包括：

4、获取样本数据和待训练模型；

5、触发待训练模型学习样本数据中的字符关系，得到中间模型；

6、触发中间模型对残缺数据进行补全，得到全量补全数据；

7、基于全量补全数据和残缺数据对应的风险值训练中间模型，得到欺诈风险预测模型。

8、在本申请的一种示例性实施例中，获取样本数据，包括：

9、响应于接收到的交易数据和设备数据，以用户标识为单位对交易数据和设备数据进行融合，得到融合数据集合；

10、按照全量数据标准对融合数据集合进行筛选，得到全量融合数据集合；

11、将全量融合数据集合处理为样本数据。

12、在本申请的一种示例性实施例中，将全量融合数据集合处理为样本数据，包括：

13、针对全量融合数据集合执行数据清洗操作，得到参考数据集合；其中，数据清洗操作包括测试数据筛除操作、数据格式归一化操作、异常值处理操作、特殊字符处理操作中至少一种；

14、对参考数据集合进行等频分箱处理，得到样本数据。

15、在本申请的一种示例性实施例中，对参考数据集合进行等频分箱处理，得到样本数据，包括：

16、以特定字段为单位对参考数据集合进行统计，并将对应于各特定字段的统计结果进行等频分箱，基于等频分箱结果将参考数据集合处理为样本数据。

17、在本申请的一种示例性实施例中，获取待训练模型，包括：

18、基于多头注意力层、残差标准化层、多层感知机层，构建编码层；

19、基于词嵌入层、线性层、多个编码层构建待训练模型。

20、在本申请的一种示例性实施例中，触发待训练模型学习样本数据中的字符关系，得到中间模型，包括：

21、对样本数据中目标字符进行掩码，得到掩码数据；

22、控制待训练模型对掩码数据中的掩码区域进行字符预测，得到预测字符；

23、触发待训练模型根据预测字符和目标字符之间的损失函数，学习样本数据中的字符关系，以得到中间模型。

24、在本申请的一种示例性实施例中，还包括：

25、接收欺诈数据，若欺诈数据不存在残缺情况，则将欺诈数据处理为残缺数据，若欺诈数据存在残缺情况，则将欺诈数据确定为残缺数据。

26、在本申请的一种示例性实施例中，触发中间模型对残缺数据进行补全，得到全量补全数据，包括：

27、依据全量数据标准确定残缺数据中的缺失字段；

28、触发中间模型生成对应于缺失字段的字段值，并将字段值补充至残缺数据中，以得到全量补全数据。

29、在本申请的一种示例性实施例中，基于全量补全数据和残缺数据对应的风险值训练中间模型，得到欺诈风险预测模型，包括：

30、将全量补全数据转换为特征向量；

31、触发中间模型生成对应于特征向量的向量表征并计算向量表征对应的参考风险；

32、基于参考风险和残缺数据对应的风险值之间的损失函数，训练中间模型以得到欺诈风险预测模型。

33、在本申请的一种示例性实施例中，还包括：

34、将欺诈风险预测模型输出为特定格式文件；

35、基于服务发布架构发布与特定格式文件对应的服务调用接口。

36、根据本申请的一方面，提供一种欺诈风险预测模型生成装置，该装置包括：

37、对象获取单元，用于获取样本数据和待训练模型；

38、模型学习单元，用于触发待训练模型学习样本数据中的字符关系，得到中间模型；

39、数据补全单元，用于触发中间模型对残缺数据进行补全，得到全量补全数据；

40、模型训练单元，用于基于全量补全数据和残缺数据对应的风险值训练中间模型，得到欺诈风险预测模型。

41、在本申请的一种示例性实施例中，对象获取单元获取样本数据，包括：

42、响应于接收到的交易数据和设备数据，以用户标识为单位对交易数据和设备数据进行融合，得到融合数据集合；

43、按照全量数据标准对融合数据集合进行筛选，得到全量融合数据集合；

44、将全量融合数据集合处理为样本数据。

45、在本申请的一种示例性实施例中，对象获取单元将全量融合数据集合处理为样本数据，包括：

46、针对全量融合数据集合执行数据清洗操作，得到参考数据集合；其中，数据清洗操作包括测试数据筛除操作、数据格式归一化操作、异常值处理操作、特殊字符处理操作中至少一种；

47、对参考数据集合进行等频分箱处理，得到样本数据。

48、在本申请本文档来自技高网...

【技术保护点】

1.一种欺诈风险预测模型生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取样本数据，包括：

3.根据权利要求2所述的方法，其特征在于，将所述全量融合数据集合处理为样本数据，包括：

4.根据权利要求3所述的方法，其特征在于，对所述参考数据集合进行等频分箱处理，得到样本数据，包括：

5.根据权利要求1所述的方法，其特征在于，获取待训练模型，包括：

6.根据权利要求1所述的方法，其特征在于，触发所述待训练模型学习所述样本数据中的字符关系，得到中间模型，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

8.根据权利要求1所述的方法，其特征在于，触发所述中间模型对残缺数据进行补全，得到全量补全数据，包括：

9.根据权利要求1所述的方法，其特征在于，基于所述全量补全数据和所述残缺数据对应的风险值训练所述中间模型，得到欺诈风险预测模型，包括：

10.根据权利要求1～9中任一项所述的方法，其特征在于，还包括：

11.一种欺诈风险预测模型生成装置，其特征在于，包括：

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。

13.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种欺诈风险预测模型生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取样本数据，包括：

3.根据权利要求2所述的方法，其特征在于，将所述全量融合数据集合处理为样本数据，包括：

4.根据权利要求3所述的方法，其特征在于，对所述参考数据集合进行等频分箱处理，得到样本数据，包括：

5.根据权利要求1所述的方法，其特征在于，获取待训练模型，包括：

6.根据权利要求1所述的方法，其特征在于，触发所述待训练模型学习所述样本数据中的字符关系，得到中间模型，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：...

【专利技术属性】
技术研发人员：徐英浩，王杰，王博，董启江，
申请(专利权)人：同盾科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人