System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于特征构建算法自动生成银行风控业务特征的方法技术_技高网

基于特征构建算法自动生成银行风控业务特征的方法技术

技术编号:40490006 阅读:7 留言:0更新日期:2024-02-26 19:20
本申请涉及一种基于特征构建算法自动生成银行风控业务特征的方法,基于二代人行征信的自动化特征构建系统。在本申请中,系统可自动识别构建特征所需字段,根据场景自动配置特征工程所需参数,形成特征构建策略。操作人员可对上述步骤得出的特征,构建特征策略,并进行微调和确认。系统后续将根据特征策略,自动批量生产特征和基于特征。本申请收集了风控场景并构建有效特征的策略,当接收新的输入数据时确定表内的关键字段,并自动配置特征策略方案,即可自动产出有效特征。对比机械式遍历所有字段的做法,本发明专利技术在系统性能、减少特征冗余方面具备较大优势;对比由人工操作的方式,本发明专利技术解决了业务经验难以迁移的难点,减少了人工消耗。

【技术实现步骤摘要】

本公开涉及,尤其涉及一种自动化特征构建系统、基于特征构建算法自动生成银行风控业务特征的方法和电子设备。


技术介绍

1、银行风控业务传统的特征构建方式,是基于业务人员的经验去设计特征,这种方式严重依赖人员经验,难以通过方法迁移最大化地利用现有数据完成批量生产。

2、比如在实际的银行风控业务场景中,征信原始表字段量较大,其中大多数字段所含有效信息较少,不适用于构建特征。如果采用机械式遍历所有字段的做法,去构建特征必然导致系统性能问题,且产出特征存在大量冗余。而且,由操作人员人工选择需要进行特征构造的字段可缓解上述性能问题和冗余,但是产出特征效效果依赖操作人员本身业务经验,难以复制迁移业务经验。

3、机械式遍历所有字段的做法,同样消耗人工,效率极低。


技术实现思路

1、为了解决上述问题,本申请提出一种自动化特征构建系统、基于特征构建算法自动生成银行风控业务特征的方法和电子设备。

2、本申请一方面,提出一种自动化特征构建系统,包括:

3、数据层,用于获取银行风控业务的原始数据;

4、特征层,用于调用特征构建模型,遍历得到所述原始数据的构造特征,并根据遍历得到的构造特征,自动化构造并生成所述银行风控业务的特征数据集;

5、模型层,用于部署特征构建模型;

6、规则层,用于通过预设的特征评估,判断所述银行风控业务的特征数据集是否达标。

7、作为本申请的一可选实施方案,可选地,所述数据层,包括:

8、源数据对接模块,用于准备并输入原始数据:银行风控业务的宽表数据;

9、数据质量检查模块,用于按照预设的数据质量检查规则,对所述原始数据进行数据质量检查:

10、若所述原始数据通过所述数据质量检查规则,则将所述原始数据导入业务分层模块;

11、若不通过,则退回所述源数据对接模块,重新准备并输入新的所述原始数据;

12、业务分层模块,用于对所述原始数据进行数据业务分层预处理,按照业务数据类型,将所述原始数据分为如下两类的原始数据:

13、用户行为类,包括:征信查询记录表、负面交易表;

14、用户状态类,包括:征信基本信息表、征信借贷账户表;

15、以及,

16、对分层后的数据进行数据清洗,获得清洗后的宽表数据。

17、作为本申请的一可选实施方案,可选地,所述特征层,包括:

18、用户行为表,用于写入由所述业务分层模块分类得到的对应所述用户行为类的宽表数据;

19、用户状态表,用于写入由所述业务分层模块分类得到的对应所述用户状态类的宽表数据。

20、作为本申请的一可选实施方案,可选地,所述特征层,还包括:

21、模糊匹配模块,用于调用特征构建模型,并基于模糊匹配算法遍历所述用户行为表或所述用户状态表中由用户配置的配置策略,得到相应所述用户行为表或所述用户状态表中的构造特征的特征组合;根据特征组合生成所述用户行为表或所述用户状态表的特征数据集。

22、作为本申请的一可选实施方案,可选地,所述模糊匹配模块,还用于:

23、所述原始数据的特征构造,对所述用户行为表或所述用户状态表进行字段识别,确定所述用户行为表或所述用户状态表中的核心字段;

24、根据所述核心字段,确定出由用户配置的配置策略,包括:核心字段“是否查询”、分类字段、时间窗口和构造函数。

25、作为本申请的一可选实施方案,可选地,所述模糊匹配模块,还用于:

26、将所述用户行为表或所述用户状态表的所述特征数据集,写入预设的特征表中,得到所述银行风控业务的特征表。

27、作为本申请的一可选实施方案,可选地,所述规则层,包括:

28、iv分箱模块,用于评估所述银行风控业务的特征表中的各项特征,是否达到预设的分箱iv值;

29、特征分类模块,用于通过预设的分类模型,判断所述银行风控业务的特征表中的各项特征,对于政府样本的区分能力是否达标。

30、本申请另一方面,提出一种基于特征构建算法自动生成银行风控业务特征的方法,基于自动化特征构建系统进行实施,包括如下步骤:

31、数据层获取银行风控业务的原始数据;

32、特征层调用部署于模型层上的特征构建模型,遍历得到所述原始数据的构造特征,并根据遍历得到的构造特征,自动化构造并生成所述银行风控业务的特征数据集;

33、规则层通过预设的特征评估,判断所述银行风控业务的特征数据集是否达标。

34、本申请另一方面,还提出一种电子设备,包括:

35、处理器;

36、用于存储处理器可执行指令的存储器;

37、其中,所述处理器被配置为执行所述可执行指令时实现所述的一种基于特征构建算法自动生成银行风控业务特征的方法。

38、本专利技术的技术效果:

39、本申请通过为银行风控业务提供基于二代人行征信的自动化特征构建系统。在本申请中,系统可自动识别构建特征所需字段,根据场景自动配置特征工程所需参数,形成特征构建策略。操作人员可对上述步骤得出的特征,构建特征策略,并进行微调和确认。系统后续将根据特征策略,自动批量生产特征和基于特征。

40、本申请收集了风控场景并构建有效特征的策略,当接收新的输入数据时确定表内的关键字段,并自动配置特征策略方案,即可自动产出有效特征。对比机械式遍历所有字段的做法,本专利技术在系统性能、减少特征冗余方面具备较大优势;对比由人工操作的方式,本专利技术解决了业务经验难以迁移的难点,减少了人工消耗。

41、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

本文档来自技高网
...

【技术保护点】

1.一种自动化特征构建系统,其特征在于,包括:

2.根据权利要求1所述的自动化特征构建系统,其特征在于,所述数据层,包括:

3.根据权利要求2所述的自动化特征构建系统,其特征在于,所述特征层,包括:

4.根据权利要求3所述的自动化特征构建系统,其特征在于,所述特征层,还包括:

5.根据权利要求1所述的自动化特征构建系统,其特征在于,所述模糊匹配模块,还用于:

6.根据权利要求5所述的自动化特征构建系统,其特征在于,所述模糊匹配模块,还用于:

7.根据权利要求6所述的自动化特征构建系统,其特征在于,所述规则层,包括:

8.一种基于特征构建算法自动生成银行风控业务特征的方法,基于自动化特征构建系统进行实施,其特征在于,包括如下步骤:

9.一种电子设备,其特征在于,包括:

【技术特征摘要】

1.一种自动化特征构建系统,其特征在于,包括:

2.根据权利要求1所述的自动化特征构建系统,其特征在于,所述数据层,包括:

3.根据权利要求2所述的自动化特征构建系统,其特征在于,所述特征层,包括:

4.根据权利要求3所述的自动化特征构建系统,其特征在于,所述特征层,还包括:

5.根据权利要求1所述的自动化特征构建系统,其特征在于,所述...

【专利技术属性】
技术研发人员:姚军勇周远张进
申请(专利权)人:杭州观远数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1