一种面向银行交易流水数据的自动特征生成featuretools数据处理方法技术

技术编号:37552300 阅读:12 留言:0更新日期:2023-05-15 07:37
本发明专利技术公开了一种面向银行交易流水数据的自动特征生成featuretools数据处理方法,包括以下步骤:步骤一:数据获取,根据本方法要求,获取客户基本数据和客户交易数据,客户基本数据与客户交易数据需满足具有关联关系;步骤二:数据处理;本发明专利技术通过Featuretools方法主要针对数据分析建模过程中的特征工程的衍生进行数据处理,可以通过转换和聚合两种处理方式,将数据表中的指标进行特征衍生,能够满足对交易流水数据等大数据量的指标进行加工处理的需求,满足日常工作中的大多数场景,为行内客户分析、个性化客户运营提供数据支撑。个性化客户运营提供数据支撑。个性化客户运营提供数据支撑。

【技术实现步骤摘要】
一种面向银行交易流水数据的自动特征生成featuretools数据处理方法


[0001]本专利技术属于银行交易流水类数据处理
,具体涉及一种面向银行交易流水数据的自动特征生成featuretools数据处理方法。

技术介绍

[0002]当前在数字化转型的浪潮下,商业银行竞争愈发激烈,尤其是对个人客户的争夺,各家银行都是奇招频出,而对于个人客户的争夺,核心在于对个人客户的深入分析,通过挖掘客户的产品偏好、交易偏好、渠道偏好等行为信息,进而进行针对性的客户运营与分析,更好的践行以客户为中心的服务理念,而分析客户的核心是需要对客户数据进行多样化的数据加工,形成丰富的数据指标特征,而银行业中交易流水数据是客户与银行产生关系的核心数据,能够挖掘到丰富的客户行为信息。
[0003]但是存在以下缺陷:(1)目前业界对交易流水数据进行处理分析一直存在比较大的问题,处理方式较为落后,大部分都是通过头脑风暴形成指标逻辑,然后通过手工写sql进行数据指标加工,整个加工流程相对来说比较漫长,且容易受到人员主观知识的限制,因此对于客户交易流水数据进行指标特征加工与分析已经成为越来越多行方客户关注的问题,为此我们提出一种面向银行交易流水数据的自动特征生成featuretools数据处理方法。

技术实现思路

[0004]本专利技术的目的在于提供一种面向银行交易流水数据的自动特征生成featuretools数据处理方法,以解决上述
技术介绍
中提出的交易流水数据进行处理分析一直存在比较大的问题,处理方式较为落后,大部分都是通过头脑风暴形成指标逻辑,然后通过手工写sql进行数据指标加工,整个加工流程相对来说比较漫长,且容易受到人员主观知识的限制的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种面向银行交易流水数据的自动特征生成featuretools数据处理方法,包括以下步骤:
[0006]步骤一:数据获取,根据本方法要求,获取客户基本数据和客户交易数据,客户基本数据与客户交易数据需满足具有关联关系;
[0007]步骤二:数据处理,分别对客户基本数据和客户交易数据进行数据预处理操作,预处理包括缺失值处理和异常值处理,同时也可对数据类型进行转换,数据标准化处理,数据指标的加工衍生等;
[0008]步骤三:数据融合,创建实体集,将要分析的客户基本数据和客户交易数据添加到实体集中,以供后期数据分析所用;
[0009]步骤四:建立关系,通过对实体集中的数据建立关系,为后续特征自动生成提供关联依据与特征生成指引,明确客户基本数据和客户交易数据之间的关联关系;
[0010]步骤五:深度特征集成。
[0011]优选的,所述步骤一中获取的客户基本数据主要是以客户号为主键的二维表形式,表主要字段包括客户编号、客户性别、年龄、资产、总负债、客户持有产品、客户交易笔数、客户交易金额等字段信息,核心是展示客户维度的主要关注指标特征。
[0012]优选的,所述步骤一中获取的客户交易数据主要是客户在行方进行各类交易的流水数据,一条数据表示客户的一次交易行为信息,客户交易数据主要包括客户交易流水号、客户编号、客户交易金额、交易日期、交易渠道、交易附言等字段信息。
[0013]优选的,所述步骤二中数据预处理的方法中,缺失值处理通常按照以下两种情形进行处理,对于数值型指标根据指标不同选择均值或0值填充,字符型指标通常用众数进行填充处理,异常值处理采用3δ原则进行识别或者箱线图识别,对于异常值的处理可以采取直接删除或者用其它值代替的方式处理。
[0014]优选的,所述步骤三中的数据融合可支持所涉及的客户基本数据和客户交易数据的融合,还可以同时融合多张表,支持对多张表数据的分析与处理,如可以将客户基本数据、客户持有产品数据、客户交易数据、客户理财数据、客户基金数据等进行融合,方便后续指标特征的衍生。
[0015]优选的,所述步骤四中的建立关系需确保表与表之间有明确的关联关系,如客户基本数据表中是以客户号为主键的数据表,客户交易数据表是以交易流水号为主键的数据表,且客户交易数据表中必须有客户编号字段,能使得客户基本数据表和客户交易数据表通过客户号进行关联,最终才能按客户号统计每个客户的交易行为指标特征,完成特征的自动生成。
[0016]优选的,所述步骤五中的深度特征集成主要包括:
[0017](1)引入实体集,确认实体集名称;
[0018](2)确认目标实体表,以实体表为基准进行特征衍生;
[0019](3)确认聚合指标,聚合指标主要有求和,标准差,最大值,最小值,峰度,平均值,计数,中位数等,主要是对交易流水中的数据按照主键字段进行相关函数的计算操作,从而生成新的指标特征;
[0020](4)确认转换指标,转换指标主要是指对之前定义的日期字段进行指标计算生成,主要包括取天数,取月数,取年数,取周数,基于设定日期以来的天数汇总等,可以针对日期字段进行相关指标生成;
[0021](5)其它参数调整,featuretools除过上面所说的参数,还有其它可以调整的参数信息,如确认集成深度,默认是集成深度为2阶,设定忽略指标,对某个指标不进行指标衍生,定义数据类型等等,一般情况下,其它的参数指标可以用默认值,如有特殊需求,可进行针对性的调整;
[0022](6)结果执行,确定好了数据集和相关参数,即可进行算法执行,最终即可得到所有指标的衍生结果。
[0023]优选的,所述步骤五的深度特征集成,通过定义目标表,进而以目标表为基础进行特征自动生成,快速高效的输出特征处理结果。
[0024]与现有技术相比,本专利技术的有益效果是:
[0025](1)本专利技术通过Featuretools方法主要针对数据分析建模过程中的特征工程的衍
生进行数据处理,可以通过转换和聚合两种处理方式极大的优化了当前金融环境下针对交易流水数据进行分析的方式和方法,针对交易流水数据传统的分析思路是设计指标体系,通过sql数据加工手段进行一步一步的汇总,最终形成落地的交易层指标表,通过本方法能够直接利用算法技能自动化的对交易流水数据进行特征生成,大大的降低了流水数据分析难的问题,提高了指标生成效率,可以将核心重点放在数据分析与数据挖掘方面,为金融业数据分析提供技术支撑,本专利技术引入了算法的思想,避免了传统通过人员头脑风暴产生指标的体系模式,从而能够自动化的生成指标内容,为数据分析工作的开展提供新的思路,本专利技术所产生的指标逻辑具有良好的可解释性,能够在实际的业务分析决策中提供解释说明,随着本专利技术的深入使用,不仅可以解决交易数据的指标特征生成问题,还可以支持多张表的组合应用,能够生成更加多样化的指标特征,提高数据分析的深度与广度。
附图说明
[0026]图1为本专利技术featuretools算法的工作流程图;
[0027]图2为本专利技术客户基本数据的核心指标图;
[0028]图3为本专利技术客户交易数据的核心指标图;
[0029]图4为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向银行交易流水数据的自动特征生成featuretools数据处理方法,包括以下步骤:步骤一:数据获取,根据本方法要求,获取客户基本数据和客户交易数据,客户基本数据与客户交易数据需满足具有关联关系;步骤二:数据处理,分别对客户基本数据和客户交易数据进行数据预处理操作,预处理包括缺失值处理和异常值处理,同时也可对数据类型进行转换,数据标准化处理,数据指标的加工衍生等;步骤三:数据融合,创建实体集,将要分析的客户基本数据和客户交易数据添加到实体集中,以供后期数据分析所用;步骤四:建立关系,通过对实体集中的数据建立关系,为后续特征自动生成提供关联依据与特征生成指引,明确客户基本数据和客户交易数据之间的关联关系;步骤五:深度特征集成。2.根据权利要求1所述的一种面向银行交易流水数据的自动特征生成featuretools数据处理方法,其特征在于:所述步骤一中获取的客户基本数据主要是以客户号为主键的二维表形式,表主要字段包括客户编号、客户性别、年龄、资产、总负债、客户持有产品、客户交易笔数、客户交易金额等字段信息,核心是展示客户维度的主要关注指标特征。3.根据权利要求2所述的一种面向银行交易流水数据的自动特征生成featuretools数据处理方法,其特征在于:所述步骤一中获取的客户交易数据主要是客户在行方进行各类交易的流水数据,一条数据表示客户的一次交易行为信息,客户交易数据主要包括客户交易流水号、客户编号、客户交易金额、交易日期、交易渠道、交易附言等字段信息。4.根据权利要求1所述的一种面向银行交易流水数据的自动特征生成featuretools数据处理方法,其特征在于:所述步骤二中数据预处理的方法中,缺失值处理通常按照以下两种情形进行处理,对于数值型指标根据指标不同选择均值或0值填充,字符型指标通常用众数进行填充处理,异常值处理采用3δ原则进行识别或者箱线图识别,对于异常值的处理可以采取直接删除或者用其它值代替的方式处理。5.根据权利要求1所述的一种面向银行交易流水数据的自动特征生成featuretools数据处理方法,其特征在于:所述步骤三中的数据融合可支持所涉及的客户...

【专利技术属性】
技术研发人员:李炜李挺宋林利
申请(专利权)人:上海琢学科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1