一种银行票据全自动化特征工程方法及装置制造方法及图纸

技术编号:34054286 阅读:71 留言:0更新日期:2022-07-06 16:35
本发明专利技术公开了一种银行票据全自动化特征工程方法及装置,该方法包括:自动化票据识别;自动化数据清洗,形成基础数据集;自动化特征生成,根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集,通过构建特征生成树生成新的票据特征;自动化特征选择,通过将特征选择视为二元优化问题,分为靠近目标值和确定目标值两个阶段进行特征选择。本发明专利技术只需要在初始时设置可调节参数,后续流程皆可自动完成。本发明专利技术使用自动化特征工程能够节省人力、提高效率,有效为后续的银行票据机器学习分类任务提供优质特征。优质特征。优质特征。

A fully automated feature engineering method and device for bank bills

【技术实现步骤摘要】
一种银行票据全自动化特征工程方法及装置


[0001]本专利技术属于特征工程
,具体涉及一种银行票据全自动化特征工程方法及装置。

技术介绍

[0002]在机器学习任务周期中,越来越多的流程向着自动化代替人力发展,诞生了许多代码库和自动化工具。这些代码库和自动化工具旨在通过寻找匹配数据集的最优模型来简化模型选择和机器学习调优过程,只需要很少的人工操作。特征工程是机器学习流程中极为重要的部分,特征工程的质量限制了机器学习模型所能达到的最佳效果,却几乎完全依靠人工实现。
[0003]票据市场是企业获取银行融资和信用支持的重要渠道。对票据数据的合理利用,有利于银行开拓新客户、稳定老客户、吸收存款。票据数据类型多样且复杂,数据量大,使用人力进行特征工程效率低,且也很难根据各类票据和下游任务的具体特点灵活的进行特征生成和特征选择。

技术实现思路

[0004]本专利技术目的在于针对现有技术的不足,提出一种银行票据全自动化特征工程方法及装置,提高银行票据数据的利用效率,节约人力,缩短项目周期。
[0005]本专利技术的目的是本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种银行票据全自动化特征工程方法,其特征在于,包括以下步骤:S1,自动化票据识别:收集票据图像,对票据图像进行图像处理和敏感性处理,获得原始票据数据D0,识别票据的业务类型并自动归档;S2,自动化数据清洗:对原始票据数据D0进行数据清洗,再进行数据脱敏处理,形成基础数据集D1;S3,自动化特征生成:根据当前票据的身份数据和下游机器学习分类任务类型,从数据库中读取历史票据数据加入基础数据集D1中;根据基础数据集D1构建特征生成树,根据特征生成树生成新的票据特征,构成票据特征集F;S4,自动化特征选择:将特征选择问题视为二元优化问题,分为靠近目标值和确定目标值两个阶段,所述靠近目标值阶段采用垂直大跨步靠近目标值和螺旋式小跨步靠近目标值两个特征选择策略,所述确定目标值阶段采用垂直向确定目标值和随机游走确定目标值两个特征选择策略,最终得到银行票据机器学习分类任务所需的票据特征集F_SUB。2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述图像处理包括自动去黑边、自动去噪,所述敏感性处理包括敏感信息识别、敏感信息遮挡。3.根据权利要求1所述的方法,其特征在于,步骤S2中,所述数据清洗包括对数据类型分类、异常值处理、文本编码。4.根据权利要求1所述的方法,其特征在于,步骤S3包括:S31,从基础数据集D1中提取基础特征,形成初始特征集F0;S32,构建特征转换函数集合和概率权重集合,其中,t_n为特征转换函数的个数,特征转换函数trans
i
对应的概率权重为p
i
;计算每个特征转换函数trans
i
作用于初始特征集F0的时间消耗t
i
,归一化时间消耗值,初始化概率权重集合P;将特征转换函数集合Trans和概率权重集合P依据概率权重值从大到小进行排序;设置构建特征生成树的最大时间消耗限制和最大空间消耗限制;S33,构建特征生成树:特征生成树的根节点为初始特征集F0;按照概率权重集合P从特征转换函数集合Trans中随机选择特征转换函数trans
i
,计算被选择特征转换函数trans
i
作用于当前特征生成树中的每个节点的信息增益,结合时间消耗和空间消耗计算被选择特征转换函数trans
i 作用于特征生成树中每个节点的总收益度;更新本轮被选择特征转换函数trans
i
的概率权重p
i
,将更新后的概率权重集合P重新归一化并排序;选择总收益度值最高的节点扩展特征生成树;当剩余时间或剩余空间为0时,停止构建特征生成树;将特征生成树的所有叶子节点取并集得到票据特征集F。5.根据权利要求4所述的方法,其特征在于,步骤S33中,被选择特征转换函数trans
i 作用于特征生成树中节点F
j
的信息增益的计算公式如下:其中,为特征m对节点F
j
的信息增益,M为新生成的有效特征数;单个特征对特征集F
的信息增益IG的计算公式如下:其中,|F|为F的样本数,K为银行票据机器学习分类任务类的个数,|C
k
|为类C
k
的样本数;根据特征的取值将F划分为Q个子集,第q个子集记为F
q
,F
qk
为子集F
q
中属于类C
k
的样本集合,为F
q
的样本数,|F
qk
|为F
qk
的样本数;定义信息增益阈值MIN_IG,IG值大于等于MIN_IG的特征为有效特征,舍弃IG值小于MIN_IG的特征;结合时间消耗和空间消耗...

【专利技术属性】
技术研发人员:陈嘉俊杨国正吴美学张敬之臧铖
申请(专利权)人:易企银杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1