基于自动化特征工程的反欺诈方法及系统技术方案

技术编号:29332338 阅读:30 留言:0更新日期:2021-07-20 17:50
本发明专利技术公开一种基于自动化特征工程的反欺诈方法及系统,通过自动化特征工程能够快速、高效、规范化的对特征进行扩增。该方法包括:获取交易数据集得到交易记录特征向量及欺诈结果向量,构建原始字段特征的特征集合F

【技术实现步骤摘要】
基于自动化特征工程的反欺诈方法及系统
本专利技术涉及人工智能
,尤其涉及一种基于自动化特征工程的反欺诈方法及系统。
技术介绍
互联网金融欺诈正导致诸多社会经济问题,网络支付是互联网金融中的典型模式之一,此模式中的欺诈交易也是互联网金融欺诈的主要形式之一。通过构建基于机器学习的欺诈检测模型来识别欺诈交易的方法已成为网络支付反欺诈领域的主流思路。在构建欺诈检测模型的过程中,特征工程是最为关键的一步,特征的质量将直接影响模型的性能,通常这也是最为耗时且对相关领域的专业知识要求最高的步骤。现有网络支付欺诈检测模型在特征工程上主要是领域专家基于业务知识以手动构造的形式来开展,而在网络支付模式下欺诈场景众多,不同场景下的特征构造流程不尽相同,人工特征构建方法已不能满足与日俱增的反欺诈需求。
技术实现思路
本专利技术的目的在于提供一种基于自动化特征工程的反欺诈方法及系统,通过自动化特征工程能够快速、高效、规范化的对特征进行扩增,从而提升反欺诈模型的训练精度,确保反欺诈模型识别结果的准确性。为了实现上述目的,本专利技术的第一方面提供一种基于自动化特征工程的反欺诈方法,包括:获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0;在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征r及所述特征集合F0中的原始字段特征;计算所述当前节点的所述特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;利用结构树叶子节点的所述特征集合Fs及所述特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。优选地,还包括:分别进入左右两部分子树,判断当前节点中交易数据集样本数是否低于设定的最小阈值T,以及判断交易数据集的纯度是否高于设定的阈值G;若前节点中交易数据集样本数低于设定的最小阈值T,且交易数据集的纯度高于设定的阈值G则到达叶子节点,结构树构建完毕;若前节点中交易数据集样本数未低于设定的最小阈值T,和/或,交易数据集的纯度未高于设定的阈值G则重复构造下一节点的特征集合Fs及对应的所述特征集合Fa,直至到达叶子节点结构树构建完毕。较佳地,获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0的方法包括:获取的交易数据集D={X,Y},其中,X={x1,x2…,xn},Y={y1,y2,…,yn},所述xi表示第i条交易记录的特征向量,所述yi表示第i条交易记录的欺诈结果向量,所述1≤i≤n;基于n条交易记录的特征向量集合,构建特征集合F0。进一步地,所述转换函数的类型包括纵向方式的转换函数、横向方式的转换函数、时间窗口方式的转换函数中的一种或多种;预设的转换函数数量为k个,所述W={w1,w2,…,wk}表示各转换函数对应的权重向量。进一步地,在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征及所述特征集合F0中的原始字段特征的方法包括:初始化转换函数的权重w,使得每个转换函数的权重初始化每个转换函数的最近平均信息增益效用列表lo,增益效用列表lo的长度设为k,每个转换函数对应的最近平均信息增益的初始值为0;在构建结构树的当前节点过程中,从特征集合F0的s个原始字段特征中筛选出r个原始字段特征用来构建新特征,使用当前转换函数m分别将筛选出的每个新特征fi作为结构树划分属性的信息增益gfi,计算当前转换函数m的最近平均信息增益go并更新入增益效用列表lo,以及基于增益效用列表lo和最近平均信息增益go计算出当前转换函数m的奖励值β,所述转换函数的初始值为1,令m=m+1,重复下一个转换函数奖励值β的计算;根据各转换函数的奖励值β更新对应转换函数的权重,归一化后更新每个转换函数的权重。优选地,在下一级子节点特征集合Fs及对应的特征集合Fa构建过程中使用权重最大的转换函数。示例性地,所述奖励值β的计算方法包括:所述为增益效用列表lo中的信息增益最大值,所述为增益效用列表lo的平均信息增益。示例性地,转换函数的权值计算公式为a为权重更新的速率,Wo表示更新前转换函数中的权重,Wo’表示更新后转换函数中的权重。与现有技术相比,本专利技术提供的基于自动化特征工程的反欺诈方法具有以下有益效果:本专利技术提供的基于自动化特征工程的反欺诈方法中,首先获取交易数据集,经清洗处理后得到每条交易记录的特征向量以及对应的欺诈结果向量,并汇总所有交易记录构建包括全部原始字段特征的特征集合F0,然后利用树结构对特征进行自动化扩增,在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,特征集合Fa包括线性扩展的新特征r及特征集合F0中的原始字段特征,然后计算当前节点的特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树,若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs,最终利用结构树叶子节点的特征集合Fs及对应的特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。可见,本专利技术使用树结构,在数据集进行划分的同时实现特征的构造,通过定制化的转换函数设计,能够构造出面向各种反欺诈场景,尤其是网络支付场景的特征,其在节点处进行局部特征构造时保留构造的新特征,以此作为下个节点的基础特征来构造新特征,从而实现复杂特征的构造。进而通过自动化特征工程能够快速、高效、规范化的对特征进行扩增,从而提升反欺诈模型的训练精度,确保反欺诈模型识别结果的准确性。本专利技术的第二方面提供一种基于自动化特征工程的反欺诈装置,应用于上述技术方案所述的基于自动化特征工程的反欺诈方法中,所述装置包括:采集单元,用于获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0;线性扩增单元,用于在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征r及所述特征集合F0中的原始字段特征;增益计算单元,用于计算所述当前节点的所述特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;非线性扩增单元本文档来自技高网...

【技术保护点】
1.一种基于自动化特征工程的反欺诈方法,其特征在于,包括:/n获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F

【技术特征摘要】
1.一种基于自动化特征工程的反欺诈方法,其特征在于,包括:
获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0;
在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征r及所述特征集合F0中的原始字段特征;
计算所述当前节点的所述特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;
若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;
利用结构树叶子节点的所述特征集合Fs及所述特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。


2.根据权利要求1所述的方法,其特征在于,还包括:
分别进入左右两部分子树,判断当前节点中交易数据集样本数是否低于设定的最小阈值T,以及判断交易数据集的纯度是否高于设定的阈值G;
若前节点中的交易数据集样本数低于设定的最小阈值T,且交易数据集的纯度高于设定的阈值G则到达叶子节点,结构树构建完毕;
若前节点中的交易数据集样本数未低于设定的最小阈值T,和/或,交易数据集的纯度未高于设定的阈值G则重复构造下一节点的特征集合Fs及对应的所述特征集合Fa,直至到达叶子节点结构树构建完毕。


3.根据权利要求2所述的方法,其特征在于,获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0的方法包括:
获取的交易数据集D={X,Y},其中,X={x1,x2...,xn},Y={y1,y2,...,yn},所述xi表示第i条交易记录的特征向量,所述yi表示第i条交易记录的欺诈结果向量,所述1≤i≤n;
基于n条交易记录的特征向量集合,构建特征集合F0。


4.根据权利要求2或3所述的方法,其特征在于,所述转换函数的类型包括纵向方式的转换函数、横向方式的转换函数、时间窗口方式的转换函数中的一种或多种;
预设的转换函数数量为k个,所述W={w1,w2,...,wk}表示各转换函数对应的权重向量。


5.根据权利要求4所述的方法,其特征在于,在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征及所述特征集合F0中的原始字段特征的方法包括:
...

【专利技术属性】
技术研发人员:褚阳董肖凯
申请(专利权)人:苏宁金融科技南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1