基于深度学习的高斯混合模型银行交易数据模拟生成算法制造技术

技术编号:30156085 阅读:8 留言:0更新日期:2021-09-25 15:07
本发明专利技术提供一种基于深度学习的高斯混合模型银行交易数据模拟生成方法和系统,解决反欺诈过程中负样本数量过少的问题,同时解决大数据集中的样本数据分布不均问题。减少正常交易误以为是欺诈的误报,有效降低误报率,提高银行交易中对反欺诈信息的监管。银行交易中对反欺诈信息的监管。银行交易中对反欺诈信息的监管。

【技术实现步骤摘要】
基于深度学习的高斯混合模型银行交易数据模拟生成算法


[0001]本专利技术属于金融科技领域、人工智能、大数据,尤其涉及数据模拟与生成

技术介绍

[0002]不同的银行有自己的主营业务,如消费银行的业务包括:反欺诈、监控客户流失情况、抵押/贷款等业务等;企业银行的业务包括:反欺诈、银行收费增值服务等;投资银行的业务包括:反欺诈、投资分析服务等。上述银行交易数据中反欺诈的负样本数据相对与正常的银行交易数据十分的稀少,由于反欺诈中的负样本数据太少,就会出现正常交易误以为是欺诈,要很多人工对该银行交易数据进行再度复查,为了避免上述情况的出现,本专利技术提出一种基于深度学习的高斯混合模型银行交易数据模拟生成算法,来丰富反欺诈中的负样本数量,减少正常交易误以为是欺诈的误报,有效降低误报率,提高银行交易中对反欺诈信息的监管。

技术实现思路

[0003]为解决上述问题,提供一种银行交易数据模拟生成算法,来丰富反欺诈中的负样本数据,本专利技术的技术方案是,
[0004]一种基于深度学习的高斯混合模型银行交易数据模拟生成方法,包括,
[0005]获取银行真实交易数据;
[0006]对银行真实交易数据类型过滤,仅读取所需的数据并进行多路分解为不同属性的银行交易流之间的样本记录,其中,所述不同属性包括但不限于交易金额、交易类型和交易主体;
[0007]对不同属性的单个交易流进行分别进行模拟,其中,在单个交易流进行分别进行模拟时,进行预配置参数和分布参数评估,生成交易维度的概率分布的数据特征;<br/>[0008]将经过预配置参数和分布参数评估的数据,通过随机数生成器生成数字序列,所述数字序列以用作数字属性值采样集索引或用于随机生成分类值的输入;所述采样集是根据实际银行交易数据分布进行排序和组织的,这种分布可近似为样本集中的样本重复;
[0009]所述数字序列的数字将落入采样设置范围内,获得选取的样本,将所述样本作为进行模拟完成的单个交易流;
[0010]将分别进行模拟完成的单个交易流输出合并。
[0011]进一步的,所述分布参数评估,使用高斯混合模型进行分布参数评估的问题推理;
[0012]给出一组数据
[0013]X={x1,x2...x
n
}
[0014]根据未知的分布,估计参数θ拟合数据的改成高斯混合模型
[0015][0016]其中μ为数据均值,σ为数据标准差,k是混合模型中子高斯模型的数量,N观测数据
样本的数量,W
i
是观测数据属于第i个子模型的概率;
[0017]给定的约束
[0018]0<wi<1;
[0019][0020]分布参数的估计采用似然最大化法P(X/θ);这表示与模型参数有关的数据集的概率
[0021][0022]最大期望算法,从实际训练数据中自动估计数值属性的分布;高斯混合分布参数通过期望最大化算法计算:
[0023][0024][0025][0026]分完成分布参数评估。
[0027]进一步的,所述分布估计过程包括
[0028]算法会根据实际训练数据自动估算数值属性的分布。高斯混合分布参数通过期望最大化算法计算。
[0029]即使用户可以决定手动设置混合物数量作为配置参数,每次EM算法迭代后,分布与原始数据之间的MDL损失也会被计算。算法会迭代地增加混合物的数量,直到改进低于阈值T,其中MDL为最小描述长度。
[0030]重复直到MDLn
‑1‑
MDLn&gt;T,
[0031]MDL=

log(L(X,Z,θ))+{(K

1)+K[D+0.5D(D+1)]}log(N)。
[0032]进一步的,所述随机数生成
[0033]基于高斯混合模型的数值生成程序;
[0034]生成0

1之间的随机数;
[0035]根据重量配比选择合适的混合数;
[0036]使用逆混合CDF F
‑1(X)生成随机数,生成介于0

size(样本集)之间的随机数;抽取的样本的索引等于随机数,其中,CDF为累积密度函数。
[0037]一种基于深度学习的高斯混合模型银行交易数据模拟生成系统,包括:
[0038]构建银行交易模拟器,其中,
[0039]所述银行交易模拟器包括源数据存储模块、银行交易类型过滤器、银行交易流模块、预配置参数模块、分布参数评估模块、随机数生成器模块、采样和采样集模块、维度合并
模块和接收器;
[0040]所述源数据存储模块,包括带有示例模拟器的真实交易存储区,用于推断目标交易的分配属性;
[0041]所述银行交易类型过滤器,确保所述模拟器仅读取所需数据并进行多路分解不同银行交易流之间的样本记录,其中,所述银行交易流负责模拟单个交易记录的一组组件属性;
[0042]所述预配置参数模块,包括主题专家定义的参数集、最小参数定义交易属性的格式、所述参数关形状和属性的概率分布以及样本集的设置
[0043]所述分布参数评估模块,用于组件使模拟器能够从源数据进行评估,用于生成交易维度的概率分布的数据特征;
[0044]随机数生成器模块,组件生成数字序列以用作数字属性值,采样集索引或用于随机生成分类值的输入;
[0045]所述采样和采样集模块,用户定义的数据集,用于绘制分类属性。使用此选项使用户可以控制分类输出的格式;
[0046]维度合并模块将多个交易流的输出合并为单个交易;
[0047]接收器通过REST接口或队列之类的接口处理生成的事务的传输。
[0048]本专利技术的有益效果:1.解决反欺诈过程中负样本数量过少的问题;2.解决大数据集中的样本数据分布不均问题;3.给出基于深度学习的数据模拟方法;4.给出生成样本数据与原始数据质量评测方法。
附图说明
[0049]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0050]图1为本专利技术实施例的银行交易模拟流程图;
[0051]图2为本专利技术实施例的交易数据的频次分布概率
[0052]图3为本专利技术实施例的高斯混合模型的深度学习过程、目标函数和评测方法;
[0053]图4为本专利技术实施例的是一种概率变化,将频率分布转换成概率分布;
[0054]图5为本专利技术实施例的另一种概率变化,将频率分布转换成概率分布;
[0055]图6为本专利技术实施例的最大期望算法每次迭代后流程图。
具体实施方式
[0056]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的高斯混合模型银行交易数据模拟生成方法,包括,获取银行真实交易数据;对银行真实交易数据类型过滤,仅读取所需的数据并进行多路分解为不同属性的银行交易流之间的样本记录,其中,所述不同属性包括但不限于交易金额、交易类型和交易主体;对不同属性的单个交易流进行分别进行模拟,其中,在单个交易流进行分别进行模拟时,进行预配置参数和分布参数评估,生成交易维度的概率分布的数据特征;将经过预配置参数和分布参数评估的数据,通过随机数生成器生成数字序列,所述数字序列以用作数字属性值采样集索引或用于随机生成分类值的输入;所述采样集是根据实际银行交易数据分布进行排序和组织的,这种分布可近似为样本集中的样本重复;所述数字序列的数字将落入采样设置范围内,获得选取的样本,将所述样本作为进行模拟完成的单个交易流;将分别进行模拟完成的单个交易流输出合并。2.根据权利要求1所述的基于深度学习的高斯混合模型银行交易数据模拟生成方法,其特征在于,所述分布参数评估,使用高斯混合模型进行分布参数评估的问题推理;给出一组数据X={x1,x2...x
n
}根据未知的分布,估计参数θ拟合数据的改成高斯混合模型其中μ为数据均值,σ为数据标准差,k是混合模型中子高斯模型的数量,N观测数据样本的数量,W
i
是观测数据属于第i个子模型的概率;给定的约束0<w
i
<1;分布参数的估计采用似然最大化法P(X/θ);这表示与模型参数有关的数据集的概率最大期望算法,从实际训练数据中自动估计数值属性的分布;高斯混合分布参数通过期望最大化算法计算:期望最大化算法计算:
分完成分布参数评估。3.根据权利要求1所述的基于深度学习的高斯混合模型银行交易数据模拟生成方法,其特征在于,所述分布估计过程包括算法会根据实际训练数据自动估算数值属性的分布。高斯混合分布参数通过期望最大化算法计算。即使用户可以决定手动设置混合物数量作为配置参数,每次EM算法迭代后,分布与原始数据之间的MDL损...

【专利技术属性】
技术研发人员:韩景光
申请(专利权)人:成都熵焓科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1