补充样本生成方法、装置、设备和存储介质制造方法及图纸

技术编号:38038344 阅读:15 留言:0更新日期:2023-06-30 11:04
本申请涉及人工智能技术,提供一种补充样本生成方法、装置、设备和存储介质,可以用于生成金融领域中的补充票据,使用补充票据训练得到的票据识别模型能够较好的分析金融支付的变化规律,其中方法包括:从原始样本集中选出训练样本集;按照预设间隔生成多个样本编码,生成与每个样本编码对应的补充样本;计算每个补充样本与对应训练正样本之间的第一相似度,计算每个补充样本与对应训练负样本之间的第二相似度;根据所有第一相似度和所有第二相似度计算损失函数值,根据损失函数值训练待训练卷积神经网络,得到补充样本生成模型;使用损失函数值进行训练,补充样本生成模型能够生成与训练正样本相似且与训练负样本差异较大的标准的补充样本。标准的补充样本。标准的补充样本。

【技术实现步骤摘要】
补充样本生成方法、装置、设备和存储介质


[0001]本申请涉及人工智能
,例如涉及补充样本生成方法、装置、设备和存储介质。

技术介绍

[0002]随着人工智能和大数据的发展,要作出正确的金融决策依赖于大量的金融样本。在一些情况下,只能获取到较少的金融样本例如金融票据。金融票据包含金额、签名和日期,使用金融票据训练待训练神经网络能够得到金融票据识别模型,金融票据识别模型能够自动识别金融票据。用于训练的金融票据的数量越多,金融票据识别模型的识别效果越好,较少的金融票据导致金融票据识别模型的识别效果较差。

技术实现思路

[0003]本申请提供一种补充样本生成方法、装置、设备和存储介质,旨在解决在金融票据的数量较少的情况下训练得到的金融票据识别模型的识别效果较差的问题。
[0004]为解决上述问题,本申请采用以下技术方案:
[0005]本文提供了补充样本生成方法,包括:
[0006]获取原始样本集,从所述原始样本集中选出训练样本集,所述训练样本集包含多个训练正样本和多个训练负样本;
[0007]按照预设间隔生成多个样本编码,生成与每个所述样本编码对应的补充样本;
[0008]计算每个所述补充样本与对应所述训练正样本之间的相似度,得到第一相似度;
[0009]计算每个所述补充样本与对应所述训练负样本之间的相似度,得到第二相似度;
[0010]根据所有所述第一相似度和所有所述第二相似度计算损失函数值;
[0011]根据所述损失函数值训练待训练卷积神经网络,得到补充样本生成模型,所述补充样本生成模型用于生成所述补充样本。
[0012]优选地,所述根据所有所述第一相似度和所有所述第二相似度计算损失函数值,包括:
[0013]根据以下公式计算所述损失函数值:
[0014][0015]其中,z
i
为第i个所述补充样本,x
i
为第i个所述训练正样本,y
j
为第j个所述训练负样本,log为对数运算符号,τ为调节参数,i为训练正样本序号,j为训练负样本序号,N1为训练正样本总数,所述训练正样本总数与训练负样本总数相同,exp为指数运算符号,sim为相似度计算函数,FinalLoss为所述损失函数值,exp(sim(z
i
,x
i
))为所述第一相似度,exp(sim(z
i
,y
j
))为所述第二相似度。
[0016]优选地,所述生成与每个所述样本编码对应的补充样本,包括:
[0017]将所述样本编码输入所述待训练卷积神经网络的多层感知层生成中间样本;
[0018]将所述中间样本输入所述待训练卷积神经网络的补充样本生成层生成所述补充样本。
[0019]优选地,所述得到补充样本生成模型之后,还包括:
[0020]从所述原始样本集中筛选出测试样本集;
[0021]依次将所述测试样本集中的每个测试样本输入所述补充样本生成模型,生成所述补充样本。
[0022]优选地,所述根据所述损失函数值训练待训练卷积神经网络,得到补充样本生成模型,包括:
[0023]根据所述损失函数值进行反向传播,更新所述待训练卷积神经网络的网络参数;
[0024]计算所述网络参数与预设网络参数的网络参数差值;
[0025]判断所述网络参数差值是否小于网络参数差值阈值,若是,则停止训练,得到所述补充样本生成模型。
[0026]优选地,所述按照预设间隔生成多个样本编码,包括:
[0027]获取预设间隔和多个编码序号;
[0028]将每个所述编码序号乘以所述预设间隔,得到对应的所述样本编码。
[0029]优选地,所述计算每个所述补充样本与对应所述训练正样本之间的相似度,得到第一相似度,包括:
[0030]使用余弦相似度函数计算每个所述补充样本与对应所述训练正样本之间的所述相似度,得到所述第一相似度。
[0031]本申请还提供了一种补充样本生成装置,包括:
[0032]训练样本集筛选模块,用于获取原始样本集,从所述原始样本集中选出训练样本集,所述训练样本集包含多个训练正样本和多个训练负样本;
[0033]补充样本生成模块,用于按照预设间隔生成多个样本编码,生成与每个所述样本编码对应的补充样本;
[0034]第一相似度计算模块,用于计算每个所述补充样本与对应所述训练正样本之间的相似度,得到第一相似度;
[0035]第二相似度计算模块,用于计算每个所述补充样本与对应所述训练负样本之间的相似度,得到第二相似度;
[0036]损失函数值计算模块,用于根据所有所述第一相似度和所有所述第二相似度计算损失函数值;
[0037]待训练卷积神经网络训练模块,用于根据所述损失函数值训练待训练卷积神经网络,得到补充样本生成模型,所述补充样本生成模型用于生成所述补充样本。
[0038]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的补充样本生成方法的步骤。
[0039]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的补充样本生成方法的步骤。
[0040]本申请的补充样本生成方法,包括获取原始样本集,从原始样本集中选出训练样
本集,训练样本集包含多个训练正样本和多个训练负样本;按照预设间隔生成多个样本编码,生成与每个样本编码对应的补充样本;计算每个补充样本与对应训练正样本之间的相似度,得到第一相似度;计算每个补充样本与对应训练负样本之间的相似度,得到第二相似度;根据所有第一相似度和所有第二相似度计算损失函数值;根据损失函数值训练待训练卷积神经网络,得到补充样本生成模型,补充样本生成模型用于生成补充样本。按照预设间隔能够生成多个离散的样本编码,与多个离散的样本编码对应的补充样本之间具有较大的差异,能够形成互补的效果。补充样本与训练正样本较为相似,补充样本与训练负样本差异较大,因此使用由第一相似度值和第二相似度值组成的损失函数值进行训练,可以使得补充样本生成模型生成与训练正样本相似且与训练负样本差异较大的标准的补充样本。
附图说明
[0041]图1为一实施例的补充样本生成方法的流程示意图;
[0042]图2为一实施例的生成与每个样本编码对应的补充样本的流程示意图;
[0043]图3为一实施例的对补充样本生成模型进行测试的流程示意图;
[0044]图4为一实施例的根据损失函数值训练待训练卷积神经网络的流程示意图;
[0045]图5为一实施例的按照预设间隔生成多个样本编码的流程示意图;
[0046]图6为一实施例的补充样本生成装置的结构示意框图;
[0047]图7为一实施例的计算机设备的结构示意框图。
[0048本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种补充样本生成方法,其特征在于,包括:获取原始样本集,从所述原始样本集中选出训练样本集,所述训练样本集包含多个训练正样本和多个训练负样本;按照预设间隔生成多个样本编码,生成与每个所述样本编码对应的补充样本;计算每个所述补充样本与对应所述训练正样本之间的相似度,得到第一相似度;计算每个所述补充样本与对应所述训练负样本之间的相似度,得到第二相似度;根据所有所述第一相似度和所有所述第二相似度计算损失函数值;根据所述损失函数值训练待训练卷积神经网络,得到补充样本生成模型,所述补充样本生成模型用于生成所述补充样本。2.根据权利要求1所述的补充样本生成方法,其特征在于,所述根据所有所述第一相似度和所有所述第二相似度计算损失函数值,包括:根据以下公式计算所述损失函数值:其中,z
i
为第i个所述补充样本,x
i
为第i个所述训练正样本,y
j
为第j个所述训练负样本,log为对数运算符号,τ为调节参数,i为训练正样本序号,j为训练负样本序号,N1为训练正样本总数,所述训练正样本总数与训练负样本总数相同,exp为指数运算符号,sim为相似度计算函数,FinalLoss为所述损失函数值,exp(sim(z
i
,x
i
))为所述第一相似度,exp(sim(z
i
,y
j
))为所述第二相似度。3.根据权利要求1所述的补充样本生成方法,其特征在于,所述生成与每个所述样本编码对应的补充样本,包括:将所述样本编码输入所述待训练卷积神经网络的多层感知层生成中间样本;将所述中间样本输入所述待训练卷积神经网络的补充样本生成层生成所述补充样本。4.根据权利要求1所述的补充样本生成方法,其特征在于,所述得到补充样本生成模型之后,还包括:从所述原始样本集中筛选出测试样本集;依次将所述测试样本集中的每个测试样本输入所述补充样本生成模型,生成所述补充样本。5.根据权利要求1...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1