样本数据闭环生成方法、装置、设备及存储介质制造方法及图纸

技术编号:30348208 阅读:16 留言:0更新日期:2021-10-16 16:41
本发明专利技术涉及人工智能技术,揭露了一种样本数据闭环生成方法,包括:利用样本数据集对待训练模型集群进行训练,得到标准模型集群,利用标准模型集群对实时业务请求进行预测,得到集群响应结果,对集群响应结果进行预测反馈,得到业务反馈结果,将业务反馈结果及集群响应结果进行关联,得到关联结果并标注,得到标注后的样本数据,将标注后的样本数据补充至样本数据集,对离线业务日志进行加工,将加工后的样本数据补充至样本数据集。此外,本发明专利技术还涉及区块链技术,所述标准模型集群可存储在区块链的节点中。本发明专利技术还提出一种样本数据闭环生成装置、电子设备以及计算机可读存储介质。本发明专利技术可以解决因样本数据不足而导致的模型精度较低的问题。度较低的问题。度较低的问题。

【技术实现步骤摘要】
样本数据闭环生成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种样本数据闭环生成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]当今5G网络下,数据爆炸式增长,机器学习发展越来越大,广泛应用于各种领域。一些机器学习算法,如深度学习等算法,目前遇到的主要困境是,如何能够获得大量的、高质量的已标注样本数据。机器学习发展初期,都是由人工标注为主,但人工标注会带来大量人工成本且标注质量不高;后来发展的众包标注方法,也对标注的数据质量提出了新的挑战,而且在特定领域,如银行背景下,像身份证等敏感信息,由于防泄漏门槛,标注难度更大。现有技术下会出现由于防止数据泄露而导致样本数据不足,样本数据标注特征不足等问题,从而引起模型欠拟合和过拟合,导致模型精度较低。

技术实现思路

[0003]本专利技术提供一种样本数据闭环生成方法、装置、设备及存储介质,其主要目的在于解决因样本数据不足而导致的模型精度较低的问题。
[0004]为实现上述目的,本专利技术提供的一种样本数据闭环生成方法,包括:
[0005]获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群;
[0006]获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列;
[0007]对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列;
[0008]对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果;
[0009]对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集。
[0010]可选地,所述根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群,包括:
[0011]对所述样本数据集中的数据进行分类,得到分类数据集;
[0012]根据预构建的待训练模型集群,将所述分类数据集进行数据划分,得到所述训练样本集;
[0013]利用所述训练样本集对所述待训练模型集群中所述训练样本集对应的模型进行训练,得到标准模型,汇总所有训练完成的标准模型,得到所述标准模型集群。
[0014]可选地,所述基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,包括:
[0015]利用预设的网关生成所述实时业务请求的请求唯一标识;
[0016]利用所述标准模型集群中的标准模型对所述实时业务请求中的真实数据进行预测,得到预测结果;
[0017]对所述真实数据、所述请求唯一标识及所述预测结果进行封装,得到所述集群响应结果。
[0018]可选地,所述对所述集群响应结果进行预测反馈,得到业务反馈结果,包括:
[0019]调用预设的反馈接口,利用所述反馈接口获取所述集群响应结果的验证数据;
[0020]基于所述验证数据对所述集群响应结果中的预测结果进行验证;
[0021]当验证的结果为反馈一致时,将所述集群响应结果中的请求唯一标识、验证的结果确定为所述业务反馈结果;
[0022]当验证的结果为反馈不一致时,将所述集群响应结果中的请求唯一标识、验证的结果及所述验证数据确定为所述业务反馈结果。
[0023]可选地,所述对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果,包括:
[0024]依次提取所述业务反馈结果中的请求唯一标识,及提取所述集群响应结果中的请求唯一标识;
[0025]将所述请求唯一标识相同的业务反馈结果及集群响应结果进行关联,得到所述关联结果。
[0026]可选地,所述方法还包括:
[0027]获取离线业务日志,对所述离线业务日志进行离线加工,得到加工后的样本数据,并将所述加工后的样本数据补充至所述样本数据集。
[0028]可选地,所述对所述离线业务日志进行离线加工,得到加工后的样本数据,包括:
[0029]获取所述离线业务日志中包括的业务系统离线日志及网关离线日志;
[0030]将所述业务系统离线日志保存为系统离线文件,及将所述网关离线日志保存为网关离线文件;
[0031]将所述系统离线文件及所述网关离线文件导入预构建的离线集群;
[0032]在所述离线集群中,利用所述请求唯一标识将所述业务系统离线日志及网关离线日志进行关联,并将关联后的数据作为样本数据。
[0033]为了解决上述问题,本专利技术还提供一种样本数据闭环生成装置,所述装置包括:
[0034]模型训练模块,用于获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群;
[0035]请求预测模块,用于获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列;
[0036]预测反馈模块,用于对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列;
[0037]数据关联模块,用于对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果;
[0038]数据标注模块,用于对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集;
[0039]离线日志加工模块,用于获取离线业务日志,对所述离线业务日志进行离线加工,得到加工后的样本数据,并将所述加工后的样本数据补充至所述样本数据集。
[0040]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0041]存储器,存储至少一个指令;及
[0042]处理器,执行所述存储器中存储的指令以实现上述所述的样本数据闭环生成方法。
[0043]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的样本数据闭环生成方法。
[0044]本专利技术基于不断将实时业务请求中的真实数据扩充为样本数据,使得样本数据集的完整度更高,利用完整度更高的样本数据集对模型进行训练,可以得到精度更高的模型,实现了数据闭环,能够实现样本数据的统一管理,防止样本数据的泄露,提高了样本数据的安全性。因此本专利技术提出的样本数据闭环生成方法、装置、电子设备及计算机可读存储介质,可以解决因样本数据不足而导致的模型精度较低的问题。
附图说明
[0045]图1为本专利技术一实施例提供的样本数据闭环生成方法的流程示意图;
[0046]图2为图1中其中一个步骤的详细实施流程示意图;
[0047]图3为图1中另一个步骤的详细实施流程示意图;
[0048]图4为图1中另一个步骤的详细实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本数据闭环生成方法,其特征在于,所述方法包括:获取样本数据集,根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群;获取实时业务请求,基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,基于所述集群响应结果生成消息队列;对所述集群响应结果进行预测反馈,得到业务反馈结果,并将所述业务反馈结果发送至所述消息队列;对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果;对所述关联结果进行标注处理,得到标注后的样本数据,并将所述标注后的样本数据补充至所述样本数据集。2.如权利要求1所述的样本数据闭环生成方法,其特征在于,所述根据所述样本数据集构建训练样本集,并基于所述训练样本集对待训练模型集群进行训练,得到标准模型集群,包括:对所述样本数据集中的数据进行分类,得到分类数据集;根据预构建的待训练模型集群,将所述分类数据集进行数据划分,得到所述训练样本集;利用所述训练样本集对所述待训练模型集群中所述训练样本集对应的模型进行训练,得到标准模型,汇总所有训练完成的标准模型,得到所述标准模型集群。3.如权利要求1所述的样本数据闭环生成方法,其特征在于,所述基于所述标准模型集群对所述实时业务请求进行预测,得到集群响应结果,包括:利用预设的网关生成所述实时业务请求的请求唯一标识;利用所述标准模型集群中的标准模型对所述实时业务请求中的真实数据进行预测,得到预测结果;对所述真实数据、所述请求唯一标识及所述预测结果进行封装,得到所述集群响应结果。4.如权利要求3所述的样本数据闭环生成方法,其特征在于,所述对所述集群响应结果进行预测反馈,得到业务反馈结果,包括:调用预设的反馈接口,利用所述反馈接口获取所述集群响应结果的验证数据;基于所述验证数据对所述集群响应结果中的预测结果进行验证;当验证的结果为反馈一致时,将所述集群响应结果中的请求唯一标识、验证的结果确定为所述业务反馈结果;当验证的结果为反馈不一致时,将所述集群响应结果中的请求唯一标识、验证的结果及所述验证数据确定为所述业务反馈结果。5.如权利要求1至4中任意一项所述的样本数据闭环生成方法,其特征在于,所述对所述消息队列中的所述业务反馈结果及所述集群响应结果进行关联,得到关联结果,包括:依次提取所述业务反馈结果中的请求唯一标识,及...

【专利技术属性】
技术研发人员:郭宁尤薇俞加伟
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1