一种训练数据生成方法、系统、电子设备及存储介质技术方案

技术编号:30764475 阅读:21 留言:0更新日期:2021-11-10 12:20
本发明专利技术实施例提供了训练数据生成方法、系统、电子设备及存储介质。训练数据生成方法包括:随机生成多组训练样本组,并基于训练样本组分别训练得到相应的样本模型;获取当前数据,并通过当前数据确定每个样本模型的预测评价分;预测评价分用于确定样本模型的预测准确率;根据预测评价分从所有训练样本组中获取预设数量的训练样本组进行重组,得到多组新的训练样本组;通过新的训练样本组再次分别生成相应的样本模型,直至满足预设条件,将预测评价分最高的样本模型对应训练样本组,作为训练数据。据。据。

【技术实现步骤摘要】
一种训练数据生成方法、系统、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种训练数据生成方法、系统、电子设备及存储介质。

技术介绍

[0002]机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
[0003]机器学习的基础是不断发展的大数据分析,理论上来说,没有数据的支持,机器学习方法也是无法存在的,但是,一方面随着业务量的累积,使用的样本量会逐步增大,增多模型的训练时间。另一方面,由于模型需要用实际用户表现来评估模型效果,所以在建立长周期模型时,训练样本的时间范围距离实际线上表现的观测有较长的时间差。随着模型和线上策略的迭代升级,模型真实应用时的客群和训练模型的客群可能有一定偏差造成模型表现衰减,进而导致通过历史数据训练得到的模型无法对当前的用户进行准确的预测。综上,现有技术存在通过历史数据训练得到的模型无法对当前用户进行准确分析的问题。

技术实现思路

[0004]本专利技术的至少一个实施例提供了一种训练数据生成方法、装置、电子设备及存储介质,以便于解决现有技术通过历史数据进行建模,导致模型预测不准的问题。
[0005]第一方面,本专利技术实施例提供了一种训练数据生成方法,所述生成方法包括:
[0006]随机生成多组训练样本组,并基于所述训练样本组分别训练得到相应的样本模型;
[0007]获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;
[0008]根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组;通过新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据。
[0009]基于上述技术方案,本专利技术实施例还可以做出如下改进。
[0010]结合第一方面,在第一方面的第一种实施例中,
[0011]所述预设条件包括:重新训练得到样本模型的次数达到预设阈值;
[0012]所述通过新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据,包括:
[0013]S1、通过新的所述训练样本组再次分别生成相应的样本模型;
[0014]S2、获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;
[0015]S3、判断重新训练得到样本模型的次数是否达到预设阈值;
[0016]S4a、若是,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据;
[0017]S4b、若否,根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,执行S1。
[0018]结合第一方面,在第一方面的第二种实施例中,所述根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,包括:
[0019]根据所述预测评价分从大至小的顺序对所述训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;
[0020]对所述优选样本组进行重组,得到多组新的所述训练样本组。
[0021]结合第一方面的第二种实施例,在第一方面的第三种实施例中,所述对所述优选样本组进行重组,得到多组新的所述训练样本组,包括:
[0022]提取所有所述优选样本组中的样本数据,组成待重组样本组;
[0023]随机对所述待重组样本组中的预设条数的所述样本数据进行复制扩展;
[0024]对扩展后的待重组样本组进行拆分,得到多组新的所述训练样本组。
[0025]结合第一方面的第二种实施例,在第一方面的第四种实施例中,随机生成多组训练样本组,包括:
[0026]随机生成预设条数的样本数据;
[0027]基于遗传算法,分别对所述样本数据分别添加第一基因编码或第二基因编码;所述第一基因编码用于表示所述样本数据包含预设基因片段,所述第二基因编码用于表示所述样本数据不包含所述预设基因片段;
[0028]将所述样本数据进行组合得到所述训练样本组;
[0029]通过上述步骤得到多组所述训练样本组。
[0030]结合第一方面的第四种实施例,在第一方面的第五种实施例中,所述根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,包括:
[0031]根据所述预测评价分从大至小的顺序对所述训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;
[0032]基于所述遗传算法,对所述优选样本组进行交叉、变异,生成新的所述训练样本组。
[0033]结合第一方面或第一方面的第一、第二、第三、第四或第五种实施例,在第一方面的第六种实施例中,所述获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分,包括:
[0034]获取当前数据;所述当前数据包括:当前参数和当前参数对应的当前结果;
[0035]针对每个所述样本模型,将所述当前参数输入所述样本模型,得到预测结果,并根据所述当前结果确定所述预测结果是否准确;
[0036]针对每个所述样本模型,根据所述样本模型对于当前参数的预测结果的准确率,得到所述样本模型的预测评价分。
[0037]第二方面,本专利技术实施例提供了一种训练数据生成系统,包括:
[0038]样本生成单元,用于随机生成多组训练样本组;
[0039]模型训练单元,用于基于所述训练样本组分别训练得到相应的样本模型;
[0040]第一处理单元,用于获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;
[0041]第二处理单元,用于根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组;
[0042]第三处理单元,用于通过所述模型训练单元,基于新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据。
[0043]第三方面,本专利技术实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0044]存储器,用于存放计算机程序;
[0045]处理器,用于执行存储器上所存放的程序时,实现第一方面中任一实施例所述的训练数据生成方法。
[0046]第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练数据生成方法,其特征在于,所述生成方法包括:随机生成多组训练样本组,并基于所述训练样本组分别训练得到相应的样本模型;获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组;通过新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据。2.根据权利要求1所述的训练数据生成方法,其特征在于,所述预设条件包括:重新训练得到样本模型的次数达到预设阈值;所述通过新的所述训练样本组再次分别生成相应的样本模型,直至满足预设条件,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据,包括:S1、通过新的所述训练样本组再次分别生成相应的样本模型;S2、获取当前数据,并通过所述当前数据确定每个所述样本模型的预测评价分;所述预测评价分用于确定所述样本模型的预测准确率;S3、判断重新训练得到样本模型的次数是否达到预设阈值;S4a、若是,将所述预测评价分最高的样本模型对应所述训练样本组,作为训练数据;S4b、若否,根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,执行S1。3.根据权利要求1所述的训练数据生成方法,其特征在于,所述根据所述预测评价分从所有所述训练样本组中获取预设数量的训练样本组进行重组,得到多组新的所述训练样本组,包括:根据所述预测评价分从大至小的顺序对所述训练样本组进行排序,获取排名在预设名次的训练样本组,作为优选样本组;对所述优选样本组进行重组,得到多组新的所述训练样本组。4.根据权利要求3所述的训练数据生成方法,其特征在于,所述对所述优选样本组进行重组,得到多组新的所述训练样本组,包括:提取所有所述优选样本组中的样本数据,组成待重组样本组;随机对所述待重组样本组中的预设条数的所述样本数据进行复制扩展;对扩展后的待重组样本组进行拆分,得到多组新的所述训练样本组。5.根据权利要求3所述的训练数据生成方法,其特征在于,随机生成多组训练样本组,包括:随机生成预设条数的样本数据;基于遗传算法,分别对所述样本数据分别添加第一基因编码或第二基因编码;所述第一基因...

【专利技术属性】
技术研发人员:熊伟灼杨青
申请(专利权)人:重庆度小满优扬科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1