基于流式数据集的配置寻优方法、装置、设备和存储介质制造方法及图纸

技术编号:31746931 阅读:15 留言:0更新日期:2022-01-05 16:26
本公开公开了基于流式数据集的配置寻优方法,本公开涉及计算机技术领域,尤其涉及深度学习。具体实现方案为:一种基于流式数据集的配置寻优方法,包括:将所述流式数据集切分为N个第一数据集;获取已存在的配置中心中的M个配置的元数据;基于所述元数据的排序,获取所述M个配置中排名靠前的K个配置;基于所述K个配置,利用N个数据集中的任一个第一数据集,进行模型寻优计算,并获得所述K个配置中最优的P个配置。本技术方案能够快速,准确的获取最优的配置,以及配置对应的模型。以及配置对应的模型。以及配置对应的模型。

【技术实现步骤摘要】
基于流式数据集的配置寻优方法、装置、设备和存储介质


[0001]本公开涉及计算机
,尤其涉及深度学习。

技术介绍

[0002]传统上依赖专家经验进行模型的特征、结构设计,这些固定的设计难以适配样本分布随时间的变化。传统的自动机器学习方法基于固定的数据集得到特征及模型结构设计,但是这样的设计对后续的样本不一定是最优的,导致模型的效果不佳、适用性很短。

技术实现思路

[0003]本公开提供了一种用于获取效果更好、适用性更长的模型的基于流式集的模型寻优方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面,提供一种基于流式数据集的模型寻优方法,包括:
[0005]所述流式数据集切分为N个第一数据集;
[0006]获取已存在的配置中心中的M个配置的元数据;
[0007]基于所述元数据的排序,获取所述M个配置中排名靠前的K个配置;
[0008]基于所述K个配置,利用N个数据集中的任一个第一数据集,进行模型寻优计算,并获得所述K个配置中最优的P个配置。
[0009]根据本公开的第二方面,还提供一种基于流式数据集的分布式配置寻优方法,包括:
[0010]异异步开启多个如权利要求1所述的一种基于流式数据集的配置寻优方法;
[0011]基于所述多个配置寻优方法获取的各自的配置的元数据,对所述配置进行排序;
[0012]将所述排序结果中处于前Q位的配置作为最优配置。
[0013]根据本公开的第三方面,还提供一种基于流式数据集的配置寻优装置,包括:
[0014]划分模块:用于将所述流式数据集切分为N个第一数据集;
[0015]获取模块:用于获取已存在的配置中心中的M个配置的元数据;
[0016]第一排序模块:用于基于所述元数据的排序,获取所述M个配置中排名靠前的K个配置;
[0017]第一寻优模块:用于基于所述K个配置,利用N个数据集中的任一个第一数据集,进行配置寻优计算,并获得所述K个配置中最优的P个配置。
[0018]根据本公开的第四方面,还提供一种基于流式数据集的分布式配置寻优装置,包括:
[0019]开启模块:用于异步开启多个如权利要求1所述的一种基于流式数据集的配置寻优方法;
[0020]第二排序模块:用于基于所述多个配置寻优方法获取的配置的元数据,对所述配置进行排序;
[0021]第二寻优模块:用于将所述排序结果中处于前Q位的配置作为最优配置。
[0022]根据本公开的第五方面,还提供一种电子设备,包括:
[0023]至少一个处理器;以及
[0024]与所述至少一个处理器通信连接的存储器;其中,
[0025]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法中任一项所述的方法。
[0026]根据本公开的第六方面,还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述方法中任一项所述的方法。
[0027]根据本公开的第七方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述方法中任一项所述的方法。
[0028]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0029]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0030]图1是根据本公开基于流式数据集的配置寻优方法的示意图;
[0031]图2是根据本公开基于流式数据集的分布式配置寻优方法的示意图;
[0032]图3是根据本公开基于流式数据集的配置寻优装置的示意图;
[0033]图4是根据本公开基于流式数据集的分布式配置寻优装置的示意图
[0034]图5是用来实现本公开实施例的基于流式数据集的配置寻优方法的电子设备的框图;
[0035]附图标记说明:
[0036]3ꢀꢀꢀꢀ
基于流式数据集的配置寻优装置
[0037]301
ꢀꢀ
划分模块
ꢀꢀꢀꢀ
302获取模块
[0038]303
ꢀꢀ
第一排序模块
ꢀꢀ
304
ꢀꢀ
第一寻优模块
[0039]305
ꢀꢀ
更新模块
ꢀꢀꢀꢀꢀ
306
ꢀꢀ
生成模块
[0040]4ꢀꢀꢀꢀ
基于流式数据集的分布式配置寻优装置
[0041]401
ꢀꢀ
开启模块
ꢀꢀ
402第二排序模块
[0042]403
ꢀꢀ
第二寻优模块
[0043]500 电子设备
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
501
ꢀꢀ
计算单元
[0044]502 只读存储器
ꢀꢀꢀꢀꢀꢀꢀ
503
ꢀꢀ
随机访问存储器
[0045]504 总线
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
505
ꢀꢀ
I/O接口
[0046]506 输入单元
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
507
ꢀꢀ
输出单元
[0047]508 存储单元
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
509
ꢀꢀ
通信单元
具体实施方式
[0048]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0049]本专利技术提出的基于流式数据集的自动机器学习方法及装置会充分利用流式数据集的特点,可以在大规模流式数据集上使用,可以有效地得到效果更好、适用性更长的模型。
[0050]随着互联网特别是移动互联网、物联网、自动驾驶的迅速发展,我们会随着时间持续积累大量的样本,然后会基于这些样本训练模型,这种类型的数据我们称之为流式数据集,即数据样本会随着时间源源不断积累。
[0051]如图1所示,根据本公开的第一方面,提供一种基于流式数据集的配置寻优方法,包括:
[0052]S101:将所述流式数据集切分为N个第一数据集;流式数据集的数据量很大,将其切分可以减少数据的运算量。将其切分为N个第一数据集的切分方法至少包括:按时间顺序切分,按任务类型切分,按逻辑关系切分。
[0053]S102:获取已存在的模型库中的M个的配置的元数据;元数据,即是表示数据信息的数据。也可以称为元信息,即表示数据信息的信息。所述配置中心包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于流式数据集的配置寻优方法,包括:将所述流式数据集切分为N个第一数据集;获取已存在的配置中心中的M个配置的元数据;基于所述元数据的排序,获取所述M个配置中排名靠前的K个配置;基于所述K个配置,利用N个数据集中的任一个第一数据集,进行模型寻优计算,并获得所述K个配置中最优的P个配置。2.根据权利要求1所述的方法,还包括:将所述P个配置的元数据更新至所述已存在的配置中心中,用于配置寻优计算。3.根据权利要求2所述的方法,其中,将所述P个配置的元数据更新至所述已存在的配置中心中,包括:将所述P个配置与所述已存在的配置中心中的M个配置进行去重操作。4.根据权利要求1所述的方法,还包括:将所述P个配置作为种子配置,生成更多的候选配置,用于配置寻优计算。5.根据权利要求1~4中任一个所述的方法,其中,所述将所述流式数据集切分为N个第一数据集,包括:将所述流式数据集按照时间段进行切分,获得N个第一数据集。6.根据权利要求1~4中任一个所述的方法,其中,所述元数据至少包括:胜出次数,每次胜出时在所述任一个第一数据集上的效果。7.根据权利要求1~4中任一个所述的方法,其中,所述第一数据集是经过对第二数据集采样后获取的;所述第二数据集为数据量大的流式数据集。8.一种基于流式数据集的分布式配置寻优方法,包括:异步开启多个如权利要求1所述的一种基于流式数据集的配置寻优方法;基于所述多个配置寻优方法获取的各自的配置的元数据,对所述配置进行排序;将所述排序结果中处于前Q位的配置作为最优配置。9.一种基于流式数据集的配置寻优装置,包括:划分模块:用于将所述流式数据集切分为N个第一数据集;获取模块:用于获取已存在的配置中心中的M个配置的元数据;第一排序模块:用于基于所述元数据的排序,获取所述M个配置中排名靠前的K个配置;第一寻优模块:用于基于所述K个配置,利用N个数据集中的任一个第一数据集,进行配置寻优计算,并获得所述K个配置中最优的P个配置。10.根据权利要求...

【专利技术属性】
技术研发人员:马小龙
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1