一种数据处理方法及装置制造方法及图纸

技术编号:39061801 阅读:14 留言:0更新日期:2023-10-12 19:54
本申请公开了人工智能领域的一种数据处理方法及装置,提高神经预测器预测的准确度,该神经预测器使用的训练样本数量较少。数据处理方法中将从用户任务对应的超参数搜索空间采样的超参数组合、训练集包括的多个样本和多个样本的评估指标作为神经预测器的输入,通过神经预测器确定该超参数组合对应的预测指标。通过超参样本以及超参样本的评估指标来辅助预测超参数搜索空间采样到的超参数组合,在预测超参数组合时结合了已经具有评估指标的超参样本以及评估指标,可以提高准确度。本申请采用训练样本的数量较少,通过较少的训练样本可以得到泛化性较好的神经预测器。可以得到泛化性较好的神经预测器。可以得到泛化性较好的神经预测器。

【技术实现步骤摘要】
一种数据处理方法及装置


[0001]本申请涉及人工智能
,特别涉及一种数据处理方法及装置。

技术介绍

[0002]黑盒优化(Black box optimization)也可以称为超参数优化(Hyper Parameter Optimization),是科学研究和工业生产中的重要技术。实际问题中存在很多复杂的机器学习系统,其中的一些参数会对机器学习系统的结果产生影响,但具体的机制无法被完全解析,只能观察到系统对给定输入的输出结果(也就是所谓的黑盒),因此这些参数很难通过梯度优化等比较高效的方法所优化。可以通过尝试不同的参数组合,观察系统输出的结果,来寻找较优的参数组合。这种尝试的方式代价高昂,需要耗费较长的时间或者较多的某种资源,才能够得到输出结果。为了减少尽可能少的尝试,就得到较优的输入参数,可以采用黑盒优化的方式来解决。
[0003]由于神经网络具有较强的拟合能力,因此针对用于做预测的神经网络预测器(简称神经预测器)的黑盒优化,在超参数搜索之前,预先获取若干组超参数对应的预测指标,用于训练神经预测器。神经预测器训练完成之后,使用训练完成的神经预测器来寻找预测指标较优的超参数。但是神经预测器需要比较多的训练数据才能训练出具有泛化性的神经预测器。在黑盒优化场景中,一般单次评估的开销都很大,因此可以获得的训练数据较少,训练得到的神经预测器泛化性较差,导致搜索效果不佳。

技术实现思路

[0004]本申请实施例提供一种数据处理方法及装置,使用较少训练样本得到泛化性较优的神经预测器。
[0005]第一方面,本申请实施例提供一种数据处理方法,包括:接收用户设备发送的超参数信息,超参数信息用于指示用户任务对应的超参数搜索空间;从超参数搜索空间采样多个超参数组合;将第一超参数组合、训练集包括的多个样本和多个样本的评估指标作为神经预测器的输入,通过神经预测器确定第一超参数组合对应的预测指标,第一超参数组合为多个超参数组合的任一个,以得到多个超参数组合对应的多个预测指标;向用户设备发送K个超参数组合,K为正整数;其中,K个超参数组合对应的K个预测指标为多个预测指标中最高的K个。
[0006]作为一种举例,用户任务可以是分子设计任务、材料科学任务、工厂调试任务、芯片设计任务、神经网络结构设计任务、神经网络训练调优任务等等。以神经网络结构设计任务为例,用户任务需要优化神经网络结构的设计参数,例如卷积层数、卷积核大小、扩张大小等。用户可以根据接收到的超参数组合执行具体的用户任务,例如,做视频分类、文字识别、图像美化、语音识别等任务。
[0007]超参数(hyper

parameter)可以理解为系统、产品或过程的操作参数。超参数信息可以理解为包含一些超参数的取值范围或取值条件。在神经网络模型中,超参数是在开始
学习过程之前由用户设置初始化值的参数,是不能通过神经网络本身的训练过程学习得到的参数。在卷积神经网络中,这些超参数包括:卷积核大小、神经网络层数、激活函数、损失函数、所用的优化器类型、学习率、批大小batch_size、训练的轮数epoch等等。超参数搜索空间包括用户任务所需的一些超参数。每种超参数的值可以是连续分布的值,也可以是离散分布的值。例如:
[0008]lr:数值型(0.0005,0.02,0.00025),表示学习率;
[0009]wd:数值型(0.02,0.4,0.01),表示权重衰减;
[0010]optim:选择型(“AdamW”,“LAMB”),表示优化器类型;
[0011]dropout:数值型(0.0,0.3,0.025),表示dropout概率;
[0012]drop_conn_rate:数值型(0.0,0.4,0.025),表示drop connection概率;
[0013]mixup:数值型(0.0,1.0,0.05),表示mixup的分布参数;
[0014]color:数值型(0.0,0.5,0.025),表示color数据增强的强度;
[0015]re_prob:数值型(0.0,0.4,0.025),表示random erase的概率。
[0016]上述超参数空间的定义仅是一个示例,实际应用中可以定义任意需要优化的超参数。
[0017]本申请提供的神经预测器的输入不仅仅包括超参数。还包括训练集中的样本(也可以称为超参样本)以及对应的评估指标。通过超参样本以及超参样本的评估指标来辅助预测超参数搜索空间采样到的超参数组合,由于神经预测器的输入中包括已经具有评估指标的超参样本以及评估指标,即在预测超参数组合时结合了已经具有评估指标的超参样本以及评估指标,可以提高预测的准确度。现有中神经预测器的输入仅包括目标评估样本,没有其他的可参考的样本以及评估指标,需要预先获得很多真实样本的评估指标来训练神经预测器。而本申请中神经预测器的输入包括已经具有评估指标的超参样本以及评估指标,预测目标样本的预测指标时已经参考了超参样本的评估指标,使得预测目标样本的预测指标的准确度有所提高,从而基于预测指标的准确度来调整神经预测器的权重时准确较高,从而较少训练的轮数,进而减少使用的训练样本数量,通过较少的训练样本可以得到泛化性较好的神经预测器。
[0018]在一种可能的设计中,接收所述用户设备发送的所述K个超参数组合对应的K个评估指标;将所述K个超参数组合作为K个样本,并将所述K个样本以及对应的所述K个评估指标加入所述训练集。
[0019]上述设计中,通过不断更新训练集,从而再结合更新的训练集来预测超参数组合对应的预测结果,也就是参与辅助预测的样本的评估指标更优,因此可以提高预测的准确度。
[0020]在一种可能的设计中,所述神经预测器是通过以下方式训练得到的:从所述训练集中选择多个样本、所述多个样本对应的评估指标,以及从所述训练集中选择一个目标样本;将所述多个样本、所述多个样本对应的评估指标以及所述目标样本作为所述神经预测器的输入,通过所述神经预测器确定所述目标样本对应的预测指标;根据所述目标样本的预测指标与所述目标样本对应的评估指标的比较结果,调整所述神经预测器的网络参数。
[0021]现有中神经预测器的输入仅包括目标评估样本,没有其他的可参考的样本以及评估指标,需要预先获得很多真实样本的评估指标来训练神经预测器。而本申请中神经预测
器的输入包括已经具有评估指标的超参样本以及评估指标,预测目标样本的预测指标时已经参考了超参样本的评估指标,使得预测目标样本的预测指标的准确度有所提高,从而基于预测指标的准确度来调整神经预测器的权重时准确较高,从而较少训练的轮数,进而减少使用的训练样本数量,通过较少的训练样本可以得到泛化性较好的神经预测器。
[0022]一些实施例中,可以每轮通过神经预测器确定多个超参数组合对应的预测指标之前,都可以采用训练集来训练神经预测器。训练集可以是经过更新的,训练得到的神经预测器的泛化性越来越优。
[0023]在一种可能的设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:接收用户设备发送的超参数信息,所述超参数信息用于指示用户任务对应的超参数搜索空间;从所述超参数搜索空间采样多个超参数组合;将第一超参数组合、训练集包括的多个样本和所述多个样本的评估指标作为神经预测器的输入,通过所述神经预测器确定所述第一超参数组合对应的预测指标,所述第一超参数组合为所述多个超参数组合的任一个,以得到所述多个超参数组合对应的多个预测指标;向所述用户设备发送K个超参数组合,K为正整数;其中,所述K个超参数组合对应的K个预测指标为所述多个预测指标中最高的K个。2.如权利要求1所述的方法,其特征在于,还包括:接收所述用户设备发送的所述K个超参数组合对应的K个评估指标;将所述K个超参数组合作为K个样本,并将所述K个样本以及对应的所述K个评估指标加入所述训练集。3.如权利要求1或2所述的方法,其特征在于,所述神经预测器是通过以下方式训练得到的:从所述训练集中选择多个样本、所述多个样本对应的评估指标,以及从所述训练集中选择一个目标样本;将所述多个样本、所述多个样本对应的评估指标以及所述目标样本作为所述神经预测器的输入,通过所述神经预测器确定所述目标样本对应的预测指标;根据所述目标样本的预测指标与所述目标样本对应的评估指标的比较结果,调整所述神经预测器的网络参数。4.如权利要求1

3任一项所述的方法,其特征在于,将第一超参数组合、训练集包括的多个样本和所述多个样本的评估指标作为所述神经预测器的输入,通过神经预测器确定所述第一超参数组合对应的预测指标,包括:将所述第一超参数组合、所述训练集包括的多个样本和所述多个样本的评估指标输入所述神经预测器;所述神经预测器基于所述第一超参数组合、所述多个样本、所述多个样本的评估指标以及两个锚点特征确定所述第一超参数组合对应的预测指标;其中,所述两个锚点特征用于标定所述用户任务的最低预测指标的编码特征以及最高预测指标的编码特征。5.如权利要求4所述的方法,其特征在于,所述神经预测器支持输入的样本数量为T,T为正整数;所述通过所述神经预测器基于所述第一超参数组合、所述多个样本、所述多个样本的评估指标以及两个锚点特征确定所述第一超参数组合对应的预测指标,包括:所述神经预测器对输入的T个样本进行编码得到T个辅助特征,以及对所述第一超参数组合进行编码得到目标特征;所述神经预测器确定所述目标特征与所述T个辅助特征的相似度以及所述目标特征与所述两个锚点特征的相似度;所述神经预测器根据所述目标特征与所述T个辅助特征以及所述两个锚点特征分别对
应的相似度确定T+2个权重,所述T+2个权重包括所述T个样本的权重以及所述两个锚点特征的权重;所述神经预测器根据所述T+2个权重对T+2个评估指标进行加权以得到所述第一超参数组合的预测指标;其中,所述T+2个评估指标包括所述T个样本的评估指标以及所述两个锚点特征对应的评估指标。6.如权利要求4或5所述的方法,其特征在于,所述两个锚点特征属于所述神经预测器的网络参数。7.如权利要求1

3任一项所述的方法,其特征在于,所述神经预测器支持输入的样本数量为T,T为正整数;将第一超参数组合、训练集包括的多个样本和所述多个样本的评估指标作为所述神经预测器的输入,通过神经预测器确定所述第一超参数组合对应的预测指标,包括:所述神经预测器对输入的T个样本进行编码得到T个辅助特征,对所述第一超参数组合进行编码得到目标特征;所述神经预测器分别确定所述目标特征与所述T个辅助特征的相似度;所述神经预测器根据所述目标特征与所述T个辅助特征分别对应的相似度确定所述T个样本分别对应的权重;所述神经预测器根据所述T个样本分别对应的权重对所述T个样本对应的评估指标进行加权得到所述第一超参数组合的预测指标。8.如权利要求1

4任一项所述的方法,其特征在于,所述神经预测器支持输入的超参样本的数量为T,T为正整数;将第一超参数组合、训练集包括的多个样本和所述多个样本的评估指标作为所述神经预测器的输入,通过神经预测器确定所述第一超参数组合对应的预测指标,包括:将T+1个连接参数信息输入所述神经预测器;所述T+1个连接参数信息包括T个样本中每个样本和对应的评估指标连接后得到的T个连接参数信息,以及所述第一超参数组合和目标预测指标掩码连接后得到的连接参数信息,所述目标预测指标掩码用于表征所述第一超参数组合对应的未知预测指标;通过所述神经预测器对输入的所述T+1个连接参数信息中每两个连接参数信息进行相似度匹配得到每两个连接参数信息之间的相似度;所述神经预测器根据所述T+1个连接参数信息中每两个连接参数信息之间的相似度确定所述第一超参数组合的预测指标。9.一种数据处理装置,其特征在于,包括:接收单元,用于接收用户设备发送的超参数信息,所述超参数信息用于指示用户任务对应的超参数搜索空间;处理单元,用于从所述超参数搜索空间采样多个超参数组合;将第一超参数组合、...

【专利技术属性】
技术研发人员:周彧聪钟钊
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1