模型结构的获取方法及装置制造方法及图纸

技术编号:34038955 阅读:37 留言:0更新日期:2022-07-06 13:00
本申请实施例提供了一种模型结构的获取方法及装置,包括:在对包括多个子模型的模型集合进行迭代训练的过程中,根据第一迭代操作结束后子模型的第一采样概率,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式;在执行了至少一次的迭代操作后,获得模型集合中子模型的第二采样概率;根据目标设备的算力资源约束条件和第二采样概率,从模型集合中选取目标子模型,并根据目标子网络获取目标模型。本申请可以通过为每次迭代操作动态的选择合适的采样方式,来提高模型集合的训练效率和精度,另外,模型获取过程不需要再进行额外的子模型精度验证操作,降低了计算开销。销。销。

【技术实现步骤摘要】
模型结构的获取方法及装置


[0001]本申请涉及计算机
,特别是涉及一种模型结构的获取方法及装置、基于硬件算力约束的模型确定方法及装置、语义识别方法及装置、电子设备、机器可读介质。

技术介绍

[0002]基于变换器的双向编码器表示技术(BERT,Bidirectional Encoder Representation from Transformers),通过在大量无标注的训练数据上进行自监督预训练的过程,可以学习得到大量的数据结构化信息,因而可以在数据分类、数据匹配等下游任务中获得很高的精度,从而得到了广泛应用。
[0003]在目前,将BERT模型应用于具体的部署环境,需要通过固定的采样方式从BERT模型中采样局部结构(子模型)进行训练,并从训练后的BERT模型中提取局部结构,组成满足部署环境的算力约束的待部署模型,最后可以将待部署模型部署在环境中进行使用。
[0004]但是,目前的方案中,采用固定的采样方式进行BERT模型的训练,会导致训练效率或训练精度较差,另外,在待部署模型的构建过程中,需要对提取局部结构进行效果评估,这会产生较多计算开销,导致算力成本提升。

技术实现思路

[0005]本申请实施例提供了一种模型结构的获取方法、一种基于硬件算力约束的模型确定方法、一种语义识别方法,以解决相关技术中训练效率或训练精度较差、算力成本提升的问题。
[0006]相应的,本申请实施例还提供了一种模型结构的获取装置、一种基于硬件算力约束的模型确定装置、一种语义识别装置、电子设备以及存储介质,用以保证上述方法的实现及应用。
[0007]为了解决上述问题,本申请实施例公开了一种模型结构的获取方法,所述方法包括:
[0008]在对包括多个子模型的模型集合进行迭代训练的过程中,根据第一迭代操作结束后所述子模型的第一采样概率,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式;所述第二迭代操作为所述第一迭代操作的下一次迭代操作;
[0009]在执行了至少一次的迭代操作后,获得所述模型集合中子模型的第二采样概率;
[0010]根据目标设备的算力资源约束条件和所述第二采样概率,从所述模型集合中选取目标子模型,并根据所述目标子网络获取目标模型。
[0011]本申请实施例公开了一种基于硬件算力约束的模型确定方法,所述方法包括:
[0012]获取电子设备的算力资源约束值;
[0013]在对包括多个子模型的模型集合进行迭代训练的过程中,根据第一迭代操作结束后所述子模型的第一采样概率,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式;所述第二迭代操作为所述第一迭代操作的下一次迭代操作;
[0014]在执行了至少一次的迭代操作后,获得所述模型集合中子模型的第二采样概率;
[0015]根据所述电子设备的算力资源约束值和所述第二采样概率,从所述模型集合中选取目标子模型以构成供所述电子设备使用的目标模型,所述目标子模型的资源需求量之和小于或等于所述算力资源约束值。
[0016]本申请实施例公开了一种语义识别方法,包括:
[0017]获取待识别语料;
[0018]将所述待识别语料输入目标模型,得到所述待识别语料的语义识别结果;
[0019]其中,所述目标模型为基于上述模型结构的获取方法所确定得到的。
[0020]本申请实施例公开了一种模型结构的获取装置,所述装置包括:
[0021]第一选择模块,用于在对包括多个子模型的模型集合进行迭代训练的过程中,根据第一迭代操作结束后所述子模型的第一采样概率,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式;所述第二迭代操作为所述第一迭代操作的下一次迭代操作;
[0022]第一终止迭代模块,用于在执行了至少一次的迭代操作后,获得所述模型集合中子模型的第二采样概率;
[0023]第一构建模块,用于根据目标设备的算力资源约束条件和所述第二采样概率,从所述模型集合中选取目标子模型,并根据所述目标子网络获取目标模型。
[0024]本申请实施例公开了一种基于硬件算力约束的模型确定装置,包括:
[0025]第一获取模块,用于获取电子设备的算力资源约束值;
[0026]第二选择模块,用于在对包括多个子模型的模型集合进行迭代训练的过程中,根据第一迭代操作结束后所述子模型的第一采样概率,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式;所述第二迭代操作为所述第一迭代操作的下一次迭代操作;
[0027]第二终止迭代模块,用于在执行了至少一次的迭代操作后,获得所述模型集合中子模型的第二采样概率;
[0028]第二构建模块,用于根据所述电子设备的算力资源约束值和所述第二采样概率,从所述模型集合中选取目标子模型以构成供所述电子设备使用的目标模型,所述目标子模型的资源需求量之和小于或等于所述算力资源约束值。
[0029]本申请实施例公开了一种语义识别装置,包括:
[0030]第二获取模块,用于获取待识别语料;
[0031]识别模块,用于将所述待识别语料输入目标模型,得到所述待识别语料的语义识别结果;
[0032]其中,所述目标模型为基于上述模型结构的获取装置所确定得到的。
[0033]本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的方法。
[0034]本申请实施例还公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的方法。
[0035]与相关技术相比,本申请实施例包括以下优点:
[0036]本申请实施例中,可以在对模型集合进行多次迭代训练的过程中,通过为每次迭代操作动态的选择合适的采样方式,来提高模型集合的训练效率和精度,使得模型集合及其中的子模型高效率且高精度的充分训练至收敛状态,从而解决了采用固定采样方式进行训练而产生的训练效率或训练精度较差的问题,另外,本申请实施例还可以通过第二采样概率来对子模型的训练精度进行量化,进而在对模型集合进行模型搜索的过程中,将第二采样概率直接作为选取目标子模型的指导参数,选取其中的目标子模型以构成满足目标设备的算力资源约束条件的目标模型,使得模型获取过程不需要再进行额外的子模型精度验证操作,降低了计算开销。
附图说明
[0037]图1是本申请实施例的一种模型结构的获取方法的架构图;
[0038]图2是本申请实施例的一种模型集合的结构框图;
[0039]图3是本申请实施例的一种子模型的结构示意图;
[0040]图4是本申请实施例的一种模型结构的获取方法在文本处理场景的应用示意图;
[0041]图5是本申请实施例的一种模型结构的获取方法在图像处理场景的应用示意图;
[0042]图6是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型结构的获取方法,其特征在于,包括:在对包括多个子模型的模型集合进行迭代训练的过程中,根据第一迭代操作结束后所述子模型的第一采样概率,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式;所述第二迭代操作为所述第一迭代操作的下一次迭代操作;在执行了至少一次的迭代操作后,获得所述模型集合中子模型的第二采样概率;根据目标设备的算力资源约束条件和所述第二采样概率,从所述模型集合中选取目标子模型,并根据所述目标子网络获取目标模型。2.根据权利要求1所述的方法,其特征在于,所述根据第一迭代操作结束后所述子模型的第一采样概率,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式,包括:根据所述第一采样概率,计算与所述第一迭代操作对应的采样效果得分,所述采样效果得分越小,所述第一迭代操作的采样效果越佳;根据预设的方式选取函数和所述采样效果得分,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式。3.根据权利要求2所述的方法,其特征在于,所述根据预设的方式选取函数和所述采样效果得分,从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式,包括:根据伯努利分布函数、预设的采样次数和所述采样效果得分,从预设的均匀采样方式和优化采样方式中选取目标采样方式,使得第二迭代操作按照所述目标采样方式从所述模型集合中选取待训练的子模型进行训练;其中,所述均匀采样方式用于按照固定的选取概率选取所述子模型;所述优化采样方式针对训练效果更好的子模型具有更高的选取概率。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一采样概率,计算与所述第一迭代操作对应的采样效果得分,包括:将所述子模型的第一采样概率的对数的累加值,作为与所述第一迭代操作对应的采样效果得分;所述根据伯努利分布函数、预设的采样次数和所述采样效果得分,从预设的均匀采样方式和优化采样方式中选取目标采样方式,包括:计算所述采样效果得分的归一化处理结果;将所述采样效果得分与所述归一化处理结果的比值,确定为所述伯努利分布函数中用于选取所述优化采样方式的目标概率;所述采样效果得分与所述目标概率呈正比例关系;根据所述伯努利分布函数、所述采样次数和所述目标概率,从所述均匀采样方式和所述优化采样方式中选取目标采样方式。5.根据权利要求1所述的方法,其特征在于,所述根据目标设备的算力资源约束条件和所述第二采样概率,从所述模型集合中选取目标子模型,并根据所述目标子网络获取目标模型,包括:按照所述第二采样概率对所述子模型进行排序,得到目标序列;从所述目标序列中第二采样概率最大的子模型开始,选取符合算力资源约束条件的目标子模型,并根据所述目标子网络获取目标模型。6.根据权利要求5所述的方法,其特征在于,所述从所述目标序列的起点开始,选取符
合算力资源约束条件的目标子模型构成目标模型,包括:获取所述模型集合中的子模型的资源需求量;从所述目标序列的起点开始选取一个或多个目标子模型,并确定每次选取操作所选取的目标子模型的模型精度,每次选取的目标子模型的资源需求量之和,小于或等于与所述算力资源约束条件对应的资源上限值;将所述模型...

【专利技术属性】
技术研发人员:王梦娣李与超李深
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1