模型结构的获取方法及装置制造方法及图纸

技术编号：34038955 阅读：37 留言：0更新日期：2022-07-06 13:00

本申请实施例提供了一种模型结构的获取方法及装置，包括：在对包括多个子模型的模型集合进行迭代训练的过程中，根据第一迭代操作结束后子模型的第一采样概率，从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式；在执行了至少一次的迭代操作后，获得模型集合中子模型的第二采样概率；根据目标设备的算力资源约束条件和第二采样概率，从模型集合中选取目标子模型，并根据目标子网络获取目标模型。本申请可以通过为每次迭代操作动态的选择合适的采样方式，来提高模型集合的训练效率和精度，另外，模型获取过程不需要再进行额外的子模型精度验证操作，降低了计算开销。销。销。

全部详细技术资料下载

【技术实现步骤摘要】
模型结构的获取方法及装置

[0001]本申请涉及计算机
，特别是涉及一种模型结构的获取方法及装置、基于硬件算力约束的模型确定方法及装置、语义识别方法及装置、电子设备、机器可读介质。

技术介绍

[0002]基于变换器的双向编码器表示技术(BERT，Bidirectional Encoder Representation from Transformers)，通过在大量无标注的训练数据上进行自监督预训练的过程，可以学习得到大量的数据结构化信息，因而可以在数据分类、数据匹配等下游任务中获得很高的精度，从而得到了广泛应用。
[0003]在目前，将BERT模型应用于具体的部署环境，需要通过固定的采样方式从BERT模型中采样局部结构(子模型)进行训练，并从训练后的BERT模型中提取局部结构，组成满足部署环境的算力约束的待部署模型，最后可以将待部署模型部署在环境中进行使用。
[0004]但是，目前的方案中，采用固定的采样方式进行BERT模型的训练，会导致训练效率或训练精度较差，另外，在待部署模型的构建过程中，需要对提取局部结构进行效果评估，这会产生较多计算开销，导致算力成本提升。

技术实现思路

[0005]本申请实施例提供了一种模型结构的获取方法、一种基于硬件算力约束的模型确定方法、一种语义识别方法，以解决相关技术中训练效率或训练精度较差、算力成本提升的问题。
[0006]相应的，本申请实施例还提供了一种模型结构的获取装置、一种基于硬件算力约束的模型确定装置、一种语义识别装置、电子设备...

【技术保护点】

【技术特征摘要】
1.一种模型结构的获取方法，其特征在于，包括：在对包括多个子模型的模型集合进行迭代训练的过程中，根据第一迭代操作结束后所述子模型的第一采样概率，从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式；所述第二迭代操作为所述第一迭代操作的下一次迭代操作；在执行了至少一次的迭代操作后，获得所述模型集合中子模型的第二采样概率；根据目标设备的算力资源约束条件和所述第二采样概率，从所述模型集合中选取目标子模型，并根据所述目标子网络获取目标模型。2.根据权利要求1所述的方法，其特征在于，所述根据第一迭代操作结束后所述子模型的第一采样概率，从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式，包括：根据所述第一采样概率，计算与所述第一迭代操作对应的采样效果得分，所述采样效果得分越小，所述第一迭代操作的采样效果越佳；根据预设的方式选取函数和所述采样效果得分，从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式。3.根据权利要求2所述的方法，其特征在于，所述根据预设的方式选取函数和所述采样效果得分，从预设的至少两个采样方式中选取第二迭代操作所采用的目标采样方式，包括：根据伯努利分布函数、预设的采样次数和所述采样效果得分，从预设的均匀采样方式和优化采样方式中选取目标采样方式，使得第二迭代操作按照所述目标采样方式从所述模型集合中选取待训练的子模型进行训练；其中，所述均匀采样方式用于按照固定的选取概率选取所述子模型；所述优化采样方式针对训练效果更好的子模型具有更高的选取概率。4.根据权利要求3所述的方法，其特征在于，所述根据所述第一采样概率，计算与所述第一迭代操作对应的采样效果得分，包括：将所述子模型的第一采样概率的对数的累加值，作为与所述第一迭代操作对应的采样效果得分；所述根据伯努利分布函数、预设的采样次数和所述采样效果得分，从预设的均匀采样方式和优化采样方式中选取目标采样方式，包括：计算所述采样效果得分的归一化处理结果；将所述采样效果得分与所述归一化处理结果的比值，确定为所述伯努利分布函数中用于选取所述优化采样方式的目标概率；所述采样效果得分与所述目标概率呈正比例关系；根据所述伯努利分布函数、所述采样次数和所述目标概率，从所述均匀采样方式和所述优化采样方式中选取目标采样方式。5.根据权利要求1所述的方法，其特征在于，所述根据目标设备的算力资源约束条件和所述第二采样概率，从所述模型集合中选取目标子模型，并根据所述目标子网络获取目标模型，包括：按照所述第二采样概率对所述子模型进行排序，得到目标序列；从所述目标序列中第二采样概率最大的子模型开始，选取符合算力资源约束条件的目标子模型，并根据所述目标子网络获取目标模型。6.根据权利要求5所述的方法，其特征在于，所述从所述目标序列的起点开始，选取符
合算力资源约束条件的目标子模型构成目标模型，包括：获取所述模型集合中的子模型的资源需求量；从所述目标序列的起点开始选取一个或多个目标子模型，并确定每次选取操作所选取的目标子模型的模型精度，每次选取的目标子模型的资源需求量之和，小于或等于与所述算力资源约束条件对应的资源上限值；将所述模型...

【专利技术属性】
技术研发人员：王梦娣，李与超，李深，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人