一种模型确定方法、装置及计算机可读存储介质制造方法及图纸

技术编号：40001617 阅读：12 留言：0更新日期：2024-01-09 03:46

本申请提供了一种模型确定方法、装置及计算机可读存储介质，该方法包括：获取M个训练任务分别对应的多个训练样本，M≥2；通过初始多场景模型包括的特征提取子模型确定第i个训练任务对应的多个训练样本分别对应的数据集特征，M≥i≥1；根据第i个训练任务对应的多个训练样本和该多个训练样本分别对应的数据集特征，通过初始多场景模型包括的预测子模型，确定第i个训练任务对应的多个训练样本分别对应的预测结果；生成第i个训练任务对应的子模型损失函数；通过M个训练任务分别对应的子模型损失函数，对初始多场景模型进行训练的内外循环，得到多场景模型。通过上述方法，能够提高应用于多个应用场景的多场景模型的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于数据处理领域，具体涉及一种模型确定方法、装置及计算机可读存储介质。

技术介绍

1、本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、人类具有凭借先前的知识快速适应新场景的能力，例如，婴儿只需见过几次猫或狗就能认出它们，只需有限的行走练习就能学会跑步。相比之下，模型则通常需要大量的样本来学习应用于特定的应用场景，并且缺乏相应的泛化能力。

3、对此，相关技术中提出了模型无关元学习(model-agnostic meta-learning，maml)来弥补模型训练需要大量样本和泛化能力较差的不足，具体的，maml不是通过大量的样本来提升模型在某个特定的应用场景的能力，而是通过来自于不同数据集的少量的样本来提升模型在一系列应用场景的能力，例如，与只能应用于语音识别的语音识别模型或者与只能应用于图像识别的图像识别模型相比，通过maml可以在来自于不同数据集的少量样本的训练下得到能够应用于语音识别和图像识别等一系列应用场景的多场景识别模型。

4、虽然相关技术中通过maml可以得到能够应用于一系列应用场景的多场景模型，但是由于需要保证多场景模型在应用于多个应用场景的通用初始化，故多场景模型在应用于具体的应用场景时的效果会较差，例如，通过maml得到的多场景识别模型在应用于语音识别这一具体的应用场景时的准确率可能并不高，即通过maml得到的多场景模型在应用于多个应用场景时会存在一定的局限性。

5、因此，如何提高能够应用于

6、申请内容

7、针对上述现有技术中存在的问题，提出了一种模型确定方法、装置及计算机可读存储介质，利用这种方法、装置及计算机可读存储介质，能够解决上述问题。

8、本申请提供了以下方案。

9、第一方面，提供了一种模型确定方法，包括：

10、获取m个训练任务分别对应的多个训练样本，m为整数，m≥2；针对所述m个训练任务中第i个训练任务，所述第i个训练任务对应的多个训练样本对应于多个训练数据集，所述多个训练数据集与多个应用场景一一对应，其中，i为整数，m≥i≥1；

11、将所述第i个训练任务对应的多个训练样本输入初始多场景模型，通过所述初始多场景模型中的特征提取子模型，确定所述第i个训练任务对应的多个训练样本分别对应的数据集特征；所述数据集特征用于表示对应的训练样本与所述多个训练数据集之间的相关性；

12、根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征，通过所述初始多场景模型中的预测子模型，确定所述第i个训练任务对应的多个训练样本分别对应的预测结果；

13、基于所述第i个训练任务对应的多个训练样本的分别对应的预测结果和对应的样本标签之间的差异，生成第i个训练任务对应的子模型损失函数；

14、通过所述m个训练任务分别对应的子模型损失函数和外循环学习率，对所述初始多场景模型进行训练的内循环和外循环，得到多场景模型。

15、可选的，当所述预测子模型包括k个卷积层时，其中，k为整数，k≥2，所述根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征，通过所述初始多场景模型中的预测子模型，确定所述第i个训练任务对应的多个训练样本分别对应的预测结果，包括：

16、针对所述k个卷积层中的第1个卷积层，将所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征输入所述第1个卷积层，通过所述第1个卷积层，确定所述第i个训练任务对应的多个训练样本分别对应的第1层预测子结果；

17、针对所述k个卷积层中的第k个卷积层，将所述第i个训练任务对应的多个训练样本分别对应的第k-1层预测子结果和所述多个样本分别对应的数据集特征输入所述第k个卷积层，通过所述第k个卷积层，确定所述第i个训练任务对应的多个训练样本分别对应的第k层预测子结果；其中，k为整数，k≥k≥2；

18、将所述第i个训练任务对应的多个训练样本分别对应的第k层预测子结果作为所述第i个训练任务对应的多个训练样本分别对应的预测结果。

19、可选的，所述特征提取子模型与所述预测子模型具有相同的模型架构。

20、可选的，所述根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征，通过所述初始多场景模型中的预测子模型，确定所述第i个训练任务对应的多个训练样本分别对应的预测结果，包括：

21、将所述多个训练样本分别对应的数据集特征输入所述初始多场景模型中的双向长短期记忆网络，通过所述双向长短期记忆网络，确定所述多个训练样本分别对应的记忆数据集特征；所述记忆数据集特征包括的信息量大于对应的数据集特征包括的信息量；

22、根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的记忆数据集特征，通过所述初始多场景模型中的预测子模型，确定所述第i个训练任务对应的多个训练样本分别对应的预测结果。

23、可选的，所述通过所述m个训练任务分别对应的子模型损失函数和外循环学习率，对所述初始多场景模型进行训练的内循环和外循环，得到多场景模型，包括：

24、通过所述第i个训练任务对应的子模型损失函数，对所述初始多场景模型进行训练的内循环，得到所述第i个训练任务对应的模型更新参数；

25、根据所述m个训练任务分别对应的模型更新参数和外循环学习率，对所述初始多场景模型进行训练的外循环，得到多场景模型。

26、可选的，所述通过所述第i个训练任务对应的子模型损失函数，对所述初始多场景模型进行训练的内循环，得到所述第i个训练任务对应的模型更新参数，包括：

27、通过所述第i个训练任务对应的子模型损失函数，对所述初始多场景模型进行训练的内循环，得到所述第i个训练任务对应的多个模型更新子参数；所述第i个训练任务对应的多个模型更新子参数与所述第i个训练任务对应的多步更新一一对应；

28、所述根据所述m个训练任务分别对应的模型更新参数和外循环学习率，对所述初始多场景模型进行训练的外循环，得到多场景模型，包括：

29、根据所述m个训练任务分别对应的多个模型更新子参数和外循环学习率，对所述初始多场景模型进行训练的外循环，得到多场景模型。

30、可选的，在通过所述第i个训练任务对应的子模型损失函数，对所述初始多场景模型进行训练的内循环时，所述方法还包括：

31、为所述第i个训练任务对应的多步更新分别配置对应的样本权重。

32、可选的，所述为所述第i个训练任务对应的多个训练样本分别配置对应的样本权重，包括：

33、在所述初始多场景模型的训练的内循环开始阶段，为所述第i个训练任务对应的多步更新分别配置对应的初始样本权重；所述第i个训练任务对应的多个初始样本权重的数值相同本文档来自技高网...

【技术保护点】

1.一种模型确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，当所述预测子模型包括K个卷积层时，其中，K为整数，K≥2，所述根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征，通过所述初始多场景模型中的预测子模型，确定所述第i个训练任务对应的多个训练样本分别对应的预测结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述特征提取子模型与所述预测子模型具有相同的模型架构。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征，通过所述初始多场景模型中的预测子模型，确定所述第i个训练任务对应的多个训练样本分别对应的预测结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述通过所述M个训练任务分别对应的子模型损失函数和外循环学习率，对所述初始多场景模型进行训练的内循环和外循环，得到多场景模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述通过所述第i个训练任务对应的子模型损失函数，对所述

7.根据权利要求6所述的方法，其特征在于，在通过所述第i个训练任务对应的子模型损失函数，对所述初始多场景模型进行训练的内循环时，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述为所述第i个训练任务对应的多步更新分别配置对应的样本权重，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种模型确定装置，其特征在于，包括：

11.一种模型确定装置，其特征在于，包括：

12.一种计算机可读存储介质，所述计算机可读存储介质存储有程序，当所述程序被多核处理器执行时，使得所述多核处理器执行如权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种模型确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，当所述预测子模型包括k个卷积层时，其中，k为整数，k≥2，所述根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征，通过所述初始多场景模型中的预测子模型，确定所述第i个训练任务对应的多个训练样本分别对应的预测结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述特征提取子模型与所述预测子模型具有相同的模型架构。

5.根据权利要求1所述的方法，其特征在于，所述通过所述m个训练任务分别对应的子模型损失函数和外循环学习率，对所述初始多场景模型进行训练的内循环和...

【专利技术属性】
技术研发人员：张子立，郭延斌，陈孟，唐真，周之敏，徐波，鲁明明，
申请(专利权)人：中国银联股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人