一种用于神经网络的训练方法以及相关设备技术

技术编号：26378368 阅读：15 留言：0更新日期：2020-11-19 23:47

本申请涉及人工智能领域中的元学习技术，公开了一种用于神经网络的训练方法以及相关设备。方法包括：将第一样本子集合输入第一神经网络，生成第一查询样本的第一特征信息和第一预测结果，根据与样本集合包括的M组支持样本对应的第二特征信息、第一标注结果和第一特征信息，生成第一查询样本的第二预测结果，对第一神经网络进行训练；第一损失函数指示第一预测结果和第二标注结果之间的相似度，第二损失函数指示第一预测结果与第二预测结果之间的相似度，或指示第二预测结果和第二标注结果之间的相似度。同时学习一个小样本任务中不同样本在特征维度的区别以及多个小样本任务对应的多个类别的样本在特征维度的区别，提高预测结果的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于神经网络的训练方法以及相关设备
本申请涉及人工智能领域，尤其涉及一种用于神经网络的训练方法以及相关设备。
技术介绍
人工智能(ArtificialIntelligence，AI)是利用计算机或者计算机控制的机器模拟、延伸和扩展人的智能。人工智能包括研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。目前，对基于深度学习的神经网络进行小样本学习(few-shotlearning)是人工智能一种可行的研究方向。元学习(meta-learning)是小样本学习研究中的一个重要的分支。元学习的主要思想是当目标任务的训练样本较少时，通过使用大量与目标小样本任务相似的小样本任务来训练神经网络，以使训练后的神经网络在目标任务上有着不错的初始值，然后利用少量的目标小样本任务的训练样本对训练后的神经网络进行调整。但最后得到的神经网络输出的预测结果的精度依旧较低，因此，一种在采用元学习的方式进行训练的前提下，能够提高神经网络输出的预测结果的精度的训练方案亟待推出。
技术实现思路
本申请实施例提供了一种用于神经网络的训练方法以及相关设备，在一个小样本任务的训练过程中不仅学习到一个小样本任务中支持样本的特征，而且学习到M组支持样本的特征，也即神经网络在一个小样本学习中不仅能够学习到一个小样本任务内的相对关系，而且能够学习到多个小样本任务之间的绝对关系，从而提高输出的预测结果的精度。为解决上述技术问题，本申请实施例提供以下技术方案：第一方面，本申请实施例提供一种神...

【技术保护点】
1.一种神经网络的训练方法，其特征在于，所述方法包括：/n从样本集合中获取第一样本子集合，所述样本集合包括M组支持样本，所述第一样本子集合包括第一支持样本和第一查询样本；/n将所述第一样本子集合输入至第一神经网络，所述第一神经网络生成所述第一查询样本的第一特征信息，并得到所述第一神经网络输出的与所述第一查询样本对应的第一预测结果，所述第一预测结果为根据所述第一支持样本的特征信息和所述第一特征信息之间的相似度生成的；/n根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一查询样本的第一特征信息，生成与所述第一查询样本对应的第二预测结果，所述第一标注结果中的每一个均指示与所述M组支持样本中一组支持样本对应的正确结果；/n根据第一损失函数和第二损失函数，对所述第一神经网络进行训练，直至满足预设条件；/n其中，所述第一损失函数指示所述第一预测结果和第二标注结果之间的相似度，所述第二损失函数指示所述第一预测结果与所述第二预测结果之间的相似度，或者，所述第二损失函数指示所述第二预测结果和所述第二标注结果之间的相似度，所述第二标注结果为所述第一查询样本的正确结果。/n...

【技术特征摘要】
1.一种神经网络的训练方法，其特征在于，所述方法包括：
从样本集合中获取第一样本子集合，所述样本集合包括M组支持样本，所述第一样本子集合包括第一支持样本和第一查询样本；
将所述第一样本子集合输入至第一神经网络，所述第一神经网络生成所述第一查询样本的第一特征信息，并得到所述第一神经网络输出的与所述第一查询样本对应的第一预测结果，所述第一预测结果为根据所述第一支持样本的特征信息和所述第一特征信息之间的相似度生成的；
根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一查询样本的第一特征信息，生成与所述第一查询样本对应的第二预测结果，所述第一标注结果中的每一个均指示与所述M组支持样本中一组支持样本对应的正确结果；
根据第一损失函数和第二损失函数，对所述第一神经网络进行训练，直至满足预设条件；
其中，所述第一损失函数指示所述第一预测结果和第二标注结果之间的相似度，所述第二损失函数指示所述第一预测结果与所述第二预测结果之间的相似度，或者，所述第二损失函数指示所述第二预测结果和所述第二标注结果之间的相似度，所述第二标注结果为所述第一查询样本的正确结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一样本子集合输入至第一神经网络之后，所述方法还包括：
通过所述第一神经网络生成所述第一支持样本的特征信息，所述第一支持样本选自于第一组，所述第一组为所述M组中的一个组；
将所述第一支持样本的特征信息添加至特征信息库的第一队列中，所述特征信息库包括与所述M组支持样本一一对应的M个队列，所述第一队列为所述M个队列中与所述第一组对应的一个队列，用于存储与所述第一组的支持样本对应的特征信息；
所述根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一特征信息，生成与所述第一查询样本对应的第二预测结果之前，所述方法还包括：
根据所述特征信息库，获取与所述M组支持样本对应的第二特征信息。

3.根据权利要求2所述的方法，其特征在于，第二队列为所述M个队列中任一队列，所述第二队列包括至少一个支持样本的特征信息，所述根据所述特征信息库，获取与所述M组支持样本对应的第二特征信息，包括：
对所述第二队列包括的所有支持样本的特征信息进行取平均值处理，得到与所述第二队列对应的一个第二特征信息。

4.根据权利要求1所述的方法，其特征在于，所述根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一特征信息，生成与所述第一查询样本对应的第二预测结果，包括：
根据所述第二特征信息和所述第一特征信息，执行相似度计算操作，得到第一相似度信息，所述第一相似度信息指示所述第一查询样本与所述M组支持样本中每组支持样本之间的相似度；
根据所述第一相似度信息和所述第一标注结果，生成所述第二预测结果。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述第一神经网络为对样本进行分类的神经网络，所述第一样本子集合包括N类第一支持样本，所述第一预测结果指示所述第一查询样本在所述N类中的预测类别；
所述根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一查询样本的特征信息，生成与所述第一查询样本对应的第二预测结果，包括：
根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一查询样本的特征信息，生成第一分类类别，所述第一分类类别指示所述第一查询样本在所述M类中的预测类别；
从所述第一分类类别中获取所述第二预测结果，所述第二预测结果指示所述第一查询样本在所述N类中的预测类别。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述第一神经网络为对样本进行回归处理的神经网络。

7.根据权利要求6所述的方法，其特征在于，所述M组的分组依据为以下中的一项或多项：与支持样本对应的用户、地点或时间。

8.根据权利要求6所述的方法，其特征在于，所述第一样本子集合中包括的至少一个第一支持样本来自于所述M组的同一组，所述第一样本子集合中包括的至少一个第一查询样本来自于所述M组的同一组。

9.根据权利要求1至4任一项所述的方法，其特征在于，所述第一神经网络为以下中的任一种神经网络：全连接神经网络、卷积神经网络或残差神经网络。

10.一种样本的处理方法，其特征在于，所述方法包括：
获取第三支持样本和第三查询样本；
将所述第三支持样本和所述第三查询样本输入至第一神经网络，以通过所述第一神经网络输出的与所述第三查询样本对应的第三预测结果，所述第三预测结果为根据所述第三支持样本的特征信息和所述第三查询样本的特征信息之间的相似度生成的；
其中，所述第一神经网络是根据第一损失函数和第二损失函数训练得到的，所述第一损失函数指示所述第一神经网络输出的预测结果和正确结果之间的相似度，所述第二损失函数指示所述第一神经网络输出的预测结果和与所述第三查询样本对应的第二预测结果之间的相似度，或者，所述第二损失函数指示所述第二预测结果和正确结果之间的相似度，所述第二预测结果为根据与M组支持样本对应的第二特征信息、与M组支持样本对应的正确结果和所述第三查询样本的特征信息得到的，所述第三支持样本能够归属于第三组的支持样本，所述第三查询样本能够归属于第三组的查询样本，所述第三组为所述M组中的一个组。

11.一种神经网络的训练装置，其特征在于，所述装置包括：
获取模块，用于从样本集合中获取第一样本子集合，所述样本集合包括M组支持样本，所述第一样本子集合包括第一支持样本和第一查询样本；
输...

【专利技术属性】
技术研发人员：叶翰嘉，洪蓝青，杨扩，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人