一种用于神经网络的训练方法以及相关设备技术

技术编号:26378368 阅读:15 留言:0更新日期:2020-11-19 23:47
本申请涉及人工智能领域中的元学习技术,公开了一种用于神经网络的训练方法以及相关设备。方法包括:将第一样本子集合输入第一神经网络,生成第一查询样本的第一特征信息和第一预测结果,根据与样本集合包括的M组支持样本对应的第二特征信息、第一标注结果和第一特征信息,生成第一查询样本的第二预测结果,对第一神经网络进行训练;第一损失函数指示第一预测结果和第二标注结果之间的相似度,第二损失函数指示第一预测结果与第二预测结果之间的相似度,或指示第二预测结果和第二标注结果之间的相似度。同时学习一个小样本任务中不同样本在特征维度的区别以及多个小样本任务对应的多个类别的样本在特征维度的区别,提高预测结果的精度。

【技术实现步骤摘要】
一种用于神经网络的训练方法以及相关设备
本申请涉及人工智能领域,尤其涉及一种用于神经网络的训练方法以及相关设备。
技术介绍
人工智能(ArtificialIntelligence,AI)是利用计算机或者计算机控制的机器模拟、延伸和扩展人的智能。人工智能包括研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。目前,对基于深度学习的神经网络进行小样本学习(few-shotlearning)是人工智能一种可行的研究方向。元学习(meta-learning)是小样本学习研究中的一个重要的分支。元学习的主要思想是当目标任务的训练样本较少时,通过使用大量与目标小样本任务相似的小样本任务来训练神经网络,以使训练后的神经网络在目标任务上有着不错的初始值,然后利用少量的目标小样本任务的训练样本对训练后的神经网络进行调整。但最后得到的神经网络输出的预测结果的精度依旧较低,因此,一种在采用元学习的方式进行训练的前提下,能够提高神经网络输出的预测结果的精度的训练方案亟待推出。
技术实现思路
本申请实施例提供了一种用于神经网络的训练方法以及相关设备,在一个小样本任务的训练过程中不仅学习到一个小样本任务中支持样本的特征,而且学习到M组支持样本的特征,也即神经网络在一个小样本学习中不仅能够学习到一个小样本任务内的相对关系,而且能够学习到多个小样本任务之间的绝对关系,从而提高输出的预测结果的精度。为解决上述技术问题,本申请实施例提供以下技术方案:第一方面,本申请实施例提供一种神经网络的训练方法,可用于人工智能领域的元学习领域中。方法包括:训练设备从样本集合中获取第一样本子集合,样本集合包括M组支持样本和M组查询样本,第一样本子集合包括第一支持样本和第一查询样本;训练设备还获取每个第一支持样本的标注结果。训练设备将第一样本子集合和每个第一支持样本的标注结果输入至第一神经网络,第一神经网络生成第一查询样本的第一特征信息,并得到第一神经网络输出的与第一查询样本对应的第一预测结果,第一预测结果为根据第一支持样本的特征信息和第一特征信息之间的相似度以及每个第一支持样本的标注结果生成的。训练设备根据与M组支持样本对应的M个第二特征信息、与M组支持样本对应的M个第一标注结果和第一查询样本的第一特征信息,生成与第一查询样本对应的第二预测结果。M个第二特征信息中的每一个均指示M组支持样本中一组支持样本的特征,M个第一标注结果中的每一个均指示与M组支持样本中一组支持样本对应的正确结果。训练设备根据第一损失函数和第二损失函数,对第一神经网络进行迭代训练,直至满足预设条件。其中,第一损失函数指示第一预测结果和第二标注结果之间的相似度,第二损失函数指示第一预测结果与第二预测结果之间的相似度,或者,第二损失函数指示第二预测结果和第二标注结果之间的相似度,第二标注结果为第一查询样本的正确结果。第一损失函数和第二损失函数均可以为交叉熵损失函数或相对熵损失函数。本实现方式中,由于最后得到的神经网络过多学习同一小样本任务中不同样本在特征维度的区别,而忽略了与多个不同的小样本任务对应的多个不同类别的样本在特征维度的区别,从而导致神经网络输出的预测结果的精度较低。为了解决前述问题,本方案的训练阶段中,在每次小样本任务中,还会根据与M组支持样本对应的第二特征信息、与M组支持样本对应的第一标注结果和第一查询样本的特征信息,生成与第一查询样本对应的第二预测结果,并增设第二损失函数指示第一预测结果与第二预测结果之间的相似度,或者,指示第二预测结果和正确结果之间的相似度。从而使神经网络在一个小样本任务的训练过程中不仅能够学习到一个小样本任务中支持样本的特征,而且能够学习到M组支持样本的特征,也即神经网络在一个小样本学习中不仅能够学习到一个小样本任务中不同样本在特征维度的区别,而且能够学习到与多个不同小样本任务对应的多个不同类别的样本在特征维度的区别,从而提高输出的预测结果的精度。在第一方面的一种可能实现方式中,训练设备将第一样本子集合输入至第一神经网络之后,方法还包括:训练设备通过第一神经网络生成第一支持样本的特征信息,第一支持样本选自于第一组,第一组为M组中的一个组;将第一支持样本的特征信息添加至特征信息库的第一队列中。其中,特征信息库包括与M组支持样本一一对应的M个队列,第一队列为M个队列中与第一组对应的一个队列,用于存储与第一组的支持样本对应的特征信息,第一队列还用于存储与第一组的支持样本对应的标注结果。训练设备根据与M组支持样本对应的第二特征信息、与M组支持样本对应的第一标注结果和第一特征信息,生成与第一查询样本对应的第二预测结果之前,方法还包括:训练设备根据特征信息库,获取与M组支持样本对应的M个第二特征信息和与M组支持样本对应的M个第一标注结果。本实现方式中,训练设备利用每次训练过程中生成的特征信息,来生成M组中每组支持样本的特征,提高了训练过程的效率。在第一方面的一种可能实现方式中,第二队列为M个队列中任一队列,第二队列包括至少一个支持样本的特征信息。训练设备根据特征信息库,获取与M组支持样本对应的第二特征信息,包括:训练设备对第二队列包括的所有支持样本的特征信息进行取平均值处理,得到与第二队列对应的一个第二特征信息。本实现方式中,通过对第二队列包括的所有支持样本的特征信息进行取平均值处理,得到与第二队列对应的一个第二特征信息,操作简单,易于实现。在第一方面的一种可能实现方式中,在第一神经网络为用于回归的神经网络的情况下,方法还包括:训练设备将每个第一支持样本的标注结果添加至特征信息库的第一队列中。其中,特征信息库包括与M组支持样本一一对应的M个队列,第一队列为M个队列中与第一组对应的一个队列,用于存储与第一组的支持样本对应的特征信息。训练设备根据特征信息库,获取与M组支持样本对应的第二特征信息,包括:训练设备对第二队列包括的所有支持样本的特征信息进行取平均值处理,得到与第二队列对应的一个第二特征信息。训练设备根据特征信息库,获取与M组支持样本对应的第一标注结果,包括:训练设备对第二队列包括的所有支持样本的标注结果进行取平均值处理,得到与第二队列对应的一个第一标注结果,第二队列为M个队列中任一队列。在第一方面的一种可能实现方式中,训练设备可以预先设置第二队列的长度阈值为第一阈值,也即第二队列中最多只能存储第一阈值个支持样本的特征信息。在第一方面的一种可能实现方式中,第二队列采用的为先进先出的队列结构。在第一方面的一种可能实现方式中,训练设备根据与M组支持样本对应的第二特征信息、与M组支持样本对应的第一标注结果和第一特征信息,生成与第一查询样本对应的第二预测结果,包括:训练设备根据第二特征信息和第一特征信息,执行相似度计算操作,得到第一相似度信息,第一相似度信息指示一个第一查询样本的第一特征信息与M个第二特征信息之间的相似度,第一查询样本与M组支持样本中每组支持样本之间的相似度。训练设备根据第一相似度信息和M个第一标注结果,生成第二预测结果。本实现方式中,利用M组支持样本中每本文档来自技高网...

【技术保护点】
1.一种神经网络的训练方法,其特征在于,所述方法包括:/n从样本集合中获取第一样本子集合,所述样本集合包括M组支持样本,所述第一样本子集合包括第一支持样本和第一查询样本;/n将所述第一样本子集合输入至第一神经网络,所述第一神经网络生成所述第一查询样本的第一特征信息,并得到所述第一神经网络输出的与所述第一查询样本对应的第一预测结果,所述第一预测结果为根据所述第一支持样本的特征信息和所述第一特征信息之间的相似度生成的;/n根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一查询样本的第一特征信息,生成与所述第一查询样本对应的第二预测结果,所述第一标注结果中的每一个均指示与所述M组支持样本中一组支持样本对应的正确结果;/n根据第一损失函数和第二损失函数,对所述第一神经网络进行训练,直至满足预设条件;/n其中,所述第一损失函数指示所述第一预测结果和第二标注结果之间的相似度,所述第二损失函数指示所述第一预测结果与所述第二预测结果之间的相似度,或者,所述第二损失函数指示所述第二预测结果和所述第二标注结果之间的相似度,所述第二标注结果为所述第一查询样本的正确结果。/n...

【技术特征摘要】
1.一种神经网络的训练方法,其特征在于,所述方法包括:
从样本集合中获取第一样本子集合,所述样本集合包括M组支持样本,所述第一样本子集合包括第一支持样本和第一查询样本;
将所述第一样本子集合输入至第一神经网络,所述第一神经网络生成所述第一查询样本的第一特征信息,并得到所述第一神经网络输出的与所述第一查询样本对应的第一预测结果,所述第一预测结果为根据所述第一支持样本的特征信息和所述第一特征信息之间的相似度生成的;
根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一查询样本的第一特征信息,生成与所述第一查询样本对应的第二预测结果,所述第一标注结果中的每一个均指示与所述M组支持样本中一组支持样本对应的正确结果;
根据第一损失函数和第二损失函数,对所述第一神经网络进行训练,直至满足预设条件;
其中,所述第一损失函数指示所述第一预测结果和第二标注结果之间的相似度,所述第二损失函数指示所述第一预测结果与所述第二预测结果之间的相似度,或者,所述第二损失函数指示所述第二预测结果和所述第二标注结果之间的相似度,所述第二标注结果为所述第一查询样本的正确结果。


2.根据权利要求1所述的方法,其特征在于,所述将所述第一样本子集合输入至第一神经网络之后,所述方法还包括:
通过所述第一神经网络生成所述第一支持样本的特征信息,所述第一支持样本选自于第一组,所述第一组为所述M组中的一个组;
将所述第一支持样本的特征信息添加至特征信息库的第一队列中,所述特征信息库包括与所述M组支持样本一一对应的M个队列,所述第一队列为所述M个队列中与所述第一组对应的一个队列,用于存储与所述第一组的支持样本对应的特征信息;
所述根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一特征信息,生成与所述第一查询样本对应的第二预测结果之前,所述方法还包括:
根据所述特征信息库,获取与所述M组支持样本对应的第二特征信息。


3.根据权利要求2所述的方法,其特征在于,第二队列为所述M个队列中任一队列,所述第二队列包括至少一个支持样本的特征信息,所述根据所述特征信息库,获取与所述M组支持样本对应的第二特征信息,包括:
对所述第二队列包括的所有支持样本的特征信息进行取平均值处理,得到与所述第二队列对应的一个第二特征信息。


4.根据权利要求1所述的方法,其特征在于,所述根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一特征信息,生成与所述第一查询样本对应的第二预测结果,包括:
根据所述第二特征信息和所述第一特征信息,执行相似度计算操作,得到第一相似度信息,所述第一相似度信息指示所述第一查询样本与所述M组支持样本中每组支持样本之间的相似度;
根据所述第一相似度信息和所述第一标注结果,生成所述第二预测结果。


5.根据权利要求1至4任一项所述的方法,其特征在于,所述第一神经网络为对样本进行分类的神经网络,所述第一样本子集合包括N类第一支持样本,所述第一预测结果指示所述第一查询样本在所述N类中的预测类别;
所述根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一查询样本的特征信息,生成与所述第一查询样本对应的第二预测结果,包括:
根据与所述M组支持样本对应的第二特征信息、与所述M组支持样本对应的第一标注结果和所述第一查询样本的特征信息,生成第一分类类别,所述第一分类类别指示所述第一查询样本在所述M类中的预测类别;
从所述第一分类类别中获取所述第二预测结果,所述第二预测结果指示所述第一查询样本在所述N类中的预测类别。


6.根据权利要求1至4任一项所述的方法,其特征在于,所述第一神经网络为对样本进行回归处理的神经网络。


7.根据权利要求6所述的方法,其特征在于,所述M组的分组依据为以下中的一项或多项:与支持样本对应的用户、地点或时间。


8.根据权利要求6所述的方法,其特征在于,所述第一样本子集合中包括的至少一个第一支持样本来自于所述M组的同一组,所述第一样本子集合中包括的至少一个第一查询样本来自于所述M组的同一组。


9.根据权利要求1至4任一项所述的方法,其特征在于,所述第一神经网络为以下中的任一种神经网络:全连接神经网络、卷积神经网络或残差神经网络。


10.一种样本的处理方法,其特征在于,所述方法包括:
获取第三支持样本和第三查询样本;
将所述第三支持样本和所述第三查询样本输入至第一神经网络,以通过所述第一神经网络输出的与所述第三查询样本对应的第三预测结果,所述第三预测结果为根据所述第三支持样本的特征信息和所述第三查询样本的特征信息之间的相似度生成的;
其中,所述第一神经网络是根据第一损失函数和第二损失函数训练得到的,所述第一损失函数指示所述第一神经网络输出的预测结果和正确结果之间的相似度,所述第二损失函数指示所述第一神经网络输出的预测结果和与所述第三查询样本对应的第二预测结果之间的相似度,或者,所述第二损失函数指示所述第二预测结果和正确结果之间的相似度,所述第二预测结果为根据与M组支持样本对应的第二特征信息、与M组支持样本对应的正确结果和所述第三查询样本的特征信息得到的,所述第三支持样本能够归属于第三组的支持样本,所述第三查询样本能够归属于第三组的查询样本,所述第三组为所述M组中的一个组。


11.一种神经网络的训练装置,其特征在于,所述装置包括:
获取模块,用于从样本集合中获取第一样本子集合,所述样本集合包括M组支持样本,所述第一样本子集合包括第一支持样本和第一查询样本;
输...

【专利技术属性】
技术研发人员:叶翰嘉洪蓝青杨扩
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1