训练混合元学习网络的装置和方法制造方法及图纸

技术编号:25601211 阅读:70 留言:0更新日期:2020-09-11 23:58
公开了一种训练混合元学习网络的装置和方法。装置包括进行下述处理的单元:获得推荐神经网络的损失并计算泛化损失,每个推荐神经网络具有嵌入层;计算泛化损失相对每个推荐神经网络的权重参数的梯度;将梯度分别输入到第一元学习网络,获得每个推荐神经网络的权重参数的更新量;基于更新量更新推荐神经网络的权重参数;使得朝向推荐神经网络的损失更小的方向训练第一元学习网络;计算过时推荐项集中的每个推荐项与新出现推荐项集中的每个推荐项之间的第一相似度和第二相似度;朝向相似度损失更小的方向训练嵌入层和第二元学习网络的权重参数;迭代地进行上述处理直到满足第一迭代终止条件为止。

【技术实现步骤摘要】
训练混合元学习网络的装置和方法
本公开涉及信息处理领域,具体涉及一种训练混合元学习网络的装置和方法、以及利用训练混合元学习网络的装置而训练得到的混合元学习网络对神经网络进行训练的装置和方法。
技术介绍
神经网络推荐系统(例如用于向用户推荐购物网站的物品列表的神经网络推荐系统)得到了学术与工业界的广泛认可。但是旧事物的消失与新事物的产生,使得神经网络推荐系统需随时间更新。然而,神经网络中广泛采用的mini-batch随机梯度下降法无法满足神经网络推荐系统更新的时效性与小样本训练约束。在神经网络推荐系统中,嵌入层为必有结构。学习作为元信息的任务神经网络的梯度信息的元学习方法可以学会预测更高效的任务神经网络的权重参数的优化路径。但对于含有嵌入层的任务神经网络,该元学习方法却性能不佳。
技术实现思路
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简本文档来自技高网...

【技术保护点】
1.一种训练混合元学习网络的装置,包括:/n计算泛化损失单元,被配置成利用训练数据,分别获得用于按时间排序的不同推荐任务的多个推荐神经网络中的每个推荐神经网络的损失,并基于每个推荐神经网络的损失来计算反映所述多个推荐神经网络的总体损失的泛化损失,其中,所述不同推荐任务具有相似性,每个推荐神经网络具有其输入为不存在关联的离散值的嵌入层,并且所述多个推荐神经网络的结构互不相同;/n计算梯度单元,被配置成计算所述泛化损失相对于每个推荐神经网络的权重参数的梯度;/n学习单元,被配置成将所述梯度分别输入到至少一个第一元学习网络中的一个第一元学习网络,从而分别获得每个推荐神经网络的权重参数的更新量,其中,...

【技术特征摘要】
1.一种训练混合元学习网络的装置,包括:
计算泛化损失单元,被配置成利用训练数据,分别获得用于按时间排序的不同推荐任务的多个推荐神经网络中的每个推荐神经网络的损失,并基于每个推荐神经网络的损失来计算反映所述多个推荐神经网络的总体损失的泛化损失,其中,所述不同推荐任务具有相似性,每个推荐神经网络具有其输入为不存在关联的离散值的嵌入层,并且所述多个推荐神经网络的结构互不相同;
计算梯度单元,被配置成计算所述泛化损失相对于每个推荐神经网络的权重参数的梯度;
学习单元,被配置成将所述梯度分别输入到至少一个第一元学习网络中的一个第一元学习网络,从而分别获得每个推荐神经网络的权重参数的更新量,其中,所述第一元学习网络是对梯度进行学习的神经网络;
第一更新单元,被配置成基于所述更新量,更新每个推荐神经网络的权重参数;
第二更新单元,被配置成在迭代地进行所述计算泛化损失单元、所述计算梯度单元、所述学习单元以及所述第一更新单元中的处理之后满足第一预定条件时,基于在满足所述第一预定条件时的所述泛化损失,使得朝向所述多个推荐神经网络的损失更小的方向训练所述至少一个第一元学习网络,从而获得更新后的所述至少一个第一元学习网络;
第一相似度计算单元,被配置成针对所述多个推荐神经网络中的、包括第一推荐神经网络和用于紧接在所述第一推荐神经网络对应的推荐任务之后的推荐任务的第二推荐神经网络的每两个推荐神经网络,将所述第一推荐神经网络的推荐项词表和所述第二推荐神经网络的推荐项词表的交集作为活跃推荐项集,将从所述第一推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为过时推荐项集,将从所述第二推荐神经网络的推荐项词表排除了所述活跃推荐项集之后获得的集合作为新出现推荐项集,并且分别计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项相对于所述活跃推荐项集的共现词频率特征之间的第一相似度;
第二相似度计算单元,被配置成迭代地进行所述计算泛化损失单元、所述计算梯度单元、所述学习单元、所述第一更新单元、以及所述第二更新单元中的处理之后满足第二预定条件时,基于在满足所述第二预定条件时、所述每两个推荐神经网络中的所述第一推荐神经网络的所述活跃推荐项集中的推荐项的词嵌入特征和所述第二推荐神经网络的所述活跃推荐项集中的对应推荐项的词嵌入特征,通过第二元学习网络计算所述过时推荐项集中的每个推荐项与所述新出现推荐项集中的每个推荐项之间的第二相似度,其中,所述第二元学习网络是对所述第二相似度进行学习的神经网络;
相似度损失计算单元,被配置成针对所述每两个推荐神经网络计算所述第一相似度与所述第二相似度之间的相似度损失,并且使得朝向所述相似度损失更小的方向训练所述每两个推荐神经网络中的第二推荐神经网络的嵌入层的权重参数和所述第二元学习网络的权重参数,从而得到更新后的所述每两个推荐神经网络中的第二推荐神经网络的嵌入层和所述第二元学习网络;以及
第三更新单元,被配置成基于更新后的所述多个推荐神经网络的嵌入层和所述第二元学习网络,迭代地进行所述计算泛化损失单元、所述计算梯度单元、所述学习单元、所述第一更新单元、所述第二更新单元、所述第二相似度计算单元、所述计算相似度损失计算单元中的处理,直到满足第一迭代终止条件为止,
其中,所述混合元学习网络包括所述至少一个第一元学习网络和所述第二元学习网络。


2.根据权利要求1所述的装置,其中,所述多个推荐神经网络中的每个均是用于向用户推荐购物网站的物品列表的推荐神经网络。


3.根据权利要求1所述的装置,
其中,所述第二相似度计算单元被配置成学习在满足所述第二预定条件时、所述每两个推荐神经网络中的所述第一推荐神经网络的所述活跃推荐项集中的推荐项的词嵌入特征和所述第二推荐神经网络的所述活跃推荐项集中的对应推荐项的词嵌入特征之间的变换,并利用所学习到的变换将所述第一推荐神经网络的所述过时推荐项集中的推荐项的词嵌入特征映射到所述第二推荐神经网络的向量空间,从而得到映射后的推荐项的词嵌入特征,并且,所述第二相似度计算单元被配置成基于所述映射后的推荐项的词嵌入特征和所述第二推荐神经网络的所述新出现推荐项集中的推荐项的词嵌入特征,计算所述第二相似度。


4.根据权利要求3所述的装置,
其中,所述第二相似度计算单元被配置成基于所述映射后的推荐项的词嵌入特征的归一化值和所述第二推荐神经网络的所述新出现推荐项集中的推荐项的词嵌入特征的归一化值,计算所述第二相似度。


5.根据权利要求1所述的装置,
其中,所述第一相似度计算单元被配置成针对所述第一推荐神经网络和所述第二推荐神经网络,按预定长度的词窗构建共现词频率矩阵,并且从所述共现词频率矩阵中分别抽取所述共现词频率特征。


6.根据权利要求1所述的装置,
其中,所述计算泛化损失单元进一步被配置成对所述多个推荐神经网络的损失进行平均,并且将平均后的损失作为所述泛化损失。


7.根据权利要求1所述的装置,
其中,所述计算梯度单元被配置成计算所述泛化损失相对于每个推荐神经网络中的各网络层的权重参数的梯度。


8.根据权利要求1所述的装置,
其中,所述至少一个第一元学习网络的数量与所述多个推荐神经网络中的网络层的类型的数量相同,并且,将每个推荐神经网络的各网络层的梯度输入到与该层的类型相对应的一个第一元学习网络。


9.一种训练混合元学习网络的方法,包括:
计算泛化损失步骤,利用训练数据,分别获得用于按...

【专利技术属性】
技术研发人员:杨铭石自强孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1