【技术实现步骤摘要】
一种在离散数据上使用对抗模型的方法
本专利技术涉及机器学习领域,尤其是对抗模型在离散数据上的训练方法。
技术介绍
推荐系统通过对用户的历史反馈记录建模,然后向用户推荐个性化的物品。隐式反馈数据中只含有用户与物品的交互记录,但是已交互的物品并不代表用户喜欢,可能是用户的误点击;未交互的物品中可能存在用户喜欢的物品。因此隐式反馈数据中含有大量噪声。生成式对抗模型可以从无标签数据中学习数据的真实分布,具有建模隐式反馈数据的潜力。但是原始的生成式对抗模型是针对连续数据(如图像)的,并使用梯度下降的方法优化模型。推荐系统中物品是离散数据,不能直接使用生成式对抗模型建模。现有解决方法是将物品推荐视为一个策略,然后使用策略梯度优化模型。但是在推荐系统中,基于策略梯度的对抗模型具有训练不稳定、收敛缓慢且时间复杂度高等问题。
技术实现思路
针对建模隐式反馈数据的需求和现有方法的缺点,本专利技术引入注意力机制,构建一个整体可微的对抗模型,其目的是提高对抗模型在离散的物品推荐数据上的稳定性和收敛速度,更高效的建模用户的隐式反馈 ...
【技术保护点】
1.一种在离散数据上使用对抗模型的方法,其特征在于:对抗模型的生成器被视为一个注意力网络,其目标是建模用户的历史反馈数据,生成用户对物品的注意力评分;判别器的目标是判断生成注意力评分的正确性或合理性。/n
【技术特征摘要】
1.一种在离散数据上使用对抗模型的方法,其特征在于:对抗模型的生成器被视为一个注意力网络,其目标是建模用户的历史反馈数据,生成用户对物品的注意力评分;判别器的目标是判断生成注意力评分的正确性或合理性。
2.根据权利要求1所述的对抗模型,其特征在于,将生成器的目标由离散的物品推荐转换为连续的注意力评分生成。
3.根据权利要求1和2所述的对抗模型,其特征在于,使用注意力机制和注意力评分在隐语义空间中生成虚拟物品,该虚拟物品保留了用户喜欢物品的特征。因此判别器可以通过判断用户对虚拟物品的喜欢程度来判断注意力评分的正确性。
4.根据权利要求1和3所述的对抗模型,其特征在于,以连续空间中的虚拟物品为媒介,判别器提供的训练信息能够可微地传递给生成器,判别器和生成器都可以使用基于梯度的方法训练。
5.模型高效训练的关键在于使用自适应采样降低生成虚拟物品的时间复杂度。物品流行度服从长尾分布,通过融入该先验知识,减少大量无效的运算,提高训练效率。
6.根据权利要求5所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。