【技术实现步骤摘要】
基于路径推理的对象推荐方法、装置、电子设备
本申请实施例涉及计算机
,特别是涉及一种基于路径推理的对象推荐方法、装置、电子设备及计算机可读存储介质。
技术介绍
现有技术中,在对用户进行商品、信息、服务等对象的推荐时,采用的一种基于路径推理的推荐方法为:根据用户到商品的决策记录构建静态知识图谱,基于静态知识图谱的结构推理用户到商品的多跳路径,基于推理得到的多跳路径对用户进行商品推荐。现有技术中的基于路径推理的推荐方法,将路径游走问题建模为马尔科夫决策过程,并使用强化学习方法中的动作-策略网络求解图谱中用户到商品的多跳路径,该方法中的动作-策略网络依赖于静态图谱上预训练好的节点或实体的向量表示,预训练向量表示的质量对最终模型的性能影响较大。当预训练向量表示的质量低下时,会导致推荐的商品与用户的匹配度降低。现有技术中的基于路径推理的对象推荐方法还有待改进。
技术实现思路
本申请实施例提供一种基于路径推理的对象推荐方法,有助于提升推荐对象与用户的匹配度。第一方面,本申请实施例提供了一种基于路径推理的对象推荐方法,包括:通过第一图卷积神经网络,对表达预设实体之间的关系的第一知识图谱进行学习,得到所述实体的第一向量表示;其中,所述实体包括第一实体和第二实体,所述第一实体包括:用户;所述第二实体包括:推荐对象;基于所述实体的第一向量表示,通过执行强化学习的路径推理模型,确定所述实体间的若干路径;响应于所述执行强化学习的路径推理模型的执行结果不满足预设迭代终止条件,对 ...
【技术保护点】
1.一种基于路径推理的对象推荐方法,其特征在于,包括:/n通过第一图卷积神经网络,对表达预设实体之间的关系的第一知识图谱进行学习,得到所述实体的第一向量表示;其中,所述实体包括第一实体和第二实体,所述第一实体包括:用户;所述第二实体包括:推荐对象;/n基于所述实体的第一向量表示,通过执行强化学习的路径推理模型,确定所述实体间的若干路径;/n响应于所述执行强化学习的路径推理模型的执行结果不满足预设迭代终止条件,对所述若干路径表达的所述实体之间的关系进行学习,并根据学习结果更新所述实体的第一向量表示,之后,跳转至执行所述基于所述实体的第一向量表示,通过执行强化学习的路径推理模型,确定所述实体间的若干路径的步骤;/n响应于所述执行强化学习的路径推理模型的执行结果满足预设迭代终止条件,从所述若干路径中筛选所述用户至所述推荐对象的所述路径;/n根据筛选得到的所述用户至所述推荐对象的所述路径,向用户推荐所述推荐对象。/n
【技术特征摘要】
1.一种基于路径推理的对象推荐方法,其特征在于,包括:
通过第一图卷积神经网络,对表达预设实体之间的关系的第一知识图谱进行学习,得到所述实体的第一向量表示;其中,所述实体包括第一实体和第二实体,所述第一实体包括:用户;所述第二实体包括:推荐对象;
基于所述实体的第一向量表示,通过执行强化学习的路径推理模型,确定所述实体间的若干路径;
响应于所述执行强化学习的路径推理模型的执行结果不满足预设迭代终止条件,对所述若干路径表达的所述实体之间的关系进行学习,并根据学习结果更新所述实体的第一向量表示,之后,跳转至执行所述基于所述实体的第一向量表示,通过执行强化学习的路径推理模型,确定所述实体间的若干路径的步骤;
响应于所述执行强化学习的路径推理模型的执行结果满足预设迭代终止条件,从所述若干路径中筛选所述用户至所述推荐对象的所述路径;
根据筛选得到的所述用户至所述推荐对象的所述路径,向用户推荐所述推荐对象。
2.根据权利要求1所述的方法,其特征在于,所述对所述若干路径表达的所述实体之间的关系进行学习,并根据学习结果更新所述实体的第一向量表示的步骤,包括:
根据所述若干路径构建第二知识图谱,其中,所述第二知识图谱用于表达所述若干路径对应的实体序列中包括的所述实体之间的关系;
通过第二图卷积神经网络对所述第二知识图谱中的结构特征进行学习,得到所述实体的第二向量表示;
通过所述实体的第二向量表示更新相应实体的所述第一向量表示。
3.根据权利要求1所述的方法,其特征在于,所述基于所述实体的第一向量表示,通过执行强化学习的路径推理模型,确定所述实体间的若干路径的步骤,包括:
执行预先构建的马尔科夫决策过程模型,求解所述实体之间的若干路径;所述马尔科夫决策过程的要素包括:状态、动作、策略和奖励,其中,
当前步的所述状态表示为:由求解的所述多跳路径的起始实体的第一向量表示、所述多跳路径的当前步所达到的实体的第一向量表示,以及对应当前步的历史状态构成的三元组;
当前步的所述动作表示为:当前步的所述状态对应的动作空间中执行偏好最高的预设数量个动作;
所述策略表示为:当前步的所述状态执行下一个所述动作的概率分布;
所述奖励表示为:所述多跳路径达到指定的所述第二实体,获得正向奖励,否则,不获得奖励。
4.根据权利要求3所述的方法,其特征在于,所述当前步的所述状态对应的动作空间中执行偏好最高的预设数量个动作通过以下方法确定:
根据所述第一知识图谱确定当前步的所述状态的动作空间,
通过预设多头注意力机制网络,根据所述当前步的所述状态...
【专利技术属性】
技术研发人员:张路浩,方瑞玉,胡懋地,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。