用于对话推荐物品的交互方法、模型训练方法和装置制造方法及图纸

技术编号:39187541 阅读:10 留言:0更新日期:2023-10-27 08:35
本说明书的实施例提供了一种用于对话推荐物品的交互方法和装置。在该用于对话推荐物品的交互方法中,获取目标用户的对话交互历史和当前候选信息集,其中,对话交互历史包括最近一轮对话中的历史行为和目标用户针对历史行为的反馈;根据对话交互历史和当前候选信息集确定目标用户的当前状态特征表征;将当前状态特征表征和最近对话交互特征表征提供给策略网络,得到与目标用户对应的策略表征;将策略表征提供给物品推荐行为预测模型,得到从当前候选信息集中确定的当前预测行为信息,其中,当前预测行为信息包括从当前候选属性信息集中确定的与目标用户的当前状态匹配的候选属性信息或从当前候选物品信息集中确定的候选物品信息。选物品信息。选物品信息。

【技术实现步骤摘要】
用于对话推荐物品的交互方法、模型训练方法和装置


[0001]本说明书实施例通常涉及计算机
,尤其涉及用于对话推荐物品的交互方法、模型训练方法和装置。

技术介绍

[0002]随着人工智能技术的飞速发展,致力于为用户提供特定场景下对其更有价值的信息的推荐系统取得了越来越广泛的应用。对话式推荐系统(Conversational Recommender System,CRS)可以在不确定用户明确意图的前提下,通过流畅的自然语言交互来确定用户当前状态下的需求,从而为用户提供特定场景下对其更有价值的信息。

技术实现思路

[0003]鉴于上述,本说明书实施例提供了一种用于对话推荐物品的交互方法、模型训练方法和装置。利用该方法、装置,有助于实现更为准确的对话式物品推荐。
[0004]根据本说明书的实施例的一个方面,提供一种用于对话推荐物品的交互方法,包括:获取目标用户的对话交互历史和当前候选信息集,其中,所述对话交互历史包括最近对话交互历史,所述最近对话交互历史包括最近一轮对话中的历史行为和所述目标用户针对所述历史行为的反馈,所述历史行为包括询问目标属性或推荐目标物品,所述当前候选信息集包括当前候选属性信息集和当前候选物品信息集;根据所述对话交互历史和所述当前候选信息集确定所述目标用户的当前状态特征表征;将所述当前状态特征表征和根据所述最近对话交互历史生成的最近对话交互特征表征提供给策略网络,得到与所述目标用户对应的策略表征;以及将所述策略表征提供给物品推荐行为预测模型,得到从所述当前候选信息集中确定的当前预测行为信息,其中,所述当前预测行为信息包括从所述当前候选属性信息集中确定的与所述目标用户的当前状态匹配的候选属性信息或从所述当前候选物品信息集中确定的候选物品信息。
[0005]根据本说明书的实施例的另一个方面,提供一种用于训练对话式物品推荐模型的方法,所述对话式物品推荐模型包括图神经网络、策略网络和物品推荐行为值确定模型,所述方法包括:利用训练样本集循环执行下述模型训练过程,直到满足训练结束条件,所述训练样本集中的每个训练样本包括用户的对话交互历史和当前候选信息集:根据当前训练样本的用户的对话交互历史和当前候选信息集生成该当前训练样本的用户的当前用户偏好交互图,其中,所述当前用户偏好交互图包括节点集和边集,所述节点集包括目标用户节点、当前候选物品节点集和当前候选属性节点集,边用于表征节点之间的关系权重,至少部分的关系权重基于所述对话交互历史而确定;将当前训练样本的当前用户偏好交互图提供给当前图神经网络,得到该当前训练样本的用户节点的特征表征;根据该当前训练样本的用户节点的特征表征和最近对话交互历史,得到该当前训练样本的用户的当前状态特征表征;将该当前训练样本的用户的当前状态特征表征和根据所述最近对话交互历史生成的最近对话交互特征表征提供给当前策略网络,得到该当前训练样本的用户的策略表征;将该
当前训练样本的用户的策略表征提供给当前物品推荐行为值确定模型,得到该当前训练样本的用户的策略表征对应于所述候选信息集中各个候选信息的收益期望值;根据所得到的收益期望值确定损失函数值;以及响应于不满足训练结束条件,根据所确定的损失函数值调整当前图神经网络、当前策略网络和当前物品推荐行为值确定模型的参数,以使所述当前训练样本的用户接受所推荐的候选物品,其中,经过模型参数调整后的图神经网络、策略网络和物品推荐行为值确定模型充当下一模型训练过程的当前图神经网络、当前策略网络和当前物品推荐行为值确定模型。
[0006]根据本说明书的实施例的又一个方面,提供一种用于对话推荐物品的交互装置,包括:信息获取单元,被配置为获取目标用户的对话交互历史和当前候选信息集,其中,所述对话交互历史包括最近对话交互历史,所述最近对话交互历史包括最近一轮对话中的历史行为和所述目标用户针对所述历史行为的反馈,所述历史行为包括询问目标属性或推荐目标物品,所述当前候选信息集包括当前候选属性信息集和当前候选物品信息集;状态特征确定单元,被配置为根据所述对话交互历史和所述当前候选信息集确定所述目标用户的当前状态特征表征;策略表征单元,被配置为将所述当前状态特征表征和根据所述最近对话交互历史生成的最近对话交互特征表征提供给策略网络,得到与所述目标用户对应的策略表征;以及行为预测单元,被配置为将所述策略表征提供给物品推荐行为预测模型,得到从所述当前候选信息集中确定的当前预测行为信息,其中,所述当前预测行为信息包括从所述当前候选属性信息集中确定的与所述目标用户的当前状态匹配的候选属性信息或从所述当前候选物品信息集中确定的候选物品信息。
[0007]根据本说明书的实施例的再一个方面,提供一种用于训练对话式物品推荐模型的装置,所述对话式物品推荐模型包括图神经网络、策略网络和物品推荐行为值确定模型,所述装置被配置为利用训练样本集循环执行模型训练过程,直到满足训练结束条件,所述训练样本集中的每个训练样本包括用户的对话交互历史和当前候选信息集,所述训练单元包括:图生成模块,被配置为根据当前训练样本的用户的对话交互历史和当前候选信息集生成该当前训练样本的用户的当前用户偏好交互图,其中,所述当前用户偏好交互图包括节点集和边集,所述节点集包括目标用户节点、当前候选物品节点集和当前候选属性节点集,边用于表征节点之间的关系权重,至少部分的关系权重基于所述对话交互历史而确定;节点表征模块,被配置为将当前训练样本的当前用户偏好交互图提供给当前图神经网络,得到该当前训练样本的用户节点的特征表征;状态表征模块,被配置为根据该当前训练样本的用户节点的特征表征和最近对话交互历史,得到该当前训练样本的用户的当前状态特征表征;策略表征模块,被配置为将该当前训练样本的用户的当前状态特征表征和根据所述最近对话交互历史生成的最近对话交互特征表征提供给当前策略网络,得到该当前训练样本的用户的策略表征;损失值确定模块,被配置为将该当前训练样本的用户的策略表征提供给当前物品推荐行为值确定模型,得到该当前训练样本的用户的策略表征对应于所述候选信息集中各个候选信息的收益期望值;根据所得到的收益期望值确定损失函数值;以及所述装置还包括:参数调整单元,被配置为响应于不满足训练结束条件,根据所确定的损失函数值调整当前图神经网络、当前策略网络和当前物品推荐行为值确定模型的参数,以使所述当前训练样本的用户接受所推荐的候选物品,其中,经过模型参数调整后的图神经网络、策略网络和物品推荐行为值确定模型充当下一模型训练过程的当前图神经网络、当前
策略网络和当前物品推荐行为值确定模型。
[0008]根据本说明书的实施例的另一方面,提供一种用于对话推荐物品的交互装置,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于对话推荐物品的交互方法。
[0009]根据本说明书的实施例的另一方面,提供一种用于训练对话式物品推荐模型的装置,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于对话推荐物品的交互方法,包括:获取目标用户的对话交互历史和当前候选信息集,其中,所述对话交互历史包括最近对话交互历史,所述最近对话交互历史包括最近一轮对话中的历史行为和所述目标用户针对所述历史行为的反馈,所述历史行为包括询问目标属性或推荐目标物品,所述当前候选信息集包括当前候选属性信息集和当前候选物品信息集;根据所述对话交互历史和所述当前候选信息集确定所述目标用户的当前状态特征表征;将所述当前状态特征表征和根据所述最近对话交互历史生成的最近对话交互特征表征提供给策略网络,得到与所述目标用户对应的策略表征;以及将所述策略表征提供给物品推荐行为预测模型,得到从所述当前候选信息集中确定的当前预测行为信息,其中,所述当前预测行为信息包括从所述当前候选属性信息集中确定的与所述目标用户的当前状态匹配的候选属性信息或从所述当前候选物品信息集中确定的候选物品信息。2.如权利要求1所述的方法,其中,所述对话交互历史还包括以下至少一项:与所述最近一轮对话属于同一会话的其他轮的对话交互历史,其他会话的对话交互历史,所述根据所述对话交互历史和所述当前候选信息集确定所述目标用户的当前状态特征表征包括:根据所述对话交互历史和所述当前候选信息集生成当前用户偏好交互图,其中,所述当前用户偏好交互图包括节点集和边集,所述节点集包括目标用户节点、当前候选物品节点集和当前候选属性节点集,边用于表征节点之间的关系权重,至少部分的关系权重基于所述对话交互历史而确定;以及将所述当前用户偏好交互图提供给图神经网络,得到所述目标用户节点的特征表征;根据所述目标用户节点的特征表征和所述最近对话交互历史,得到所述目标用户的当前状态特征表征。3.如权利要求2所述的方法,其中,所述根据所述对话交互历史和所述当前候选信息集生成当前用户偏好交互图包括:获取与所述最近一轮对话对应的最近用户偏好交互图,其中,所述最近用户偏好交互图根据所述对话交互历史中除最近对话交互历史以外的其他对话交互历史而生成;以及根据所述最近对话交互历史对所述最近用户偏好交互图进行调整,生成所述当前用户偏好交互图,其中,所述当前用户偏好交互图的当前候选物品节点集和当前候选属性节点集所指示的当前候选信息与所述当前候选信息集一致。4.如权利要求3所述的方法,其中,所述根据所述最近对话交互历史对所述最近用户偏好交互图进行调整,生成所述当前用户偏好交互图包括:响应于所述最近对话交互历史指示所述目标用户接受最近一轮对话中询问的目标属性,将所述最近用户偏好交互图中与指示所述目标属性的候选属性节点不相连的候选物品节点删除;以及响应于所述最近对话交互历史指示所述目标用户拒绝最近一轮对话中推荐的目标物品,将所述最近用户偏好交互图中与指示所述目标物品的候选物品节点相连接的候选物品节点和候选属性节点删除。
5.如权利要求2所述的方法,其中,所述节点集还包括历史对话接受属性节点集和历史会话接受物品节点集,历史对话接受属性节点用于指示与所述最近一轮对话属于同一会话的其他轮对话中被所述目标用户接受的属性,历史会话接受物品节点用于指示其他会话中被所述目标用户接受的物品,对于各个历史会话接受物品节点,所述目标用户节点与该历史会话接受物品节点之间的关系权重根据所述目标用户与该历史会话接受物品节点对应的特征表征、该历史会话接受物品节点与所述历史对话接受属性节点集中的节点对应的特征表征、该历史会话接受物品节点与该历史会话接受物品节点所连接的被所述目标用户拒绝过的属性节点对应的特征表征而得到。6.如权利要求2所述的方法,其中,在所述将所述策略表征提供给物品推荐行为预测模型,得到从所述当前候选信息集中确定的当前预测行为信息之前,所述方法还包括:利用所述图神经网络,得到所述当前用户偏好交互图的各个节点的特征表征;根据所述当前用户偏好交互图的各个节点的特征表征,确定各个候选物品节点和候选属性节点分别与所述目标用户节点之间的关联程度;以及根据所确定的关联程度得到精简后的当前候选信息集,所述将所述策略表征提供给物品推荐行为预测模型,得到从所述当前候选信息集中确定的当前预测行为信息包括:将所述策略表征提供给物品推荐行为预测模型,得到从所述精简后的当前候选信息集中确定的当前预测行为信息。7.一种用于训练对话式物品推荐模型的方法,其中,所述对话式物品推荐模型包括图神经网络、策略网络和物品推荐行为值确定模型,所述方法包括:利用训练样本集循环执行下述模型训练过程,直到满足训练结束条件,所述训练样本集中的每个训练样本包括用户的对话交互历史和当前候选信息集:根据当前训练样本的用户的对话交互历史和当前候选信息集生成该当前训练样本的用户的当前用户偏好交互图,其中,所述当前用户偏好交互图包括节点集和边集,所述节点集包括目标用户节点、当前候选物品节点集和当前候选属性节点集,边用于表征节点之间的关系权重,至少部分的关系权重基于所述对话交互历史而确定;将当前训练样本的当前用户偏好交互图提...

【专利技术属性】
技术研发人员:孔心宇温祖杰
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1