用于对话推荐物品的交互方法、模型训练方法和装置制造方法及图纸

技术编号：39187541 阅读：10 留言：0更新日期：2023-10-27 08:35

本说明书的实施例提供了一种用于对话推荐物品的交互方法和装置。在该用于对话推荐物品的交互方法中，获取目标用户的对话交互历史和当前候选信息集，其中，对话交互历史包括最近一轮对话中的历史行为和目标用户针对历史行为的反馈；根据对话交互历史和当前候选信息集确定目标用户的当前状态特征表征；将当前状态特征表征和最近对话交互特征表征提供给策略网络，得到与目标用户对应的策略表征；将策略表征提供给物品推荐行为预测模型，得到从当前候选信息集中确定的当前预测行为信息，其中，当前预测行为信息包括从当前候选属性信息集中确定的与目标用户的当前状态匹配的候选属性信息或从当前候选物品信息集中确定的候选物品信息。选物品信息。选物品信息。

全部详细技术资料下载

【技术实现步骤摘要】
用于对话推荐物品的交互方法、模型训练方法和装置

[0001]本说明书实施例通常涉及计算机
，尤其涉及用于对话推荐物品的交互方法、模型训练方法和装置。

技术介绍

[0002]随着人工智能技术的飞速发展，致力于为用户提供特定场景下对其更有价值的信息的推荐系统取得了越来越广泛的应用。对话式推荐系统(Conversational Recommender System，CRS)可以在不确定用户明确意图的前提下，通过流畅的自然语言交互来确定用户当前状态下的需求，从而为用户提供特定场景下对其更有价值的信息。

技术实现思路

[0003]鉴于上述，本说明书实施例提供了一种用于对话推荐物品的交互方法、模型训练方法和装置。利用该方法、装置，有助于实现更为准确的对话式物品推荐。
[0004]根据本说明书的实施例的一个方面，提供一种用于对话推荐物品的交互方法，包括：获取目标用户的对话交互历史和当前候选信息集，其中，所述对话交互历史包括最近对话交互历史，所述最近对话交互历史包括最近一轮对话中的历史行为和所述目标用户针对所述历史行为的反馈，所述历史行为包括询问目标属性或推荐目标物品，所述当前候选信息集包括当前候选属性信息集和当前候选物品信息集；根据所述对话交互历史和所述当前候选信息集确定所述目标用户的当前状态特征表征；将所述当前状态特征表征和根据所述最近对话交互历史生成的最近对话交互特征表征提供给策略网络，得到与所述目标用户对应的策略表征；以及将所述策略表征提供给物品推荐行为预测模型，得到从所述当前候选信息集中确定的...

【技术保护点】

【技术特征摘要】
1.一种用于对话推荐物品的交互方法，包括：获取目标用户的对话交互历史和当前候选信息集，其中，所述对话交互历史包括最近对话交互历史，所述最近对话交互历史包括最近一轮对话中的历史行为和所述目标用户针对所述历史行为的反馈，所述历史行为包括询问目标属性或推荐目标物品，所述当前候选信息集包括当前候选属性信息集和当前候选物品信息集；根据所述对话交互历史和所述当前候选信息集确定所述目标用户的当前状态特征表征；将所述当前状态特征表征和根据所述最近对话交互历史生成的最近对话交互特征表征提供给策略网络，得到与所述目标用户对应的策略表征；以及将所述策略表征提供给物品推荐行为预测模型，得到从所述当前候选信息集中确定的当前预测行为信息，其中，所述当前预测行为信息包括从所述当前候选属性信息集中确定的与所述目标用户的当前状态匹配的候选属性信息或从所述当前候选物品信息集中确定的候选物品信息。2.如权利要求1所述的方法，其中，所述对话交互历史还包括以下至少一项：与所述最近一轮对话属于同一会话的其他轮的对话交互历史，其他会话的对话交互历史，所述根据所述对话交互历史和所述当前候选信息集确定所述目标用户的当前状态特征表征包括：根据所述对话交互历史和所述当前候选信息集生成当前用户偏好交互图，其中，所述当前用户偏好交互图包括节点集和边集，所述节点集包括目标用户节点、当前候选物品节点集和当前候选属性节点集，边用于表征节点之间的关系权重，至少部分的关系权重基于所述对话交互历史而确定；以及将所述当前用户偏好交互图提供给图神经网络，得到所述目标用户节点的特征表征；根据所述目标用户节点的特征表征和所述最近对话交互历史，得到所述目标用户的当前状态特征表征。3.如权利要求2所述的方法，其中，所述根据所述对话交互历史和所述当前候选信息集生成当前用户偏好交互图包括：获取与所述最近一轮对话对应的最近用户偏好交互图，其中，所述最近用户偏好交互图根据所述对话交互历史中除最近对话交互历史以外的其他对话交互历史而生成；以及根据所述最近对话交互历史对所述最近用户偏好交互图进行调整，生成所述当前用户偏好交互图，其中，所述当前用户偏好交互图的当前候选物品节点集和当前候选属性节点集所指示的当前候选信息与所述当前候选信息集一致。4.如权利要求3所述的方法，其中，所述根据所述最近对话交互历史对所述最近用户偏好交互图进行调整，生成所述当前用户偏好交互图包括：响应于所述最近对话交互历史指示所述目标用户接受最近一轮对话中询问的目标属性，将所述最近用户偏好交互图中与指示所述目标属性的候选属性节点不相连的候选物品节点删除；以及响应于所述最近对话交互历史指示所述目标用户拒绝最近一轮对话中推荐的目标物品，将所述最近用户偏好交互图中与指示所述目标物品的候选物品节点相连接的候选物品节点和候选属性节点删除。
5.如权利要求2所述的方法，其中，所述节点集还包括历史对话接受属性节点集和历史会话接受物品节点集，历史对话接受属性节点用于指示与所述最近一轮对话属于同一会话的其他轮对话中被所述目标用户接受的属性，历史会话接受物品节点用于指示其他会话中被所述目标用户接受的物品，对于各个历史会话接受物品节点，所述目标用户节点与该历史会话接受物品节点之间的关系权重根据所述目标用户与该历史会话接受物品节点对应的特征表征、该历史会话接受物品节点与所述历史对话接受属性节点集中的节点对应的特征表征、该历史会话接受物品节点与该历史会话接受物品节点所连接的被所述目标用户拒绝过的属性节点对应的特征表征而得到。6.如权利要求2所述的方法，其中，在所述将所述策略表征提供给物品推荐行为预测模型，得到从所述当前候选信息集中确定的当前预测行为信息之前，所述方法还包括：利用所述图神经网络，得到所述当前用户偏好交互图的各个节点的特征表征；根据所述当前用户偏好交互图的各个节点的特征表征，确定各个候选物品节点和候选属性节点分别与所述目标用户节点之间的关联程度；以及根据所确定的关联程度得到精简后的当前候选信息集，所述将所述策略表征提供给物品推荐行为预测模型，得到从所述当前候选信息集中确定的当前预测行为信息包括：将所述策略表征提供给物品推荐行为预测模型，得到从所述精简后的当前候选信息集中确定的当前预测行为信息。7.一种用于训练对话式物品推荐模型的方法，其中，所述对话式物品推荐模型包括图神经网络、策略网络和物品推荐行为值确定模型，所述方法包括：利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括用户的对话交互历史和当前候选信息集：根据当前训练样本的用户的对话交互历史和当前候选信息集生成该当前训练样本的用户的当前用户偏好交互图，其中，所述当前用户偏好交互图包括节点集和边集，所述节点集包括目标用户节点、当前候选物品节点集和当前候选属性节点集，边用于表征节点之间的关系权重，至少部分的关系权重基于所述对话交互历史而确定；将当前训练样本的当前用户偏好交互图提...

【专利技术属性】
技术研发人员：孔心宇，温祖杰，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人