用于对话推荐物品的交互方法、模型训练方法和装置制造方法及图纸

技术编号:37666345 阅读:19 留言:0更新日期:2023-05-26 04:25
本说明书的实施例提供了一种用于对话推荐物品的交互方法、模型训练方法和装置。在该用于对话推荐物品的交互方法中,获取目标用户的对话历史和候选信息集,对话历史包括至少一轮对话中的历史行为和目标用户针对历史行为的反馈;根据对话历史和候选信息集确定目标用户的当前状态编码;将当前状态编码提供给行为预测模型,得到预测行为,预测行为包括对目标用户询问属性或推荐物品;将当前状态编码提供给候选信息确定模型,得到与预测行为相匹配的目标候选信息,目标候选信息包括从与预测行为相匹配的候选属性信息集中确定的与目标用户匹配的候选属性信息或从候选物品信息集中确定的候选物品信息。定的候选物品信息。定的候选物品信息。

【技术实现步骤摘要】
用于对话推荐物品的交互方法、模型训练方法和装置


[0001]本说明书实施例通常涉及计算机
,尤其涉及用于对话推荐物品的交互方法、模型训练方法和装置。

技术介绍

[0002]随着人工智能技术的飞速发展,致力于为用户提供特定场景下对其更有价值的信息的推荐系统取得了越来越广泛的应用。现有技术中,传统的推荐系统通常是基于用户的访问历史、用户属性以及商品属性等信息向用户推送的结果,导致一方面存在侵犯和滥用用户隐私的风险,另一方面由于用户的部分标签和偏好信息可以是动态变化的,因而直接利用用户的历史信息可能会导致推荐结果不符合用户当前的需求。而对话式推荐系统(Conversational Recommender System,CRS)可以在不确定用户明确意图的前提下,通过流畅的自然语言交互来确定用户当前状态下的需求,从而为用户提供特定场景下对其更有价值的信息。现有的对话式推荐系统之一通常将商品的全部属性和待推荐商品的动作放到一个通用的动作集合中,这导致动作空间的动作类型分布极度不均衡,经常存在询问属性偏好问题过多的情况,用户体验较差;而且通用的动作集合本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于对话推荐物品的交互方法,包括:获取目标用户的对话历史和候选信息集,其中,所述对话历史包括至少一轮对话中的历史行为和所述目标用户针对所述历史行为的反馈,所述历史行为包括询问目标属性或推荐目标物品,所述候选信息集包括候选属性信息集和候选物品信息集;根据所述对话历史和所述候选信息集确定所述目标用户的当前状态编码;将所述当前状态编码提供给行为预测模型,得到预测行为,其中,所述预测行为包括对所述目标用户询问属性或推荐物品;以及将所述当前状态编码提供给候选信息确定模型,得到与所述预测行为相匹配的目标候选信息,其中,所述目标候选信息包括从与所述预测行为相匹配的所述候选属性信息集中确定的与所述目标用户匹配的候选属性信息或从所述候选物品信息集中确定的候选物品信息。2.如权利要求1所述的交互方法,其中,所述候选信息集包括用户偏好交互图,所述用户偏好交互图包括节点集和邻接矩阵,所述节点集包括目标用户节点、候选物品节点集和候选属性节点集,所述邻接矩阵用于表征节点之间的关系权重,所述根据所述对话历史和所述候选信息集确定所述目标用户的当前状态编码包括:将所述用户偏好交互图提供给图神经网络,得到所述目标用户的当前偏好编码;以及根据所述目标用户的当前偏好编码,确定所述目标用户的当前状态编码。3.如权利要求2所述的交互方法,其中,所述邻接矩阵的元素的取值通过以下步骤确定:对于表征候选物品节点与所述候选物品相关的候选属性节点之间的关系权重和/或表征所述目标用户节点与第一候选属性节点之间的关系的第一元素,确定所述第一元素的取值为表征存在正向关联的第一预设值,其中,所述第一候选属性节点用于表征所述目标用户被询问且被接受的候选属性;对于表征所述目标用户节点与第二候选属性节点之间的关系的第二元素,确定所述第二元素的取值为表征存在负向关联的第二预设值,其中,所述第二候选属性节点用于表征所述目标用户被询问且被拒绝的候选属性;以及对于表征所述目标用户节点与候选物品节点之间的关系权重的第三元素,确定所述第三元素的取值为匹配度,其中,所述匹配度根据所述目标用户与候选物品对应的向量内积、所述目标用户与被询问且被接受的候选属性对应的向量内积、所述目标用户与被询问且被拒绝的候选属性对应的向量内积得到。4.如权利要求2所述的交互方法,其中,所述根据所述目标用户的当前偏好编码,确定所述目标用户的当前状态编码包括:将所述对话历史转换为对话历史嵌入;根据所述对话历史嵌入确定当前对话状态编码,其中,所述当前对话状态编码用于表征根据所述对话历史所学习的用户偏好对于推荐物品而言是否足够确切;根据所述候选信息集所包含的元素的数目,确定候选空间编码;以及根据所述当前偏好编码、所述对话状态编码和所述候选空间编码,确定所述目标用户的当前状态编码。5.如权利要求1所述的交互方法,其中,所述将所述当前状态编码提供给候选信息确定
模型,得到与所述预测行为相匹配的目标候选信息包括:响应于所述预测行为是对所述目标用户推荐物品,执行以下物品推荐步骤:根据所述对话历史从所述候选属性信息集中确定接受属性集;根据所述接受属性集从所述候选物品信息集中确定与所述接受属性集中的属性相匹配的备选物品信息集;将所述当前状态编码提供给所述候选信息确定模型,得到所述备选物品信息集中各个备选物品信息对应的推荐值;以及从所述备选物品信息集中选取目标物品信息作为与所述预测行为相匹配的目标候选信息,其中,所述目标物品信息包括所得到的推荐值符合预设要求的候选物品信息。6.如权利要求5所述的交互方法,其中,所述方法还包括:将所述目标物品信息提供给所述目标用户;响应于所述目标用户拒绝所述目标物品信息,确定所述目标用户所拒绝的所述目标物品信息相对于所述接受属性集的附加属性,以及根据所述附加属性更新所述对话历史和所述候选信息集。7.如权利要求1所述的交互方法,其中,所述行为预测模型和候选信息确定模型分别基于用于决定对所述目标用户询问属性或推荐物品的第一行为值函数和用于从所述候选信息集中确定目标候选信息的第二行为值函数训练得到。8.如权利要求1到7中任一所述的交互方法,其中,所述行为预测模型包括前馈神经网络和随机重采样模型,所述将所述当前状态编码提供给行为预测模型,得到预测行为包括:将所述当前状态编码提供给所述前馈神经网络,得到各个备选行为的初始概...

【专利技术属性】
技术研发人员:魏巍赵森李文迪刘逸帆朱帅杨明晖
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1