基于对话的内容推荐方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26791111 阅读:24 留言:0更新日期:2020-12-22 17:06
本申请是关于一种基于对话的内容推荐方法、装置、计算机设备及存储介质,涉及人工智能交互技术领域。所述方法包括:获取与目标用户之间的历史对话语句;将历史对话语句,以及各个候选推荐内容输入至对话推荐模型,获得对话推荐预测结果;对话推荐模型的奖励函数的输入信息包括预测回复信息以及预测推荐结果;预测回复信息包括对话推荐模型在强化学习过程中产生的预测对话回复对应的信息;预测推荐结果指示对话推荐模型在强化学习过程中从各个候选推荐内容中预测出的目标推荐内容。该对话推荐模型的优化维度包含了对话推荐模型的对话回复,从而提高了对话推荐模型的优化效果,进而提高对话推荐模型应用时的对话推荐效果。

【技术实现步骤摘要】
基于对话的内容推荐方法、装置、计算机设备及存储介质本公开要求于2020年08月14日提交的申请号为202010821321.3、专利技术名称为“基于对话的内容推荐方法、装置、计算机设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及人工智能交互
,特别涉及一种基于对话的内容推荐方法、装置、计算机设备及存储介质。
技术介绍
对话推荐是指在人机对话过程中,机器根据用户在对话中提供的信息进行相应的内容推荐。对话推荐可以通过对话推荐模型来实现。在相关技术中,由于内容推荐的对话样本数量有限,因此,对话推荐模型经过预训练之后,可以与通过与另一个聊天机器人模拟的用户进行对话,以进行强化训练。比如,聊天机器人与对话推荐模型在对话过程中,按照与对话推荐模型的历史对话语句,从预先设置的对话回复集合中选择合适的对话回复,而对话推荐模型则根据与聊天机器人的历史对话语句进行内容推荐,在参数更新时,以对话推荐模型的内容推荐结果作为奖励函数的输入得到奖励值,并根据该奖励值更新对话推荐模型的参数。在上述技术方案中,在对上述对话推荐模型的强化学习过程中,只通过推荐结果对模型进行优化,优化维度较为单一,导致对话推荐模型的优化效果较差。
技术实现思路
本申请实施例提供了一种基于对话的内容推荐方法、装置、计算机设备及存储介质,可以通过利用对话的回复信息进行强化训练得到的对话推荐模型来进行对话推荐,由于对话推荐模型的优化维度还包含了对话回复的信息,能够扩展了模型优化的维度,从而提高对话推荐模型的优化效果,该技术方案如下:一方面,提供了一种基于对话的内容推荐方法,所述方法包括:获取与目标用户之间的历史对话语句;将所述历史对话语句,以及各个候选推荐内容输入至对话推荐模型,获得所述对话推荐模型输出的对话推荐预测结果;所述对话推荐模型的奖励函数的输入信息包括预测回复信息以及预测推荐结果;所述预测回复信息包括所述对话推荐模型在强化学习过程中产生的预测对话回复对应的信息;所述预测推荐结果指示所述对话推荐模型在强化学习过程中从所述各个候选推荐内容中预测出的目标推荐内容;向所述目标用户展示所述对话推荐预测结果;所述对话推荐预测结果包括针对所述历史对话语句生成的对话回复,以及,针对所述历史对话语句从所述各个候选推荐内容中预测出的目标推荐内容中的至少一种。一方面,提供了一种对话推荐模型训练方法,所述方法包括:通过对话推荐模型与第一对话模型进行模拟对话,获得所述对话推荐模型的预测回复信息以及预测推荐结果;所述对话推荐模型用于在所述模拟对话过程中,基于各个候选推荐内容以及第一历史对话语句,产生第一预测对话回复以及所述预测推荐结果;所述第一对话模型用于在所述模拟对话过程中,基于第二历史对话语句产生第二预测对话回复;所述预测回复信息包括所述第一预测对话回复对应的信息;所述预测推荐结果指示所述对话推荐模型从所述各个候选推荐内容中预测出的目标推荐内容;基于所述预测回复信息以及所述预测推荐结果获取奖励函数值;基于所述奖励函数值对所述对话推荐模型进行参数更新。又一方面,提供了一种对话推荐模型训练装置,所述装置包括:模拟对话模块,用于通过对话推荐模型与第一对话模型进行模拟对话,获得所述对话推荐模型的预测回复信息以及预测推荐结果;所述对话推荐模型用于在所述模拟对话过程中,基于各个候选推荐内容以及第一历史对话语句,产生第一预测对话回复以及所述预测推荐结果;所述第一对话模型用于在所述模拟对话过程中,基于第二历史对话语句产生第二预测对话回复;所述预测回复信息包括所述第一预测对话回复对应的信息;所述预测推荐结果指示所述对话推荐模型从所述各个候选推荐内容中预测出的目标推荐内容;奖励获取模块,用于基于所述预测回复信息以及所述预测推荐结果获取奖励函数值;参数更新模块,用于基于所述奖励函数值对所述对话推荐模型进行参数更新。在一种可能的实现方式中,所述奖励获取模块,包括:第一奖励值获取单元,用于基于所述预测回复信息获取第一奖励值;第二奖励值获取单元,用于基于所述预测推荐结果获取第二奖励值;所述参数更新模块,用于基于所述第一奖励值以及所述第二奖励值,对所述对话推荐模型进行参数更新。在一种可能的实现方式中,所述预测回复信息包括所述第一预测对话回复,以及所述第一历史对话语句;所述第一奖励值获取单元,用于将所述第一历史对话语句输入第二对话模型,将所述第二对话模型基于所述第一历史对话语生成所述第一预测对话回复的概率添加入所述第一奖励值。在一种可能的实现方式中,所述预测回复信息包括第一预测推荐概率和第二预测推荐概率;所述第一预测推荐概率是所述对话推荐模型生成所述第一预测对话回复时,对所述各个候选推荐内容的预测推荐概率;所述第二预测推荐概率是所述对话推荐模型生成所述第一预测对话回复的下一次预测对话回复时,对所述各个候选推荐内容的预测推荐概率;所述第一奖励值获取单元,用于,获取第一信息熵和第二信息熵;所述第一信息熵是所述第一预测推荐概率的概率分布的信息熵,所述第二信息熵是所述第二预测推荐概率的概率分布的信息熵;将所述第一信息熵与所述第二信息熵之间的差值,添加入所述第一奖励值。在一种可能的实现方式中,所述对话推荐模型包括回复生成组件、推荐组件以及决策组件;所述回复生成组件,用于对所述第一历史对话语句进行编码,得到对话历史编码信息Cr;所述推荐组件,用于对所述各个候选推荐内容进行编码,得到内容编码信息Ki;所述推荐组件,还用于对所述对话历史编码信息Cr以及所述内容编码信息Ki进行处理,得到所述各个候选推荐内容的推荐概率ri,并基于所述各个候选推荐内容的推荐概率ri以及所述内容编码信息Ki获得所述各个候选推荐内容的集合表示KC;所述决策组件,用于对所属于对话历史编码信息Cr和所述集合表示KC进行处理,得到决策信息,所述决策信息用于指示输出推荐结果或者输出对话回复;所述决策组件,还用于基于所述决策信息输出所述第一预测对话回复或者所述预测推荐结果。在一种可能的实现方式中,所述参数更新模块,用于,基于所述第一奖励值对所述回复生成组件进行参数更新;基于所述第二奖励值对所述决策组件进行参数更新。在一种可能的实现方式中,所述推荐组件是基于注意力机制的双向长短期记忆Bi-LSTM模型组件。在一种可能的实现方式中,所述推荐组件,用于通过注意力机制层对所述对话历史编码信息Cr以及所述内容编码信息Ki进行处理,得到所述各个候选推荐内容的推荐概率ri,并基于所述各个候选推荐内容的推荐概率ri以及所述内容编码信息Ki获得所述各个候选推荐内容的集合表示KC。在一种可能的实现方式中,所述对话推荐模型与第一对话模型之间的模拟对话过程包含至少一个对话回合;所述模拟对话模块,用于,将所述对话推荐模型与所述第一对话模型在目标对话回合之前产生的本文档来自技高网...

【技术保护点】
1.一种基于对话的内容推荐方法,其特征在于,所述方法包括:/n获取与目标用户之间的历史对话语句;/n将所述历史对话语句,以及各个候选推荐内容输入至对话推荐模型,获得所述对话推荐模型输出的对话推荐预测结果;所述对话推荐模型的奖励函数的输入信息包括预测回复信息以及预测推荐结果;所述预测回复信息包括所述对话推荐模型在强化学习过程中产生的预测对话回复对应的信息;所述预测推荐结果指示所述对话推荐模型在强化学习过程中从所述各个候选推荐内容中预测出的目标推荐内容;/n向所述目标用户展示所述对话推荐预测结果;所述对话推荐预测结果包括针对所述历史对话语句生成的对话回复,以及,针对所述历史对话语句从所述各个候选推荐内容中预测出的目标推荐内容中的至少一种。/n

【技术特征摘要】
20200814 CN 20201082132131.一种基于对话的内容推荐方法,其特征在于,所述方法包括:
获取与目标用户之间的历史对话语句;
将所述历史对话语句,以及各个候选推荐内容输入至对话推荐模型,获得所述对话推荐模型输出的对话推荐预测结果;所述对话推荐模型的奖励函数的输入信息包括预测回复信息以及预测推荐结果;所述预测回复信息包括所述对话推荐模型在强化学习过程中产生的预测对话回复对应的信息;所述预测推荐结果指示所述对话推荐模型在强化学习过程中从所述各个候选推荐内容中预测出的目标推荐内容;
向所述目标用户展示所述对话推荐预测结果;所述对话推荐预测结果包括针对所述历史对话语句生成的对话回复,以及,针对所述历史对话语句从所述各个候选推荐内容中预测出的目标推荐内容中的至少一种。


2.根据权利要求1所述的方法,其特征在于,所述将所述历史对话语句,以及各个候选推荐内容输入至对话推荐模型,获得所述对话推荐模型输出的对话推荐预测结果,包括:
通过所述对话推荐模型中的回复生成组件对所述历史对话语句进行编码,得到对话历史编码信息;
通过所述对话推荐模型中的推荐组件对所述各个候选推荐内容进行编码,得到内容编码信息;
通过所述推荐组件对所述对话历史编码信息以及所述内容编码信息进行处理,得到所述各个候选推荐内容的推荐概率,并基于所述各个候选推荐内容的推荐概率以及所述内容编码信息获得所述各个候选推荐内容的集合表示;
通过所述对话推荐模型中的决策组件对所属于对话历史编码信息和所述集合表示进行处理,得到决策信息,所述决策信息用于指示输出推荐结果或者输出对话回复;
基于所述决策信息,输出所述对话推荐预测结果。


3.根据权利要求2所述的方法,其特征在于,所述通过所述推荐组件对所述对话历史编码信息以及所述内容编码信息进行处理,得到所述各个候选推荐内容的推荐概率,并基于所述各个候选推荐内容的推荐概率以及所述内容编码信息获得所述各个候选推荐内容的集合表示,包括:
通过所述推荐组件中的注意力机制层对所述对话历史编码信息以及所述内容编码信息进行处理,得到所述各个候选推荐内容的推荐概率,并基于所述各个候选推荐内容的推荐概率以及所述内容编码信息获得所述各个候选推荐内容的集合表示。


4.一种对话推荐模型训练方法,其特征在于,所述方法包括:
通过对话推荐模型与第一对话模型进行模拟对话,获得所述对话推荐模型的预测回复信息以及预测推荐结果;所述对话推荐模型用于在所述模拟对话过程中,基于各个候选推荐内容以及第一历史对话语句,产生第一预测对话回复以及所述预测推荐结果;所述第一对话模型用于在所述模拟对话过程中,基于第二历史对话语句产生第二预测对话回复;所述预测回复信息包括所述第一预测对话回复对应的信息;所述预测推荐结果指示所述对话推荐模型从所述各个候选推荐内容中预测出的目标推荐内容;
基于所述预测回复信息以及所述预测推荐结果获取奖励函数值;
基于所述奖励函数值对所述对话推荐模型进行参数更新。


5.根据权利要求4所述的方法,其特征在于,所述基于所述预测回复信息以及所述预测推荐结果获得奖励函数值,包括:
基于所述预测回复信息获取第一奖励值;
基于所述预测推荐结果获取第二奖励值;
所述基于所述奖励函数值对所述对话推荐模型进行参数更新,包括:
基于所述第一奖励值以及所述第二奖励值,对所述对话推荐模型进行参数更新。


6.根据权利要求5所述的方法,其特征在于,所述预测回复信息包括所述第一预测对话回复,以及所述第一历史对话语句;
所述基于所述预测回复信息获取第一奖励值,包括:
将所述第一历史对话语句输入第二对话模型,将所述第二对话模型基于所述第一历史对话语生成所述第一预测对话回复的概率添加入所述第一奖励值。


7.根据权利要求5所述的方法,其特征在于,所述预测回复信息包括第一预测推荐概率和第二预测推荐概率;所述第一预测推荐概率是所述对话推荐模型生成所述第一预测对话回复时,对所述各个候选推荐内容的预测推荐概率;所述第二预测推荐概率是所述对话推荐模型生成所述第一预测对话回复的下一次预测对话回复时,对所述各个候选推荐内容的预测推荐概率;
所述基于所述预测回复信息获取第一奖励值,包括:
获取第一信息熵和第二信息熵;所述第一信息熵是所述第一预测推荐概率的概率分布的信息熵,所述第二信息熵是所述第二预测推荐概率的概率分布的信息熵;
将所述第一信息熵与所述第二信息熵之间的差值,添加入所述第一奖励值。


8.根据权利要求5所述的方法,其特征在于,所述对话推荐模型包括回复生成组件、推荐组件以及决策组件;
所述回复生成组件,用于对所述第一历史对话语句进行编码,得到对话历史编码信息Cr;

【专利技术属性】
技术研发人员:李泽康张金超周杰冯洋
申请(专利权)人:腾讯科技深圳有限公司中国科学院计算技术研究所
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1