基于强化学习模型向用户推送对象的方法和装置制造方法及图纸

技术编号:22167064 阅读:30 留言:0更新日期:2019-09-21 10:39
本说明书实施例提供了一种基于强化学习模型确定针对用户的推送对象列表的方法和装置,所述方法包括:对于每组对象列表,获取第i个状态特征向量;将所述第i个状态特征向量输入所述强化学习模型,以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量;获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量;以及基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积,计算所述候选对象集合中各个对象的分数;以及对于所述M组对象列表,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,确定更新的M组对象列表,其中,所述更新的M组对象列表中的每组对象列表包括i个对象。

Method and Device of Pushing Objects to Users Based on Reinforcement Learning Model

【技术实现步骤摘要】
基于强化学习模型向用户推送对象的方法和装置
本说明书实施例涉及机器学习领域,更具体地,涉及一种基于强化学习模型确定针对用户的推送对象列表的方法和装置。
技术介绍
传统的客户服务是人力/资源密集型和耗时的,因此,构建能够自动回答用户面临问题的智能助手非常重要。最近,人们越来越关注如何用机器学习来更好地构建这样的智能助手。作为客户服务机器人的核心功能,用户意图预测旨在自动预测用户可能想要询问的问题,并向用户呈现候选问题以供其选择以减轻用户的认知负担。更具体地说,用户意图预测任务可以被视为前N项(TopN)推荐的任务,其中每个预定好的问题是一个意图类(class)。目前的现有方法将该任务视为一个多分类问题,在给定当前用户状态下预测用户最可能感兴趣的对象(item)列表,即问题列表。这些方法旨在最大化即时奖励,例如点击,而忽略了推荐列表中在前的推荐对象对在后的推荐对象的影响。因此,需要一种更有效的向用户推送一组对象列表的方案。
技术实现思路
本说明书实施例旨在提供一种更有效的基于强化学习模型确定针对用户的推送对象列表的方案,以解决现有技术中的不足。为实现上述目的,本说明书一个方面提供一种基于强化学习模型确定针对用户的推送对象列表的方法,其中,对于第一用户,已预先通过所述方法确定有M组对象列表,每组对象列表中当前包括i-1个对象,其中,M、i都为大于等于1的整数,其中,i小于等于预定整数N,所述方法包括:对于每组对象列表,获取第i个状态特征向量,所述第i个状态特征向量包括静态特征和动态特征,其中,所述静态特征包括所述第一用户的属性特征,所述动态特征包括该组对象列表中所述i-1个对象各自的属性特征;将所述第i个状态特征向量输入所述强化学习模型,以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量,所述权重向量包括预定数目的排序特征各自的权重;获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量,所述排序特征向量包括所述预定数目的排序特征各自的特征值;以及基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积,计算所述候选对象集合中各个对象的分数;以及对于所述M组对象列表,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,确定更新的M组对象列表,其中,所述更新的M组对象列表中的每组对象列表包括i个对象。在一个实施例中,所述动态特征至少包括所述i-1个对象各自的以下属性特征:当前热度、对象标识、对象所属类型。在一个实施例中,所述M组对象列表中包括第一组对象列表,与该第一组对象列表对应的候选对象集合中包括第一对象,与该第一对象对应的排序特征向量至少包括以下排序特征的值:所述第一用户对该第一对象的预估点击率、该第一对象的当前热度、该第一对象相对于所述第一组对象列表中的i-1个对象的多样性。在一个实施例中,已预先通过所述方法确定有M组对象列表包括,已预先通过所述方法确定有一组对象列表,其中,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,确定更新的M组对象列表包括,基于与该组对象列表对应的候选对象集合中各个对象的分数,以所述候选对象集合中分数最高的对象作为该组对象列表的第i个对象,并将该组对象列表作为更新的一组对象列表。在一个实施例中,M大于等于2,其中,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,确定更新的M组对象列表包括,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,通过集束搜索算法确定更新的M组对象列表。在一个实施例中,i等于N,所述方法还包括,通过集束搜索算法,从所述更新的M组对象列表中确定针对所述第一用户的推送对象列表。在一个实施例中,所述方法还包括,以所述推送对象列表中各个对象的排列顺序,向所述第一用户推送所述各个对象,以获取所述第一用户的反馈;基于所述排列顺序和所述反馈获取N个回报值,所述N个回报值与对所述方法的从i=1至N的N次循环分别对应;获取第N+1个状态特征向量,所述第N+1个状态特征向量包括静态特征和动态特征,其中,所述静态特征包括所述第一用户的属性特征,所述动态特征包括所述推送对象列表中N个对象各自的属性特征;以及基于与所述N次循环分别对应的N组数据训练所述强化学习模型,以优化所述强化学习模型,其中,所述N组数据包括第1至第N组数据,其中,第i组数据包括:与所述推送对象列表对应的第i个状态特征向量、与该第i个状态特征向量对应的权重向量、与所述推送对象列表对应的第i+1个状态特征向量、以及与第i次循环对应的回报值。在一个实施例中,所述对象为询问问题,对于第1至N-1次循环中的第i次循环,与所述第i次循环对应的回报值基于所述第一用户的如下反馈获取:是否点击所述推送对象列表中的第i个问题。在一个实施例中,与所述第N次循环对应的回报值基于所述第一用户的如下反馈获取:是否点击所述推送对象列表中的第N个问题、以及提交的满意度信息。在一个实施例中,所述强化学习模型为基于深度确定策略梯度算法的模型。本说明书另一方面提供一种基于强化学习模型确定针对用户的推送对象列表的装置,其中,对于第一用户,已预先通过所述方法确定有M组对象列表,每组对象列表中当前包括i-1个对象,其中,M、i都为大于等于1的整数,其中,i小于等于预定整数N,所述装置包括:用于每组对象列表的,第一获取单元,配置为,获取第i个状态特征向量,所述第i个状态特征向量包括静态特征和动态特征,其中,所述静态特征包括所述第一用户的属性特征,所述动态特征包括该组对象列表中所述i-1个对象各自的属性特征;输入单元,配置为,将所述第i个状态特征向量输入所述强化学习模型,以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量,所述权重向量包括预定数目的排序特征各自的权重;第二获取单元,配置为,获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量,所述排序特征向量包括所述预定数目的排序特征各自的特征值;以及计算单元,配置为,基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积,计算所述候选对象集合中各个对象的分数;以及第一确定单元,配置为,对于所述M组对象列表,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,确定更新的M组对象列表,其中,所述更新的M组对象列表中的每组对象列表包括i个对象。在一个实施例中,已预先通过所述方法确定有M组对象列表包括,已预先通过所述方法确定有一组对象列表,其中,所述第一确定单元还配置为,基于与该组对象列表对应的候选对象集合中各个对象的分数,以所述候选对象集合中分数最高的对象作为该组对象列表的第i个对象,并将该组对象列表作为更新的一组对象列表。在一个实施例中,其中,M大于等于2,其中,所述第一确定单元还配置为,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,通过集束搜索算法确定更新的M组对象列表。在一个实施例中,i等于N,所述装置还包括,第二确定单元,配置为,通过集束搜索算法,从所述更新的M组对象列表中确定针对所述第一用户的推送对象列表。在一个实施例中,所述装置还包括,推送单元,配置为,以所述推送对象列表中各个对象的排列顺序,向所述第一用户推送所述各个对象,以获取所述第本文档来自技高网...

【技术保护点】
1.一种基于强化学习模型确定针对用户的推送对象列表的方法,其中,对于第一用户,已预先通过所述方法确定有M组对象列表,每组对象列表中当前包括i‑1个对象,其中,M、i都为大于等于1的整数,其中,i小于等于预定整数N,所述方法包括:对于每组对象列表,获取第i个状态特征向量,所述第i个状态特征向量包括静态特征和动态特征,其中,所述静态特征包括所述第一用户的属性特征,所述动态特征包括该组对象列表中所述i‑1个对象各自的属性特征;将所述第i个状态特征向量输入所述强化学习模型,以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量,所述权重向量包括预定数目的排序特征各自的权重;获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量,所述排序特征向量包括所述预定数目的排序特征各自的特征值;以及基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积,计算所述候选对象集合中各个对象的分数;以及对于所述M组对象列表,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,确定更新的M组对象列表,其中,所述更新的M组对象列表中的每组对象列表包括i个对象。

【技术特征摘要】
1.一种基于强化学习模型确定针对用户的推送对象列表的方法,其中,对于第一用户,已预先通过所述方法确定有M组对象列表,每组对象列表中当前包括i-1个对象,其中,M、i都为大于等于1的整数,其中,i小于等于预定整数N,所述方法包括:对于每组对象列表,获取第i个状态特征向量,所述第i个状态特征向量包括静态特征和动态特征,其中,所述静态特征包括所述第一用户的属性特征,所述动态特征包括该组对象列表中所述i-1个对象各自的属性特征;将所述第i个状态特征向量输入所述强化学习模型,以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量,所述权重向量包括预定数目的排序特征各自的权重;获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量,所述排序特征向量包括所述预定数目的排序特征各自的特征值;以及基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积,计算所述候选对象集合中各个对象的分数;以及对于所述M组对象列表,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,确定更新的M组对象列表,其中,所述更新的M组对象列表中的每组对象列表包括i个对象。2.根据权利要求1所述的方法,其中,所述动态特征至少包括所述i-1个对象各自的以下属性特征:当前热度、对象标识、对象所属类型。3.根据权利要求1所述的方法,其中,所述M组对象列表中包括第一组对象列表,与该第一组对象列表对应的候选对象集合中包括第一对象,与该第一对象对应的排序特征向量至少包括以下排序特征的值:所述第一用户对该第一对象的预估点击率、该第一对象的当前热度、该第一对象相对于所述第一组对象列表中的i-1个对象的多样性。4.根据权利要求1所述的方法,其中,已预先通过所述方法确定有M组对象列表包括,已预先通过所述方法确定有一组对象列表,其中,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,确定更新的M组对象列表包括,基于与该组对象列表对应的候选对象集合中各个对象的分数,以所述候选对象集合中分数最高的对象作为该组对象列表的第i个对象,并将该组对象列表作为更新的一组对象列表。5.根据权利要求1所述的方法,其中,M大于等于2,其中,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,确定更新的M组对象列表包括,基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数,通过集束搜索算法确定更新的M组对象列表。6.根据权利要求5所述的方法,其中,i等于N,所述方法还包括,通过集束搜索算法,从所述更新的M组对象列表中确定针对所述第一用户的推送对象列表。7.根据权利要求6所述的方法,还包括,以所述推送对象列表中各个对象的排列顺序,向所述第一用户推送所述各个对象,以获取所述第一用户的反馈;基于所述排列顺序和所述反馈获取N个回报值,所述N个回报值与对所述方法的从i=1至N的N次循环分别对应;获取第N+1个状态特征向量,所述第N+1个状态特征向量包括静态特征和动态特征,其中,所述静态特征包括所述第一用户的属性特征,所述动态特征包括所述推送对象列表中N个对象各自的属性特征;以及基于与所述N次循环分别对应的N组数据训练所述强化学习模型,以优化所述强化学习模型,其中,所述N组数据包括第1至第N组数据,其中,第i组数据包括:与所述推送对象列表对应的第i个状态特征向量、与该第i个状态特征向量对应的权重向量、与所述推送对象列表对应的第i+1个状态特征向量、以及与第i次循环对应的回报值。8.根据权利要求7所述的方法,其中,所述对象为询问问题,对于第1至N-1次循环中的第i次循环,与所述第i次循环对应的回报值基于所述第一用户的如下反馈获取:是否点击所述推送对象列表中的第i个问题。9.根据权利要求8所述的方法,与所述第N次循环对应的回报值基于所述第一用户的如下反馈获取:是否点击所述推送对象列表中的第N个问题、以及提交的满意度信息。10.根据权利要求7所述的方法,其中,所述强化学习模型为基于深度确定策略梯度算法的模型。11.一种基于强化学习模型确定针对用户的推送对象列表的装置,其中,对于第一用户,已预先通过所述方法确定有M组对象列表,每组对象列表中当前包括i-1个对象,其中,M、i都为大于等于1的整数,其中,i小...

【专利技术属性】
技术研发人员:陈岑胡旭傅驰林张晓露
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1