基于强化学习模型向用户推送对象的方法和装置制造方法及图纸

技术编号：22167064 阅读：30 留言：0更新日期：2019-09-21 10:39

本说明书实施例提供了一种基于强化学习模型确定针对用户的推送对象列表的方法和装置，所述方法包括：对于每组对象列表，获取第i个状态特征向量；将所述第i个状态特征向量输入所述强化学习模型，以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量；获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量；以及基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积，计算所述候选对象集合中各个对象的分数；以及对于所述M组对象列表，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，确定更新的M组对象列表，其中，所述更新的M组对象列表中的每组对象列表包括i个对象。

Method and Device of Pushing Objects to Users Based on Reinforcement Learning Model

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习模型向用户推送对象的方法和装置
本说明书实施例涉及机器学习领域，更具体地，涉及一种基于强化学习模型确定针对用户的推送对象列表的方法和装置。
技术介绍
传统的客户服务是人力/资源密集型和耗时的，因此，构建能够自动回答用户面临问题的智能助手非常重要。最近，人们越来越关注如何用机器学习来更好地构建这样的智能助手。作为客户服务机器人的核心功能，用户意图预测旨在自动预测用户可能想要询问的问题，并向用户呈现候选问题以供其选择以减轻用户的认知负担。更具体地说，用户意图预测任务可以被视为前N项(TopN)推荐的任务，其中每个预定好的问题是一个意图类(class)。目前的现有方法将该任务视为一个多分类问题，在给定当前用户状态下预测用户最可能感兴趣的对象(item)列表，即问题列表。这些方法旨在最大化即时奖励，例如点击，而忽略了推荐列表中在前的推荐对象对在后的推荐对象的影响。因此，需要一种更有效的向用户推送一组对象列表的方案。
技术实现思路
本说明书实施例旨在提供一种更有效的基于强化学习模型确定针对用户的推送对象列表的方案，以解决现有技术中的不足。为实现上述目的，本说明书一个方面提供一种基于强化学习模型确定针对用户的推送对象列表的方法，其中，对于第一用户，已预先通过所述方法确定有M组对象列表，每组对象列表中当前包括i-1个对象，其中，M、i都为大于等于1的整数，其中，i小于等于预定整数N，所述方法包括：对于每组对象列表，获取第i个状态特征向量，所述第i个状态特征向量包括静态特征和动态特征，其中，所述静态特征包括所述第一用户的属性特征，所述动态特征包括该组对象列表中所述...

【技术保护点】
1.一种基于强化学习模型确定针对用户的推送对象列表的方法，其中，对于第一用户，已预先通过所述方法确定有M组对象列表，每组对象列表中当前包括i‑1个对象，其中，M、i都为大于等于1的整数，其中，i小于等于预定整数N，所述方法包括：对于每组对象列表，获取第i个状态特征向量，所述第i个状态特征向量包括静态特征和动态特征，其中，所述静态特征包括所述第一用户的属性特征，所述动态特征包括该组对象列表中所述i‑1个对象各自的属性特征；将所述第i个状态特征向量输入所述强化学习模型，以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量，所述权重向量包括预定数目的排序特征各自的权重；获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量，所述排序特征向量包括所述预定数目的排序特征各自的特征值；以及基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积，计算所述候选对象集合中各个对象的分数；以及对于所述M组对象列表，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，确定更新的M组对象列表，其中，所述更新的M组对象列表中的每组对象列表包括i个对象。

【技术特征摘要】
1.一种基于强化学习模型确定针对用户的推送对象列表的方法，其中，对于第一用户，已预先通过所述方法确定有M组对象列表，每组对象列表中当前包括i-1个对象，其中，M、i都为大于等于1的整数，其中，i小于等于预定整数N，所述方法包括：对于每组对象列表，获取第i个状态特征向量，所述第i个状态特征向量包括静态特征和动态特征，其中，所述静态特征包括所述第一用户的属性特征，所述动态特征包括该组对象列表中所述i-1个对象各自的属性特征；将所述第i个状态特征向量输入所述强化学习模型，以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量，所述权重向量包括预定数目的排序特征各自的权重；获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量，所述排序特征向量包括所述预定数目的排序特征各自的特征值；以及基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积，计算所述候选对象集合中各个对象的分数；以及对于所述M组对象列表，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，确定更新的M组对象列表，其中，所述更新的M组对象列表中的每组对象列表包括i个对象。2.根据权利要求1所述的方法，其中，所述动态特征至少包括所述i-1个对象各自的以下属性特征：当前热度、对象标识、对象所属类型。3.根据权利要求1所述的方法，其中，所述M组对象列表中包括第一组对象列表，与该第一组对象列表对应的候选对象集合中包括第一对象，与该第一对象对应的排序特征向量至少包括以下排序特征的值：所述第一用户对该第一对象的预估点击率、该第一对象的当前热度、该第一对象相对于所述第一组对象列表中的i-1个对象的多样性。4.根据权利要求1所述的方法，其中，已预先通过所述方法确定有M组对象列表包括，已预先通过所述方法确定有一组对象列表，其中，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，确定更新的M组对象列表包括，基于与该组对象列表对应的候选对象集合中各个对象的分数，以所述候选对象集合中分数最高的对象作为该组对象列表的第i个对象，并将该组对象列表作为更新的一组对象列表。5.根据权利要求1所述的方法，其中，M大于等于2，其中，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，确定更新的M组对象列表包括，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，通过集束搜索算法确定更新的M组对象列表。6.根据权利要求5所述的方法，其中，i等于N，所述方法还包括，通过集束搜索算法，从所述更新的M组对象列表中确定针对所述第一用户的推送对象列表。7.根据权利要求6所述的方法，还包括，以所述推送对象列表中各个对象的排列顺序，向所述第一用户推送所述各个对象，以获取所述第一用户的反馈；基于所述排列顺序和所述反馈获取N个回报值，所述N个回报值与对所述方法的从i＝1至N的N次循环分别对应；获取第N+1个状态特征向量，所述第N+1个状态特征向量包括静态特征和动态特征，其中，所述静态特征包括所述第一用户的属性特征，所述动态特征包括所述推送对象列表中N个对象各自的属性特征；以及基于与所述N次循环分别对应的N组数据训练所述强化学习模型，以优化所述强化学习模型，其中，所述N组数据包括第1至第N组数据，其中，第i组数据包括：与所述推送对象列表对应的第i个状态特征向量、与该第i个状态特征向量对应的权重向量、与所述推送对象列表对应的第i+1个状态特征向量、以及与第i次循环对应的回报值。8.根据权利要求7所述的方法，其中，所述对象为询问问题，对于第1至N-1次循环中的第i次循环，与所述第i次循环对应的回报值基于所述第一用户的如下反馈获取：是否点击所述推送对象列表中的第i个问题。9.根据权利要求8所述的方法，与所述第N次循环对应的回报值基于所述第一用户的如下反馈获取：是否点击所述推送对象列表中的第N个问题、以及提交的满意度信息。10.根据权利要求7所述的方法，其中，所述强化学习模型为基于深度确定策略梯度算法的模型。11.一种基于强化学习模型确定针对用户的推送对象列表的装置，其中，对于第一用户，已预先通过所述方法确定有M组对象列表，每组对象列表中当前包括i-1个对象，其中，M、i都为大于等于1的整数，其中，i小...

【专利技术属性】
技术研发人员：陈岑，胡旭，傅驰林，张晓露，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人