一种产品推荐方法及系统技术方案

技术编号:24356400 阅读:25 留言:0更新日期:2020-06-03 02:39
本申请实施例公开了一种产品推荐方法及系统。所述方法包括:向多个用户推荐新产品,所述新产品包括上线时间不超过预设时间段的产品;获取与所述新产品相关联的多个用户操作行为,其中,所述用户操作行为包括用户通过搜索词获取到所述新产品的信息的操作行为,和/或所述用户基于所述信息实施的操作行为;采用强化学习方法对所述多个用户操作行为进行学习处理,得到针对所述新产品的推荐策略。利用本申请各个实施例,不仅可以提高新产品的启动效率,还可以提高电商平台的流量利用率,减少无效的投入。

A product recommendation method and system

【技术实现步骤摘要】
一种产品推荐方法及系统
本申请涉及信息处理
,特别涉及一种产品推荐方法及系统。
技术介绍
近几年,产品推荐技术在各类购物应用(Application,APP)中得到广泛的使用,产品推荐技术可以向用户推荐更有价值的产品,从而实现对用户的引导作用,增强用户选购的目的性。目前,在电商平台上对产品的推荐往往基于用户对产品的历史操作行为的统计数据。但是,对于电商平台中的新产品,由于缺乏用户的操作行为,因此也缺乏各种统计数据,导致新商品很难在电商平台上获取曝光机会。但是新产品还是需要在电商平台上展现,并需要一定程度的推广。现有技术中,对于新产品,可以通过强制推广新产品的方式以累计产品的用户操作行为数据。但是,这种方式可能会损害电商平台的利益,不是所有用户都偏好新产品,也不是所有新产品均为优质产品,因此,强制推广可能会造成对用户不恰当的引导,降低用户选购产品的目的性。因此,现有技术中亟需一种可以快速确定新商品中的优质产品并加速优质产品成长的产品推荐方式。
技术实现思路
本申请实施例的目的在于提供一种产品推荐方法及系统,不仅可以提高新产品的启动效率,还可以提高电商平台的流量利用率,减少无效的投入。本申请实施例提供的一种产品推荐方法及系统具体是这样实现的:一种产品推荐方法,包括:向多个用户推荐新产品,所述新产品包括上线时间不超过预设时间段的产品;获取与所述新产品相关联的多个用户操作行为,其中,所述用户操作行为包括用户通过搜索词获取到所述新产品的信息的操作行为,和/或所述用户基于所述信息实施的操作行为;采用强化学习方法对所述多个用户操作行为进行学习处理,得到针对所述新产品的推荐策略。一种产品推荐系统,包括:客户端,用于采集用户操作行为;推荐服务器,用于向多个用户推荐新产品,所述新产品为接入平台时间不超过预设时间段的产品;还用于获取与所述新产品相关联的多个用户操作行为,其中,所述用户操作行为包括所述用户通过搜索词获取到所述新产品的信息和/或基于所述信息实施的操作行为;数据分析服务器,用于采用强化学习方法对所述多个用户操作行为进行学习处理,得到针对所述新产品的推荐策略。一种产品推荐装置,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述方法的步骤。一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述方法的步骤。本申请提供的产品推荐方法及系统,可以在新产品启动的过程中,获取与新产品相关联的多个用户操作行为,并对所述用户操作行为进行强化学习算法,优化对新产品整个启动过程中的累积奖赏。通过强化学习的机制对新产品进行冷启动,可以实现对一些真正高效的新产品进行高投入推荐,而对一些难以启动的新产品进行较低的投入,不仅可以提高新产品的启动效率,还可以提高电商平台的流量利用率,减少无效的投入。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请提供的用于产品推荐的示例系统100;图2是本申请提供的MDP的模型示意图;图3是本申请提供的应用场景示意图;图4是本申请提供的产品推荐方法的一种实施例的方法流程图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。为了方便本领域技术人员理解本申请实施例提供的技术方案,下面先对技术方案实现的技术环境进行说明。基于上述技术环境,本申请提供了一种产品推荐系统,图1是本申请提供的用于产品推荐的示例系统100。本实施例中的新产品接入电商平台的时间可以不超过预设时间段,所述预设时间段例如可以设置为一个月、一个半月、50天、两个月等。所述新产品包括但不限于任何类型的可以提供到市场、供人们消费或者使用的产品。在一些实施例中,所述产品可以包括实体的产品,如衣服、咖啡、汽车等,在其他实施例中,所述产品可以包括无形的产品,如服务、教育、游戏等虚拟产品。所述系统100可以向用户推荐所述新商品,并对从用户反馈回来的用户操作行为数据进行强化学习,获取针对所述新产品优化的推荐策略。例如,如图1所示,本申请提供的产品推荐系统100可以包括推荐服务器110和客户端120,所述推荐服务器110与客户端120相耦合。所述产品推荐系统200可以包括一个或者多个客户端120。所述推荐服务器110可以为一个或多个服务器,也可以集成于一个服务器中。在另一些实施例中,所述系统100还可以用于对用户操作行为数据进行强化学习,获取针对新产品的推荐策略。相应地,如图1所示,所述系统100还可以包括数据分析服务器130。所述数据分析服务器130可以分别与推荐服务器110、所述客户端120耦合。同样地,所述数据分析服务器130可以分别为一个或多个服务器,也可以集成在一个服务器中。在一些实施例中,所述客户端120可以为移动产品电话、计算机(包括笔记本电脑,台式电脑)、平板电子设备、个人数字助理(PDA)或者产品可穿戴设备等。在另外一些实施例中,所述客户端120还可以为运行于任一上述所列设备上的软件,例如支付宝客户端、手机淘宝客户端、天猫客户端等,当然,所述客户端120还可以为具有产品推荐功能的网站等。用户可以利用不同的客户端120获取推荐服务器110提供的推荐产品,以完成本方案以下所述的一个或多个方法步骤。为了能更加清楚地表达强化学习在产品推荐技术中的使用方法,首先介绍强化学习的基本理论模型,马尔可夫决策过程(MarkovDecisionProcess,英文缩写为MDP)。图2是本申请提供的MDP的模型示意图,如图2所示,MDP中涉及到产品体(Agent)和环境两个交互的主体,其中,Agent为做出决策的主体,环境作为信息反馈的主体。例如在产品推荐技术的应用场景中,Agent可以被设置为作出产品推荐决策的主体对象,环境可以被设置将用户的的点击浏览产品、购买产品等行为反馈至Agent。MDP可以用一个四元组<S,A,R,T>表示,其中,(1)S为状态空间(StateSpace),可以包含Agent可能感知到的环境状态集合;(2)A为动作空间(ActionSpace),可以包含Agent在每个环境状态上可以采取的动作集合;(3)R为奖赏函数(RewardingFunction),R(s,a,s’)可以表示在状态s上执行动作a,并转移到状态s’时,Agent从环本文档来自技高网
...

【技术保护点】
1.一种产品推荐方法,其特征在于,包括:/n向多个用户推荐新产品,所述新产品包括上线时间不超过预设时间段的产品;/n获取与所述新产品相关联的多个用户操作行为,其中,所述用户操作行为包括用户通过搜索词获取到所述新产品的信息的操作行为,和/或所述用户基于所述信息实施的操作行为;/n采用强化学习方法对所述多个用户操作行为进行学习处理,得到针对所述新产品的推荐策略。/n

【技术特征摘要】
1.一种产品推荐方法,其特征在于,包括:
向多个用户推荐新产品,所述新产品包括上线时间不超过预设时间段的产品;
获取与所述新产品相关联的多个用户操作行为,其中,所述用户操作行为包括用户通过搜索词获取到所述新产品的信息的操作行为,和/或所述用户基于所述信息实施的操作行为;
采用强化学习方法对所述多个用户操作行为进行学习处理,得到针对所述新产品的推荐策略。


2.根据权利要求1所述的方法,其特征在于,所述采用强化学习方法对所述多个用户操作行为进行学习处理,得到针对所述新产品的推荐策略包括:
基于马尔可夫决策过程(MDP),将所述用户的用户信息、所述搜索词、所述新产品的产品属性信息中的至少一种作为状态;
将对所述新产品的推荐力度作为动作;
计算当所述状态及所述动作形成的状态动作对的奖赏值,并累计所述奖赏值;
调整对所述新产品的推荐策略,直至累计的奖赏值达到最大值。


3.根据权利要求2所述的方法,其特征在于,所述产品属性信息包括产品固有属性信息、产品探测属性信息、产品实时属性信息中的至少一种。


4.根据权利要求1所述的方法,其特征在于,所述向多个用户推荐新产品包括:
获取推荐力度为零的新产品在第一基准时刻之前的第一预设时间段内的产品属性信息;
将所述产品属性信息输入至第一机器学习模型组件中,获取所述新产品在所述第一基准时刻之后的第二预设时间段内的第一产品转化率;
在所述第一产品转化率大于等于第一转换率阈值的情况下,向多个用户推荐所述新产品。


5.根据权利要求4所述的方法,其特征在于,所述第一机器学习模型组件被设置为按照下述方式训练得到:
获取历史时间段内多个新产品在第二基准时刻之前的第一预设时间段内的产品属性信息,以及在所述第二基准时刻之后的第二预设时间段内的产品转化率;
构建第一机器学习模型组件,所述第一机器学习模型组件中设置有训练参数;
分别利用所述多个新产品在所述第二基准时刻之前的产品属性信息和在所述第二基准时刻之后的产品转化率之间的对应关系,对所述第一机器学习模型组件进行训练,调整所述训练参数,直至所述第一机器学习模型组件达到预设要求。


6.根据权利要求4所述的方法,其特征在于,所述在所述产品转化率大于等于第一转换率阈值的情况下,向多个用户推荐所述新产品包括:
在所述产品转化率大于等于第一转换率阈值的情况下,将所述新产品推荐给不同类型的多个探测用户;
从所述多个探测用户对所述新产品的操作行为数据中获取所述新产品在预设探测时间段内的产品探测属性信息;
将所述产品探测属性信息输入至第二机器学习模型组件中,获取所述新产品在第二预设时间段内的第二产品转化率;
在所述第二产品转化率大于等于第二转换率阈值时,向多个用户推荐所述新产品。


7.根据权利要求6所述的方法,其特征在于,在所述采用强化学习方法对所述多个用户操作行为进行学习处理,得到针对所述新产品的推荐策略之后,所述方法还包括:
设置所述新产品的推荐力度为零;
获取所述新产品在第二预设时间段内的产品转化率。


8.根据权利要求7所述的方法,其特征在于,所述第二机器学习模型组件按照下述方式训练得到:
获取历史时间段内向多个探测用户推荐的多个新产品在预设探测时间段内的产品探测属性信息,以及在设置推荐力度为零之后的第二预设时间段内所述新产品的产品转化率;
构建第二机器学习模型组件,所述第二机器学习模型组件中设置有训练参数;
分别利用所述多个新产品的所述产品探测属性信息和在设置推荐力度为零之后的产品转化率之间的对应关系对所述第二机器学习模型组件进行训练,调整所述训练参数,直至所述第二机器学习模型组件达到预设要求。


9.根据权利要求6所述的方法,其特征在于,所述产品属性信息包括在多个用户维度下的用户操作行为数据,其中,所述用户维度包括下述中的至少一种:性别、年龄段、购买能力、操作时间段。


10.根据权利要求1-9任意一项所述的方法,其特征在于,所述强化学习方法包括信赖域策略优化(TRPO)强化学习方法。


11.一种产品推荐系统,其特征在于,包括:
客户端,用于采集用户操作行为;
推荐服务器,用于向多个用户推荐新产品,所述新产品为接入平台时间不超过预设时间段的产品;还用于获取与所述新产品相关联的多...

【专利技术属性】
技术研发人员:笪庆潘春香曾安祥
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1