利用深度强化学习进行推荐营销的方法及装置制造方法及图纸

技术编号:19779732 阅读:50 留言:0更新日期:2018-12-15 11:48
本说明书实施例提供一种利用深度强化学习进行推荐营销的方法和装置,方法包括,全面获取执行环境的状态信息,其至少包括当前用户的用户信息,还可以包括用户所处场景的场景信息。然后根据营销策略,针对上述状态信息确定相应的营销行为,营销行为包括营销渠道、营销内容和营销时段的组合。接着,获取执行环境针对营销行为的当前奖励分数,并根据当前奖励分数更新营销策略,从而全面学习营销业务过程。

【技术实现步骤摘要】
利用深度强化学习进行推荐营销的方法及装置
本说明书一个或多个实施例涉及机器学习领域,尤其涉及利用深度强化学习进行推荐营销的方法及装置。
技术介绍
机器学习的迅猛发展使得各种机器学习的模型已经应用在各种各样的业务场景中,例如用于评估用户的信用风险,用于向用户推荐合适的内容,或向用户推送合适的营销信息,用于预测广告的投放效果等。实际上,一项业务场景的完整业务流程经常包含多个阶段或多个环节,其中涉及诸多因素。例如,在推荐营销的业务场景中,业务至少可以包括以下环节:营销信息的选择和推送,推送之后用户的反馈和追踪。在这些环节中,又涉及诸多因素和参数,例如营销的渠道,推送方式,触达率,转化率等等。因此,在试图将机器学习应用到业务场景中时,面对复杂的业务场景中的诸多环节和诸多因素,如何设计和选择适用的模型,引入何种因素衡量业务的执行状况,都是需要考虑的问题。因此,希望能有改进的方案,更加高效地用机器学习提高业务执行效果。
技术实现思路
本说明书一个或多个实施例描述了一种利用深度强化学习进行推荐营销的方法和装置,可以综合全面地对推荐营销业务中的多个环节多个因素进行学习,以综合全面地促进业务效果。根据第一方面,提供了一种利用深度强化学习进行推荐营销的方法,所述方法包括:获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;获取执行环境针对所述营销行为的当前奖励分数;至少根据所述当前奖励分数更新所述营销策略。根据一种实施方式,所述用户信息包括,用户基本属性信息,以及用户历史行为信息。进一步地,在一个实施例中,用户历史行为信息包括以下中的至少一项:历史操作序列、最近浏览页面列表、最近接受的营销信息列表、消费记录、交易记录、贷款记录、出行记录、保险记录。在一种可能的设计中,用户信息包括用户画像信息,所述用户画像信息基于用户基本属性信息和/或用户历史行为信息预先确定。在一个实施例中,所述状态信息还包括,所述当前用户所处场景的场景信息。进一步地,在一个例子中,场景信息包括,位置服务场景信息,支付场景信息,钱包操作事件信息。在一种可能的设计中,营销内容包括营销消息和利益包,所述利益包包括以下中的一种或多种:红包、优惠券、权益。根据一种实施方式,营销渠道包括以下中的一种或多种:消息推送,卡片展示,角标提醒,红点提醒。在一个实施例中,方法还包括,至少基于所述当前奖励分数确定回报价值,所述回报价值包括所述当前奖励分数和至少一项未来奖励分数的加权求和;并且更新营销策略的步骤包括,确定后续营销策略,使得所述回报价值最大化。根据第二方面,提供一种利用深度强化学习进行推荐营销的装置,所述装置包括:状态获取单元,配置为获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;行为确定单元,配置为根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;分数获取单元,配置为获取执行环境针对所述营销行为的当前奖励分数;更新单元,配置为至少根据所述当前奖励分数更新所述营销策略。根据第三方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。通过本说明书实施例提供的方法和装置,全面获取营销环境的当前状态,不仅观察当前用户的用户信息,可选地还观察用户所处的场景,基于全面的营销环境状态,确定营销行为。营销行为的确定也综合考虑多种因素,包括营销渠道的选择,营销内容的选择,营销时段的确定,至少基于渠道、营销内容、营销时段这三者的组合,确定营销行为。如此使得,智能体确定的营销行为同时考虑到营销过程中的多个因素,也就是深度强化学习系统同时对营销过程中多个环节多个因素进行学习,从而综合全面地学习推荐营销的整个业务流程和业务目标,更好地促进业务执行效果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1本说明书披露的一个实施例的推荐营销的执行示意图;图2示出深度强化学习系统的示意图;图3示出根据一个实施例利用深度强化学习进行推荐营销的方法;图4示出多种营销渠道的例子;图5示出根据一个实施例的深度强化学习推荐营销的总体示意图;图6示出根据一个实施例的推荐营销系统架构示意图;图7示出根据一个实施例的装置的示意性框图。具体实施方式根据本说明书的一个或多个实施例,采用深度强化学习的方式,来促进推荐营销的业务效果。下面结合附图,对本说明书提供的方案进行描述。图1为本说明书披露的一个实施例的推荐营销的执行示意图。在推荐营销的场景中,营销最终目标的实现可能需要通过多次营销,变换各种营销方式来完成。例如,对于某个用户A,首先,为其推送一条营销消息,但是用户没有响应。接着,通过渠道1为其发送一种利益包,例如优惠券,用户仍然没有响应。然后,通过另一种渠道,例如渠道2,为其发送另一种利益包,例如红包,用户对营销内容进行了点击,但是没有签约转化。接下来,在特定场景下,用特定渠道发出类似的红包,用户进行了签约转化。通过以上过程可以看到,推荐营销是一个复杂的过程,其完整业务流程包含多个环节多次交互,例如,至少包括以下环节:营销信息的选择和推送,推送之后用户的反馈和追踪。在这些环节中,又涉及诸多因素和参数,例如营销的渠道,推送方式,推送内容,推送场景,推送时间等等。在一种实施方案中,考虑到交互过程中多个环节多个因素对最终营销目标的影响,针对各个环节的各个因素分别进行建模学习。例如,为了考虑渠道差异化对用户转化的影响,建立并训练渠道选择模型,来发掘用户对不同渠道的感知度。为了考虑营销内容(又称为offer,即各种提供给用户的营销信息)对用户转化的影响,建立并训练offer差异选择模型,来发掘不同用户对不同offer种类的兴趣度。考虑到不同用户使用app的习惯不同,建立并训练时段选择模型,以进行时段差异化营销。考虑到营销目标往往通过多个环节多次交互来达成,建立时序化的系列营销模型(例如通过长短期记忆LSTM网络),以追踪多次营销对用户的系列影响。利用这样的方案,可以针对各个环节、各个因素都进行有针对性的学习。然而,在这样的方案中,需要对各个模型分别进行设计、训练、评估,成本很高。如果要估计测算业务的总体执行效果,就需要利用多个模型逐一预测,再对预测结果进行融合,预测过程的复杂度和运算代价也会比较高。如果更换业务内容,通常需要对各个模型都重新进行训练。另一方面,在这样的方案中,任何一个模型出现问题都可能会影响最终营销效果。而实际上,多个单模型中常常会有一部分模型的预测效果并不尽如人意。例如,在一个例子中,利用深度神经网络DNN建立的offer差异选择模型,将offer划分为27类,进行多分类学习。从针对该模型测得的宏平均和混淆矩阵来看,预测准确度有待进一步提高。在此基础上,本说明书实施例还提出一种方案,利用深度强化学习系统来进行推荐营销,以进一步提升业务效果。图本文档来自技高网...

【技术保护点】
1.一种利用深度强化学习进行推荐营销的方法,所述方法包括:获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;获取执行环境针对所述营销行为的当前奖励分数;至少根据所述当前奖励分数更新所述营销策略。

【技术特征摘要】
1.一种利用深度强化学习进行推荐营销的方法,所述方法包括:获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;获取执行环境针对所述营销行为的当前奖励分数;至少根据所述当前奖励分数更新所述营销策略。2.根据权利要求1所述的方法,其中所述用户信息包括,用户基本属性信息,以及用户历史行为信息。3.根据权利要求2所述的方法,其中所述用户历史行为信息包括以下中的至少一项:历史操作序列、最近浏览页面列表、最近接受的营销信息列表、消费记录、交易记录、贷款记录、出行记录、保险记录。4.根据权利要求1所述的方法,其中所述用户信息包括用户画像信息,所述用户画像信息基于用户基本属性信息和/或用户历史行为信息预先确定。5.根据权利要求1所述的方法,其中所述状态信息还包括,所述当前用户所处场景的场景信息。6.根据权利要求5所述的方法,其中所述场景信息包括,位置服务场景信息,支付场景信息,钱包操作事件信息。7.根据权利要求1所述的方法,其中所述营销内容包括营销消息和利益包,所述利益包包括以下中的一种或多种:红包、优惠券、权益。8.根据权利要求1所述的方法,其中所述营销渠道包括以下中的一种或多种:消息推送,卡片展示,角标提醒,红点提醒。9.根据权利要求1所述的方法,还包括,至少基于所述当前奖励分数确定回报价值,所述回报价值包括所述当前奖励分数和至少一项未来奖励分数的加权求和;所述至少根据所述当前奖励分数更新所述营销策略包括,确定后续营销策略,使得所述回报价值最大化。10.一种利用深度强化学习进行推荐营销的装置,所述装置包括:状态获取单元,配置为获取执行环境的状态信息,所述状态信息至少包括当...

【专利技术属性】
技术研发人员:何建杉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1