通过深度强化学习进行营销成本控制的方法及装置制造方法及图纸

技术编号:19905135 阅读:42 留言:0更新日期:2018-12-26 03:26
本说明书实施例提供一种通过深度强化学习系统进行营销成本控制的方法,其中深度强化学习系统包括智能体和执行环境,智能体用于根据营销策略,针对执行环境的状态信息确定营销行为。上述方法包括:确定营销行为的成本;接着,至少根据确定出的成本,确定强化学习的奖励分数,以使奖励分数与成本负相关;然后,将奖励分数返回给智能体,用于智能体优化其营销策略。

【技术实现步骤摘要】
通过深度强化学习进行营销成本控制的方法及装置
本说明书一个或多个实施例涉及机器学习领域,尤其涉及通过深度强化学习进行营销成本控制的方法及装置。
技术介绍
在一项业务场景的业务流程中,不仅要考虑到业务的业务效果,还需要考虑执行该业务所耗费的成本。在推荐营销,特别是金融营销的场景中,为了促使用户使用金融产品,通常会在营销信息中向用户提供一定的激励,如优惠券等。例如,可以向用户推送申购某基金的手续费折扣券,以促使用户申购该基金。显然,激励的力度越大,如折扣越高,则用户使用对应金融产品的可能性越大。但是,激励的力度过大,营销成本越高,甚至会导致超预算。因此,需要一种合理的方案,可以在保证营销效果的同时,尽可能地压低成本。
技术实现思路
本说明书一个或多个实施例描述了一种利用深度强化学习进行营销成本控制的方法和装置,可以在保证营销效果的同时,最大限度地压低营销成本。根据第一方面,提供了一种通过深度强化学习系统进行营销成本控制的方法,所述深度强化学习系统包括智能体和执行环境,所述智能体用于根据营销策略,针对所述执行环境的状态信息确定营销行为,所述方法包括:确定所述营销行为的成本;至少根据所述成本,确本文档来自技高网...

【技术保护点】
1.一种通过深度强化学习系统进行营销成本控制的方法,所述深度强化学习系统包括智能体和执行环境,所述智能体用于根据营销策略,针对所述执行环境的状态信息确定营销行为,所述方法包括:确定所述营销行为的成本;至少根据所述成本,确定强化学习的奖励分数,以使所述奖励分数与所述成本负相关;将所述奖励分数返回给所述智能体,用于所述智能体优化其营销策略。

【技术特征摘要】
1.一种通过深度强化学习系统进行营销成本控制的方法,所述深度强化学习系统包括智能体和执行环境,所述智能体用于根据营销策略,针对所述执行环境的状态信息确定营销行为,所述方法包括:确定所述营销行为的成本;至少根据所述成本,确定强化学习的奖励分数,以使所述奖励分数与所述成本负相关;将所述奖励分数返回给所述智能体,用于所述智能体优化其营销策略。2.根据权利要求1所述的方法,其中,所述营销行为包括发放资源包,所述资源包包括红包、优惠券、账单免息券中的至少一种;所述确定所述营销行为的成本,包括:确定所述资源包对应的资源份额,并将所述资源份额作为所述成本。3.根据权利要求1所述的方法,其中,所述确定强化学习的奖励分数,包括:获取针对所述成本构造的函数,至少基于所述函数确定奖励分数,所述函数被构造为,负相关于所述成本。4.根据权利要求1所述的方法,其中,在所述确定强化学习的奖励分数之前,还包括:从所述执行环境中获取,用户响应于所述智能体确定的营销行为而产生的执行结果,以及营销行为所针对的目标效果。5.根据权利要求4所述的方法,其中,所述确定强化学习的奖励分数,包括:通过分数评估函数确定所述奖励分数,所述分数评估函数以所述执行结果和所述成本为变量,并被设计为,正相关于所述执行结果与所述目标效果的匹配度,以及负相关于所述营销行为的成本。6.根据权利要求4所述的方法,其中,所述确定强化学习的奖励分数,包括:获取基于所述执行结果构造的第一函数,所述第一函数被设计为,正相关于所述执行结果与所述目标效果的匹配度;获取基于所述成本构造的第二函数,所述第二函数被设计为正相关于所述成本;至少基于所述第一函数和所述第二函数确定奖励分数。7.根据权利要求6所述的方法,其中,所述至少基于所述第一函数和所述第二函数确定奖励分数,包括:基于所述第一函数与所述第二函数的比值确定奖励分数;或者基于所述第一函数与所述第二函数的差值确定奖励分数。8.根据权利要求6所述的方法,其中,所述至少基于所述第一函数和所述第二函数确定奖励分数,包括:获取预先建立的第一函数的多个取值区间和第二函数的多个取值区间所形成的多个区间组合与奖励分数的映射关系;根据所述执行结果确定所述第一函数的函数值所落入的第一区间,以及根据所述成本确定所述第二函数的函数值所落入的第二区间,所述第一区间和第二区间形成特定区间组合;根据所述映射关系,确定与所述特定区间组合相对应的奖励分数。9.一种通过深度强化学习系统进行营销成本控制的装置,所述深度强化学习系统包括智能体和执行环境,所述智能体用于根据营销策略,针对所述执行环...

【专利技术属性】
技术研发人员:何建杉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1