一种强化学习的营销决策方法、装置及计算机可读存储介质制造方法及图纸

技术编号:37203430 阅读:24 留言:0更新日期:2023-04-20 22:57
本发明专利技术提供了一种基于强化学习的营销决策方法、装置、系统及计算机可读存储介质,该方法包括:获取状态时序特征,利用策略网络预测对应的营销行为;将状态时序特征和营销行为输入Q函数网络,动态决策最优策略;获取用户针对营销行为的反馈操作,根据反馈操作和营销行为的成本确定奖励;基于奖励优化Q函数。利用上述方法,能够实现更精准营销。能够实现更精准营销。能够实现更精准营销。

【技术实现步骤摘要】
一种强化学习的营销决策方法、装置及计算机可读存储介质


[0001]本专利技术属于强化学习领域,具体涉及一种强化学习的营销决策方法、装置及计算机可读存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]因此,在推荐营销系统中,为了促使用户购买商品,通常会在营销信息中向用户提供一定的营销权益,如优惠券等。例如,可以向用户推送申购某商品类别的满减权,以促使用户购买该类商品。
[0004]因此,如何实现更为精准营销是一个亟待解决的问题。

技术实现思路

[0005]针对上述现有技术中存在的问题,提出了一种强化学习的营销决策方法、装置及计算机可读存储介质,利用这种方法、装置及计算机可读存储介质,能够解决上述问题。
[0006]本专利技术提供了以下方案。
[0007]第一方面,提供一种基于强化学习的营销决策方法,包括:获取状态时序特征,利用策略网络预测对应的多个营销行为;将状态时序特征和多个营销行为输入本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的营销决策方法,其特征在于,包括:获取状态时序特征,利用策略网络预测对应的营销行为;将所述状态时序特征和所述营销行为输入Q函数网络,动态决策最优策略;获取用户针对所述营销行为的反馈操作,根据所述反馈操作和所述营销行为的成本确定奖励;基于所述奖励优化所述Q函数网络和所述策略网络。2.根据权利要求1所述的营销决策方法,其特征在于,所述营销行为的成本和所述奖励负相关,所述营销行为的成本包括浮动营销成本和固定营销成本。3.根据权利要求1所述的营销决策方法,其特征在于,所述浮动营销成本和用户客群重叠度正相关。4.根据权利要求1所述的营销决策方法,其特征在于,所述浮动营销成本和用户承兑营销权益的成本正相关。5.根据权利要求1所述的营销决策方法,所述状态时序特征包括:用户基础特征、用户行为时序特征和营销场景时序特征。6.根据权利要求1所述的营销决策方法,所述用户行为时序特征至少包括以下中的一种或多种:用户在多个平台的消费行为时序特征,用户的行为埋点特征,用户的消费客单价时序特征。7.根据权利要求1所述的营销决策方法,所述营销场景时序特征包括:所述营销活动的文本的嵌入式表达;和/或,所述营销活动的目标客群相关度。8.根据权利要求1所述的营销决策方法,其特征在于,还包括:获取用户针对所述营销行为的一种或多种反馈行为,所述反馈行为包括以下中的一种或多种:登录行为、点击行为和支付行为;确定每种反馈行为的动态权重;基于所述动态权重对每种反馈行为进行加权,优化所述奖励。9.根据权利要求1所述的营销决策方法,其特征在于,还包括:将用户针对所述营销行为的登录行为、点击行为和支付行为进行融合,获得评分;根据所述评分优化损失函数。10.根据权利要求1所述的营销决策方法,其特征在于,利用以下公式融合所述登录行为、点击行为和支付行为:score
i
=login
i
*[click
i
*(pay
i
+a)+b]其中,所述login
i
是指登录行为,所述pay
i
是指支付行为,所述click
i
是指点击行为,所述a、b为参数。11.根据权利要求1所述的营销决策方法,其特征在于,确定所述目标营销行为的奖励,还包括:惩罚用户的以下一种或多种漏损反馈行为:用户点击后没有消费转化的第一漏损反馈行为;用户曝光后没有点击转化的第二漏损反馈行为;用户点击后没有登录转化的第三漏损反馈行为。12...

【专利技术属性】
技术研发人员:骆浩楠王钰蒋海俭闵青
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1