利用深度强化学习进行推荐营销的方法及装置制造方法及图纸

技术编号：19779732 阅读：50 留言：0更新日期：2018-12-15 11:48

本说明书实施例提供一种利用深度强化学习进行推荐营销的方法和装置，方法包括，全面获取执行环境的状态信息，其至少包括当前用户的用户信息，还可以包括用户所处场景的场景信息。然后根据营销策略，针对上述状态信息确定相应的营销行为，营销行为包括营销渠道、营销内容和营销时段的组合。接着，获取执行环境针对营销行为的当前奖励分数，并根据当前奖励分数更新营销策略，从而全面学习营销业务过程。

全部详细技术资料下载

【技术实现步骤摘要】
利用深度强化学习进行推荐营销的方法及装置
本说明书一个或多个实施例涉及机器学习领域，尤其涉及利用深度强化学习进行推荐营销的方法及装置。
技术介绍
机器学习的迅猛发展使得各种机器学习的模型已经应用在各种各样的业务场景中，例如用于评估用户的信用风险，用于向用户推荐合适的内容，或向用户推送合适的营销信息，用于预测广告的投放效果等。实际上，一项业务场景的完整业务流程经常包含多个阶段或多个环节，其中涉及诸多因素。例如，在推荐营销的业务场景中，业务至少可以包括以下环节：营销信息的选择和推送，推送之后用户的反馈和追踪。在这些环节中，又涉及诸多因素和参数，例如营销的渠道，推送方式，触达率，转化率等等。因此，在试图将机器学习应用到业务场景中时，面对复杂的业务场景中的诸多环节和诸多因素，如何设计和选择适用的模型，引入何种因素衡量业务的执行状况，都是需要考虑的问题。因此，希望能有改进的方案，更加高效地用机器学习提高业务执行效果。
技术实现思路
本说明书一个或多个实施例描述了一种利用深度强化学习进行推荐营销的方法和装置，可以综合全面地对推荐营销业务中的多个环节多个因素进行学习，以综合全面地促进业务效果。根据第一方面，提供了一种利用深度强化学习进行推荐营销的方法，所述方法包括：获取执行环境的状态信息，所述状态信息至少包括当前用户的用户信息；根据营销策略，针对所述状态信息确定相应的营销行为，所述营销行为包括营销渠道、营销内容和营销时段的组合；获取执行环境针对所述营销行为的当前奖励分数；至少根据所述当前奖励分数更新所述营销策略。根据一种实施方式，所述用户信息包括，用户基本属性信息，以及用户...

【技术保护点】
1.一种利用深度强化学习进行推荐营销的方法，所述方法包括：获取执行环境的状态信息，所述状态信息至少包括当前用户的用户信息；根据营销策略，针对所述状态信息确定相应的营销行为，所述营销行为包括营销渠道、营销内容和营销时段的组合；获取执行环境针对所述营销行为的当前奖励分数；至少根据所述当前奖励分数更新所述营销策略。

【技术特征摘要】
1.一种利用深度强化学习进行推荐营销的方法，所述方法包括：获取执行环境的状态信息，所述状态信息至少包括当前用户的用户信息；根据营销策略，针对所述状态信息确定相应的营销行为，所述营销行为包括营销渠道、营销内容和营销时段的组合；获取执行环境针对所述营销行为的当前奖励分数；至少根据所述当前奖励分数更新所述营销策略。2.根据权利要求1所述的方法，其中所述用户信息包括，用户基本属性信息，以及用户历史行为信息。3.根据权利要求2所述的方法，其中所述用户历史行为信息包括以下中的至少一项：历史操作序列、最近浏览页面列表、最近接受的营销信息列表、消费记录、交易记录、贷款记录、出行记录、保险记录。4.根据权利要求1所述的方法，其中所述用户信息包括用户画像信息，所述用户画像信息基于用户基本属性信息和/或用户历史行为信息预先确定。5.根据权利要求1所述的方法，其中所述状态信息还包括，所述当前用户所处场景的场景信息。6.根据权利要求5所述的方法，其中所述场景信息包括，位置服务场景信息，支付场景信息，钱包操作事件信息。7.根据权利要求1所述的方法，其中所述营销内容包括营销消息和利益包，所述利益包包括以下中的一种或多种：红包、优惠券、权益。8.根据权利要求1所述的方法，其中所述营销渠道包括以下中的一种或多种：消息推送，卡片展示，角标提醒，红点提醒。9.根据权利要求1所述的方法，还包括，至少基于所述当前奖励分数确定回报价值，所述回报价值包括所述当前奖励分数和至少一项未来奖励分数的加权求和；所述至少根据所述当前奖励分数更新所述营销策略包括，确定后续营销策略，使得所述回报价值最大化。10.一种利用深度强化学习进行推荐营销的装置，所述装置包括：状态获取单元，配置为获取执行环境的状态信息，所述状态信息至少包括当...

【专利技术属性】
技术研发人员：何建杉，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人