基于深度强化学习的信息推送方法及装置、设备制造方法及图纸

技术编号:23432242 阅读:15 留言:0更新日期:2020-02-25 13:21
本发明专利技术公开了一种基于深度强化学习的信息推送方法,包括:采集第一方信息、第一方状态数据和第二方行为数据;根据所述第一方信息,计算第二方反馈数据;利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息;输出所述推送信息。本发明专利技术还公开了一种基于深度强化学习的信息推送方法装置、电子设备和存储介质。

Information push method, device and equipment based on deep reinforcement learning

【技术实现步骤摘要】
基于深度强化学习的信息推送方法及装置、设备
本专利技术涉及数据处理
,特别是指一种基于深度强化学习的信息推送方法及装置、设备。
技术介绍
用户增长的目的是为了提升产品在一段时间内的有效用户数,进而提升当下和未来的成交总额(GrossMerchandiseVolume,简称GMV)和利润,进而实现产品/商业成功。常见的用户增长运营方案主要有运营活动、商户活动、渠道拉新等。在针对用户运营拉新方向,渠道拉新会大大帮助运营人员在拉新时进行潜在用户的精准筛选,提高拉新效率,缩短所需时间。常见的渠道有独立软件开发商(IndependentSoftwareVendors,简称ISV)代理服务商、搜索引擎广告、线上媒体广告、自媒体等渠道。为了激励渠道拉新,平台会与各拉新渠道进行结算,如每个新用户奖励10-50元不等。但是,现有的渠道拉新奖励并未系统地测算新用户质量,不管新用户质量高低,其单个新用户奖励都是一样的,难以推动用户拉新手段的更新,也难以有效提升新用户质量。
技术实现思路
有鉴于此,本专利技术实施例的目的之一在于,提出一种基于深度强化学习的信息推送方法及装置、设备,能够在一定程度上解决上述技术问题。基于上述目的,本专利技术实施例的第一个方面,提供了基于深度强化学习的信息推送方法,包括:采集第一方信息、第一方状态数据和第二方行为数据;根据所述第一方信息,计算第二方反馈数据;利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息;输出所述推送信息。可选地,所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种。可选地,所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方消费数据、第一方资产数据、第一方转账数据中的至少一种。可选地,所述第二方行为数据包括第二方针对渠道的行为数据和第二方针对用户的行为数据中的至少一种。可选地,根据所述第一方信息,计算第二方反馈数据,包括:采用以下公式计算第二方反馈数据:总反馈值=单个第一方反馈值×第一方数量×第一方认证率×第一方绑卡率×第一方活跃占比×(1-第一方风险账户比例)×固定系数;其中,单个第一方反馈值是指一个第一方完成注册的反馈数值,第一方数量是指第一方完成注册的数量,第一方认证率是指第一方中进行了身份认证的比例,第一方绑卡率是指第一方中绑定了银行卡的比例,第一方活跃占比是指第一方中进行了预设互动操作的比例,第一方风险账户比例是指第一方中存在风险账户的比例,固定系数是指根据不同行业分别预设的系数。可选地,所述基于深度强化学习的信息推送方法,还包括:建立初始深度强化学习模型;获取历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据;利用所述历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据,训练所述初始深度强化学习模型;经过训练得到所述深度强化学习模型。可选地,所述推送信息至少包括以下其中一项:所述第二方反馈数据、所述反馈数据与预期反馈值的差异、第二方行为数据的优化方案。可选地,利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息,包括:利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,对下一步实施各行为的优先级进行排序;根据排名处于排名阈值范围内的行为,生成所述第二方行为数据的优化方案。可选地,输出所述推送信息之后,还包括:根据所述第一方状态数据、第二方行为数据和第二方反馈数据,优化所述深度强化学习模型。可选地,所述深度强化学习模型,采用以下任意一种方法建立:基于值函数的深度强化学习方法、基于策略梯度的深度强化学习方法、基于演员-评论家模型的深度强化学习方法、基于搜索与监督的深度强化学习方法。本专利技术实施例的第二个方面,提供了一种基于深度强化学习的信息推送装置,包括:采集模块,用于采集第一方信息、第一方状态数据和第二方行为数据;反馈生成模块,用于根据所述第一方信息,计算第二方反馈数据;推送信息生成模块,用于利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息;推送信息输出模块,用于输出所述推送信息。可选地,所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种。可选地,所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方消费数据、第一方资产数据、第一方转账数据中的至少一种。可选地,所述第二方行为数据包括第二方针对渠道的行为数据和第二方针对用户的行为数据中的至少一种。可选地,所述反馈生成模块,用于:采用以下公式计算第二方反馈数据:总反馈值=单个第一方反馈值×第一方数量×第一方认证率×第一方绑卡率×第一方活跃占比×(1-第一方风险账户比例)×固定系数;其中,单个第一方反馈值是指一个第一方完成注册的反馈数值,第一方数量是指第一方完成注册的数量,第一方认证率是指第一方中进行了身份认证的比例,第一方绑卡率是指第一方中绑定了银行卡的比例,第一方活跃占比是指第一方中进行了预设互动操作的比例,第一方风险账户比例是指第一方中存在风险账户的比例,固定系数是指根据不同行业分别预设的系数。可选地,所述推送信息生成模块,用于:建立初始深度强化学习模型;获取历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据;利用所述历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据,训练所述初始深度强化学习模型;经过训练得到所述深度强化学习模型。可选地,所述推送信息至少包括以下其中一项:所述第二方反馈数据、所述反馈数据与预期反馈值的差异、第二方行为数据的优化方案。可选地,所述推送信息生成模块,用于:利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,对下一步实施各行为的优先级进行排序;根据排名处于排名阈值范围内的行为,生成所述第二方行为数据的优化方案。可选地,所述推送信息生成模块,用于:根据所述第一方状态数据、第二方行为数据和第二方反馈数据,优化所述深度强化学习模型。可选地,所述推送信息生成模块,用于采用以下任意一种方法建立所述深度强化学习模型:基于值函数的深度强化学习方法、基于策略梯度的深度强化学习方法、基于演员-评论家模型的深度强化学习方法、基于搜索与监督的深度强化学习方法。本专利技术实施例的第三个方面,提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的信息推送方法,其特征在于,包括:/n采集第一方信息、第一方状态数据和第二方行为数据;/n根据所述第一方信息,计算第二方反馈数据;/n利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息;/n输出所述推送信息。/n

【技术特征摘要】
1.一种基于深度强化学习的信息推送方法,其特征在于,包括:
采集第一方信息、第一方状态数据和第二方行为数据;
根据所述第一方信息,计算第二方反馈数据;
利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息;
输出所述推送信息。


2.根据权利要求1所述的方法,其特征在于,所述第一方信息包括第一方数量、第一方认证率、第一方绑卡率、第一方活跃占比、第一方风险账户比例中的至少一种;
所述第一方状态数据包括第一方认证状态数据、第一方绑卡状态数据、第一方消费数据、第一方资产数据、第一方转账数据中的至少一种;
所述第二方行为数据包括第二方针对渠道的行为数据和第二方针对用户的行为数据中的至少一种。


3.根据权利要求2所述的方法,其特征在于,根据所述第一方信息,计算第二方反馈数据,包括:
采用以下公式计算第二方反馈数据:
总反馈值=单个第一方反馈值×第一方数量×第一方认证率×第一方绑卡率×第一方活跃占比×(1-第一方风险账户比例)×固定系数;
其中,单个第一方反馈值是指一个第一方完成注册的反馈数值,第一方数量是指第一方完成注册的数量,第一方认证率是指第一方中进行了身份认证的比例,第一方绑卡率是指第一方中绑定了银行卡的比例,第一方活跃占比是指第一方中进行了预设互动操作的比例,第一方风险账户比例是指第一方中存在风险账户的比例,固定系数是指根据不同行业分别预设的系数。


4.根据权利要求1所述的方法,其特征在于,还包括:
建立初始深度强化学习模型;
获取历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据;
利用所述历史第一方状态数据、历史第二方行为数据和历史第二方反馈数据,训练所述初始深度强化学习模型;
经过训练得到所述深度强化学习模型。


5.根据权利要求1所述的方法,其特征在于,所述推送信息至少包括以下其中一项:
所述第二方反馈数据、所述反馈数据与预期反馈值的差异、第二方行为数据的优化方案。


6.根据权利要求5所述的方法,其特征在于,利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,生成推送信息,包括:
利用深度强化学习模型,根据所述第一方状态数据、第二方行为数据和第二方反馈数据,对下一步实施各行为的优先级进行排序;
根据排名处于排名阈值范围内的行为,生成所述第二方行为数据的优化方案。


7.根据权利要求1所述的方法,其特征在于,输出所述推送信息之后,还包括:
根据所述第一方状态数据、第二方行为数据和第二方反馈数据,优化所述深度强化学习模型。


8.根据权利要求1所述的方法,其特征在于,所述深度强化学习模型,采用以下任意一种方法建立:
基于值函数的深度强化学习方法、基于策略梯度的深度强化学习方法、基于演员-评论家模型的深度强化学习方法、基于搜索与监督的深度强化学习方法。


9.一种基于深度强化学习的信息推送装置,其特征在于,包括:
采集模块,用于采集第一方信息、第一方状态数据和第二方行为数据;
反馈生成模块,用于根据所述第一方信息,计算第二方反馈数据;
推送信息生成模块,用于利用深度强化...

【专利技术属性】
技术研发人员:张超朱通孙传亮赵华
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1