信息推送方法及装置制造方法及图纸

技术编号:26259443 阅读:27 留言:0更新日期:2020-11-06 17:54
本公开公开了一种信息推送方法、装置、电子设备及计算机可读存储介质,其中,所述方法包括:当检测到产生信息时,采集信息对应的特征数据,根据特征数据生成当前状态,并根据推送信息生成第一当前动作;将当前状态和第一当前动作输入线上深度强化学习模型,以使线上深度强化学习模型根据当前状态和第一当前动作获取推送信息时对应的分值;若推送信息时对应的分值大于预设分值,则推送信息。本公开通过采集产生的信息对应的特征数据,根据特征数据生成当前状态,并根据推送信息生成第一当前动作,将当前状态和第一当前动作输入线上深度强化学习模型,获取推送信息时对应的分值,若推送信息时对应的分值大于预设分值,则推送信息,可以提高推送准确率,从而提高用户对信息的点击率。

【技术实现步骤摘要】
信息推送方法及装置
本公开涉及信息处理
,尤其涉及一种信息推送方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着互联网技术的飞速发展,人们越来越多地使用个性化推送应用程序(Applicationapp,App)来获取信息,包括新闻、视频等等。这些App除了在用户使用的时候给用户推送感兴趣的信息之外,还可以通过信息推送机制,在用户没有使用app的时候主动给用户推送定制化的信息。相关技术中,通常采用基于候选集内容触发和频率控制规则的信息推送方案,具体来说,对每个用户来说,都有一个与之关联的内容候选集,例如热门视频、该用户关注的作者上传的视频等。当候选集里面产生新的内容的时候,触发推送决策。其中,推送决策主要基于发送频率,例如连续两条信息推送通知的间隔不能少于一定的时间。虽然上述方案在一定程度上能够实现信息推送的个性化,然而,用户本身的行为模式是一个很复杂的过程,每一条信息推送都会给用户的观看状态和之后的行为产生影响。例如,如果用户点击过某一app的某一推送信息,对该推送信息不感兴趣,从而对该app产生了疲倦感,很可能不会继续点击随后的一条更好的推送,因此直接从候选集触发,缺少个性化。
技术实现思路
本公开提供一种信息推送方法、装置、电子设备及计算机可读存储介质,可以提高推送准确率,从而提高用户对信息的点击率。根据本公开实施例的第一方面,提供一种信息推送方法,包括:当检测到产生信息时,采集所述信息对应的特征数据;根据所述特征数据生成当前状态,并根据推送所述信息生成第一当前动作;将所述当前状态和所述第一当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第一当前动作获取所述推送所述信息时对应的分值;若所述推送所述信息时对应的分值大于预设分值,则推送所述信息。进一步的,所述方法还包括:根据不推送所述信息生成第二当前动作;将所述当前状态和所述第二当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第二当前动作获取所述不推送所述信息时对应的分值,并将所述不推送所述信息时对应的分值作为所述预设分值。进一步的,所述方法还包括:搜集推送所述信息后的用户反馈情况;将所述用户反馈情况和所述特征数据进行关联,并将所述关联后的用户反馈情况和特征数据作为训练数据,更新所述线上深度强化学习模型。进一步的,所述将所述当前状态和所述第一当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第一当前动作获取所述推送所述信息时对应的分值,包括:将所述当前状态和所述第一当前动作输入损失函数或中;其中,∑为求和,max为求最大值,Q()表示线上深度学习神经网络,θ-和θ为网络参数,D为特征数据集,r为反馈,γ为反馈折扣,s'为前一个状态,a'为前一个动作,s为所述当前状态,a为所述第一当前动作;将所述线上深度学习神经网络的输出值作为所述推送所述信息时对应的分值。进一步的,所述方法还包括:统计所述线上深度强化学习模型在预设时间段内对历史产生的信息做出的历史推荐,所述历史推荐包括推送或不推送;根据所述历史推荐设置所述反馈折扣的数值。进一步的,所述特征数据包括所述信息与用户间的关联特征、上下文特征、内容特征和用户特征中的至少一种特征。进一步的,所述关联特征包括对所述作者的作品的点击量、观看量、点赞量和送礼量中的至少一项特征。进一步的,所述上下文特征包括当前时间、上一次推送信息的时间、上一次推送信息的点击情况和当天已推送信息量和当天已推送信息量的点击情况中的至少一项特征。根据本公开实施例的第二方面,提供一种信息推送装置,包括:特征采集模块,被配置为当检测到产生信息时,采集所述信息对应的特征数据;状态动作生成模块,被配置为根据所述特征数据生成当前状态,并根据推送所述信息生成第一当前动作;分值获取模块,被配置为将所述当前状态和所述第一当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第一当前动作获取所述推送所述信息时对应的分值;推送模块,被配置为若所述推送所述信息时对应的分值大于预设分值,则推送所述信息。进一步的,所述状态动作生成模块还被配置为:根据不推送所述信息生成第二当前动作;相应的,所述分值获取模块还被配置为:将所述当前状态和所述第二当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第二当前动作获取所述不推送所述信息时对应的分值,并将所述不推送所述信息时对应的分值作为所述预设分值。进一步的,所述装置还包括:反馈搜集模块,被配置为搜集推送所述信息后的用户反馈情况;模型更新模块,被配置为将所述用户反馈情况和所述特征数据进行关联,并将所述关联后的用户反馈情况和特征数据作为训练数据,更新所述线上深度强化学习模型。进一步的,所述分值获取模块具体被配置为:将所述当前状态和所述第一当前动作输入损失函数或中;其中,∑为求和,max为求最大值,Q()表示线上深度学习神经网络,θ-和θ为网络参数,D为特征数据集,r为反馈,γ为反馈折扣,s'为前一个状态,a'为前一个动作,s为所述当前状态,a为所述第一当前动作;将所述线上深度学习神经网络的输出值作为所述推送所述信息时对应的分值。进一步的,所述装置还包括:反馈折扣确定模块,被配置为统计所述线上深度强化学习模型在预设时间段内对历史产生的信息做出的历史推荐,所述历史推荐包括推送或不推送;根据所述历史推荐设置所述反馈折扣的数值。进一步的,所述特征数据包括所述信息与用户间的关联特征、上下文特征、内容特征和用户特征中的至少一种特征。进一步的,所述关联特征包括对所述作者的作品的点击量、观看量、点赞量和送礼量中的至少一项特征。进一步的,所述上下文特征包括当前时间、上一次推送信息的时间、上一次推送信息的点击情况和当天已推送信息量和当天已推送信息量的点击情况中的至少一项特征。根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:当检测到产生信息时,采集所述信息对应的特征数据;根据所述特征数据生成当前状态,并根据推送所述信息生成第一当前动作;将所述当前状态和所述第一当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第一当前动作获取所述推送所述信息时对应的分值;若所述推送所述信息时对应的分值大于预设分值,则推送所述信息。根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种信息推送方法,所述方法包括:当检测到产生信息时,采集所述信息对应的特征数本文档来自技高网...

【技术保护点】
1.一种信息推送方法,其特征在于,包括:/n当检测到产生信息时,采集所述信息对应的特征数据;/n根据所述特征数据生成当前状态,并根据推送所述信息生成第一当前动作;/n将所述当前状态和所述第一当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第一当前动作获取所述推送所述信息时对应的分值;/n若所述推送所述信息时对应的分值大于预设分值,则推送所述信息。/n

【技术特征摘要】
1.一种信息推送方法,其特征在于,包括:
当检测到产生信息时,采集所述信息对应的特征数据;
根据所述特征数据生成当前状态,并根据推送所述信息生成第一当前动作;
将所述当前状态和所述第一当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第一当前动作获取所述推送所述信息时对应的分值;
若所述推送所述信息时对应的分值大于预设分值,则推送所述信息。


2.根据权利要求1所述的信息推送方法,其特征在于,所述方法还包括:
根据不推送所述信息生成第二当前动作;
将所述当前状态和所述第二当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第二当前动作获取所述不推送所述信息时对应的分值,并将所述不推送所述信息时对应的分值作为所述预设分值。


3.根据权利要求1所述的信息推送方法,其特征在于,所述方法还包括:
搜集推送所述信息后的用户反馈情况;
将所述用户反馈情况和所述特征数据进行关联,并将所述关联后的用户反馈情况和特征数据作为训练数据,更新所述线上深度强化学习模型。


4.根据权利要求1所述的信息推送方法,其特征在于,所述将所述当前状态和所述第一当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第一当前动作获取所述推送所述信息时对应的分值,包括:
将所述当前状态和所述第一当前动作输入损失函数或中;其中,∑为求和,max为求最大值,Q()表示线上深度学习神经网络,θ-和θ为网络参数,D为特征数据集,r为反馈,γ为反馈折扣,s'为前一个状态,a'为前一个动作,s为所述当前状态,a为所述第一当前动作;
将所述线上深度学习神经网络的输出值作为所述推送所述信息时对应的分值。


5.根据权利要求4所述的信息推送方法,其特征在于,所述方法还包括:
统计所述线上深度强化学习模型在预设时间段内对历史产生的信息做出的历史推荐,所述历史推荐包括推送或不推送;
根据所述历史推荐设置所述反馈折扣的数值。

【专利技术属性】
技术研发人员:姜飞卞俊杰王天驹叶璨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1