【技术实现步骤摘要】
信息推送方法及装置
本公开涉及信息处理
,尤其涉及一种信息推送方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着互联网技术的飞速发展,人们越来越多地使用个性化推送应用程序(Applicationapp,App)来获取信息,包括新闻、视频等等。这些App除了在用户使用的时候给用户推送感兴趣的信息之外,还可以通过信息推送机制,在用户没有使用app的时候主动给用户推送定制化的信息。相关技术中,通常采用基于候选集内容触发和频率控制规则的信息推送方案,具体来说,对每个用户来说,都有一个与之关联的内容候选集,例如热门视频、该用户关注的作者上传的视频等。当候选集里面产生新的内容的时候,触发推送决策。其中,推送决策主要基于发送频率,例如连续两条信息推送通知的间隔不能少于一定的时间。虽然上述方案在一定程度上能够实现信息推送的个性化,然而,用户本身的行为模式是一个很复杂的过程,每一条信息推送都会给用户的观看状态和之后的行为产生影响。例如,如果用户点击过某一app的某一推送信息,对该推送信息不感兴趣,从而对该 ...
【技术保护点】
1.一种信息推送方法,其特征在于,包括:/n当检测到产生信息时,采集所述信息对应的特征数据;/n根据所述特征数据生成当前状态,并根据推送所述信息生成第一当前动作;/n将所述当前状态和所述第一当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第一当前动作获取所述推送所述信息时对应的分值;/n若所述推送所述信息时对应的分值大于预设分值,则推送所述信息。/n
【技术特征摘要】 【专利技术属性】
1.一种信息推送方法,其特征在于,包括:
当检测到产生信息时,采集所述信息对应的特征数据;
根据所述特征数据生成当前状态,并根据推送所述信息生成第一当前动作;
将所述当前状态和所述第一当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第一当前动作获取所述推送所述信息时对应的分值;
若所述推送所述信息时对应的分值大于预设分值,则推送所述信息。
2.根据权利要求1所述的信息推送方法,其特征在于,所述方法还包括:
根据不推送所述信息生成第二当前动作;
将所述当前状态和所述第二当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第二当前动作获取所述不推送所述信息时对应的分值,并将所述不推送所述信息时对应的分值作为所述预设分值。
3.根据权利要求1所述的信息推送方法,其特征在于,所述方法还包括:
搜集推送所述信息后的用户反馈情况;
将所述用户反馈情况和所述特征数据进行关联,并将所述关联后的用户反馈情况和特征数据作为训练数据,更新所述线上深度强化学习模型。
4.根据权利要求1所述的信息推送方法,其特征在于,所述将所述当前状态和所述第一当前动作输入线上深度强化学习模型,以使所述线上深度强化学习模型根据所述当前状态和所述第一当前动作获取所述推送所述信息时对应的分值,包括:
将所述当前状态和所述第一当前动作输入损失函数或中;其中,∑为求和,max为求最大值,Q()表示线上深度学习神经网络,θ-和θ为网络参数,D为特征数据集,r为反馈,γ为反馈折扣,s'为前一个状态,a'为前一个动作,s为所述当前状态,a为所述第一当前动作;
将所述线上深度学习神经网络的输出值作为所述推送所述信息时对应的分值。
5.根据权利要求4所述的信息推送方法,其特征在于,所述方法还包括:
统计所述线上深度强化学习模型在预设时间段内对历史产生的信息做出的历史推荐,所述历史推荐包括推送或不推送;
根据所述历史推荐设置所述反馈折扣的数值。
技术研发人员:姜飞,卞俊杰,王天驹,叶璨,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。