信息推送方法、装置、设备、介质及计算机产品制造方法及图纸

技术编号:33292502 阅读:97 留言:0更新日期:2022-05-01 00:14
本发明专利技术提供一种信息推送方法、装置、设备、介质及计算机产品,该方法包括:获取待推送用户对应的推送相关数据;所述推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间,以及各候选推送信息对应评分数据的评分平均偏差;将所述推送相关数据输入训练至收敛的推荐模型中,以从各候选推送信息中确定目标推送信息;所述训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q

【技术实现步骤摘要】
信息推送方法、装置、设备、介质及计算机产品


[0001]本专利技术涉及数据处理
,尤其涉及一种信息推送方法、装置、设备、介质及计算机产品。

技术介绍

[0002]信息推送是通过一定的技术标准或协议,在互联网上通过定期传送用户需要的信息来减少信息过载的一项技术。在信息推送
中,推荐模型的质量能较大的影响信息推送整体质量的高低。
[0003]SVDPP算法(中文为:奇异值分解的改进算法,英文全称为:Singular Value Decomposition Plus Plus)是一种基于协同过滤的推荐模型,该模型基于用户端和推送信息端两方面,推送信息可以包括产品、宣传等,且融入了隐式反馈信息,增强了对用户喜好方面的预测。
[0004]然而,SVDPP算法并没有考虑时间对于信息推送的影响,因而,目前信息推送的准确性还有待提高。

技术实现思路

[0005]本专利技术提供一种信息推送方法、装置、设备、介质及计算机产品,用以解决目前信息推送的准确性还有待提高的问题。
[0006]本专利技术第一方面提供一种信息推送方法,包括:
[0007]获取待推送用户对应的推送相关数据;所述推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间,以及各候选推送信息对应评分数据的评分平均偏差;
[0008]将所述推送相关数据输入训练至收敛的推荐模型中,以从各候选推送信息中确定目标推送信息;所述训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q

Learning算法训练后生成的;
[0009]将所述目标推送信息发送至与所述待推送用户匹配的用户终端。
[0010]进一步地,如上所述的方法,所述训练至收敛的推荐模型包括训练至收敛的SVDPP算法、训练至收敛的马尔科夫决策子模型和训练至收敛的Q

Learning算法;
[0011]所述将所述推送相关数据输入训练至收敛的推荐模型中,以从各候选推送信息中确定目标推送信息,包括:
[0012]根据所述推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值;
[0013]将各所述初始预测评分、与各所述初始预测评分匹配的所述奖惩值、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的Q

Learning算法,以确定各候选推送信息对应的Q值列表;所述Q值列表包括多个Q值;所述Q值用于表示相邻评分时
间对应的评分之间的关联性;
[0014]根据所述Q值列表和各所述初始预测评分从各候选推送信息中确定所述目标推送信息。
[0015]进一步地,如上所述的方法,所述根据所述推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值,包括:
[0016]将所述待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分,以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法,以生成各候选推送信息对应的初始预测评分;
[0017]将各所述初始预测评分、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的马尔科夫决策子模型,以输出各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值。
[0018]进一步地,如上所述的方法,所述将所述待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分,以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法,以生成各候选推送信息对应的初始预测评分,包括:
[0019]采用训练至收敛的SVDPP算法将所述待推送用户特征转化为待推送用户特征向量和将各所述信息特征转化为对应信息特征向量;
[0020]采用训练至收敛的SVDPP算法根据各所述历史评分确定待推送用户对应的评分平均偏差和各候选推送信息的评分数据中属于待推送用户的各评分的平均值;所述待推送用户对应的评分平均偏差为待推送用户所有历史评分的平均值的偏差;所述属于待推送用户的各评分的平均值与各候选推送信息相匹配;
[0021]采用训练至收敛的SVDPP算法根据所述待推送用户特征向量、各信息特征向量、待推送用户对应的评分平均偏差、所述属于待推送用户的各评分的平均值以及各候选推送信息的评分平均偏差确定各候选推送信息对应的初始预测评分。
[0022]进一步地,如上所述的方法,所述根据所述Q值列表和各所述初始预测评分从各候选推送信息中确定所述目标推送信息,包括:
[0023]根据所述Q值列表和各所述初始预测评分确定各候选推送信息对应的最终预测评分;
[0024]将各最终预测评分以及匹配的候选推送信息按照最终预测评分从大到小排列,将其中排序靠前的预设数量的候选推送信息确定为目标推送信息。
[0025]进一步地,如上所述的方法,所述将所述推送相关数据输入训练至收敛的推荐模型中,以从各候选推送信息中确定目标推送信息之前,还包括:
[0026]获取训练样本,所述训练样本中包括:目标用户特征、多个候选推送信息的信息特征、目标用户对多个候选推送信息的历史评分和评分时间,以及各候选推送信息对应评分数据的评分平均偏差;
[0027]将所述训练样本输入到预设推荐模型中,以对所述预设推荐模型进行训练;
[0028]采用均方根误差函数判断所述预设推荐模型是否满足收敛条件;
[0029]若所述预设推荐模型满足收敛条件,则将满足收敛条件的预设推荐模型确定为训练至收敛的推荐模型。
[0030]本专利技术第二方面提供一种信息推送装置,包括:
[0031]获取模块,用于获取待推送用户对应的推送相关数据;所述推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间,以及各候选推送信息对应评分数据的评分平均偏差;
[0032]确定模块,用于将所述推送相关数据输入训练至收敛的推荐模型中,以从各候选推送信息中确定目标推送信息;所述训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q

Learning算法训练后生成的;
[0033]发送模块,用于将所述目标推送信息发送至与所述待推送用户匹配的用户终端。
[0034]进一步地,如上所述的装置,所述训练至收敛的推荐模型包括训练至收敛的SVDPP算法、训练至收敛的马尔科夫决策子模型和训练至收敛的Q

Learning算法;
[0035]所述确定模块具体用于:
[0036]根据所述推送相关数据、训练至收敛的SV本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息推送方法,其特征在于,包括:获取待推送用户对应的推送相关数据;所述推送相关数据包括待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分和评分时间,以及各候选推送信息对应评分数据的评分平均偏差;将所述推送相关数据输入训练至收敛的推荐模型中,以从各候选推送信息中确定目标推送信息;所述训练至收敛的推荐模型为根据奇异值分解的改进算法SVDPP算法、马尔科夫决策子模型和Q学习Q

Learning算法训练后生成的;将所述目标推送信息发送至与所述待推送用户匹配的用户终端。2.根据权利要求1所述的方法,其特征在于,所述训练至收敛的推荐模型包括训练至收敛的SVDPP算法、训练至收敛的马尔科夫决策子模型和训练至收敛的Q

Learning算法;所述将所述推送相关数据输入训练至收敛的推荐模型中,以从各候选推送信息中确定目标推送信息,包括:根据所述推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值;将各所述初始预测评分、与各所述初始预测评分匹配的所述奖惩值、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的Q

Learning算法,以确定各候选推送信息对应的Q值列表;所述Q值列表包括多个Q值;所述Q值用于表示相邻评分时间对应的评分之间的关联性;根据所述Q值列表和各所述初始预测评分从各候选推送信息中确定所述目标推送信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述推送相关数据、训练至收敛的SVDPP算法和训练至收敛的马尔科夫决策子模型生成各候选推送信息对应的初始预测评分以及各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值,包括:将所述待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分,以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法,以生成各候选推送信息对应的初始预测评分;将各所述初始预测评分、待推送用户对多个候选推送信息的历史评分以及评分时间输入训练至收敛的马尔科夫决策子模型,以输出各候选推送信息在训练至收敛的马尔科夫决策子模型中对应的奖惩值。4.根据权利要求3所述的方法,其特征在于,所述将所述待推送用户特征、多个候选推送信息的信息特征、待推送用户对多个候选推送信息的历史评分,以及各候选推送信息的评分平均偏差输入训练至收敛的SVDPP算法,以生成各候选推送信息对应的初始预测评分,包括:采用训练至收敛的SVDPP算法将所述待推送用户特征转化为待推送用户特征向量和将各所述信息特征转化为对应信息特征向量;采用训练至收敛的SVDPP算法根据各所述历史评分确定待推送用户对应的评分平均偏差和各候选推送信息的评...

【专利技术属性】
技术研发人员:卢金环
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1