一种模型处理方法及相关产品技术

技术编号:33087628 阅读:25 留言:0更新日期:2022-04-15 10:54
本发明专利技术实施例公开了一种模型处理方法及相关产品,其中方法包括获取样本对象的第一对象信息和推荐项候选集;调用融合权重模型对第一对象信息进行处理,确定反馈行为的融合权重集合;根据融合权重集合和预测概率,确定目标推荐项;分别确定每个目标推荐项的预测反馈行为,根据预测反馈行为确定反馈奖励;获取所述样本对象的第二对象信息;其中,由第一对象信息、融合权重集合、反馈奖励和第二对象信息组成的训练样本,用于训练融合权重模型,训练后的融合权重模型用于多媒体数据推荐。本申请可以提升生成的训练样本的真实性,减小训练样本的数据误差,提升模型的训练效果和使用效果。提升模型的训练效果和使用效果。提升模型的训练效果和使用效果。

【技术实现步骤摘要】
一种模型处理方法及相关产品


[0001]本申请涉及人工智能
,尤其涉及一种模型处理方法及相关产品。

技术介绍

[0002]随着互联网中信息量的大幅增长,用户在面对大量信息时很难从中获取到真正有价值的信息,造成信息超载问题。解决信息超载问题的一种方法是推荐系统,它根据用户的信息需求、兴趣等,将用户感兴趣的商品、文章、图片、短视频等推荐给用户。
[0003]当海量的待推荐项输入到推荐系统后,依次经过召回、排序和重排序,得到推荐列表。其中,重排序作为推荐系统与用户交互的最后环节,可以依据用户的满意度对待推荐项进一步排序。为了提高重排序结果的精确度,可以采用人工智能模型来进行重排序。但是在这些模型训练过程中,往往需要大量的训练样本。目前的技术方案是通过模拟器生成训练样本,生成的训练样本具有数据偏差,进而导致模型的训练效果和使用效果不佳。

技术实现思路

[0004]本申请提供一种模型处理方法及相关产品,可以提升生成的训练样本的真实性,减小训练样本的数据偏差,进而提升模型的训练效果和使用效果。
[0005]本申请提供了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型处理方法,其特征在于,所述方法包括:获取样本对象的第一对象信息和推荐项候选集;所述推荐项候选集包括L个候选推荐项,以及每个候选推荐项对应的N种反馈行为的预测概率,L、N均为正整数,所述第一对象信息是根据所述样本对象的第一线上请求数据获取的;调用融合权重模型对所述第一对象信息进行处理,确定所述N种反馈行为的融合权重集合;根据所述融合权重集合和所述预测概率,从所述L个候选推荐项中选取M个目标推荐项,M≤L;分别确定每个目标推荐项的预测反馈行为,根据M个预测反馈行为确定反馈奖励;获取所述样本对象的第二对象信息,所述第二对象信息是根据所述样本对象的第二线上请求数据获取的,所述第一线上请求数据和所述第二线上请求数据分别对应的时间信息不同;其中,由所述第一对象信息、所述融合权重集合、所述反馈奖励和所述第二对象信息组成的训练样本,用于训练所述融合权重模型,训练后的融合权重模型用于多媒体数据推荐。2.根据权利要求1所述的方法,其特征在于,所述根据所述融合权重集合和所述预测概率,从所述L个候选推荐项中选取M个目标推荐项,包括:将待处理候选推荐项的N种反馈行为的预测概率与所述融合权重集合进行加权求和运算,得到所述待处理候选推荐项的推荐分数,所述待处理候选推荐项是所述L个候选推荐项中的一个候选推荐项;将所述L个候选推荐项的推荐分数按照从大到小的顺序排序,将前M个推荐分数对应的M个候选推荐项作为M个目标推荐项。3.根据权利要求1所述的方法,其特征在于,待处理目标推荐项是所述M个目标推荐项中的一个目标推荐项,确定所述待处理目标推荐项的预测反馈行为的过程,包括:获取第一预测策略以及所述第一预测策略的第一被选取概率,获取第二预测策略以及所述第二预测策略的第二被选取概率;所述第一预测策略和所述第二预测策略各不相同;根据所述第一被选取概率和所述第二被选取概率,为所述待处理目标推荐项从所述第一预测策略和所述第二预测策略中选取目标预测策略;根据所述目标预测策略,确定所述待处理目标推荐项的预测反馈行为。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标预测策略,确定所述待处理目标推荐项的预测反馈行为,包括:按照所述目标预测策略,确定所述待处理目标推荐项的每种反馈行为的模拟概率;获取多个对象对所述待处理目标推荐项的N种反馈行为的线上反馈概率,以及获取所述多个对象对所述待处理目标推荐项的N种反馈行为的预测反馈概率;根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率,对N个模拟概率进行修正,得到所述待处理目标推荐项的N种反馈行为的目标概率;将N个目标概率组合为所述待处理目标推荐项的预测反馈行为。5.根据权利要求4所述的方法,其特征在于,所述确定所述待处理目标推荐项的每种反馈行为的模拟概率,包括:当所述目标预测策略是第一预测策略时,将所述待处理目标推荐项的每种反馈行为的
预测概率,作为所述待处理目标推荐项的每种反馈行为的模拟概率;或者,当所述目标预测策略是第二预测策略时,分别确定所述待处理目标推荐项的每种反馈行为的反馈概率阈值,根据所述反馈概率阈值分别确定所述待处理目标推荐项的N种反馈行为的反馈概率区间,在N个反馈概率区间分别随机采样,确定所述待处理目标推荐项的每种反馈行为的模拟概率。6.根据权利要求4所述的方法,其特征在于,所述根据每个对象的N个线上反馈概率以及每个对象的N个预测反馈概率,对N个模拟概率进行修正,得到所述待处理目标推荐项的N种反馈行为的目标概率,包括:根据所述每个对象的N个线上反馈概率,确定每种反馈行为的线上反馈均值和线上反馈方差;根据所述每个对象的N个预测反馈概率,确定每种反馈行为的预测反馈均值和预测反馈方差;根据N个线上反馈方差和N个预测反馈方差,确定每种反馈行为的重要性权重;根据所述每种反馈行为的重要性权重、所述每种反馈行为的线上反馈均值以及所述每种反馈行为的预测反馈均值,分别对所述N个模拟概率进行修正,得到所述待处理目标推荐项的N种反馈行为的目标概率。7.根据权利要求4所述的方法,其特征在于,所述根据M个预测反馈行为确定反馈奖励,包括:将所述待处理目标推荐项的N个目标概率进行加权求和运算,得到所述待处理目标推荐项的反馈奖励分量;对M个所述反馈奖励分量进行叠加处理,确定所述反馈奖励。8.根据权利要求7所述的方法,其特征...

【专利技术属性】
技术研发人员:韩瑞东王建东刘军宁齐逸岩郑昆仑黄帆
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1