基于人工智能的多目标推荐模型的训练方法及装置制造方法及图纸

技术编号:24010748 阅读:15 留言:0更新日期:2020-05-02 01:39
本发明专利技术提供了一种基于人工智能的多目标推荐模型的训练方法、装置、电子设备及存储介质;方法包括:获取多目标推荐模型的训练样本,该训练样本标注有与交互特征相对应的至少两个标签;该交互特征包括第一交互特征及至少一个第二交互特征,第二交互特征的采样时间窗口大于第一交互特征的采样时间窗口;将训练样本分别输入至少一个教师模型;通过至少一个教师模型,分别对训练样本进行第二交互特征预测,得到相应的预测结果;基于得到的预测结果,更新训练样本中相应第二交互特征的标签,得到更新至少一个标签后的训练样本;基于更新至少一个标签后的训练样本,训练多目标推荐模型;通过本发明专利技术,能够提高多目标推荐模型的预测精度。

Training method and device of multi-objective recommendation model based on Artificial Intelligence

【技术实现步骤摘要】
基于人工智能的多目标推荐模型的训练方法及装置
本专利技术涉及人工智能
,尤其涉及一种基于人工智能的多目标推荐模型的训练方法、装置、电子设备及存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。推荐系统是人工智能的重要应用分支,在当前的信息流个性化推荐场景中,多目标推荐模型得到了广泛应用。而多目标推荐模型所针对的多个目标往往存在不同的窗口期,使得基于相同采用窗口所采集的训练样本的准确性降低,从而进一步导致基于此类样本训练得到的多目标推荐模型的预测精度低。
技术实现思路
本专利技术实施例提供一种基于人工智能的多目标推荐模型的训练方法、装置、电子设备及存储介质,能够提高多目标推荐模型的预测精度,进而提高基于多目标推荐模型的预测结果进行媒体对象推荐的准确性。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种基于人工智能的多目标推荐模型的训练方法,包括:获取用于媒体对象推荐的多目标推荐模型的训练样本,所述训练样本标注有与交互特征相对应的至少两个标签;其中,所述交互特征包括:第一交互特征及至少一个第二交互特征,所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口;将所述训练样本分别输入至少一个教师模型,每个所述教师模型用于对一个所述第二交互特征进行预测;通过所述至少一个教师模型,分别对所述训练样本进行第二交互特征预测,得到相应的预测结果;基于得到的所述至少一个教师模型的预测结果,更新所述训练样本中相应第二交互特征的标签,得到更新至少一个标签后的训练样本;基于所述更新至少一个标签后的训练样本,训练所述多目标推荐模型,使得所述多目标推荐模型能够基于输入的媒体对象,进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测,以基于特征预测结果对所述媒体对象进行推荐。本专利技术实施例还提供一种基于人工智能的多目标推荐模型的训练装置,包括:获取模块,用于获取用于媒体对象推荐的多目标推荐模型的训练样本,所述训练样本标注有与交互特征相对应的至少两个标签;其中,所述交互特征包括:第一交互特征及至少一个第二交互特征,所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口;输入模块,用于将所述训练样本分别输入至少一个教师模型,每个所述教师模型用于对一个所述第二交互特征进行预测;预测模块,用于通过所述至少一个教师模型,分别对所述训练样本进行第二交互特征预测,得到相应的预测结果;更新模块,用于基于得到的所述至少一个教师模型的预测结果,更新所述训练样本中相应第二交互特征的标签,得到更新至少一个标签后的训练样本;训练模块,用于基于所述更新至少一个标签后的训练样本,训练所述多目标推荐模型,使得所述多目标推荐模型能够基于输入的媒体对象,进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测,以基于特征预测结果对所述媒体对象进行推荐。上述方案中,所述获取模块,还用于基于所述第一交互特征的采样时间窗口,采集媒体对象对应所述第一交互特征的数据及对应所述至少一个第二交互特征的数据;并基于采集的数据构造所述多目标推荐模型的训练样本。上述方案中,所述更新模块,还用于分别将各所述教师模型的预测结果,作为训练样本中相应的第二交互特征的标签进行标注,以更新训练样本中相应第二交互特征的标签,得到更新至少一个标签后的训练样本。上述方案中,所述装置还包括:教师模型训练模块,用于获取所述至少一个教师模型的训练样本;其中,各所述教师模型的训练样本基于相应的所述第二交互特征的采样时间窗口采样得到,且至少标注有相应的所述第二交互特征对应的标签;基于各所述教师模型的训练样本,分别对相应的教师模型进行训练,以使得所述教师模型能够基于输入的媒体对象,对相应的所述第二交互特征进行预测。上述方案中,所述教师模型训练模块,还用于分别将各所述教师模型的训练样本,输入至相应的教师模型,并通过相应的教师模型进行所述第二交互特征的预测,得到相应的预测结果;基于得到的预测结果、及各所述教师模型的训练样本所标注的标签,确定各所述教师模型的损失函数的值;基于各所述教师模型的损失函数的值,更新相应的教师模型的模型参数。上述方案中,所述训练模块,还用于通过所述多目标推荐模型,对所述更新至少一个标签后的训练样本,进行所述交互特征的预测,得到特征预测结果;获取各所述交互特征的特征预测结果、与相应交互特征对应的标签之间的差异;基于各所述交互特征对应的差异,确定所述多目标推荐模型中相应交互特征对应的损失函数的值;基于所述多目标推荐模型中各交互特征对应的损失函数的值,更新所述多目标推荐模型的模型参数。上述方案中,所述训练模块,还用于当各所述交互特征对应的损失函数的值超出相应损失阈值时,基于各所述交互特征对应的损失函数,确定相应交互特征的误差信号;将各所述误差信号在所述多目标推荐模型中反向传播,并在传播的过程中更新各个层的模型参数。上述方案中,所述多目标推荐模型包括共享层、特征提取层、特征拼接层和预测层,所述训练模块,还用于将所述第一交互特征的误差信号,依次传播至所述预测层、特征拼接层、特征提取层以及共享层,以实现所述第一交互特征的误差信号在所述多目标推荐模型中的反向传播;将所述第二交互特征的误差信号,依次传播至所述预测层、特征拼接层以及特征提取层;并对所述第二交互特征的误差信号进行阻断,使得所述第二交互特征的误差信号无法传播至所述共享层;在所述第一交互特征的误差信号及所述第二交互特征的误差信号反向传播的过程中,更新所述多目标推荐模型中各个层的模型参数。上述方案中,所述多目标推荐模型包括特征映射层、特征提取层、特征拼接层和预测层,所述装置还包括:推荐模块,用于获取待推荐媒体对象的用户数据和内容数据;通过所述特征映射层,分别对所述用户数据和内容数据进行映射处理,得到对应所述用户数据和内容数据的特征向量;通过所述特征提取层,对得到的所述特征向量进行特征提取,得到所述待推荐媒体对象的特征向量;通过所述特征拼接层,对所述待推荐媒体对象的特征向量进行拼接,得到拼接向量;基于所述拼接向量,通过所述预测层进行交互特征的预测,得到对应所述待推荐媒体对象的特征预测结果;基于所述特征预测结果对所述待推荐媒体对象进行推荐。上述方案中,所述推荐模块,还用于确定媒体信息流页面对应的登录用户;获取所述登录用户的用户数据、及待推荐媒体本文档来自技高网...

【技术保护点】
1.一种基于人工智能的多目标推荐模型的训练方法,其特征在于,所述方法包括:/n获取用于媒体对象推荐的多目标推荐模型的训练样本,所述训练样本标注有与交互特征相对应的至少两个标签;/n其中,所述交互特征包括:第一交互特征及至少一个第二交互特征,所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口;/n将所述训练样本分别输入至少一个教师模型,每个所述教师模型用于对一个所述第二交互特征进行预测;/n通过所述至少一个教师模型,分别对所述训练样本进行第二交互特征预测,得到相应的预测结果;/n基于得到的所述至少一个教师模型的预测结果,更新所述训练样本中相应第二交互特征的标签,得到更新至少一个标签后的训练样本;/n基于所述更新至少一个标签后的训练样本,训练所述多目标推荐模型,/n使得所述多目标推荐模型能够基于输入的媒体对象,进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测,以基于特征预测结果对所述媒体对象进行推荐。/n

【技术特征摘要】
1.一种基于人工智能的多目标推荐模型的训练方法,其特征在于,所述方法包括:
获取用于媒体对象推荐的多目标推荐模型的训练样本,所述训练样本标注有与交互特征相对应的至少两个标签;
其中,所述交互特征包括:第一交互特征及至少一个第二交互特征,所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口;
将所述训练样本分别输入至少一个教师模型,每个所述教师模型用于对一个所述第二交互特征进行预测;
通过所述至少一个教师模型,分别对所述训练样本进行第二交互特征预测,得到相应的预测结果;
基于得到的所述至少一个教师模型的预测结果,更新所述训练样本中相应第二交互特征的标签,得到更新至少一个标签后的训练样本;
基于所述更新至少一个标签后的训练样本,训练所述多目标推荐模型,
使得所述多目标推荐模型能够基于输入的媒体对象,进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测,以基于特征预测结果对所述媒体对象进行推荐。


2.如权利要求1所述的方法,其特征在于,所述获取用于媒体对象推荐的多目标推荐模型的训练样本,包括:
基于所述第一交互特征的采样时间窗口,采集媒体对象对应所述第一交互特征的数据及对应所述至少一个第二交互特征的数据;并
基于采集的数据构造所述多目标推荐模型的训练样本。


3.如权利要求1所述的方法,其特征在于,所述基于得到的所述至少一个教师模型的预测结果,更新所述训练样本中相应第二交互特征的标签,得到更新至少一个标签后的训练样本,包括:
分别将各所述教师模型的预测结果,作为训练样本中相应的第二交互特征的标签进行标注,以更新训练样本中相应第二交互特征的标签,得到更新至少一个标签后的训练样本。


4.如权利要求1所述的方法,其特征在于,所述将所述训练样本分别输入至少一个教师模型之前,所述方法还包括:
获取所述至少一个教师模型的训练样本;
其中,各所述教师模型的训练样本基于相应的所述第二交互特征的采样时间窗口采样得到,且至少标注有相应的所述第二交互特征对应的标签;
基于各所述教师模型的训练样本,分别对相应的教师模型进行训练,以使得所述教师模型能够基于输入的媒体对象,对相应的所述第二交互特征进行预测。


5.如权利要求4所述的方法,其特征在于,所述基于各所述教师模型的训练样本,分别对相应的教师模型进行训练,包括:
分别将各所述教师模型的训练样本,输入至相应的教师模型,并通过相应的教师模型进行所述第二交互特征的预测,得到相应的预测结果;
基于得到的预测结果、及各所述教师模型的训练样本所标注的标签,确定各所述教师模型的损失函数的值;
基于各所述教师模型的损失函数的值,更新相应的教师模型的模型参数。


6.如权利要求1所述的方法,其特征在于,所述基于所述更新至少一个标签后的训练样本,训练所述多目标推荐模型,包括:
通过所述多目标推荐模型,对所述更新至少一个标签后的训练样本,进行所述交互特征的预测,得到特征预测结果;
获取各所述交互特征的特征预测结果、与相应交互特征对应的标签之间的差异;
基于各所述交互特征对应的差异,确定所述多目标推荐模型中相应交互特征对应的损失函数的值;
基于所述多目标推荐模型中各交互特征对应的损失函数的值,更新所述多目标推荐模型的模型参数。


7.如权利要求6所述的方法,其特征在于,所述基于所述多目标推荐模型中各交互特征对应的损失函数的值,更新所述多目标推荐模型的模型参数,包括:
当各所述交互特征对应的损失函数的值超出相应损失阈值时,基于各所述交互特征对应的损失函数,确定相应交互特征的误差信号;
将各所述误差信号在所述多目标推荐模型中反向传播,...

【专利技术属性】
技术研发人员:刘剑刘鸿陈凯夏锋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1