基于人工智能的多目标推荐模型的训练方法及装置制造方法及图纸

技术编号：24010748 阅读：15 留言：0更新日期：2020-05-02 01:39

本发明专利技术提供了一种基于人工智能的多目标推荐模型的训练方法、装置、电子设备及存储介质；方法包括：获取多目标推荐模型的训练样本，该训练样本标注有与交互特征相对应的至少两个标签；该交互特征包括第一交互特征及至少一个第二交互特征，第二交互特征的采样时间窗口大于第一交互特征的采样时间窗口；将训练样本分别输入至少一个教师模型；通过至少一个教师模型，分别对训练样本进行第二交互特征预测，得到相应的预测结果；基于得到的预测结果，更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；基于更新至少一个标签后的训练样本，训练多目标推荐模型；通过本发明专利技术，能够提高多目标推荐模型的预测精度。

Training method and device of multi-objective recommendation model based on Artificial Intelligence

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的多目标推荐模型的训练方法及装置
本专利技术涉及人工智能
，尤其涉及一种基于人工智能的多目标推荐模型的训练方法、装置、电子设备及存储介质。
技术介绍
人工智能（AI，ArtificialIntelligence）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。推荐系统是人工智能的重要应用分支，在当前的信息流个性化推荐场景中，多目标推荐模型得到了广泛应用。而多目标推荐模型所针对的多个目标往往存在不同的窗口期，使得基于相同采用窗口所采集的训练样本的准确性降低，从而进一步导致基于此类样本训练得到的多目标推荐模型的预测精度低。
技术实现思路
本专利技术实施例提供一种基于人工智能的多目标推荐模型的训练方法、装置、电子设备及存储介质，能够提高多目标推荐模型的预测精度，进而提高基于多目标推荐模型的预测结果进行媒体对象推荐的准确性。本专利技术实施例的技术方案是这样实现的：本专利技术实施例提供一种基于人工智能的多目标推荐模型的训练方法，包括：获取用于媒体对象推荐的多目标推荐模型的训练样本，所述训练样本标注有与交互特征相对应的至少两个标签；其中，所述交互特征包括：第一交互特征及至少...

【技术保护点】
1.一种基于人工智能的多目标推荐模型的训练方法，其特征在于，所述方法包括：/n获取用于媒体对象推荐的多目标推荐模型的训练样本，所述训练样本标注有与交互特征相对应的至少两个标签；/n其中，所述交互特征包括：第一交互特征及至少一个第二交互特征，所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口；/n将所述训练样本分别输入至少一个教师模型，每个所述教师模型用于对一个所述第二交互特征进行预测；/n通过所述至少一个教师模型，分别对所述训练样本进行第二交互特征预测，得到相应的预测结果；/n基于得到的所述至少一个教师模型的预测结果，更新所述训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；/n基于所述更新至少一个标签后的训练样本，训练所述多目标推荐模型，/n使得所述多目标推荐模型能够基于输入的媒体对象，进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测，以基于特征预测结果对所述媒体对象进行推荐。/n

【技术特征摘要】
1.一种基于人工智能的多目标推荐模型的训练方法，其特征在于，所述方法包括：
获取用于媒体对象推荐的多目标推荐模型的训练样本，所述训练样本标注有与交互特征相对应的至少两个标签；
其中，所述交互特征包括：第一交互特征及至少一个第二交互特征，所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口；
将所述训练样本分别输入至少一个教师模型，每个所述教师模型用于对一个所述第二交互特征进行预测；
通过所述至少一个教师模型，分别对所述训练样本进行第二交互特征预测，得到相应的预测结果；
基于得到的所述至少一个教师模型的预测结果，更新所述训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；
基于所述更新至少一个标签后的训练样本，训练所述多目标推荐模型，
使得所述多目标推荐模型能够基于输入的媒体对象，进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测，以基于特征预测结果对所述媒体对象进行推荐。

2.如权利要求1所述的方法，其特征在于，所述获取用于媒体对象推荐的多目标推荐模型的训练样本，包括：
基于所述第一交互特征的采样时间窗口，采集媒体对象对应所述第一交互特征的数据及对应所述至少一个第二交互特征的数据；并
基于采集的数据构造所述多目标推荐模型的训练样本。

3.如权利要求1所述的方法，其特征在于，所述基于得到的所述至少一个教师模型的预测结果，更新所述训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本，包括：
分别将各所述教师模型的预测结果，作为训练样本中相应的第二交互特征的标签进行标注，以更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本。

4.如权利要求1所述的方法，其特征在于，所述将所述训练样本分别输入至少一个教师模型之前，所述方法还包括：
获取所述至少一个教师模型的训练样本；
其中，各所述教师模型的训练样本基于相应的所述第二交互特征的采样时间窗口采样得到，且至少标注有相应的所述第二交互特征对应的标签；
基于各所述教师模型的训练样本，分别对相应的教师模型进行训练，以使得所述教师模型能够基于输入的媒体对象，对相应的所述第二交互特征进行预测。

5.如权利要求4所述的方法，其特征在于，所述基于各所述教师模型的训练样本，分别对相应的教师模型进行训练，包括：
分别将各所述教师模型的训练样本，输入至相应的教师模型，并通过相应的教师模型进行所述第二交互特征的预测，得到相应的预测结果；
基于得到的预测结果、及各所述教师模型的训练样本所标注的标签，确定各所述教师模型的损失函数的值；
基于各所述教师模型的损失函数的值，更新相应的教师模型的模型参数。

6.如权利要求1所述的方法，其特征在于，所述基于所述更新至少一个标签后的训练样本，训练所述多目标推荐模型，包括：
通过所述多目标推荐模型，对所述更新至少一个标签后的训练样本，进行所述交互特征的预测，得到特征预测结果；
获取各所述交互特征的特征预测结果、与相应交互特征对应的标签之间的差异；
基于各所述交互特征对应的差异，确定所述多目标推荐模型中相应交互特征对应的损失函数的值；
基于所述多目标推荐模型中各交互特征对应的损失函数的值，更新所述多目标推荐模型的模型参数。

7.如权利要求6所述的方法，其特征在于，所述基于所述多目标推荐模型中各交互特征对应的损失函数的值，更新所述多目标推荐模型的模型参数，包括：
当各所述交互特征对应的损失函数的值超出相应损失阈值时，基于各所述交互特征对应的损失函数，确定相应交互特征的误差信号；
将各所述误差信号在所述多目标推荐模型中反向传播，...

【专利技术属性】
技术研发人员：刘剑，刘鸿，陈凯，夏锋，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人