标签生成模型的训练、标签生成方法、装置及存储介质制造方法及图纸

技术编号：40574633 阅读：7 留言：0更新日期：2024-03-06 17:15

本公开关于一种标签生成模型的训练、标签生成方法、装置及存储介质，所述方法包括：获取样本对象的样本对象特征、样本多媒体资源特征以及样本对象与样本多媒体资源特征的样本交互数据；将样本交互数据输入第一预设模型得到样本交互映射标签；将样本对象特征、样本多媒体资源特征，输入第二预设模型得到样本交互标签结果；基于样本交互标签结果与样本交互映射标签之间的差异，对第二预设模型进行训练，得到当前推荐模型；基于训练对象的训练对象特征、训练多媒体资源特征、训练交互数据以及当前推荐模型，对第一预设模型进行训练，得到当前标签生成模型；对当前推荐模型以及当前标签生成模型进行训练，得到标签生成模型。本公开提高了标签生成模型的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，尤其涉及一种标签生成模型的训练、标签生成方法、装置及存储介质。

技术介绍

1、现有的短视频推荐领域中的相关研究主要依赖基于规则的策略进行标签生成。某些方法专注于将用户反馈，如观看时长，转化为新的语义标签，以捕捉用户偏好的隐藏信号。例如，比较用户观看时长和视频时长构造完播标签表示用户是否完全观看视频。其他方法试图建立规则来优化原始反馈，重点在于消除标签中的偏差。例如，先根据视频时长对数据分组，之后每组分别生成基于分位点的标签。

2、虽然现有的标签生成的工作能够一定程度上提取用户喜好信息，并取得了不错的效果，但它们存在如下所述缺点：

3、(1)标签的生成依赖于手动规则，有效生成规则的设计需要耗费大量人力成本。

4、(2)标签的生成不能保证与平台目标对齐，推荐模型拟合标签后难以保证多个平台目标的全面提升，可能导致在某个目标如用户满意度的性能下降。

技术实现思路

1、本公开提供一种标签生成模型的训练、标签生成方法、装置及存储介质，以至少解决相关技术中标签的生成效率低下的问题。本公开的技术方案如下：

2、根据本公开实施例的第一方面，提供一种标签生成模型的训练方法，包括：

3、获取样本对象的样本对象特征、样本多媒体资源特征以及所述样本对象与所述样本多媒体资源特征的样本交互数据；

4、将所述样本交互数据输入第一预设模型进行交互标签映射处理，得到样本交互映射标签；

5、将所述样本对象特征、所述样本

6、基于所述样本交互标签结果与所述样本交互映射标签之间的差异，对所述第二预设模型进行训练，得到当前推荐模型；

7、基于训练对象的训练对象特征、训练多媒体资源特征、训练交互数据以及所述当前推荐模型，对所述第一预设模型进行训练，得到当前标签生成模型；所述训练交互数据为所述训练对象与所述训练多媒体资源特征的交互数据；所述训练对象与所述样本对象为同一类型的对象，所述训练对象特征与所述样本对象特征为同一类型的特征，所述训练多媒体资源特征与所述样本多媒体资源特征为同一类型的特征，所述训练交互数据与所述样本交互数据为同一类型的数据；

8、对所述当前推荐模型以及所述当前标签生成模型进行迭代训练，将训练结束时的当前标签生成模型确定为标签生成模型；所述迭代训练包括重复步骤：固定所述当前标签生成模型的模型参数对所述当前推荐模型进行训练以及固定所述当前推荐模型的模型参数对所述当前标签生成模型进行训练。

9、在一示例性的实施方式中，所述基于训练对象的训练对象特征、训练多媒体资源特征、训练交互数据以及所述当前推荐模型，对所述第一预设模型进行训练，得到当前标签生成模型，包括：

10、将所述训练对象特征以及所述训练多媒体资源特征，输入所述当前推荐模型进行交互结果预测处理，得到当前训练交互标签结果；

11、将所述训练交互数据输入所述第一预设模型进行交互标签映射处理，得到训练交互映射标签；

12、基于所述训练交互映射标签与所述当前训练交互标签结果之间的差异，对所述第一预设模型进行训练，得到所述当前标签生成模型。

13、在一示例性的实施方式中，所述对所述当前推荐模型以及所述当前标签生成模型进行迭代训练，将训练结束时的当前标签生成模型确定为标签生成模型，包括：

14、将所述样本交互数据输入所述当前标签生成模型进行交互标签映射处理，得到当前样本交互映射标签；

15、将所述样本对象特征、所述样本多媒体资源特征输入所述当前推荐模型进行交互结果预测处理，得到当前样本交互标签结果；

16、基于所述当前样本交互标签结果与所述当前样本交互映射标签之间的差异，对所述当前推荐模型进行训练，并将训练结束时的模型重新作为当前推荐模型；

17、将所述训练对象特征、所述训练多媒体资源特征，输入所述当前推荐模型进行交互结果预测处理，得到当前训练交互标签结果；

18、基于所述训练交互数据以及所述当前训练交互标签结果，对所述当前标签生成模型进行训练，得到所述标签生成模型。

19、在一示例性的实施方式中，所述基于所述训练交互数据以及所述当前训练交互标签结果，对所述当前标签生成模型进行训练，得到所述标签生成模型，包括：

20、基于所述训练交互数据以及所述当前训练交互标签结果，对所述当前标签生成模型进行训练，并将训练结束时的模型重新作为当前标签生成模型；

21、重复所述将所述样本交互数据输入所述当前标签生成模型进行交互标签映射处理，得到当前样本交互映射标签，至所述基于所述训练交互数据以及所述当前训练交互标签结果，对所述当前标签生成模型进行训练，并将训练结束时的模型重新作为当前标签生成模型的步骤直至满足训练结束条件；

22、将训练结束时的当前推荐模型确定为所述推荐模型，将训练结束时的当前标签生成模型确定为所述标签生成模型。

23、在一示例性的实施方式中，所述样本交互数据包括样本浏览信息、样本评价信息以及样本留存率信息中的至少一项，所述第一预设模型包括预设浏览时长标签预测模型、预设评价标签预测模型以及预设留存率标签预测模型中的至少一项，所述第一预设模型基于所述样本交互数据确定，所述将所述样本交互数据输入第一预设模型进行交互标签映射处理，得到样本交互映射标签，包括：

24、执行目标标签映射操作，所述目标标签映射操作包括第一标签映射操作、第二标签映射操作、第三标签映射操作中的至少一种；其中，所述第一标签映射操作为将所述样本浏览信息输入所述预设浏览时长标签映射模型，进行浏览时长标签映射处理，得到样本浏览时长标签；所述第二标签映射操作为将所述样本评价信息输入所述预设评价标签映射模型，进行评价标签映射处理，得到样本评价标签；所述第三标签映射操作为将所述样本留存率信息输入所述预设留存率标签映射模型，进行留存率标签映射处理，得到样本留存率标签；

25、将所述样本浏览时长标签、所述样本评价标签以及所述样本留存率标签中的至少一项确定为所述样本交互映射标签。

26、在一示例性的实施方式中，所述第二预设模型包括预设浏览时长预测模型、预设评价信息预测模型以及预设留存率预测模型中的至少一项，所述第二预设模型基于所述样本交互数据确定，所述将所述样本对象特征、所述样本多媒体资源特征，输入第二预设模型进行交互结果预测处理，得到样本交互标签结果，包括：

27、执行目标结果预测操作，所述目标结果预测操作包括第一结果预测操作、第二结果预测操作、第三结果预测操作中的至少一种；其中，所述第一结果预测操作为将所述样本对象特征以及所述样本多媒体资源特征，输入所述预设浏览时长预测模型进行浏览时长预测处理，得到样本浏览时长结果；所述第二结果预测操作为将所述样本对象特征以及所述样本多媒体资源特征，输入所述预设评价信息预测模型进行本文档来自技高网...

【技术保护点】

1.一种标签生成模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于训练对象的训练对象特征、训练多媒体资源特征、训练交互数据以及所述当前推荐模型，对所述第一预设模型进行训练，得到当前标签生成模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述当前推荐模型以及所述当前标签生成模型进行迭代训练，将训练结束时的当前标签生成模型确定为标签生成模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述训练交互数据以及所述当前训练交互标签结果，对所述当前标签生成模型进行训练，得到所述标签生成模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述样本交互数据包括样本浏览信息、样本评价信息以及样本留存率信息中的至少一项，所述第一预设模型包括预设浏览时长标签预测模型、预设评价标签预测模型以及预设留存率标签预测模型中的至少一项，所述第一预设模型基于所述样本交互数据确定，所述将所述样本交互数据输入第一预设模型进行交互标签映射处理，得到样本交互映射标签，包括：

6.根据权利要求5所

7.根据权利要求6所述的方法，其特征在于，所述基于所述样本交互标签结果与所述样本交互映射标签之间的差异，对所述第二预设模型进行训练，得到当前推荐模型，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求2所述的方法，其特征在于，所述当前推荐模型包括当前浏览时长预测模型、当前评价信息预测模型、当前留存率预测模型中的至少一个，所述将所述训练对象特征以及所述训练多媒体资源特征，输入所述当前推荐模型进行交互结果预测处理，得到当前训练交互标签结果，包括：

10.根据权利要求9所述的方法，其特征在于，所述训练交互数据包括训练浏览信息、训练评价信息、训练留存率信息中的至少一个，所述将所述训练交互数据输入所述第一预设模型进行交互标签映射处理，得到训练交互映射标签，包括：

11.根据权利要求10所述的方法，其特征在于，所述基于所述训练交互映射标签与所述当前训练交互标签结果之间的差异，对所述第一预设模型进行训练，得到所述当前标签生成模型，包括：

12.一种标签生成方法，其特征在于，所述方法包括：

13.一种标签生成模型的训练装置，其特征在于，包括：

14.一种标签生成装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，包括：

16.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备处理器执行时，使得所述电子设备能够执行如权利要求1-11中任一项所述的标签生成模型的训练方法或权利要求12所述的标签生成方法。

...

【技术特征摘要】

1.一种标签生成模型的训练方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述第二预设模型包括预设浏览时长预测模型、预设评价信息预测模型以及预设留存率预测模型中的至少一项，所述第二预设模型基于所述样本交互数据确定，所述将所述样本对象特征、所述样本多媒体资源特征，输入第二预设模型进行交互结果预测处理，得到样本交互标签结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所...

【专利技术属性】
技术研发人员：冯福利，白移梦，张洋，吕静，常健新，臧晓雪，黄福玉，牛亚男，宋洋，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人