在线学习方法、视频推荐方法及相关装置制造方法及图纸

技术编号：39968640 阅读：7 留言：0更新日期：2024-01-09 00:36

本发明专利技术实施例提供了一种在线学习方法、视频推荐方法及相关装置，针对相邻批次的目标数据，将当前批次的目标数据输入一体化模型进行推理，获得当前批次的目标数据的预测数据；目标数据包括训练数据和待推理数据，训练数据对应有真值标签；基于当前批次的训练数据对应的预测数据和当前批次的训练数据对应的真值标签，确定一体化模型的损失函数；对损失函数进行反向传播，获得更新后的一体化模型；针对后相邻批次的目标数据中的待推理数据，采用更新后的一体化模型进行推理。能够解决将最新的模型应用于线上推理时存在延迟的问题，并提升资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，特别是涉及在线学习方法、视频推荐方法及相关装置。

技术介绍

1、在推荐、广告和搜索等业务中，经常会使用到在线学习，即训练程序通过消息队列等数据源，持续读取最新的训练样本，并持续进行训练，每隔一段时间导出模型，送到推理程序进行在线服务。

2、这种学习模式主要存在以下问题：

3、其一：训练任务每隔一段时间导出模型，再部署到服务，这导致模型的部署存在一些延迟，最新的模型参数不能应用于线上推理。

4、其二，模型的训练和推理是独立的模块，各用各自的资源。有时候训练资源比较空闲，有时候推理资源比较空闲，资源总体利用率不佳。

技术实现思路

1、本专利技术实施例的目的在于提供一种在线学习方法、视频推荐方法及相关装置，以解决将最新的模型应用于线上推理时存在延迟的问题，并提升资源利用率。具体技术方案如下：

2、在本专利技术实施的第一方面，首先提供了一种在线学习方法，包括：

3、针对相邻批次的目标数据，将当前批次的目标数据输入一体化模型进行推理，获得当前批次的目标数据的预测数据；所述目标数据包括训练数据和待推理数据，所述训练数据对应有真值标签；

4、基于当前批次的训练数据对应的预测数据和当前批次的训练数据对应的真值标签，确定所述一体化模型的损失函数；

5、对所述损失函数进行反向传播，获得更新后的一体化模型；

6、针对后相邻批次的目标数据，采用所述更新后的一体化模型进行推理。

>7、可选的，获得更新后的一体化模型之后，还包括：

8、针对后相邻批次的目标数据中的训练数据，基于所述更新后的一体化模型进行推理，获得该训练数据对应的预测数据；

9、基于后相邻批次的训练数据对应的预测数据和后相邻批次的训练数据对应的真值标签，确定所述更新后的一体化模型的损失函数；

10、对所述更新后的一体化模型的损失函数进行反向传播，获得进一步更新后的一体化模型。

11、可选的，所述将当前批次的目标数据输入一体化模型进行推理之前，还包括：

12、判断当前的推理请求队列中推理请求的数量是否不小于预设批次数量；

13、若是，从所述推理请求队列中读取所述预设批次数量个待推理数据，将读取到的所述待推理作为当前批次的目标数据；

14、若否，从所述推理请求队列中读取全部待推理数据，并从当前的训练样本队列中读取第一数量个训练样本，将读取到的所述待推理数据和训练数据作为当前批次的目标数据；所述第一数量为所述预设批次数量和读取到的所述待推理数据的数量之差，每一所述训练样本包括训练数据和该训练数据对应的真值标签。

15、可选的，在当前的推理请求队列中推理请求的数量小于所述预设批次数量的情况下，若当前的训练样本队列中的训练样本数量小于所述第一数量，所述方法还包括：

16、从当前的推理请求队列中读取全部待推理数据，从当前的训练样本队列中读取全部训练样本，将读取到的所述推理数据、所述训练数据和第二数量的空样本对应的训练数据作为当前批次的目标数据；所述第二数量为所述第一数量和读取到的所述训练样本的数量之差。

17、可选的，所述一体化模型为点击率预测模型；

18、所述训练数据包括样本用户的第一特征信息和样本视频的第二特征信息，所述训练数据对应的真值标签为所述样本用户对所述样本视频的真实点击结果；所述待推理数据包括目标用户的第三特征信息和候选推荐视频的第四特征信息；

19、所述预测数据包括所述样本用户对所述样本视频的预测点击率，所述目标用户对所述候选推荐视频的预测点击率。

20、可选的，所述将当前批次的目标数据输入一体化模型进行推理，获得当前批次的目标数据的预测数据之后，还包括：

21、根据当前批次的待推理数据对应的推理请求，基于当前批次的待推理数据的预测数据，确定所述推理请求指示的关联数据，并将所述关联数据返回至所述推理请求的请求发起方；所述推理请求包括视频推荐请求，所述关联数据包括对应的预测点击率高于点击率阈值的候选推荐视频的推荐列表。

22、在本专利技术实施的第二方面，还提供了一种视频推荐方法，包括：

23、获取当前批次的模型输入数据；所述模型输入数据包括待推理数据和训练数据，所述训练数据包括样本用户的第一特征信息和样本视频的第二特征信息，所述训练数据对应有所述样本用户对所述样本视频的真实点击结果，所述待推理数据包括目标用户的第三特征信息和多个候选推荐视频的第四特征信息；

24、将当前批次的模型输入数据输入点击率预测模型进行推理，获得当前批次的模型输入数据的预测数据；所述预测数据包括所述样本用户对所述样本视频的预测点击率，所述目标用户对所述候选推荐视频的预测点击率；

25、针对所述待推理数据对应的预测点击率，基于每一所述候选推荐视频对应的预测点击率，从所述候选推荐视频中选取目标推荐视频，并基于所述目标推荐视频进行视频推荐；

26、针对所述训练数据对应的预测点击率，基于所述样本用户对所述样本视频的真实点击结果和预测点击结果，确定所述点击率预测模型的损失函数，并对所述损失函数进行反向传播，获得更新后的点击率预测模型，所述更新后的点击率预测模型用于对下一批次的模型输入数据中的待推理数据进行推理。

27、在本专利技术实施的第三方面，还提供了一种在线学习装置，包括：

28、第一推理模块，用于针对相邻批次的目标数据，将当前批次的目标数据输入一体化模型进行推理，获得当前批次的目标数据的预测数据；所述目标数据包括训练数据和待推理数据，所述训练数据对应有真值标签；

29、确定模块，用于基于当前批次的训练数据对应的预测数据和当前批次的训练数据对应的真值标签，确定所述一体化模型的损失函数；

30、反向传播模块，用于对所述损失函数进行反向传播，获得更新后的一体化模型；

31、第二推理模块，用于针对后相邻批次的目标数据中的待推理数据，采用所述更新后的一体化模型进行推理。

32、在本专利技术实施的第四方面，还提供了一种视频推荐装置，包括：

33、获取模块，用于获取当前批次的模型输入数据；所述模型输入数据包括待推理数据和训练数据，所述训练数据包括样本用户的第一特征信息和样本视频的第二特征信息，所述训练数据对应有所述样本用户对所述样本视频的真实点击结果，所述待推理数据包括目标用户的第三特征信息和多个候选推荐视频的第四特征信息；

34、输入模块，用于将当前批次的模型输入数据输入点击率预测模型进行推理，获得当前批次的模型输入数据的预测数据；所述预测数据包括所述样本用户对所述样本视频的预测点击率，所述目标用户对所述候选推荐视频的预测点击率；

35、推荐模块，用于针对所述待推理数据对应的预测点击率，基于每一所述候选推荐视频对应的预测点击率，从所述候选推荐视频中选取目标推荐视频，并基于所述目标本文档来自技高网...

【技术保护点】

1.一种在线学习方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获得更新后的一体化模型之后，还包括：

3.根据权利要求1所述的方法，其特征在于，所述将当前批次的目标数据输入一体化模型进行推理之前，还包括：

4.根据权利要求3所述的方法，其特征在于，在当前的推理请求队列中推理请求的数量小于所述预设批次数量的情况下，若当前的训练样本队列中的训练样本数量小于所述第一数量，所述方法还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述一体化模型为点击率预测模型；

6.根据权利要求5所述的方法，其特征在于，所述将当前批次的目标数据输入一体化模型进行推理，获得当前批次的目标数据的预测数据之后，还包括：

7.一种视频推荐方法，其特征在于，包括：

8.一种在线学习装置，其特征在于，包括：

9.一种视频推荐装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6或7任一所述的方法步骤。

...

【技术特征摘要】

1.一种在线学习方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获得更新后的一体化模型之后，还包括：

3.根据权利要求1所述的方法，其特征在于，所述将当前批次的目标数据输入一体化模型进行推理之前，还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述一体化模型为点击率预测模型；

6.根据权利要求5所述的方法，...

【专利技术属性】
技术研发人员：董哲，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人