互动行为预测模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号：40424002 阅读：6 留言：0更新日期：2024-02-20 22:43

本申请提供了一种互动行为预测模型的训练方法、装置、设备及存储介质，属于机器学习技术领域，应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。方法包括：基于标准化流模型来获取互动行为预测模型的第一模型参数和第一模型参数的近似后验分布，在基于多个样本媒体资源和互动行为预测模型当前的模型参数获取到第一模型参数的真实后验分布之后，根据第一模型参数的近似后验分布与真实后验分布之间的相对熵，更新互动行为预测模型的模型参数。其中，由于标准化流模型能够将一个简单分布转换成一个复杂分布，因此基于标准化流模型得到的模型参数的近似后验分布能够更接近模型参数的真实后验分布，从而有效提高了互动行为预测模型的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器学习，特别涉及一种互动行为预测模型的训练方法、装置、设备及存储介质。

技术介绍

1、随着网络和计算机技术的不断发展，媒体资源平台往往通过推荐系统来向对象推荐对象所感兴趣的媒体资源。例如，推荐系统根据样本媒体资源，训练得到用于预测点击率的互动行为预测模型，在向指定对象推荐媒体资源时，通过该互动行为预测模型来预测各个媒体资源被该指定对象点击的概率，并基于预测出的点击率选择向该指定对象推荐的媒体资源。

2、相关技术中，采用贝叶斯在线学习方式，假设互动行为预测模型的模型参数为随机变量，且服从正态分布，通过高斯平均场理论，计算模型参数的近似后验分布，从而根据该近似后验分布来更新互动行为预测模型的模型参数。

3、然而，基于上述方式得到的模型参数的近似后验分布并不能很好地拟合模型参数的真实后验分布，导致最终将互动行为预测模型用于推荐系统时，该互动行为预测模型输出的预测结果准确度较低。

技术实现思路

1、本申请实施例提供了一种互动行为预测模型的训练方法、装置、设备及存储介质，能够有效提高互动行为预测模型的准确度。该技术方案如下：

2、一方面，提供了一种互动行为预测模型的训练方法，该方法包括：

3、基于标准化流模型，对基于目标分布取样得到的第一向量进行处理，得到互动行为预测模型的第一模型参数和该第一模型参数的近似后验分布，该互动行为预测模型用于预测针对媒体资源实施互动行为的概率；

4、基于多个样本媒体资源、该互动行为预测模型以

5、若该近似后验分布和该真实后验分布之间的第一相对熵符合目标条件，将该互动行为预测模型的模型参数更新为该第一模型参数；

6、若该第一相对熵不符合该目标条件，更新该标准化流模型，基于更新后的该标准化流模型，继续对该互动行为预测模型进行训练，直至得到的目标相对熵符合该目标条件，将该互动行为预测模型的模型参数更新为该目标相对熵所对应的目标模型参数。

7、一方面，提供了一种互动行为预测模型的训练装置，该装置包括：

8、处理模块，用于基于标准化流模型，对基于目标分布取样得到的第一向量进行处理，得到互动行为预测模型的第一模型参数和该第一模型参数的近似后验分布，该互动行为预测模型用于预测针对媒体资源实施互动行为的概率；

9、获取模块，用于基于多个样本媒体资源、该互动行为预测模型以及该第一模型参数，获取该第一模型参数的真实后验分布；

10、第一更新模块，用于若该近似后验分布和该真实后验分布之间的第一相对熵符合目标条件，将该互动行为预测模型的模型参数更新为该第一模型参数；

11、第二更新模块，用于若该第一相对熵不符合该目标条件，更新该标准化流模型，基于更新后的该标准化流模型，继续对该互动行为预测模型进行训练，直至得到的目标相对熵符合该目标条件，将该互动行为预测模型的模型参数更新为该目标相对熵所对应的目标模型参数。

12、在一些实施例中，该处理模块，包括：

13、处理单元，用于将该第一向量输入该标准化流模型，基于该标准化流模型中的至少一个双射函数，对该第一向量进行处理，得到该第一模型参数；

14、获取单元，用于基于该目标分布、该第一向量以及该至少一个双射函数，获取该第一模型参数的近似后验分布。

15、在一些实施例中，该处理单元，用于：

16、基于流深度为k的双射函数，对基于流深度为k-1的双射函数得到的中间模型参数进行可逆变换，得到该第一模型参数，k指示该标准化流模型的流深度，k为正整数。

17、在一些实施例中，该获取模块，用于：

18、基于该互动行为预测模型的模型参数所服从的分布，获取该第一模型参数的先验分布；

19、基于该多个样本媒体资源、该多个样本媒体资源的标签信息以及应用该第一模型参数的该互动行为预测模型，获取该多个样本媒体资源的预测结果；

20、基于该第一模型参数的先验分布和该多个样本媒体资源的预测结果，获取该第一模型参数的真实后验分布。

21、在一些实施例中，该第二更新模块，用于：

22、若该第一相对熵不符合该目标条件，对该标准化流模型中的至少一个双射函数进行更新，以得到更新后的该标准化流模型。

23、在一些实施例中，该装置还包括样本媒体资源确定单元，用于：

24、获取目标时间段内该互动行为预测模型所预测的多个候选样本媒体资源的预测结果和真实结果；

25、若第一候选样本媒体资源的预测结果和真实结果之间的差值大于或等于目标阈值，将该第一候选样本媒体资源确定为样本媒体资源，该第一候选样本媒体资源为该多个候选样本媒体资源中任一个候选样本媒体资源。

26、一方面，提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器用于存储至少一条计算机程序，该至少一段计算机程序由该处理器加载并执行以实现本申请实施例中的互动行为预测模型的训练方法。

27、一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现本申请实施例中的互动行为预测模型的训练方法。

28、一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行以实现本申请实施例中的互动行为预测模型的训练方法。

29、在本申请实施例中，基于标准化流模型来获取互动行为预测模型的第一模型参数和第一模型参数的近似后验分布，在基于多个样本媒体资源和互动行为预测模型当前的模型参数获取到第一模型参数的真实后验分布之后，根据第一模型参数的近似后验分布与真实后验分布之间的相对熵，更新互动行为预测模型的模型参数。其中，由于标准化流模型能够将一个简单分布转换成一个复杂分布，因此基于该标准化流模型得到的模型参数的近似后验分布能够更接近模型参数的真实后验分布，从而有效提高了互动行为预测模型的准确度。

本文档来自技高网...

【技术保护点】

1.一种互动行为预测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于标准化流模型，对基于目标分布取样得到的第一向量进行处理，得到互动行为预测模型的第一模型参数和所述第一模型参数的近似后验分布，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第一向量输入所述标准化流模型，基于所述标准化流模型中的至少一个双射函数，对所述第一向量进行处理，得到所述第一模型参数，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于多个样本媒体资源、所述互动行为预测模型以及所述第一模型参数，获取所述第一模型参数的真实后验分布，包括：

5.根据权利要求1所述的方法，其特征在于，所述若所述第一相对熵不符合所述目标条件，更新所述标准化流模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种互动行为预测模型的训练装置，其特征在于，所述装置包括：

8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一条计算

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求6中任一项所述的互动行为预测模型的训练方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求6中任一项所述的互动行为预测模型的训练方法。

...

【技术特征摘要】

1.一种互动行为预测模型的训练方法，其特征在于，所述方法包括：

5.根据权利要求1所述的方法，其特征在于，所述若所述第一相对熵不符合所述目标条件，更新所述标准化流模型，包括：

6.根据权利要求1...

【专利技术属性】
技术研发人员：于海斌，陈杰，罗米扬，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人