模型训练、信息推荐方法和装置制造方法及图纸

技术编号：40078406 阅读：7 留言：0更新日期：2024-01-17 02:00

本说明书的实施例提供了一种模型训练、信息推荐方法和装置。在该模型训练方法中，通过在训练过程中引入样本分组模型和权重计算模型，根据当前训练样本经过待优化模型的输出和对应的标签确定各个当前训练样本的状态。再分别利用样本分组模型和权重计算模型确定各个当前训练样本所属的分布类别和对应的权重。进而，基于当前训练样本经过待优化模型的输出和对应的标签以及对应的权重确定损失值，以调整待优化模型的模型参数；基于各个当前训练样本所属的分布类别和对应的权重确定相应的奖励值，以调整样本分组模型和权重计算模型的模型参数。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例通常涉及计算机，尤其涉及模型训练、信息推荐方法和装置。

技术介绍

1、随着人工智能技术的飞速发展，各种机器学习模型也取得了越来越广泛的应用。由于在实际应用中，机器学习模型所接受的数据往往不完全符合训练数据的分布，因此机器学习模型的泛化能力就显得非常重要。通常将机器学习模型从训练数据中学习到的规律适用于训练数据所属的分布，但无法适用于模型未见过的分布的问题称为“分布外泛化(out-of-distribution,ood)问题”。典型示例如推荐系统在面对一些未曾见过的数据时无法准确地进行预测和推荐，即在训练数据集之外的数据上，推荐系统的性能表现出现明显下降。针对分布外泛化问题，传统的技术手段例如数据增强、正则化、迁移学习等可以在一定程度上提高模型的泛化能力。因此，需要效果更好的、能够提高模型泛化性能的方案。

技术实现思路

1、鉴于上述，本说明书实施例提供了一种模型训练方法和装置及信息推荐方法和装置。利用该方法、装置，可以更为明显地提高模型的泛化性能。

2、根据本说明书的实施例的一个方面，提供一种模型训练方法，包括：利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括样本数据和标签：将当前训练样本集中的各个当前训练样本的样本数据提供给当前待优化模型，得到各个当前训练样本的对应输出；根据各个当前训练样本的对应输出和相应的标签，确定各个当前训练样本的状态；将各个当前训练样本的状态提供给当前样本分组模型，得到各个当前训练样本

3、根据本说明书的实施例的另一个方面，提供一种信息推荐方法，包括：信息推荐方法，包括：接收用户侧信息；根据所述用户侧信息和参考信息集中的各个参考信息生成相应的输入特征；将所述输入特征提供给信息推荐模型，得到与各个参考信息对应的推荐分数，其中，所述信息推荐模型根据如上述的模型训练方法而得到；根据各个参考信息对应的推荐分数从所述参考信息集中确定出的待推荐信息集；以及将所述待推荐信息集提供给与所述用户侧信息对应的用户。

4、根据本说明书的实施例的又一个方面，提供一种模型训练装置，所述装置被配置为通过训练单元利用训练样本集循环执行模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括样本数据和标签，所述训练单元包括：输出预测模块，被配置为将当前训练样本集中的各个当前训练样本的样本数据提供给当前待优化模型，得到各个当前训练样本的对应输出；状态确定模块，被配置为根据各个当前训练样本的对应输出和相应的标签，确定各个当前训练样本的状态；样本分组模块，被配置为将各个当前训练样本的状态提供给当前样本分组模型，得到各个当前训练样本所属的分布类别，其中，分布类别包括分布内数据或分布外数据；权重预测模块，被配置为将各个当前训练样本的状态提供给当前权重计算模型，得到各个当前训练样本对应的权重，其中，所属的分布类别为分布外数据的各个当前训练样本对应的权重不全相同；损失确定模块，被配置为根据各个当前训练样本的对应输出和相应的标签以及对应的权重，确定当前训练样本集对应的损失值；奖励确定模块，被配置为根据属于同一分布类别的各个当前训练样本之间的距离和分属于不同分布类别的各个当前训练样本之间的距离，确定当前训练样本集对应的第一奖励值；根据所属的分布类别为分布外数据的各个当前训练样本的对应输出和相应的标签，确定当前训练样本集对应的第二奖励值；以及所述装置还包括：参数调整单元，被配置为响应于不满足训练结束条件，根据所述损失值调整当前待优化模型的模型参数；根据所述第一奖励值调整当前样本分组模型的模型参数；根据所述第二奖励值调整当前权重计算模型的模型参数；其中，经过模型参数调整后的待优化模型、样本分组模型、权重计算模型分别充当下一模型训练过程的当前待优化模型、当前样本分组模型、当前权重计算模型。

5、根据本说明书的实施例的再一个方面，提供一种信息推荐装置，包括：信息接收单元，被配置为接收用户侧信息；特征生成单元，被配置为根据所述用户侧信息和参考信息集中的各个参考信息生成相应的输入特征；信息推荐单元，被配置为将所述输入特征提供给信息推荐模型，得到与各个参考信息对应的推荐分数，其中，所述信息推荐模型根据如上所述的模型训练方法而得到；根据各个参考信息对应的推荐分数从所述参考信息集中确定出的待推荐信息集；以及将所述待推荐信息集提供给与所述用户侧信息对应的用户。

6、根据本说明书的实施例的另一方面，提供一种模型训练装置，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的模型训练方法。

7、根据本说明书的实施例的另一方面，提供一种信息推荐装置，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的信息推荐方法。

8、根据本说明书的实施例的另一方面，提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的模型训练方法和/或信息推荐方法。

9、根据本说明书的实施例的另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如上所述的模型训练方法和/或信息推荐方法。

本文档来自技高网...

【技术保护点】

1.一种模型训练方法，包括：

2.如权利要求1所述的方法，其中，所述根据属于同一分布类别的各个当前训练样本之间的距离和分属于不同分布类别的各个当前训练样本之间的距离，确定当前训练样本集对应的第一奖励值包括：

3.如权利要求1所述的方法，其中，所述根据所属的分布类别为分布外数据的各个当前训练样本的对应输出和相应的标签，确定当前训练样本集对应的第二奖励值包括：

4.如权利要求3所述的方法，其中，在所述根据所述样本损失子奖励值，确定当前训练样本集对应的第二奖励值之前，所述方法还包括：

5.如权利要求1到4中任一所述的方法，其中，在所述根据各个当前训练样本的对应输出和相应的标签，确定各个当前训练样本的状态之前，所述方法还包括：

6.如权利要求5所述的方法，其中，所述待优化模型包括信息推荐系统，所述样本损失值基于二分类交叉熵损失函数确定，所属的分布类别为分布内数据的各个当前训练样本对应的权重也不全相同。

7.一种信息推荐方法，包括：

8.一种模型训练装置，所述装置被配置为通过训练单元利用训练样本集循环执行模

9.一种信息推荐装置，包括：

10.一种模型训练装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求1至6中任一所述的模型训练方法。

11.一种信息推荐装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求7所述的信息推荐方法。

...

【技术特征摘要】

1.一种模型训练方法，包括：

4.如权利要求3所述的方法，其中，在所述根据所述样本损失子奖励值，确定当前训练样本集对应的第二奖励值之前，所述方法还包括：

6.如权利要求5所述的方法，其中，所述待优化模型包括信息推荐系统，所述样本损失值基于二分类...

【专利技术属性】
技术研发人员：吴伟昌，张晓露，周俊，郇兆鑫，李长升，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人