数据增强模型训练及数据处理方法、装置、设备、介质制造方法及图纸

技术编号:40525620 阅读:19 留言:0更新日期:2024-03-01 13:45
本申请提供了一种数据增强模型训练及数据处理方法、装置、设备、介质;方法包括:基于源域训练样本数据,确定预训练模型的模型参数,并基于模型参数确定数据增强模型;针对每一目标域训练样本数据,在采用目标域训练样本数据对数据增强模型进行模型训练,得到更新后的数据增强模型之后,基于锚定数据,分别对预训练模型和更新后的数据增强模型进行模型训练,对应得到基础损失函数值与更新损失函数值;根据更新损失函数值与基础损失函数值,从目标域训练样本集中筛选出至少一个扩充样本数据;基于源域样本数据和至少一个扩充样本数据,对数据增强模型进行迭代训练,得到训练后的数据增强模型。通过本申请,能够提升数据增强模型的模型性能。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种数据增强模型训练及数据处理方法、装置、设备、介质


技术介绍

1、数据增强(data augmentation)是一种通过先验知识产生跟目标任务相似的更多数据来扩展训练数据集的方法。当数据增强应用于推荐系统时,数据增强可以在不显著提高系统查询、存储成本的情况下,提供对用户、物料和两者之间的交互等方面更为完整的样本分布的刻画。而常见的数据增强方法包括负采样、数据扰动、数据插值、迁移学习,通常有助于提升网络模型的泛化能力和准确性。由于训练数据集中数据的数量和质量直接影响到网络模型的效果上限,因此,研究更有效的数据增强模型训练方法对于提高网络模型的性能和准确性至关重要。


技术实现思路

1、本申请实施例提供一种数据增强模型训练及数据处理方法、装置、设备、介质,能够提升数据增强模型的模型性能。

2、本申请实施例的技术方案是这样实现的:

3、本申请实施例提供一种数据增强模型训练方法,所述方法包括:获取源域样本数据集和目标域训练样本集;所述源域样本数据集包括源域训练样本文档来自技高网...

【技术保护点】

1.一种数据增强模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述模型参数确定数据增强模型,包括:

3.根据权利要求1所述的方法,其特征在于,所述目标域训练样本集中包括N个目标域训练样本数据;N为大于1的整数;

4.根据权利要求1所述的方法,其特征在于,所述根据所述更新损失函数值与所述基础损失函数值,从所述目标域训练样本集中筛选出至少一个扩充样本数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述源域样本数据集中的源域样本数据和所述至少一个扩充样本数据,对所述数据增强模型进行迭代...

【技术特征摘要】

1.一种数据增强模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述模型参数确定数据增强模型,包括:

3.根据权利要求1所述的方法,其特征在于,所述目标域训练样本集中包括n个目标域训练样本数据;n为大于1的整数;

4.根据权利要求1所述的方法,其特征在于,所述根据所述更新损失函数值与所述基础损失函数值,从所述目标域训练样本集中筛选出至少一个扩充样本数据,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述源域样本数据集中的源域样本数据和所述至少一个扩充样本数据,对所述数据增强模型进行迭代训练,得到训练后的数据增强模型,包括:

6.根据权利要求5所述的方法,其特征在于,所述通过所述数据增强模型,对所述源域样本数据和所述扩充样本数据分别进行数据处理,对应得到源域样本预估概率和目标域样本预估概率,包括:

7.根据权利要求5所述的方法,其特征在于,所述基于所述目标域样本预估概率、所述扩充样本数据的真实标签和所述扩充样本数据对应的所述差值,构建目标域样本损失函数,包括:

8.根据权利要求1至7任一项所述的方法,其...

【专利技术属性】
技术研发人员:陈煜钊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1