样本去重方法、装置及电子设备制造方法及图纸

技术编号:42581603 阅读:29 留言:0更新日期:2024-08-29 00:43
本申请公开了一种样本去重方法、装置及电子设备,属于人工智能技术领域,该方法包括:计算第一样本集中每个样本的样本重要度,第一样本集包括至少一个样本;基于每个样本的样本重要度和第一样本集的去重比例,对第一样本集进行去重处理,得到第二样本集;其中,样本的样本重要度是根据以下至少一项确定的:样本类别重要程度,样本内容重要程度、样本复杂程度、样本质量评分、样本多样性指标。

【技术实现步骤摘要】

本申请属于人工智能,具体涉及一种样本去重方法、装置及电子设备


技术介绍

1、目前,在对模型进行预训练的过程中,可以采用丰富度较高的样本集,对模型进行预训练,以使得训练后的模型对于各种类型数据都可以进行较好的处理。通常,在对模型进行预训练之前,为了避免样本集中样本的重复导致模型只是简单记忆而没有形成泛化能力,会对样本集进行去重处理,旨在从样本集中移除重复的样本,以确保样本的准确性和可靠性。

2、然而,在样本去重时,通常是将样本集中内容相同或相似的样本随机进行删除。如此,可能会导致去重后的样本集丰富度下降,从而导致去重后的样本集质量较差。


技术实现思路

1、本申请实施例的目的是提供一种样本去重方法、装置及电子设备,能够使得去重后的样本集中样本分布更为全面合理且质量更高的丰富度,训练模型的效果更优,提高了去重后的样本集的质量。

2、第一方面,本申请实施例提供了一种样本去重方法,该方法包括:计算第一样本集中每个样本的样本重要度,第一样本集包括至少一个样本;基于每个样本的样本重要度和第一样本集本文档来自技高网...

【技术保护点】

1.一种样本去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一样本集包括N类样本,每类样本包括至少一个样本,N为正整数;

3.根据权利要求2所述的方法,其特征在于,所述基于所述N类样本中每类样本的样本数量与所述N类样本中每类样本的平均样本数量间的比值,以及所述第一样本集的初始去重比例,确定所述每类样本的去重比例,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述第i类样本的样本数量与所述平均样本数量间的比值,调小所述第一样本集的初始去重比例,包括:

5.根据权利要求2至4任一项所述的方法,其...

【技术特征摘要】

1.一种样本去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一样本集包括n类样本,每类样本包括至少一个样本,n为正整数;

3.根据权利要求2所述的方法,其特征在于,所述基于所述n类样本中每类样本的样本数量与所述n类样本中每类样本的平均样本数量间的比值,以及所述第一样本集的初始去重比例,确定所述每类样本的去重比例,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述第i类样本的样本数量与所述平均样本数量间的比值,调小所述第一样本集的初始去重比例,包括:

5.根据权利要求2至4任一项所述的方法,其特征在于,所述基于所述n类样本中每类样本的样本数量与所述n类样本中每类样本的平均样本数量间的比值,以及所述第一样本集的初始去重比例,确定所述每类样本的去重比例,包括:

6.根据权利要求2所述的方法,其特征在于,所述基于所述每类样本中的每个样本的样本重要度和所述每类样本的去重比例,对所述第一样本集进行去重处理,得到第二样本集,包括:

7.根据权利要求2所述的方法,其特征在于,所述基于所述每类样本中的每个样本的样本重要度和所述每类样本的去重比例,对所述第一样本集进行去重处理,得到第二样本集,包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述第i类样本对应的至少一个保留样本集对应的保留样本序列,确定所述第i类样本对应的保留样本,包括:

9.根据权利要求7所述的方法,其特征在于,所述基于所述第i类样本对应的至少一个保留样本集对应的保留样本序列,确定所述第i类样本对应...

【专利技术属性】
技术研发人员:邹红建
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1