数据处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:42044810 阅读:16 留言:0更新日期:2024-07-16 23:27
本申请公开了一种数据处理方法、装置、电子设备及计算机可读存储介质,该方法包括:获取第一带标签数据集,第一带标签数据集中包括多条第一样本数据和对应的第一标签。将多条第一样本数据输入至预训练分类模型,得到第一样本数据对应的预测标签。根据各第一样本数据对应的第一标签和预测标签,确定第二带标签数据集和噪音标签数据集。根据第二样本数据和对应的第一标签,确定第一数量个类别原型向量,第一数量等于所有第二样本数据所属样本类别的总数。根据各第三样本数据的特征向量与第一数量个类别原型向量在特征向量空间中的距离,确定目标第三样本数据并为其确定目标标签。本申请可以提升带标签样本数据的标签质量,减少噪音标签的数量。

【技术实现步骤摘要】

本申请涉及计算机,具体涉及一种数据处理方法、装置、电子设备及计算机可读存储介质


技术介绍

1、近些年来,以深度学习为代表的人工智能技术取得了极大的发展,这些深度学习技术的发展离不开大量标注数据的支持,特别地,众包标注平台以其低成本、弹性化等优势在众多标注方式中脱颖而出。但由于众包用户的标注能力不一,通过该方法收集的标签数据质量很难得到保证,即存在噪音标签数据。

2、在相关技术中,为了避免噪音标签数据给模型训练带来负面影响,在对模型训练前,通常采用样本选择方法从标签样本集中将含有噪音标签的样本识别出来并删除,基于标签样本集中剩余的标签样本对模型进行训练。

3、然而,由于噪音标签数据中可能含有对模型训练有益的信息,上述相关技术将识别出来的噪音标签一律删除,这将导致噪音标签数据中的有益数据丢失。


技术实现思路

1、本申请提供一种数据处理方法、装置、电子设备及计算机可读存储介质,以提升带标签样本数据的标签质量,减少噪音标签的数量。

2、第一方面,本申请实施例提供一种数据处理方法,本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据各所述第二样本数据和对应的第一标签,确定第一数量个类别原型向量,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据各所述第三样本数据的特征向量与所述第一数量个类别原型向量在特征向量空间中的距离,确定目标第三样本数据,并为所述目标第三样本数据确定对应的目标标签,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据所述样本类别中包括的所有所述第二样本数据的特征向量,确定所述样本类别对应的类别原型向量,包括:

5.根据权利要求1所述的...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据各所述第二样本数据和对应的第一标签,确定第一数量个类别原型向量,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据各所述第三样本数据的特征向量与所述第一数量个类别原型向量在特征向量空间中的距离,确定目标第三样本数据,并为所述目标第三样本数据确定对应的目标标签,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据所述样本类别中包括的所有所述第二样本数据的特征向量,确定所述样本类别对应的类别原型向量,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述将所述目标第三样本数据从所述噪音标签...

【专利技术属性】
技术研发人员:朱仁煜刘昊俣吴润泽林敏敏许璐吕唐杰范长杰
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1