System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 处理噪声数据的方法、装置、设备及存储介质制造方法及图纸_技高网

处理噪声数据的方法、装置、设备及存储介质制造方法及图纸

技术编号:41304373 阅读:2 留言:0更新日期:2024-05-13 14:50
本申请适用于数据处理技术领域,提供了一种处理噪声数据的方法、装置、设备及存储介质,包括:获取在多个企业数据中筛选出的噪声数据;确定噪声数据中的信息错误数据和标签错误数据;剔除信息错误数据并更新标签错误数据,得到目标噪声数据,目标噪声数据用于训练企业分类模型。本实施方式中,确定噪声数据中的信息错误数据和标签错误数据,对于无法进行校正的信息错误数据进行剔除,使最后得到的目标噪声数据中没有信息错误数据的干扰,这样在利用目标噪声数据训练企业分类模型时,提升了模型准确性。对于标签错误数据进行了更新,使更新后的标签错误数据也可用于训练企业分类模型,为后续训练企业分类模型需要的样本数量提供了保证。

【技术实现步骤摘要】

本申请属于数据处理,尤其涉及一种处理噪声数据的方法、装置、设备及存储介质


技术介绍

1、对企业进行有目的的行业类别认定,是商业分析和投资决策过程中的重要一环。对企业进行行业类别认定,实质就是对企业相关数据进行分类,从而根据分类结果确定该企业的行业类别。

2、目前,通常通过训练好的分类模型对企业相关数据进行分类,得到该企业的行业类别。在训练该分类模型时,训练数据的质量对该分类模型的学习效果至关重要。

3、高性能的分类模型依赖大量高质量标记的训练数据,而训练数据的质量非常依赖人工的标注。标注的质量越高,标注的难度也就越大。因此,大型数据集总是包含大量的噪声数据,如标签错误的数据。

4、现有技术中通过置信学习筛选并过滤训练数据中的噪声数据,这样筛选出的噪声数据并不准确。


技术实现思路

1、有鉴于此,本申请实施例提供了一种处理噪声数据的方法、装置、设备及存储介质,以解决现有技术中筛选出来的噪声数据并不准确,会将原本不属于噪声数据的数据判定为噪声数据,再将这些噪声数据全部剔除,影响了训练数据的数量和质量,最终导致训练出的分类模型不准确的问题。

2、本申请实施例的第一方面提供了一种处理噪声数据的方法,该方法包括:

3、获取在多个企业数据中筛选出的噪声数据,噪声数据带有标签,标签用于标识企业的行业类别;

4、确定噪声数据中的信息错误数据和标签错误数据,信息错误数据为置信度小于预设阈值的数据,标签错误数据为噪声数据中除信息错误数据以外的数据;

5、针对该噪声数据,剔除信息错误数据并更新标签错误数据,得到目标噪声数据,目标噪声数据用于训练企业分类模型。

6、上述方案中,在筛选出的噪声数据的基础上,进一步确定噪声数据中的信息错误数据和标签错误数据,对于无法进行校正的信息错误数据进行剔除,使最后得到的目标噪声数据中没有这类数据。由于最后得到的目标噪声数据中没有了信息错误数据的干扰,这样在利用目标噪声数据训练企业分类模型时,提升了企业分类模型的准确性。现有技术只要是噪声数据都会剔除,而通常标签错误数据这类数据的数据量很大,将这类数据也剔除会大大影响后续训练企业分类模型的样本数量。本实施方式中对于标签错误数据没有直接剔除,而是进行了更新,使更新后的标签错误数据也可用于训练企业分类模型,为后续利用目标噪声数据训练企业分类模型需要用到的样本数量提供了保证。

7、且本实施方式中,是在筛选出的噪声数据的基础上,进一步确定噪声数据中的信息错误数据和标签错误数据,实现了对噪声数据更深层次的分析,使剔除的信息错误数据属于真正的噪声数据。而标签错误数据并不算真正的噪声数据,其更新后还可以再利用,实现了对这类数据的合理利用,后续再训练企业分类模型时,无需再获取大量的样本,进而节约了资源、节省了训练成本。

8、可选地,确定噪声数据中的信息错误数据和标签错误数据,包括:获取噪声数据中的每个数据的企业相关信息;根据每个企业相关信息,计算每个数据的文本信息熵、文本相似度和/或向量距离;根据文本信息熵、文本相似度以及向量距离,确定每个数据的置信度;将置信度小于预设阈值的数据确定为信息错误数据;将置信度大于或等于预设阈值的数据确定为标签错误数据。

9、可选地,剔除信息错误数据并更新标签错误数据,得到目标噪声数据,包括:在噪声数据中剔除信息错误数据;根据预设的更新策略,确定标签错误数据中的标签可更新数据和标签不可更新数据;更新标签可更新数据的标签,得到更新数据;根据更新数据和标签不可更新数据,确定目标噪声数据。

10、可选地,获取在多个企业数据中筛选出的噪声数据之前,该方法还包括:利用置信学习和预设的筛选策略在多个企业数据中筛选出噪声数据。

11、可选地,每个企业数据带有原始标签,利用置信学习和预设的筛选策略在多个企业数据中筛选出噪声数据,包括:利用构建的分类模型对多个企业数据进行处理,得到每个企业数据的预测概率;根据每个企业数据的预测概率,预测每个企业数据的真实标签;根据每个企业数据的原始标签和真实标签,估计原始标签和真实标签的联合概率分布;基于联合概率分布,在多个企业数据中筛选出符合筛选策略的企业数据,得到噪声数据,筛选策略包括噪声率筛选策略和/或行业类别筛选策略。

12、可选地,剔除信息错误数据并更新标签错误数据,得到目标噪声数据之后,该方法还包括:利用目标噪声数据对基础模型进行m轮训练,得到企业分类模型集,m为正整数,企业分类模型集包括m个企业分类模型,每一轮训练所采用的基础模型不同。

13、可选地,利用目标噪声数据对基础模型进行m轮训练,得到企业分类模型集,包括:确定第i轮训练对应的训练样本集,i为正整数且依次递增,i≤m,每一轮训练所采用的训练样本集不同;确定第i轮训练对应的基础模型;根据第i轮训练对应的训练样本集对第i轮训练对应的基础模型进行训练,得到第i轮训练对应的企业分类模型;根据每一轮训练得到的企业分类模型,构成企业分类模型集。

14、可选地,确定第i轮训练对应的训练样本集,包括:当i=1时,获取多个企业数据中的非噪声数据;根据非噪声数据和目标噪声数据构成训练样本集;当i≠1时,确定第i轮训练对应的非噪声数据;确定第i轮训练对应的目标噪声数据;根据第i轮训练对应的非噪声数据和第i轮训练对应的目标噪声数据,构成第i轮训练对应的训练样本集。

15、可选地,确定第i轮训练对应的目标噪声数据,包括:确定第i-1轮训练对应的训练样本集中的噪声数据;确定第i-1轮训练对应的噪声数据中的信息错误数据和标签错误数据;剔除第i-1轮训练对应的噪声数据中的信息错误数据,并更新第i-1轮训练对应的噪声数据中的标签错误数据,得到第i轮训练对应的目标噪声数据。

16、可选地,该方法还包括:在第i轮训练过程中,计算第i轮训练所用的训练样本集的联合分布概率;根据第i轮训练的联合分布概率,调整第i轮训练所用的训练样本集中各个数据的权重,调整后的权重用于调整第i+1轮训练中的损失函数的权重。

17、可选地,利用目标噪声数据对基础模型进行m轮训练,得到企业分类模型集之后,该方法还包括:获取企业的待分类数据;将待分类数据输入企业分类模型集中进行处理,得到企业的行业分类结果。

18、可选地,将待分类数据输入企业分类模型集中进行处理,得到企业的行业分类结果,包括:通过企业分类模型集中的每个企业分类模型,对待分类数据进行预测处理,得到多个预测结果;获取每个企业分类模型对应的模型权重;根据多个预测结果和每个模型权重,确定企业的行业分类结果。

19、本申请实施例的第二方面提供了一种处理噪声数据的装置,包括:

20、获取单元,用于获取在多个企业数据中筛选出的噪声数据,噪声数据带有标签,标签用于标识企业的行业类别;

21、确定单元,用于确定噪声数据中的信息错误数据和标签错误数据,信息错误数据为置信度小于预设阈值的数据,标签错本文档来自技高网...

【技术保护点】

1.一种处理噪声数据的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述确定所述噪声数据中的信息错误数据和标签错误数据,包括:

3.如权利要求1所述的方法,其特征在于,所述剔除所述信息错误数据并更新所述标签错误数据,得到目标噪声数据,包括:

4.如权利要求1至3任一项所述的方法,其特征在于,所述获取在多个企业数据中筛选出的噪声数据之前,所述方法还包括:

5.如权利要求4所述的方法,其特征在于,每个企业数据带有原始标签,所述利用置信学习和预设的筛选策略在所述多个企业数据中筛选出所述噪声数据,包括:

6.如权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:

7.如权利要求6所述的方法,其特征在于,所述利用所述目标噪声数据对基础模型进行M轮训练,得到企业分类模型集,包括:

8.如权利要求7所述的方法,其特征在于,所述确定第i轮训练对应的训练样本集,包括:

9.如权利要求8所述的方法,其特征在于,所述确定第i轮训练对应的目标噪声数据,包括:

10.如权利要求6所述的方法,其特征在于,所述方法还包括:

11.如权利要求6所述的方法,其特征在于,所述利用所述目标噪声数据对基础模型进行M轮训练,得到企业分类模型集之后,所述方法还包括:

12.如权利要求11所述的方法,其特征在于,所述将所述待分类数据输入所述企业分类模型集中进行处理,得到所述企业的行业分类结果,包括:

13.一种处理噪声数据的装置,其特征在于,包括:

14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的方法。

...

【技术特征摘要】

1.一种处理噪声数据的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述确定所述噪声数据中的信息错误数据和标签错误数据,包括:

3.如权利要求1所述的方法,其特征在于,所述剔除所述信息错误数据并更新所述标签错误数据,得到目标噪声数据,包括:

4.如权利要求1至3任一项所述的方法,其特征在于,所述获取在多个企业数据中筛选出的噪声数据之前,所述方法还包括:

5.如权利要求4所述的方法,其特征在于,每个企业数据带有原始标签,所述利用置信学习和预设的筛选策略在所述多个企业数据中筛选出所述噪声数据,包括:

6.如权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:

7.如权利要求6所述的方法,其特征在于,所述利用所述目标噪声数据对基础模型进行m轮训练,得到企业分类模型集,包括:

【专利技术属性】
技术研发人员:潘利星余电
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1