System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 错误标签数据识别方法、装置、电子设备及可读存储介质制造方法及图纸_技高网

错误标签数据识别方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:40078400 阅读:7 留言:0更新日期:2024-01-17 01:59
本申请公开了一种错误标签数据识别方法、装置、电子设备及可读存储介质,涉及电力系统技术领域,通过对权重向量进行归一化处理,将其分布于超球面上,并由此提出类内空间夹角概念,使用该夹角替换预测概率作为预测结果的置信度标准;在分析错误标签数据对类内空间夹角分布影响的基础上,利用ArcFace方法引入加性角度边距惩罚,实现错误标签数据与正确标签数据之间的相互分离,便于空间夹角阈值的选取;提出空间夹角阈值自动选取方法,以及小样本采样方法,进一步提升错误标签数据识别效果,减少人工核查的数据量,能够应用于专业领域文本分类任务的高质量样本集构建。

【技术实现步骤摘要】

本申请涉及电力系统,特别是涉及一种错误标签数据识别方法、装置、电子设备及可读存储介质


技术介绍

1、随着自然语言处理技术的发展与成熟,电力文本因其所蕴含的数据价值,逐渐成为电力领域数据挖掘的研究热点。然而,目前电力领域各业务文本的数据集,与通用领域的数据集相比,在质量上和数量上存在一定的差距。具体到电力文本分类问题,常由于训练样本集的数量有限,且分类标签中存在比例难以掌握的错误标签,导致仅依靠分类模型的选择和改进,难以突破分类准确性的天花板。文本分类常采用神经网络模型,数据集作为神经网络模型的知识获取来源,其质量直接决定了神经网络模型的应用效果。因此,对用于文本分类训练的数据集,进行错误标签数据识别研究,具有重要意义。

2、相关技术中,通常选取最大预测概率值(maximum softmax probability,msp)作为错误标签数据识别依据,即以最大预测概率值作为预测结果置信度,并设定阈值,可疑数据为置信度低于设定阈值的数据,以及置信度高但预测结果与标签值不一致的数据。但是申请人认识到,该种方法置信度阈值选取难度较大,且不适用于专业性强、文本相似度高的电力现场作业文本,导致识别准确度低且效率不高。


技术实现思路

1、有鉴于此,本申请提供了一种错误标签数据识别方法、装置、电子设备及可读存储介质,主要目的在于解决选取最大预测概率值进行错误标签数据识别的方法置信度阈值选取难度较大,且不适用于专业性强、文本相似度高的电力现场作业文本,导致识别准确度低且效率不高的问题,实现高质量数据集的高效准确构建。

2、依据本申请第一方面,提供了一种错误标签数据识别方法,该方法包括:

3、获取样本集数据,按照预设转化格式将所述样本集数据转化为目标样本数据;

4、将所述目标样本数据输入预先训练的样本集预测模型中,得到类内空间夹角分布信息,以及按照预设双峰分布规则和所述类内空间夹角分布信息在所述目标样本数据中提取可疑数据;

5、将所述可疑数据输入小样本集预测模型中进行类别预测,得到高度可疑数据,以及将所述高度可疑数据发送至核查人员所持终端;

6、当接收到所述核查人员基于所持终端反馈的标签纠正结果时,采用所述标签纠正结果对所述目标样本数据进行调整,得到指定样本集数据。

7、依据本申请第二方面,提供了一种错误标签数据识别装置,该装置包括:

8、转化模块,用于获取样本集数据,按照预设转化格式将所述样本集数据转化为目标样本数据;

9、提取模块,用于将所述目标样本数据输入预先训练的样本集预测模型中,得到类内空间夹角分布信息,以及按照预设双峰分布规则和所述类内空间夹角分布信息在所述目标样本数据中提取可疑数据;

10、预测模块,用于将所述可疑数据输入小样本集预测模型中进行类别预测,得到高度可疑数据,以及将所述高度可疑数据发送至核查人员所持终端;

11、调整模块,用于当接收到所述核查人员基于所持终端反馈的标签纠正结果时,采用所述标签纠正结果对所述目标样本数据进行调整,得到指定样本集数据。

12、依据本申请第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。

13、依据本申请第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

14、借由上述技术方案,本申请提供的一种错误标签数据识别方法、装置、电子设备及可读存储介质,本申请获取样本集数据,按照预设转化格式将样本集数据转化为目标样本数据,将目标样本数据输入预先训练的样本集预测模型中,通过对权重向量进行归一化处理,将其分布于超球面上,并由此提出类内空间夹角概念,使用该夹角替换预测概率作为预测结果的置信度标准,得到类内空间夹角分布信息,并在分析错误标签数据对类内空间夹角分布影响的基础上,利用arcface方法引入加性角度边距惩罚,实现错误标签数据与正确标签数据之间的相互分离,便于空间夹角阈值的选取,以及按照预设双峰分布规则和类内空间夹角分布信息在目标样本数据中提取可疑数据,将可疑数据输入小样本集预测模型中进行类别预测,得到高度可疑数据,以及将高度可疑数据发送至核查人员所持终端,当接收到核查人员基于所持终端反馈的标签纠正结果时,采用标签纠正结果对目标样本数据进行调整,得到高质量样本集数据,然后提出小样本采样方法,进一步提升错误标签数据的识别效果和识别效率,减少人工核查的数据量。

15、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种错误标签数据识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述目标样本数据输入预先训练的样本集预测模型中,得到类内空间夹角分布信息之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述按照预设双峰分布规则和所述类内空间夹角分布信息在所述目标样本数据中提取可疑数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述采用所述预设双峰分布规则对所述类内空间夹角分布信息进行检测之后,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述将所述可疑数据输入小样本集预测模型中进行类别预测,得到高度可疑数据之前,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述将所述可疑数据输入小样本集预测模型中进行类别预测,得到高度可疑数据,包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种错误标签数据识别装置,其特征在于,包括:

9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种错误标签数据识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述目标样本数据输入预先训练的样本集预测模型中,得到类内空间夹角分布信息之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述按照预设双峰分布规则和所述类内空间夹角分布信息在所述目标样本数据中提取可疑数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述采用所述预设双峰分布规则对所述类内空间夹角分布信息进行检测之后,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述将所述可疑数据输入小样本集预测模型中进行类别预测,得到高...

【专利技术属性】
技术研发人员:费正明唐陇军王慧芳尹凡周辉罗华峰王刘旺宣佳卓方圆圻任茂鑫
申请(专利权)人:国家电网有限公司华东分部
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1