错误标签数据识别方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：40078400 阅读：20 留言：0更新日期：2024-01-17 01:59

本申请公开了一种错误标签数据识别方法、装置、电子设备及可读存储介质，涉及电力系统技术领域，通过对权重向量进行归一化处理，将其分布于超球面上，并由此提出类内空间夹角概念，使用该夹角替换预测概率作为预测结果的置信度标准；在分析错误标签数据对类内空间夹角分布影响的基础上，利用ArcFace方法引入加性角度边距惩罚，实现错误标签数据与正确标签数据之间的相互分离，便于空间夹角阈值的选取；提出空间夹角阈值自动选取方法，以及小样本采样方法，进一步提升错误标签数据识别效果，减少人工核查的数据量，能够应用于专业领域文本分类任务的高质量样本集构建。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及电力系统，特别是涉及一种错误标签数据识别方法、装置、电子设备及可读存储介质。

技术介绍

1、随着自然语言处理技术的发展与成熟，电力文本因其所蕴含的数据价值，逐渐成为电力领域数据挖掘的研究热点。然而，目前电力领域各业务文本的数据集，与通用领域的数据集相比，在质量上和数量上存在一定的差距。具体到电力文本分类问题，常由于训练样本集的数量有限，且分类标签中存在比例难以掌握的错误标签，导致仅依靠分类模型的选择和改进，难以突破分类准确性的天花板。文本分类常采用神经网络模型，数据集作为神经网络模型的知识获取来源，其质量直接决定了神经网络模型的应用效果。因此，对用于文本分类训练的数据集，进行错误标签数据识别研究，具有重要意义。

2、相关技术中，通常选取最大预测概率值(maximum softmax probability，msp)作为错误标签数据识别依据，即以最大预测概率值作为预测结果置信度，并设定阈值，可疑数据为置信度低于设定阈值的数据，以及置信度高但预测结果与标签值不一致的数据。但是申请人认识到，该种方法置信度阈值选取难度较大...

【技术保护点】

1.一种错误标签数据识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标样本数据输入预先训练的样本集预测模型中，得到类内空间夹角分布信息之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述按照预设双峰分布规则和所述类内空间夹角分布信息在所述目标样本数据中提取可疑数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述采用所述预设双峰分布规则对所述类内空间夹角分布信息进行检测之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述可疑数据输入小样本集预测模型中进行类别...

【技术特征摘要】

1.一种错误标签数据识别方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述按照预设双峰分布规则和所述类内空间夹角分布信息在所述目标样本数据中提取可疑数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述采用所述预设双峰分布规则对所述类内空间夹角分布信息进行检测之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述可疑数据输入小样本集预测模型中进行类别预测，得到高...

【专利技术属性】
技术研发人员：费正明，唐陇军，王慧芳，尹凡，周辉，罗华峰，王刘旺，宣佳卓，方圆圻，任茂鑫，
申请(专利权)人：国家电网有限公司华东分部，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人