【技术实现步骤摘要】
本申请涉及电力系统,特别是涉及一种错误标签数据识别方法、装置、电子设备及可读存储介质。
技术介绍
1、随着自然语言处理技术的发展与成熟,电力文本因其所蕴含的数据价值,逐渐成为电力领域数据挖掘的研究热点。然而,目前电力领域各业务文本的数据集,与通用领域的数据集相比,在质量上和数量上存在一定的差距。具体到电力文本分类问题,常由于训练样本集的数量有限,且分类标签中存在比例难以掌握的错误标签,导致仅依靠分类模型的选择和改进,难以突破分类准确性的天花板。文本分类常采用神经网络模型,数据集作为神经网络模型的知识获取来源,其质量直接决定了神经网络模型的应用效果。因此,对用于文本分类训练的数据集,进行错误标签数据识别研究,具有重要意义。
2、相关技术中,通常选取最大预测概率值(maximum softmax probability,msp)作为错误标签数据识别依据,即以最大预测概率值作为预测结果置信度,并设定阈值,可疑数据为置信度低于设定阈值的数据,以及置信度高但预测结果与标签值不一致的数据。但是申请人认识到,该种方法置信度阈值选取难度较大
...【技术保护点】
1.一种错误标签数据识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述目标样本数据输入预先训练的样本集预测模型中,得到类内空间夹角分布信息之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述按照预设双峰分布规则和所述类内空间夹角分布信息在所述目标样本数据中提取可疑数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述采用所述预设双峰分布规则对所述类内空间夹角分布信息进行检测之后,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述可疑数据输入小样本
...【技术特征摘要】
1.一种错误标签数据识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述目标样本数据输入预先训练的样本集预测模型中,得到类内空间夹角分布信息之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述按照预设双峰分布规则和所述类内空间夹角分布信息在所述目标样本数据中提取可疑数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述采用所述预设双峰分布规则对所述类内空间夹角分布信息进行检测之后,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述可疑数据输入小样本集预测模型中进行类别预测,得到高...
【专利技术属性】
技术研发人员:费正明,唐陇军,王慧芳,尹凡,周辉,罗华峰,王刘旺,宣佳卓,方圆圻,任茂鑫,
申请(专利权)人:国家电网有限公司华东分部,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。