System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 样本处理方法、装置、设备及计算机可读介质制造方法及图纸_技高网

样本处理方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:40394364 阅读:6 留言:0更新日期:2024-02-20 22:23
本申请提供了一种样本处理方法、装置、设备及计算机可读介质。用于分类模型的样本处理,方法包括:获取模型分类错误样本,基于模型分类错误样本设置违标签,得到违标签样本集,基于模型分类错误样本设置真标签,得到真标签样本集;对违标签样本集和真标签样本集进行超平面分割,得到分割超平面信息,基于分割超平面信息确定真标签样本集中的疑点样本,得到候选样本集;分别基于违标签样本集中各样本在分类模型中的第一模型处理特征和候选样本集中各样本在分类模型中的第二模型处理特征确定目标校正样本。通过分析模型预测错误的信息,自动定位可能存在的错误样本,可以至少用以解决分类模型样本标记不准确导致模型分类准确率低的技术问题。

【技术实现步骤摘要】

本申请涉及神经网络,尤其涉及一种样本处理方法、装置、设备及计算机可读介质


技术介绍

1、神经网络的应用性能取决于模型训练的样本集,样本集的质量,多样性,准确性直接影响模型分类的性能。然而,专利技术人发现相关技术中至少存在如下技术问题:样本集中数据标注错误,数据不一致,噪声数据等数据错误会导致模型训练时精度下降,直接影响模型的应用性能,导致模型的泛化能力降低。针对这一问题,训练源数据的准确性变的尤为重要。


技术实现思路

1、本申请的一个目的是提供一种样本处理方法、装置、设备及计算机可读介质,至少用以解决样本不准确,导致模型应用性能差的技术问题。

2、为实现上述目的,本申请的一些实施例提供了以下几个方面:

3、第一方面,本申请的一些实施例还提供了一种样本处理方法,用于分类模型的样本处理,所述方法包括:

4、获取模型分类错误样本,基于所述模型分类错误样本设置违标签,得到违标签样本集,基于所述模型分类错误样本设置真标签,得到真标签样本集;

5、对所述违标签样本集和真标签样本集进行超平面分割,得到分割超平面信息,基于所述分割超平面信息确定所述真标签样本集中的疑点样本,得到候选样本集;

6、分别基于违标签样本集中各样本在分类模型中的第一模型处理特征和候选样本集中各样本在分类模型中的第二模型处理特征确定目标校正样本。

7、第二方面,本申请的一些实施例还提供了一种样本处理装置,用于分类模型的样本处理,所述装置包括:

<p>8、真伪标签样本集构建模块,用于获取模型分类错误样本,基于所述模型分类错误样本设置违标签,得到违标签样本集和真标签样本集;

9、候选样本集构建模块,用于对所述违标签样本集和真标签样本集进行超平面分割,得到分割超平面信息,基于所述分割超平面信息确定所述真标签样本集中的疑点样本,得到候选样本集;

10、目标校正样本确定模块,用于分别基于违标签样本集中各样本在分类模型中的第一模型处理特征和候选样本集中各样本在分类模型中的第二模型处理特征确定目标校正样。

11、第三方面,本申请的一些实施例还提供了一种计算机设备,其特征在于,所述设备包括:一个或多个处理器;以及存储有计算机程序指令的存储器,所述计算机程序指令在被执行时使所述处理器执行如上所述的方法。

12、第四方面,本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如上所述的方法。

13、相较于现有技术,本申请实施例提供的方案中,用于分类模型的样本处理的样本处理方法包括:获取模型分类错误样本,基于模型分类错误样本设置违标签,得到违标签样本集,基于模型分类错误样本设置真标签,得到真标签样本集;对违标签样本集和真标签样本集进行超平面分割,得到分割超平面信息,基于分割超平面信息确定真标签样本集中的疑点样本,得到候选样本集;分别基于违标签样本集中各样本在分类模型中的第一模型处理特征和候选样本集中各样本在分类模型中的第二模型处理特征确定目标校正样本。通过分析模型在测试数据上预测错误的信息,自动定位和修复训练数据中可能存在的错误样本,从而提高模型的准确性,可以至少用以解决分类模型样本标记不准确的技术问题。

本文档来自技高网
...

【技术保护点】

1.一种样本处理方法,其特征在于,用于分类模型的样本处理,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述分割超平面信息确定所述真标签样本集中的疑点样本,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一距离参数和所述第二距离参数从所述真标签样本集中筛选出所述疑点样本,包括:

4.根据权利要求1所述的方法,其特征在于,所述分别基于违标签样本集中各样本在分类模型中的第一模型处理特征和候选样本集中各样本在分类模型中的第二模型处理特征确定目标校正样本,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据同一样本的所述第一模型处理特征和所述第二模型处理特征确定所述目标校正样本,包括:

6.根据权利要求5所述的方法,其特征在于,所述设定规则为n>=N*k,其中,k为小于1的固定值,N为卷积层的总层数。

7.根据权利要求4所述的方法,其特征在于,所述第一模型处理特征为所述违标签样本集中各样本在各卷积层上的特征标准差,所述第二模型处理特征为所述真标签样本集中各样本在各卷积层上的特征标准差。

8.一种样本处理装置,其特征在于,用于分类模型的样本处理,所述装置包括:

9.一种计算机设备,其特征在于,所述设备包括:

10.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种样本处理方法,其特征在于,用于分类模型的样本处理,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述分割超平面信息确定所述真标签样本集中的疑点样本,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一距离参数和所述第二距离参数从所述真标签样本集中筛选出所述疑点样本,包括:

4.根据权利要求1所述的方法,其特征在于,所述分别基于违标签样本集中各样本在分类模型中的第一模型处理特征和候选样本集中各样本在分类模型中的第二模型处理特征确定目标校正样本,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据同一样本的所述第一模型处理特征和所述第二模型处理特征确...

【专利技术属性】
技术研发人员:乔海瑞
申请(专利权)人:上海朋熙半导体有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1