System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种难例样本确定方法、装置、设备及存储介质制造方法及图纸_技高网

一种难例样本确定方法、装置、设备及存储介质制造方法及图纸

技术编号:40963993 阅读:4 留言:0更新日期:2024-04-18 20:43
本申请实施例公开了一种难例样本确定方法,该方法获取待处理样本,将待处理样本输入图像处理模型,得到图像处理模型输出的处理结果,利用特征提取模型对处理结果包括的结果图像进行特征提取,得到第一图像特征,若确定第一图像特征不属于处理结果包括的处理标签的正样本特征库,且待比对差异距离分布与处理标签的各个负样本特征差异距离分布均不同,则确定待处理样本为难例样本。基于记录的正样本特征库以及量化后的负样本特征差异距离分布,能够较为准确地确定难例样本,并且提高确定难例样本的效率,便于后续利用难例样本对图像处理算法进行优化。此外,本申请还提供了对应的装置及相关设备。

【技术实现步骤摘要】

本申请涉及数据处理,具体涉及一种难例样本确定方法、装置、设备及存储介质


技术介绍

1、机器视觉技术能够利用机器对图像进行处理,实现类似于人眼对图像的测量和判断。机器视觉技术能够基于机器视觉算法实现。机器视觉算法能够完成目标检测、语义分割以及图像分类等图像处理任务。机器视觉算法对待处理图像进行处理,得到针对待处理图像的处理结果。

2、在实际应用过程中,机器视觉算法需要处理的待处理图像复杂多变,并且会不断涌现具有新特征的待处理图像。为了不断提高机器视觉算法的性能,以适应处理图像的需求,需要对难例样本进行挖掘。其中,难例样本是指机器视觉算法识别错误、易混淆或者是具有新特征的训练样本。利用挖掘得到的难例,能够对机器视觉算法进行进一步的优化。但是,目前难以对难例样本进行有效地挖掘。


技术实现思路

1、有鉴于此,本申请提供一种难例样本确定方法、装置、设备及存储介质,能够提高难例样本的挖掘效率。

2、为解决上述问题,本申请提供的技术方案如下:

3、第一方面,本申请提供了一种难例样本确定方法,先获取待处理样本,待处理样本是需要确定是否为难例样本的样本,将待处理样本输入图像处理模型中,得到图像处理模型输出的包括结果图像和结果图像的处理标签的处理结果,再利用特征提取模型提取结果图像的特征,得到第一图像特征。判断第一图像特征是否属于所述处理标签的正样本特征库,并且判断第一图像特征与处理标签的正样本特征库包括的各个正样本特征的差异距离分布,也就是待比对差异距离分布,是否与处理标签的负样本特征差异距离分布相同。如果确定第一图像特征不属于处理标签的正样本特征库,且待比对差异距离分布与处理标签的各个负样本特征差异距离分布均不同,则说明第一图像特征不是正样本特征库包括的正样本特征,也不是负样本特征,确定待处理样本为难例样本。如此,基于记录的正样本特征库以及量化后的负样本特征差异距离分布,能够较为准确地确定难例样本,提高确定难例样本的效率,便于后续利用难例样本对图像处理算法进行优化。

4、在一种可能的实施方式中,确定所述第一图像特征不属于所述处理标签的正样本特征库,具体能够是先计算第一图像特征与处理标签的正样本特征库包括的各个正样本特征的特征距离。如果各个特征距离均大于阈值,则确定第一图像特征不属于处理标签的正样本特征库;如果存在小于或者等于阈值的特征距离,则确定第一图像特征属于处理标签的正样本特征库。通过计算第一图像特征与各个正样本特征的特征距离,再利用计算得到的特征距离与阈值进行大小判断,能够较为准确地衡量第一图像特征与各个正样本特征之间的差距,从而较为准确地确定第一图像特征是否是正样本的特征。正样本特征库能记录当前图像处理模型能够识别确定的处理标签的正样本,实现较为直观地记录现有正样本的特征空间。基于正样本特征库,便于显式筛选难例样本,减少人工干预,提高难例样本的挖掘效率。

5、在一种可能的实施方式中,如果确定所述第一图像特征属于所述处理标签的正样本特征库,且根据所述处理结果确定所述待处理样本为负样本,则将所述待处理样本确定为难例样本。如此,在基于正样本特征库和根据图像处理模型的处理结果确定的待处理样本类型不同的情况下,将待处理样本确定为难例样本,能够避免仅依据图像处理模型的处理结果确定待处理样本是否为难例样本所导致的无法有效地筛选出难例样本的问题,提高确定的难例样本的有效程度。

6、在一种可能的实施方式中,将待比对差异距离分布包括的差异距离分布中的一个作为目标差异距离分布。如果目标差异距离分布与处理标签的负样本特征差异距离分布相同,且根据处理结果确定待处理样本为正样本,则说明基于处理标签的负样本特征差异距离分布和基于处理结果确定的待处理样本的样本类型出现冲突,将待处理样本作为难例样本。如此,能够避免仅依据图像处理模型的处理结果确定待处理样本是否为难例样本所导致的无法有效地筛选出难例样本的问题,提高确定的难例样本的有效程度。

7、在一种可能的实施方式中,获取训练数据集包括的处理标签的正样本图像,对正样本图像进行特征提取,得到第二图像特征,利用得到的第二图像特征建立处理标签的正样本特征库。基于已经确定的正样本图像建立的正样本特征库,能够显式记录当前确定的正样本的特征,便于基于正样本特征库筛选难例样本,能够较为准确地确定难例样本。

8、在一种可能的实施方式中,在基于第二图像特征建立处理标签的正样本特征库后,对处理标签的正样本特征库进行采样处理,基于采样后得到的第二图像特征重新建立处理标签的正样本特征库。通过采样处理,能够缩减正样本特征库的容量,提高确定第一图像特征是否是属于正样本特征库的计算效率,提高确定待处理样本是否为难例样本的效率。

9、在一种可能的实施方式中,先获取训练数据集包括的处理标签的负样本图像,并对负样本图像进行特征提取,得到第三图像特征,计算第三图像特征与对处理标签的正样本图像进行特征提取得到的图像特征,也就是第二图像特征之间的差异距离分布,得到处理标签的每个负样本对应的负样本特征差异距离分布。处理标签的负样本特征差异距离分布,能够显式地记录训练数据集包括的处理标签的负样本特征。如此,便于后续基于处理标签的负样本特征差异距离分布判断待处理样本是否为负样本,提高确定待处理样本是否为难例样本的准确程度,以及判断待处理样本是否为难例样本的效率。

10、在一种可能的实施方式中,在计算得到第三图像特征与第二图像特征之间的差异距离分布,得到处理标签的负样本特征差异距离分布后,对处理标签的负样本特征差异距离分布进行去重处理。去重处理后得到的负样本特征差异距离分布较为精简。基于去重处理得到的负样本特征差异距离分布判断待处理样本是否为负样本,能够提高确定待处理样本是否为负样本的效率。

11、在一种可能的实施方式中,还能够获取针对处理标签的分布查询请求。响应于获取针对处理标签的分布查询请求,显示处理标签的各个负样本特征差异距离分布。如此,用户能够查看处理标签的各个负样本特征差异距离分布,实现对处理标签的各个负样本特征差异距离分布的直观展示。

12、在一种可能的实施方式中,还能够获取针对所述难例样本的查看请求。响应于获取针对所述难例样本的查看请求,显示难例样本。如此,能够对确定的难例样本进行较为直观的展示。用户能够对显示难例样本进行查看,了解确定的难例样本。

13、第二方面,本申请提供了一种难例样本确定装置,所述装置包括:获取模块、处理模块、提取模块以及第一确定模块。其中,获取模块,用于获取待处理样本。处理模块,用于将待处理样本输入图像处理模型,得到图像处理模型输出的处理结果,处理结果包括结果图像和结果图像的处理标签。提取模块,用于利用特征提取模型对结果图像进行特征提取,得到第一图像特征。第一确定模块,用于若确定第一图像特征不属于处理标签的正样本特征库,且待比对差异距离分布与处理标签的各个负样本特征差异距离分布均不同,则确定待处理样本为难例样本,待比对差异距离分布包括第一图像特征与处理标签的本文档来自技高网...

【技术保护点】

1.一种难例样本确定方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述若确定所述第一图像特征不属于所述处理标签的正样本特征库,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述处理标签的正样本特征库是通过如下方式建立的:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1-4任一项所述的方法,其特征在于,所述处理标签的负样本特征差异距离分布是通过如下方式建立的:

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:

10.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:

11.一种难例样本确定装置,其特征在于,所述装置包括:

12.根据权利要求11所述的装置,其特征在于,所述第一确定模块,用于计算所述第一图像特征与所述处理标签的正样本特征库包括的各个正样本特征的特征距离;

13.根据权利要求11所述的装置,其特征在于,所述装置还包括:

14.根据权利要求11所述的装置,其特征在于,所述装置还包括:

15.根据权利要求11-14任一项所述的装置,其特征在于,所述处理标签的正样本特征库是通过如下方式建立的:

16.根据权利要求15所述的装置,其特征在于,所述装置还包括:

17.根据权利要求11-14任一项所述的装置,其特征在于,所述处理标签的负样本特征差异距离分布是通过如下方式建立的:

18.根据权利要求17所述的装置,其特征在于,所述处理标签的负样本特征差异距离分布的建立方式还包括:

19.根据权利要求11-18任一项所述的装置,其特征在于,所述装置还包括:

20.根据权利要求11-19任一项所述的装置,其特征在于,所述装置还包括:

21.一种计算设备集群,其特征在于,包括至少一个计算设备,每个计算设备包括处理器和存储器;

22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在至少一个计算设备上运行时,使得所述至少一个计算设备执行如权利要求1至10任一项所述的方法。

23.一种包含指令的计算机程序产品,其特征在于,当其在至少一个计算设备上运行时,使得所述至少一个计算设备执行如权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种难例样本确定方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述若确定所述第一图像特征不属于所述处理标签的正样本特征库,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述处理标签的正样本特征库是通过如下方式建立的:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1-4任一项所述的方法,其特征在于,所述处理标签的负样本特征差异距离分布是通过如下方式建立的:

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:

10.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:

11.一种难例样本确定装置,其特征在于,所述装置包括:

12.根据权利要求11所述的装置,其特征在于,所述第一确定模块,用于计算所述第一图像特征与所述处理标签的正样本特征库包括的各个正样本特征的特征距离;

13.根据权利要求11所述的装置,其特征在于,所...

【专利技术属性】
技术研发人员:董一凡钱颖
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1