当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于多解码器的数据标注错误检测方法与装置制造方法及图纸

技术编号:32810533 阅读:20 留言:0更新日期:2022-03-26 20:04
本发明专利技术公开了一种基于多解码器的数据标注错误检测方法与装置,通过建立图像数据集,利用图像数据集对半监督异常检测神经网络进行训练;将训练过程中由编码器产生的隐层特征通过多个解码器对样本数据进行重构,得到隐层特征重构层;其中,正样本解码器为一般的单解码器,负样本解码器则为特殊的多通道解码器,这样的设计有利于刻画与区别正样本和负样本的不同性质;通过比较两个解码器对数据样本的重构效果对待检测图像数据进行异常检测。本发明专利技术能够提高负样本解码器对异常样本的拟合能力,从而扩大正常样本与异常样本之间的异常得分差距,提高异常检测性能。提高异常检测性能。提高异常检测性能。

【技术实现步骤摘要】
一种基于多解码器的数据标注错误检测方法与装置


[0001]本专利技术涉及机器学习
,尤其是涉及一种基于多解码器的数据标注错误检测方法与装置。

技术介绍

[0002]在数据标注过程中,经常会发生标注人员的不注意而导致的标注错误等不良现象。通过人为地进行筛查,确定标注错误的发生点,则会造成大量的时间和人力开支。由于一定量的正确的标注数据是易于获得的或已经准备好的,因而可以采用半监督异常检测技术,去降低人工检查标注数据造成的巨大开支成本。
[0003]这里提到的异常检测技术,是将给定数据中反常的部分,即将与正常模式不同者筛除的技术。原始定义中未能覆盖的未见类、以及外部干扰产生的噪音点都可能造成异常点。一般而言,使用离群点指代这些异常数据,对于正常数据,则用合群点来指代他们。在诸多科学应用与工业领域中都在应用异常检测技术,如在机器视觉领域中的新颖性检测,生化制药领域的新有效药物寻找等。
[0004]一般认为异常检测是一种单分类任务,在这类任务中,因为缺乏相关知识,因此不能很好地规定反类的范围和具体性质。在现实应用中,提取负样本及核验其真伪性是不容易做到的。在另一些情况中,存在相当多无法事先判断并定义的异常点。基于这一类数据的性质,一般将其称作新颖点或异常点,而通过分析和刻画训练数据的性质,则可以很好地描述正样本。多分类器具有对未见类不敏感的惰性,试图通过一般性的多分类策略解决异常检测问题是不可行的。
[0005]迄今为止的研究中已经展示出致力于异常检测任务的多种策略和方式。在多数情况下,这些方法可被归结为以下三类:1)基于给定的正样本数据,归纳正常样本属性,并构建模型刻画该种属性;2)设定规则,将不符合正常定义的样本归类为离群点;3)基于异常的统计或几何度量将离群点分离出数据集合。一般而言,根据模型之间的差异性,数据模型会在拟合潜在数据性质的模型容量上表现出不同点。现在流行的多数模型多数是线性性质的,这类模型的一大特点是模型容量较为有限。然而,确实有通过应用核函数技巧提高模型拟合能力的策略,不过一旦应用到数据维度较高或数据量较大的情况时,该类策略即失效。
[0006]随着在诸多领域应用深度学习的技术的情况不断发展,人们发现使用深度神经网络拟合高维特征是较为有效的,这可以归功于此类模型的在特征工程上的高表现。尽管深度学习方法适于提取表征,但在异常检测任务背景下,异常点(也即离群点)往往非常难以收集,从而导致训练样本数据中极端的类目不平衡情况。因而,传统上通过有监督的方式训练一深度神经网络来进行异常检测是不可行的。
[0007]如前述,异常检测任务可被视为一个一分类任务来解决。可以发现一些技术工作者完成了部分试图学习出一分类器的工作,然而,在这些大多数的相关工作中,构建无需阈值的、判别式的异常检测模型的尝试始终未成功。在这些工作中,一般的情形是仍然需要手动筛选合理的阈值,在这之中需要大量的人工尝试和调整参数工作。生产环境中的经验表
明,我们往往不能事先推断出异常点的类型和其相关属性,因此,试图用一个确定的阈值去描述所有异常情况是不够合理的。
[0008]这些现有技术的另外一项缺陷是,默认了训练样本皆为正样本的数据环境,因而在训练过程中,只能使用正样本数据,从而导致机器学习中常见的过拟合问题的发生,从而导致模型的泛化能力大幅度降低。其实,从更宏观的角度出发,之所以不能以朴素的策略,即将正样本输入深度神经网络,从而通过训练得到一个分类器,去解决异常检测问题,其原因正在于此。
[0009]技术实践中存在一些方法去控制过拟合对模型性能产生的破坏性影响,例如,经常使用的有早停技巧等。然而,如何巧妙的确定停止时机既有相当大的随机性,一般而言很难决定最优化泛化性能的最佳时间节点。在半监督异常检测领域和相关任务的解决方案上,表示学习是目前最为常用的办法,根据训练数据的类型,设计相应的半监督表征学习任务,最后通过异常和正常样本的训练速度或者训练难度之间的差异,以此检测出异常样本。

技术实现思路

[0010]为解决现有技术的不足,实现提高负样本解码器对异常样本的拟合能力,从而扩大正常样本与异常样本之间的异常得分差距,提高异常检测性能的目的,本专利技术采用如下的技术方案:一种基于多解码器的数据标注错误检测方法,包括如下步骤:S1,建立正样本和无标记样本的图像数据集,确定无标记样本的属性,即将无标记样本分类为正样本和负样本;利用图像数据集对半监督异常检测神经网络进行训练;S2,正样本和无标记样本通过编码器,得到图像数据的隐层特征;编码器负责将输入特征编码压缩至低维空间,形成隐层特征;S3,隐层特征通过正、负样本解码器,将正样本通过正样本解码器,得到正样本的重构结果,将无标记样本分别通过正、负样本解码器,得到无标记样本分别在正、负样本解码器下的重构结果,对样本进行竞争重构,这样的设计有利于刻画与区别正样本和负样本的不同性质;S4,比较正、负样本解码器的重构误差,将无标记样本中的负样本,在正、负样本解码器下的重构误差最小值,与正样本的重构误差联合计算损失,对解码器和/或编码器进行训练;S5,训练完成后,对待检测图像数据进行异常检测。
[0011]进一步地,S1中对图像数据集进行预处理,包括对图像数据进行降维处理、将图像特征扁平化处理和归一化操作,原图像数据尺寸较大,如直接使用原始图像,则数据维度过高,因而,降低数据维度并将特征扁平化,归一化操作以保证数据质量。
[0012]进一步地,S1中对图像数据进行批量序列随机化处理,从而消除数据收集时造成的数据不均匀,不同时对所有训练样本进行处理,以降低内存负担。
[0013]进一步地,S3中的正样本解码器为单解码器,负样本解码器为一组负样本解码器或,通过该负样本编码器对负样本规律的学习,就可以比较两编码器对样本的重构能力,进而确定样本的类型归属,其结果使用注意力机制进行融合,通过这种设计,使得在正样本解码器中,正样本会获得更小的重构误差;同样地,负样本解码器会对负样本给出更小的误
差,在训练过程中,算法模型已经学习到无标记样本的内廪标签属性,因而不存在一个额外的测试过程。
[0014]进一步地,负样本解码器采用多通道负样本解码器,考虑到合群点,即正样本的性质较为统一,而离群点,即负样本则更贴近于一种混合分布,因此使用多解码器去拟合这一分布属性,通过多个通道的多解码器去分别处理离群点中的不同子分布,能够使重构误差降低,提高性能。
[0015]进一步地,S4中计算重构误差后的损失计算,采用如下损失函数:其中,表示正样本集合,表示无标记样本集合,表示正样本集合在正样本解码器重构的结果,表示无标记样本集合中负样本,在正样本解码器重构的结果,表示无标记样本集合中的负样本,在负样本解码器重构的结果,j表示负样本集合的索引,表示L2范数的平方。
[0016]进一步地,S4中通过梯度下降算法,得出损失函数在以模型参数为自变量时的梯度,采用正向传播与误差的反向传播(BP)算法迭代参数,重复S1中对图像数据集进行预处理至S4中计算损失本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多解码器的数据标注错误检测方法,其特征在于包括如下步骤:S1,建立正样本和无标记样本的图像数据集,确定无标记样本的属性,即将无标记样本分类为正样本和负样本;S2,正样本和无标记样本通过编码器,得到图像数据的隐层特征;S3,隐层特征通过正、负样本解码器,将正样本通过正样本解码器,得到正样本的重构结果,将无标记样本分别通过正、负样本解码器,得到无标记样本分别在正、负样本解码器下的重构结果,对样本进行竞争重构;S4,比较正、负样本解码器的重构误差,将无标记样本中的负样本,在正、负样本解码器下的重构误差最小值,与正样本的重构误差联合计算损失,对解码器和/或编码器进行训练;S5,训练完成后,对待检测图像数据进行异常检测。2.根据权利要求1所述的一种基于多解码器的数据标注错误检测方法,其特征在于所述S1中,对图像数据集进行预处理,包括对图像数据进行降维处理、将图像特征扁平化处理和归一化操作。3.根据权利要求1所述的一种基于多解码器的数据标注错误检测方法,其特征在于所述S1中,对图像数据进行批量序列随机化处理。4.根据权利要求1所述的一种基于多解码器的数据标注错误检测方法,其特征在于所述S3中的正样本解码器为单解码器,负样本解码器为一组负样本解码...

【专利技术属性】
技术研发人员:周水庚王禹博张吉
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1