当前位置: 首页 > 专利查询>清华大学专利>正文

检测偏离分布样本的方法和系统技术方案

技术编号:22532442 阅读:43 留言:0更新日期:2019-11-13 09:35
本发明专利技术提出了一种用于检测偏离分布样本的方法、系统、计算机可读存储介质。其中方法包括:利用多个训练样本的原始特征,训练出多个神经网络分类器;从多个神经网络分类器中获得多个训练样本的高层语义特征;利用多个训练样本的至少一个高层语义特征和至少一个原始特征,使用多种训练模型,训练出多个分类器,其中训练出的多个分类器用于检测偏离分布样本;将多个训练样本的至少一个高层语义特征和至少一个原始特征作为输入,获得训练出的多个分类器对多个训练样本的多个综合分类结果;利用获得的训练出的多个分类器的分类结果,确定多个分类器的每个分类器的权重,从而得到多个加权分类器。

The method and system of detecting deviation distribution samples

The invention provides a method, system and computer-readable storage medium for detecting deviation distribution samples. The methods include: training multiple neural network classifiers by using the original features of multiple training samples; obtaining the high-level semantic features of multiple training samples from multiple neural network classifiers; training multiple classifiers by using at least one high-level semantic feature and at least one original feature of multiple training samples, using multiple training models, among which multiple classifiers are trained The classifier is used to detect the deviation distribution samples; at least one high-level semantic feature and at least one original feature of multiple training samples are used as input to obtain multiple comprehensive classification results of multiple training samples from multiple trained classifiers; the weight of each classifier of multiple classifiers is determined by using the classification results of multiple trained classifiers to obtain multiple Weighted classifiers.

【技术实现步骤摘要】
检测偏离分布样本的方法和系统
本专利技术涉及异常样本的检测,特别地,本专利技术涉及一种用于检测偏离分布样本的方法、计算机系统以及计算机可读存储介质。
技术介绍
数据集偏离指的是训练数据集与测试数据集分布不一致。其中测试数据集中与训练数据分布差异较大的样本称为偏离分布样本。这些偏离分布样本导致了数据集偏离。在机器学习模型的实际应用中,数据集偏离会导致分类模型的准确率下降。为了解决这一问题,需要检测出测试数据集中的偏离分布样本,并通过对偏离分布样本的分析得到数据集偏离的原因,从而针对性地扩充训练数据以提高分类模型的有效性。现有检测测试数据集中的偏离分布样本的技术分为两大类:检测置信度低的偏离分布样本方法和检测置信度高的偏离分布样本方法。检测置信度低的偏离分布样本方法能够较好地检测置信度低的偏离分布样本,但是在实际应用中,很多偏离分布样本往往有着较高的置信度。对于这类的样本,检测置信度低的偏离分布样本方法检测效果往往不佳。检测置信度高的偏离分布样本方法能同时检测出置信度较高和置信度较低的偏离分布样本,因此成为一个被广泛使用的技术。
技术实现思路
以下描述包括体现本专利技术技术的示例性方法、系统、技术和指令序列。然而,应该理解,在一个或多个方面,可以在没有这些具体细节的情况下实践所描述的专利技术。在其他情况下,没有详细示出公知的协议、结构和技术,以免模糊本专利技术。本领域普通技术人员将理解,所描述的技术和机制可以应用于对值进行排序的各种体系结构。根据本专利技术的一个方面,提出了一种用于检测偏离分布样本的方法,该方法包括:利用多个训练样本的原始特征,训练出多个神经网络分类器,其中所述多个训练样本的每一个训练样本都包含至少一个原始特征;从所述多个神经网络分类器中获得所述多个训练样本的高层语义特征,其中所述多个训练样本的每一个训练样本都包含至少一个高层语义特征;利用所述多个训练样本的至少一个高层语义特征和至少一个原始特征,使用多种训练模型,训练出多个分类器,其中所述训练出的多个分类器用于检测偏离分布样本;将所述多个训练样本的所述至少一个高层语义特征和所述至少一个原始特征作为输入,获得所述训练出的多个分类器对所述多个训练样本的多个综合分类结果;利用获得的所述训练出的多个分类器的分类结果,确定所述多个分类器的每个分类器的权重,从而得到多个加权分类器。根据本专利技术的另一个方面,提出了一种用于检测偏离分布样本的计算机可读存储介质,所述计算机可读存储介质具有存储其中的程序指令,所述程序指令可由计算设备执行以使得计算设备执行如上所述的方法。根据本专利技术的又一个方面,提出了一种用于检测偏离分布样本的系统,包括:存储器;以及至少一个处理器,可操作地耦合到存储器并配置用于执行如上所述的方法。根据本专利技术的再一个方面,提出了一种用于检测偏离分布样本的计算机系统,所述系统包括分别用于执行如上所述的方法的各个步骤的模块。附图说明通过参照附图阅读下面对说明性实施例的详细说明可更好地理解专利技术本身以及其优选使用模式、目标、特征以及优点,在附图中:图1示出了某主板厂商用于对主板缺陷进行分类的模型的示例;图2示出了现有偏离样本检测方法的示例;图3示出了根据本专利技术的一个或多个实施例的一种用于检测偏离分布样本的方法的流程图;图4示出了步骤330过程的一个示例;图5示出了根据本专利技术的一个或多个实施例的一种利用获得的训练出的多个分类器的分类结果,确定多个分类器的每个分类器的权重的方法的流程图;图6示出了根据本专利技术的一个或多个实施例的另一种利用获得的训练出的多个分类器的分类结果,确定多个分类器的每个分类器的权重的方法的流程图;以及图7示出了根据本专利技术的一个或多个实施例的一种使用获得的多个加权分类器检测测试样本中的偏离分布样本的方法的示例。具体实施方式下面参照附图来说明本专利技术的实施例。在下面的说明中,阐述了许多具体细节以便更全面地了解本专利技术。但是,对于本
内的技术人员明显的是,本专利技术的实现可不具有这些具体细节中的一些。此外,应当理解的是,本专利技术并不限于所介绍的特定实施例。相反,可以考虑用下面的特征和要素的任意组合来实施本专利技术,而无论它们是否涉及不同的实施例。因此,下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定,除非权利要求中明确提出。在大数据时代,机器学习方法已经成为处理大数据的一种有效手段。大多数机器学习方法涉及两个阶段,训练阶段和测试阶段。如果测试阶段所使用的数据与训练阶段所使用的数据的分布一致,训练得到的模型的效果较好。但是如果测试样本阶段所使用的数据与训练阶段所使用的数据的分布一致,训练得到的模型运用在测试样本上的效果会大大下降。图1示出了某主板厂商用于对主板缺陷进行分类的模型的示例。该厂商开始使用的训练样本主要包含两种缺陷,一种是错焊缺陷101,一种是漏焊缺陷102。经过训练得到分类器104。随着生产规模的展开,测试样本中出现大量的包含第三种缺陷,即虚焊缺陷103的测试样本。这样的测试样本在测试中被误判成错焊缺陷101或漏焊缺陷102。这显然是不合适的。造成误判的原因是这样的测试样本遵循不同于包含错焊缺陷101或漏焊缺陷102的样本的分布。本领域技术人员认为其是偏离分布样本。获得偏离分布样本后,可以通过对其分析得到造成样本偏离分布的原因,从而针对性地扩充训练数据以提高分类模型的有效性。现有技术中,检测置信度高的偏离分布样本方法由于效果更佳,在实际中应用更广。该类方法使用不同的高层语义特征与同一个算法结合,训练得到不同的分类器,然后使用不同分类器对一个测试样本得到分类结果。将不同分类器的分类结果的一致性作为衡量该测试样本是否为偏离分布样本的指标。图2示出了现有偏离样本检测方法的示例。其中使用高层语义特征201和高层语义特征202,以及唯一模型211。高层语义特征201与唯一模型211得到分类器221;高层语义特征202与唯一模型211得到分类器222。对一个测试样本,使用分类器221和分类器222得到该测试样本的两个分类类别。如果两个分类类别不一致,则确定该测试样本为偏离分布样本的样本。但是该类方法存在两个问题,一是其仅使用高层语义特征,另一个是其仅使用一个分类算法。有限的特征和算法会导致模型容量下降。而根据现有技术,模型容量越高,检测方法的结果也会越好。为此,本专利技术提出了一种新的检测偏离分布样本的方法。图3示出了根据本专利技术的一个或多个实施例的一种用于检测偏离分布样本的方法300的流程图。根据图3,在步骤310,利用多个训练样本的原始特征,训练出多个神经网络分类器,其中所述多个训练样本的每一个训练样本都包含至少一个原始特征。比如图1所示的例子中,焊点的厚度、宽度等均为训练样本的原始特征。神经网络分类器可以用现有的任何神经网络分类器。在一种实施方式中,可以使用深度神经网络分类器。在步骤320,从所述多个神经网络分类器中获得所述多个训练样本的高层语义特征,其中所述多个训练样本的每一个训练样本都包含至少一个高层语义特征。高层语义特征包括神经网络分类器的中间层输出。在步骤330,利用所述多个训练样本的至少一个高层语义特征和至少一个原始特征,使用多种训练模型,训练出多个分类器,其中所述训练出的多个分类器用于检测偏离分布样本。训练模型与训练算法本文档来自技高网
...

【技术保护点】
1.一种检测偏离分布样本的方法,包括:利用多个训练样本的原始特征,训练出多个神经网络分类器,其中所述多个训练样本的每一个训练样本都包含至少一个原始特征;从所述多个神经网络分类器中获得所述多个训练样本的高层语义特征,其中所述多个训练样本的每一个训练样本都包含至少一个高层语义特征;利用所述多个训练样本的至少一个高层语义特征和至少一个原始特征,使用多种训练模型,训练出多个分类器,其中所述训练出的多个分类器用于检测偏离分布样本;将所述多个训练样本的所述至少一个高层语义特征和所述至少一个原始特征作为输入,获得所述训练出的多个分类器对所述多个训练样本的多个综合分类结果;利用获得的所述训练出的多个分类器的对所述多个训练样本的多个综合分类结果,确定所述多个分类器的每个分类器的权重,从而得到多个加权分类器。

【技术特征摘要】
1.一种检测偏离分布样本的方法,包括:利用多个训练样本的原始特征,训练出多个神经网络分类器,其中所述多个训练样本的每一个训练样本都包含至少一个原始特征;从所述多个神经网络分类器中获得所述多个训练样本的高层语义特征,其中所述多个训练样本的每一个训练样本都包含至少一个高层语义特征;利用所述多个训练样本的至少一个高层语义特征和至少一个原始特征,使用多种训练模型,训练出多个分类器,其中所述训练出的多个分类器用于检测偏离分布样本;将所述多个训练样本的所述至少一个高层语义特征和所述至少一个原始特征作为输入,获得所述训练出的多个分类器对所述多个训练样本的多个综合分类结果;利用获得的所述训练出的多个分类器的对所述多个训练样本的多个综合分类结果,确定所述多个分类器的每个分类器的权重,从而得到多个加权分类器。2.根据权利要求1所述的方法,其中所述利用获得的所述训练出的多个分类器的对所述多个训练样本的多个综合分类结果,确定所述多个分类器的每个分类器的权重包括:将所述多个分类器的每个分类器作为特定分类器,对每个特定分类器执行如下步骤:初始化所述特定分类器的权重;将所述多个训练样本的每个训练样本作为特定训练样本,对每个特定训练样本执行如下步骤:获得所述特定训练样本在所述特定分类器的分类结果中的分类类别;将所述特定分类器对所述特定训练样本的分类结果中的分类类别与训练出的多个分类器对所述特定训练样本的综合分类结果中的分类类别进行比较;响应于比较结果指示两个分类类别一致,将所述特定分类器的权重加一;响应于所述多个训练样本执行完毕,获得所述特定分类器的权重,继续执行对下一个特定分类器的步骤。3.根据权利要求1所述的方法,其中所述利用获得的所述训练出的多个分类器的对所述多个训练样本的多个综合分类结果,确定所述多个分类器的每个分类器的权重包括:将所述多个分类器的每个分类器作为特定分类器,对每个特定分类器执行如下步骤:初始化所述特定分类器的权重;将所述多个训练样本的每个训练样本...

【专利技术属性】
技术研发人员:刘世霞袁隽陈长建张慧戴琼海娄昕
申请(专利权)人:清华大学中国人民解放军总医院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1