检测偏离分布样本的方法和系统技术方案

技术编号：22532442 阅读：43 留言：0更新日期：2019-11-13 09:35

本发明专利技术提出了一种用于检测偏离分布样本的方法、系统、计算机可读存储介质。其中方法包括：利用多个训练样本的原始特征，训练出多个神经网络分类器；从多个神经网络分类器中获得多个训练样本的高层语义特征；利用多个训练样本的至少一个高层语义特征和至少一个原始特征，使用多种训练模型，训练出多个分类器，其中训练出的多个分类器用于检测偏离分布样本；将多个训练样本的至少一个高层语义特征和至少一个原始特征作为输入，获得训练出的多个分类器对多个训练样本的多个综合分类结果；利用获得的训练出的多个分类器的分类结果，确定多个分类器的每个分类器的权重，从而得到多个加权分类器。

The method and system of detecting deviation distribution samples

The invention provides a method, system and computer-readable storage medium for detecting deviation distribution samples. The methods include: training multiple neural network classifiers by using the original features of multiple training samples; obtaining the high-level semantic features of multiple training samples from multiple neural network classifiers; training multiple classifiers by using at least one high-level semantic feature and at least one original feature of multiple training samples, using multiple training models, among which multiple classifiers are trained The classifier is used to detect the deviation distribution samples; at least one high-level semantic feature and at least one original feature of multiple training samples are used as input to obtain multiple comprehensive classification results of multiple training samples from multiple trained classifiers; the weight of each classifier of multiple classifiers is determined by using the classification results of multiple trained classifiers to obtain multiple Weighted classifiers.

全部详细技术资料下载

【技术实现步骤摘要】
检测偏离分布样本的方法和系统
本专利技术涉及异常样本的检测，特别地，本专利技术涉及一种用于检测偏离分布样本的方法、计算机系统以及计算机可读存储介质。
技术介绍
数据集偏离指的是训练数据集与测试数据集分布不一致。其中测试数据集中与训练数据分布差异较大的样本称为偏离分布样本。这些偏离分布样本导致了数据集偏离。在机器学习模型的实际应用中，数据集偏离会导致分类模型的准确率下降。为了解决这一问题，需要检测出测试数据集中的偏离分布样本，并通过对偏离分布样本的分析得到数据集偏离的原因，从而针对性地扩充训练数据以提高分类模型的有效性。现有检测测试数据集中的偏离分布样本的技术分为两大类：检测置信度低的偏离分布样本方法和检测置信度高的偏离分布样本方法。检测置信度低的偏离分布样本方法能够较好地检测置信度低的偏离分布样本，但是在实际应用中，很多偏离分布样本往往有着较高的置信度。对于这类的样本，检测置信度低的偏离分布样本方法检测效果往往不佳。检测置信度高的偏离分布样本方法能同时检测出置信度较高和置信度较低的偏离分布样本，因此成为一个被广泛使用的技术。
技术实现思路
以下描述包括体现本专利技术技术的示例性方法、系统、技术和指令序列。然而，应该理解，在一个或多个方面，可以在没有这些具体细节的情况下实践所描述的专利技术。在其他情况下，没有详细示出公知的协议、结构和技术，以免模糊本专利技术。本领域普通技术人员将理解，所描述的技术和机制可以应用于对值进行排序的各种体系结构。根据本专利技术的一个方面，提出了一种用于检测偏离分布样本的方法，该方法包括：利用多个训练样本的原始特征，训练出多个神经网络分...

【技术保护点】
1.一种检测偏离分布样本的方法，包括：利用多个训练样本的原始特征，训练出多个神经网络分类器，其中所述多个训练样本的每一个训练样本都包含至少一个原始特征；从所述多个神经网络分类器中获得所述多个训练样本的高层语义特征，其中所述多个训练样本的每一个训练样本都包含至少一个高层语义特征；利用所述多个训练样本的至少一个高层语义特征和至少一个原始特征，使用多种训练模型，训练出多个分类器，其中所述训练出的多个分类器用于检测偏离分布样本；将所述多个训练样本的所述至少一个高层语义特征和所述至少一个原始特征作为输入，获得所述训练出的多个分类器对所述多个训练样本的多个综合分类结果；利用获得的所述训练出的多个分类器的对所述多个训练样本的多个综合分类结果，确定所述多个分类器的每个分类器的权重，从而得到多个加权分类器。

【技术特征摘要】
1.一种检测偏离分布样本的方法，包括：利用多个训练样本的原始特征，训练出多个神经网络分类器，其中所述多个训练样本的每一个训练样本都包含至少一个原始特征；从所述多个神经网络分类器中获得所述多个训练样本的高层语义特征，其中所述多个训练样本的每一个训练样本都包含至少一个高层语义特征；利用所述多个训练样本的至少一个高层语义特征和至少一个原始特征，使用多种训练模型，训练出多个分类器，其中所述训练出的多个分类器用于检测偏离分布样本；将所述多个训练样本的所述至少一个高层语义特征和所述至少一个原始特征作为输入，获得所述训练出的多个分类器对所述多个训练样本的多个综合分类结果；利用获得的所述训练出的多个分类器的对所述多个训练样本的多个综合分类结果，确定所述多个分类器的每个分类器的权重，从而得到多个加权分类器。2.根据权利要求1所述的方法，其中所述利用获得的所述训练出的多个分类器的对所述多个训练样本的多个综合分类结果，确定所述多个分类器的每个分类器的权重包括：将所述多个分类器的每个分类器作为特定分类器，对每个特定分类器执行如下步骤：初始化所述特定分类器的权重；将所述多个训练样本的每个训练样本作为特定训练样本，对每个特定训练样本执行如下步骤：获得所述特定训练样本在所述特定分类器的分类结果中的分类类别；将所述特定分类器对所述特定训练样本的分类结果中的分类类别与训练出的多个分类器对所述特定训练样本的综合分类结果中的分类类别进行比较；响应于比较结果指示两个分类类别一致，将所述特定分类器的权重加一；响应于所述多个训练样本执行完毕，获得所述特定分类器的权重，继续执行对下一个特定分类器的步骤。3.根据权利要求1所述的方法，其中所述利用获得的所述训练出的多个分类器的对所述多个训练样本的多个综合分类结果，确定所述多个分类器的每个分类器的权重包括：将所述多个分类器的每个分类器作为特定分类器，对每个特定分类器执行如下步骤：初始化所述特定分类器的权重；将所述多个训练样本的每个训练样本...

【专利技术属性】
技术研发人员：刘世霞，袁隽，陈长建，张慧，戴琼海，娄昕，
申请(专利权)人：清华大学，中国人民解放军总医院，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人