一种基于Bagging和离群点的分类结果置信度的度量方法技术

技术编号：15691537 阅读：77 留言：0更新日期：2017-06-24 04:49

本发明专利技术公开了一种基于Bagging和离群点的分类结果置信度的度量方法，首先采用Logistic回归、支持向量机和朴素贝叶斯中的一个作为基分类器对待度量置信度数据进行分类，计算在不同分类中的分类概率得到待度量置信度数据的分类结果集和分类概率集，通过分类结果集得到待度量置信度数据的分类结果；在分类概率集中，将每个分类作为空间中一个点，以分类结果对应分类概率集中的点作为离群点，余下分类对应分类概率集中的点为一个簇，最后使用欧式距离比较簇内每个点到簇质心的距离和到离群点的距离，若满足簇内所有点到簇质心的距离小于到离群点的距离，则该分类结果为可信，反之则为不可信。本发明专利技术避免了模型再学习时因采用了不可信的分类结果对训练模型的影响。

A method for measuring confidence in classification results based on Bagging and outlier

The invention discloses a method for measuring the reliability of the classification based on Bagging and outliers, firstly using Logistic regression, support vector machine and a Naive Bayesian as the base classifier to measure the reliability of data classification, calculation of probability in different categories of measurement to obtain the reliability of data classification set and the classification probability set, through the classification result set to obtain the classification measure for the reliability of data; focus on the classification probability of each classification as a point in space, the classification results corresponding to centralized classification probability points as outliers, the remaining classification corresponding classification probability set point as a cluster, and finally the use of European style distance between each point within a cluster to cluster centroid distance and outlier distance, if the cluster of all point to the cluster centroid is smaller than the distance to the outlier Distance, then the classification results are credible, and the contrary is not credible. The invention avoids the influence of the training result on the training model when the model is re learning.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Bagging和离群点的分类结果置信度的度量方法
本专利技术属于分类结果置信度度量
，特别涉及一种基于Bagging和离群点的分类结果置信度的度量方法。
技术介绍
通过待度量数据来提高模型的准确性是在线学习中重要的部分，而如何保持学习数据的准确性变得尤为重要。分类结果置信度度量的方法是对每次分类后用于衡量分类的结果可信或不可信的方法，这对保持训练集和模型再训练有很重要的意义。传统的对Logistic回归、SVM和朴素贝叶斯等模型分类结果不进行置信度度量，模型再学习时无法避免学习不可信的分类结果对模型的影响。严云洋和朱全银等人已有的研究基础包括：严云洋,吴茜茵,杜静,周静波,刘以安.基于色彩和闪频特征的视频火焰检测.计算机科学与探索，2014,08(10):1271-1279；SGao，JYang，YYan.Anovelmultiphaseactivecontourmodelforinhomogeneousimagesegmentation.MultimediaToolsandApplications，2014,72(3):2321-2337；SGao,JYang,YYa本文档来自技高网...
一种基于Bagging和离群点的分类结果置信度的度量方法

【技术保护点】
一种基于Bagging和离群点的分类结果置信度的度量方法，其特征在于，包括如下步骤：步骤一：对已有可信数据集采用Bagging集成学习方法，即采用Logistic回归、支持向量机和朴素贝叶斯中一个作为基分类器，得到基分类器的分类模型集；步骤二：通过步骤一得出的基分类器的分类模型集，对待度量置信度数据进行分类，并计算在不同分类中的分类概率，得到待度量置信度数据的分类结果集和待度量置信度数据的分类概率集，再对分类结果集进行统计，得到待度量置信度数据的分类结果；步骤三：采用离群点分析方法，对待度量置信度数据的分类结果进行置信度度量，得到待度量置信度数据中的可信数据和不可信数据，并将待度量置信度数据中...

【技术特征摘要】
1.一种基于Bagging和离群点的分类结果置信度的度量方法，其特征在于，包括如下步骤：步骤一：对已有可信数据集采用Bagging集成学习方法，即采用Logistic回归、支持向量机和朴素贝叶斯中一个作为基分类器，得到基分类器的分类模型集；步骤二：通过步骤一得出的基分类器的分类模型集，对待度量置信度数据进行分类，并计算在不同分类中的分类概率，得到待度量置信度数据的分类结果集和待度量置信度数据的分类概率集，再对分类结果集进行统计，得到待度量置信度数据的分类结果；步骤三：采用离群点分析方法，对待度量置信度数据的分类结果进行置信度度量，得到待度量置信度数据中的可信数据和不可信数据，并将待度量置信度数据中满足置信条件的数据加入已有可信数据集。2.根据权利要求1所述的基于Bagging和离群点的分类结果置信度的度量方法，其特征在于，所述步骤一中得到基分类器的分类模型集的具体方法为：步骤1.1：定义已有可信数据集的特征和分类属性；步骤1.2：选择Logistic回归、支持向量机和朴素贝叶斯中一个作为基分类器Function；步骤1.3：对步骤1.1中定义过的已有可信数据集采用Bagging集成学习方法，以步骤1.2中选择的Function为基分类器，得到Function的分类模型集。3.根据权利要求1所述的基于Bagging和离群点的分类结果置信度的度量方法，其特征在于，所述步骤二中得到待度量置信度数据的分类结果的具体方法为：步骤2.1：对待度量置信度数据进行分类，并计算不同分类中的分类概率，得到待度量置信度数据的分...

【专利技术属性】
技术研发人员：严云洋，瞿学新，朱全银，于柿民，赵阳，唐海波，潘舒新，
申请(专利权)人：淮阴工学院，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人