The invention discloses a method for measuring the reliability of the classification based on Bagging and outliers, firstly using Logistic regression, support vector machine and a Naive Bayesian as the base classifier to measure the reliability of data classification, calculation of probability in different categories of measurement to obtain the reliability of data classification set and the classification probability set, through the classification result set to obtain the classification measure for the reliability of data; focus on the classification probability of each classification as a point in space, the classification results corresponding to centralized classification probability points as outliers, the remaining classification corresponding classification probability set point as a cluster, and finally the use of European style distance between each point within a cluster to cluster centroid distance and outlier distance, if the cluster of all point to the cluster centroid is smaller than the distance to the outlier Distance, then the classification results are credible, and the contrary is not credible. The invention avoids the influence of the training result on the training model when the model is re learning.
【技术实现步骤摘要】
一种基于Bagging和离群点的分类结果置信度的度量方法
本专利技术属于分类结果置信度度量
,特别涉及一种基于Bagging和离群点的分类结果置信度的度量方法。
技术介绍
通过待度量数据来提高模型的准确性是在线学习中重要的部分,而如何保持学习数据的准确性变得尤为重要。分类结果置信度度量的方法是对每次分类后用于衡量分类的结果可信或不可信的方法,这对保持训练集和模型再训练有很重要的意义。传统的对Logistic回归、SVM和朴素贝叶斯等模型分类结果不进行置信度度量,模型再学习时无法避免学习不可信的分类结果对模型的影响。严云洋和朱全银等人已有的研究基础包括:严云洋,吴茜茵,杜静,周静波,刘以安.基于色彩和闪频特征的视频火焰检测.计算机科学与探索,2014,08(10):1271-1279;SGao,JYang,YYan.Anovelmultiphaseactivecontourmodelforinhomogeneousimagesegmentation.MultimediaToolsandApplications,2014,72(3):2321-2337;SGao ...
【技术保护点】
一种基于Bagging和离群点的分类结果置信度的度量方法,其特征在于,包括如下步骤:步骤一:对已有可信数据集采用Bagging集成学习方法,即采用Logistic回归、支持向量机和朴素贝叶斯中一个作为基分类器,得到基分类器的分类模型集;步骤二:通过步骤一得出的基分类器的分类模型集,对待度量置信度数据进行分类,并计算在不同分类中的分类概率,得到待度量置信度数据的分类结果集和待度量置信度数据的分类概率集,再对分类结果集进行统计,得到待度量置信度数据的分类结果;步骤三:采用离群点分析方法,对待度量置信度数据的分类结果进行置信度度量,得到待度量置信度数据中的可信数据和不可信数据,并 ...
【技术特征摘要】
1.一种基于Bagging和离群点的分类结果置信度的度量方法,其特征在于,包括如下步骤:步骤一:对已有可信数据集采用Bagging集成学习方法,即采用Logistic回归、支持向量机和朴素贝叶斯中一个作为基分类器,得到基分类器的分类模型集;步骤二:通过步骤一得出的基分类器的分类模型集,对待度量置信度数据进行分类,并计算在不同分类中的分类概率,得到待度量置信度数据的分类结果集和待度量置信度数据的分类概率集,再对分类结果集进行统计,得到待度量置信度数据的分类结果;步骤三:采用离群点分析方法,对待度量置信度数据的分类结果进行置信度度量,得到待度量置信度数据中的可信数据和不可信数据,并将待度量置信度数据中满足置信条件的数据加入已有可信数据集。2.根据权利要求1所述的基于Bagging和离群点的分类结果置信度的度量方法,其特征在于,所述步骤一中得到基分类器的分类模型集的具体方法为:步骤1.1:定义已有可信数据集的特征和分类属性;步骤1.2:选择Logistic回归、支持向量机和朴素贝叶斯中一个作为基分类器Function;步骤1.3:对步骤1.1中定义过的已有可信数据集采用Bagging集成学习方法,以步骤1.2中选择的Function为基分类器,得到Function的分类模型集。3.根据权利要求1所述的基于Bagging和离群点的分类结果置信度的度量方法,其特征在于,所述步骤二中得到待度量置信度数据的分类结果的具体方法为:步骤2.1:对待度量置信度数据进行分类,并计算不同分类中的分类概率,得到待度量置信度数据的分...
【专利技术属性】
技术研发人员:严云洋,瞿学新,朱全银,于柿民,赵阳,唐海波,潘舒新,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。