一种多视角的熵判别集成模型制造技术

技术编号:19635500 阅读:27 留言:0更新日期:2018-12-01 16:09
本文提供一种多视角的熵判别集成模型,首先将样本进行多视角化,其次对样本集进行采样用于训练子分类器。本发明专利技术提供一种特殊的计算近邻熵的方式使得训练中可以挑选出更稳定的样本使得分类性能提高。本发明专利技术根据近邻熵设计了一个正则化项,把局部低熵样本引入模型的训练,用于调整分类边界的可靠性。本发明专利技术提供了一个框架性的集成方法用于针对不平衡分类问题;通过该方法为不平衡数据增加分类信息,提供更准确的分类效果;根据具体问题可以使用不同结构的联合训练模型对具体问题应用;根据样本信息数量生成多种形态不同样本表达矩阵和向量进行丰富训练数据,使最终分类效果提高。

An Entropy Discriminant Integration Model with Multiple Perspectives

This paper presents a multi-view ensemble model of entropy discrimination. First, samples are multi-view, and then samples are used to train sub-classifiers. The present invention provides a special method for calculating the nearest neighbor entropy so that more stable samples can be selected in training to improve classification performance. According to the nearest neighbor entropy, a regularization term is designed to introduce local low entropy samples into the training of the model for adjusting the reliability of the classification boundary. The invention provides a framework integration method for solving unbalanced classification problems; adds classification information to unbalanced data by the method to provide more accurate classification effect; can use different structure joint training model to apply to specific problems according to specific problems; and can generate multiple shapes according to the number of sample information. The expression matrices and vectors of different samples are used to enrich the training data so as to improve the final classification effect.

【技术实现步骤摘要】
一种多视角的熵判别集成模型
本专利技术涉及模式识别
,尤其涉及集成投票方法中对基分类器进行改进的不平衡分类学习系统。
技术介绍
在模式识别应用领域,例如医疗诊断、故障分析[4]等问题中,通常会出现异常样本的个数少,正常样本个数多的情况,这一类情况就是数据规模不平衡导致的,而在这一类问题的训练中,模式识别的模型通常会偏向多数类样本,而少数类样本关注得少,以至于在很多情况下以牺牲少数类的准确率换取总体的准确率[5][6]。但是我们知道,通常在这类问题中,少数类样本往往更需要我们的关注,因为少数类样本正是我们关注的学习目标,如果用传统方法牺牲掉少数类样本会导致在实际应用中付出很大的代价。传统分类器模型中,通常都假设样本集符合正态分布。在正态分布下,利用贝叶斯决策得到最有决策面是线性的。二分类问题的判别函数一般形式为g(x)=ωT+ω0。在样本数量少且分布参数未知的情况下,可以直接根据现有样本学习分类边界而不去关注样本本身的参数分布,从而提高训练速度。在这种方法中,通常以最小化经验风险和结构风险为目标函数的优化目标。而不平衡分类问题中,会导致二分类样本的每一个类的样本规模不一致,在对每一类样本进行最小化分类误差的时候,样本个数少的类别会因为样本规模小,而得到一个较小的分类误差,但是这个值是不真实的,因此会导致多数类样本充分最小化,而少数类样本缺乏最小化,从而会使得分类边界偏向多数类,牺牲少数类导致大量少数类样本决策错误。不平衡分类问题的解决方法可以分为三类。第一类为采样方法,通过采样生成样本的子集,这些子集内部是一组平衡的数据,由此而调整样本的边界,使之不过于偏袒多数类样本。采样方法大体分为上采样与下采样方法,有时候我们也将上采样和下采样分别叫做过采样与降采样。第二种是从算法结构改进的方法,以代价敏感方法为主要代表,通过修改损失函数的误差准则和调整错分代价使得少数类样本得到重点关注。最后一类为集成学习方法。它吸收了采样方法的优势,同时通过集成训练得到的子分类器维持整体样本的多样性。根据不同的场景,有不同种类的集成方法,根据具体问题使用不同的集成方法有助于提高分类准确度。集成方法大致可以分为两个大类,AdaBoost类与Bagging类算法。采样方法是目前一种经典的针对不平衡问题的方法之一。采样方法分为上采样与下采样。上采样采用对少数类样本进行相似复制,从样本数量上使得二分类样本处于规模平衡状态,从而使得在误差最小化时,两边样本得到等权重的对待。而下采样则跟上采样相反,它针对多数类样本进行样本削减,从而使得样本的两类平衡。下采样后,由于样本的规模减少,因此也提高了训练速度。但是代价则是牺牲掉了一部分样本信息,导致可能出现训练得到的边界不够准确。另一种面向不平衡分类问题的算法就是引入代价函数,使得分类器模型对分类代价是敏感的,通过对具体样本的错分代价进行加权,从而使得稀少样本得到跟多数类样本有均等的权重。代价敏感的方法可以在不改变样本的分布下针对数据进行建模,这样可以最大程度保留样本的原始特性,求解得到的分类边界比较符合训练数据集分布。但这种方法也有可能因为过于符合训练数据而过拟合,因此在代价和模型的设计上也需要根据实际问题进行调整。还有一种是采样方法和代价敏感与集成学习混合起来的方法。这种方法对划分原始数据集为多个子数据集,把子数据集视为多个子问题,用采样和代价敏感方法改进子问题的模型后,用集成方法将这些改进后的模型合成起来得到一个顾及全面的分类模型。
技术实现思路
不平衡分类问题的解决方法可以分为三类。第一类为采样方法,通过采样生成样本的子集,这些子集内部是一组平衡的数据,由此而调整样本的边界,使之不过于偏袒多数类样本。采样方法大体分为上采样与下采样方法。第二种是从算法结构改进的方法,以代价敏感方法为主要代表,通过修改损失函数的误差准则和调整错分代价使得少数类样本得到重点关注。最后一类为集成学习方法。它吸收了采样方法的优势,同时通过集成训练得到的子分类器维持整体样本的多样性。根据不同的场景,有不同种类的集成方法,根据具体问题使用不同的集成方法有助于提高分类准确度。集成方法大致可以分为两个大类,AdaBoost类与Bagging类算法。本专利技术根据以上三类针对不平衡方法的优点并结合起来用于改进不平衡分类问题的方法,提出一种多视角的熵判别集成模型。它同时考虑采样策略,算法结构改进,和集成方法三个方面。本专利技术解决其技术问题所采用的技术方案:首先后台根据具体问题描述,将采集到的样本转化成可以供该系统处理的向量模型。其次,将以向量表示的数据集分为训练数据集与测试数据集两部分。在训练步骤中,该系统首先使用基于其开发的不同模型对样本进行矩阵化;其次,经过求解熵近邻的样本代入后续统一的分类器进行分类;接着,根据分类效果,该系统选择分类效果最好的那个模型。在测试步骤中,对进来的样本进行多型矩阵化;其次,把对应的矩阵型型被代入后续分类器进行识别,最后进行这些分类器的投票表决以得到最终结果。本专利技术有益的效果是:通过设计一个完整的系统,提供了一个框架性的集成方法用于针对不平衡分类问题;通过该系统为不平衡数据增加分类信息,提供更准确的分类效果;根据具体问题可以使用不同结构的联合训练模型对具体问题应用;根据样本信息数量生成多种形态不同样本表达矩阵和向量进行丰富训练数据,使最终分类效果提高。附图说明图1是本专利技术整体流程图。具体实施方式下面结合附图和实例对本专利技术作进一步介绍:本专利技术所设计的系统共分五个部分。第一部分:数据采集采样生成的样本子集数对应于子分类器的个数,子分类器训练于对应的子集。定义负类为多数类样本,正类为少数类样本,在采样中,我们使用随机下采样对负类样本采样,并且采样个数与正类样本个数相同,并把采样后的负类与正类作为一个新的样本子集。例如,将一个数据集划分为2个部分,分别表示为少数类样本P和多数类样本N。|P|表示为P集合样本的个数,|N|为N集合样本的个数。子集的样本个数与|P|相等,J个样本子集与P两两组合最终得到J个子集Lj,j=1,...,J为方便后续计算,将所有训练样本按照每一列是一个样本的规则合成一个训练矩阵X进行存储。第二部分:多视角矩阵生成从训练矩阵中,取出一个样本,该样本为一列向量,根据样本的特征数确定生成的视角个数。例如,一个四维的特征向量,它可以生成3种表达形式的矩阵,分别为1×4,2×2,4×1。三个新生成的矩阵表达被视为三个视角,视角总数Mall为3,并分别命名为A,B,C。之后对3个视角进行两两组合,即,A与B,A与C以及B与C,组成3个多视角组合。在实践过程中,维度D可以是任意值,视角数M也为任意值(M≤D)。根据基分类模型对样本集进行训练得到T个多视角的基分类器。于是总共就有J×T个子分类器。第三部分:计算每个样本的近邻熵,生成权重矩阵,主要步骤如下:每个样本要根据熵值计算k个近邻样本。得到的这k个近邻样本则被描述为k熵近邻样本,并使用一个图描述,这个图被称为熵近邻图。熵近邻图根据k个样本的类标划分为两个部分。与中心样本相同类标的样本则包含在类内图Gw里。与中心样本不同类的样本则包含在类间图Gb。Ww,ij是表示同类标的两个样本的权重,而Wb,ij是不同类标的两个样本的权重。这两个权重本文档来自技高网
...

【技术保护点】
1.一种多视角的熵判别集成模型,其特征在于:以下具体步骤:1)根据局部熵生成熵近邻矩阵:使用局部熵衡量样本之间的关系,根据熵的值构造权重矩阵;2)根据熵近邻矩阵构造新的目标函数:根据熵近邻矩阵生成对应的正则化项,引入目标函数;3)基于多矩阵化结构进行样本采样:把向量样本进行多矩阵化组合以后,用该结构在数据集上进行采样;4)根据目标函数进行对应迭代优化过程:对权重向量进行交替迭代梯度下降法进行求解。

【技术特征摘要】
1.一种多视角的熵判别集成模型,其特征在于:以下具体步骤:1)根据局部熵生成熵近邻矩阵:使用局部熵衡量样本之间的关系,根据熵的值构造权重矩阵;2)根据熵近邻矩阵构造新的目标函数:根据熵近邻矩阵生成对应的正则化项,引入目标函数;3)基于多矩阵化结构进行样本采样:把向量样本进行多矩阵化组合以后,用该结构在数据集上进行采样;4)根据目标函数进行对应迭代优化过程:对权重向量进行交替迭代梯度下降法进行求解。2.根据权利要求1所述的一种多视角的熵判别集成模型,其特征在于:所述的根据局部熵生成熵近邻矩阵,使用熵表示局部样本关系,细节为:设计一种样本关系描述机制,根据k个近邻的样本求出局部的熵,按照样本的熵进行近邻关系的构造,得到熵近邻矩阵Wij;参与计算的共有公式如下:熵近邻矩阵,类内权重矩阵,类间权重矩阵,样本熵,样本局部概率,其中Ne(xi)表示一个集合,该集合为包含样本xi的熵近邻样本的集合,即在集合中的样本均为根据近邻熵计算得到的样本;Ne,w(xi)表示该集合属于xi同类的样本集合,Ne,b(xi)表示集合属于xi不同类样本集合;通过p1和p2计算样本熵,按照熵从小到大排序,选出前n(默认为)个小的样本放入Ne(xi)集合中;并根据样本与xi是否是同类样本分别划分出两个子矩阵Ne,w(xi)和Ne,b(xi);熵近邻权重矩阵Wij及类内权重矩阵Ww,ij和类间权重矩阵Wb,ij表达形式分别如下:Ww,ij和Wb,ij互为互补矩阵,它们合并成为一个Wij矩阵;例如:两个互补矩阵合并之后得到完全熵近邻权重矩阵:值得注意的是,熵近邻权重矩阵并不是一个对...

【专利技术属性】
技术研发人员:王喆李冬冬陈钊志杜文莉张静
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1