一种多视角的熵判别集成模型制造技术

技术编号：19635500 阅读：27 留言：0更新日期：2018-12-01 16:09

本文提供一种多视角的熵判别集成模型，首先将样本进行多视角化，其次对样本集进行采样用于训练子分类器。本发明专利技术提供一种特殊的计算近邻熵的方式使得训练中可以挑选出更稳定的样本使得分类性能提高。本发明专利技术根据近邻熵设计了一个正则化项，把局部低熵样本引入模型的训练，用于调整分类边界的可靠性。本发明专利技术提供了一个框架性的集成方法用于针对不平衡分类问题；通过该方法为不平衡数据增加分类信息，提供更准确的分类效果；根据具体问题可以使用不同结构的联合训练模型对具体问题应用；根据样本信息数量生成多种形态不同样本表达矩阵和向量进行丰富训练数据，使最终分类效果提高。

An Entropy Discriminant Integration Model with Multiple Perspectives

This paper presents a multi-view ensemble model of entropy discrimination. First, samples are multi-view, and then samples are used to train sub-classifiers. The present invention provides a special method for calculating the nearest neighbor entropy so that more stable samples can be selected in training to improve classification performance. According to the nearest neighbor entropy, a regularization term is designed to introduce local low entropy samples into the training of the model for adjusting the reliability of the classification boundary. The invention provides a framework integration method for solving unbalanced classification problems; adds classification information to unbalanced data by the method to provide more accurate classification effect; can use different structure joint training model to apply to specific problems according to specific problems; and can generate multiple shapes according to the number of sample information. The expression matrices and vectors of different samples are used to enrich the training data so as to improve the final classification effect.

全部详细技术资料下载

【技术实现步骤摘要】
一种多视角的熵判别集成模型
本专利技术涉及模式识别
，尤其涉及集成投票方法中对基分类器进行改进的不平衡分类学习系统。
技术介绍
在模式识别应用领域，例如医疗诊断、故障分析[4]等问题中，通常会出现异常样本的个数少，正常样本个数多的情况，这一类情况就是数据规模不平衡导致的，而在这一类问题的训练中，模式识别的模型通常会偏向多数类样本，而少数类样本关注得少，以至于在很多情况下以牺牲少数类的准确率换取总体的准确率[5][6]。但是我们知道，通常在这类问题中，少数类样本往往更需要我们的关注，因为少数类样本正是我们关注的学习目标，如果用传统方法牺牲掉少数类样本会导致在实际应用中付出很大的代价。传统分类器模型中，通常都假设样本集符合正态分布。在正态分布下，利用贝叶斯决策得到最有决策面是线性的。二分类问题的判别函数一般形式为g(x)＝ωT+ω0。在样本数量少且分布参数未知的情况下，可以直接根据现有样本学习分类边界而不去关注样本本身的参数分布，从而提高训练速度。在这种方法中，通常以最小化经验风险和结构风险为目标函数的优化目标。而不平衡分类问题中，会导致二分类样本的每一个类的样本规模不一致，在对每一类样本进行最小化分类误差的时候，样本个数少的类别会因为样本规模小，而得到一个较小的分类误差，但是这个值是不真实的，因此会导致多数类样本充分最小化，而少数类样本缺乏最小化，从而会使得分类边界偏向多数类，牺牲少数类导致大量少数类样本决策错误。不平衡分类问题的解决方法可以分为三类。第一类为采样方法，通过采样生成样本的子集，这些子集内部是一组平衡的数据，由此而调整样本的边界，使之不过...

【技术保护点】
1.一种多视角的熵判别集成模型，其特征在于：以下具体步骤：1)根据局部熵生成熵近邻矩阵：使用局部熵衡量样本之间的关系，根据熵的值构造权重矩阵；2)根据熵近邻矩阵构造新的目标函数：根据熵近邻矩阵生成对应的正则化项，引入目标函数；3)基于多矩阵化结构进行样本采样：把向量样本进行多矩阵化组合以后，用该结构在数据集上进行采样；4)根据目标函数进行对应迭代优化过程：对权重向量进行交替迭代梯度下降法进行求解。

【技术特征摘要】
1.一种多视角的熵判别集成模型，其特征在于：以下具体步骤：1)根据局部熵生成熵近邻矩阵：使用局部熵衡量样本之间的关系，根据熵的值构造权重矩阵；2)根据熵近邻矩阵构造新的目标函数：根据熵近邻矩阵生成对应的正则化项，引入目标函数；3)基于多矩阵化结构进行样本采样：把向量样本进行多矩阵化组合以后，用该结构在数据集上进行采样；4)根据目标函数进行对应迭代优化过程：对权重向量进行交替迭代梯度下降法进行求解。2.根据权利要求1所述的一种多视角的熵判别集成模型，其特征在于：所述的根据局部熵生成熵近邻矩阵，使用熵表示局部样本关系，细节为：设计一种样本关系描述机制，根据k个近邻的样本求出局部的熵，按照样本的熵进行近邻关系的构造，得到熵近邻矩阵Wij；参与计算的共有公式如下：熵近邻矩阵，类内权重矩阵，类间权重矩阵，样本熵，样本局部概率，其中Ne(xi)表示一个集合，该集合为包含样本xi的熵近邻样本的集合，即在集合中的样本均为根据近邻熵计算得到的样本；Ne,w(xi)表示该集合属于xi同类的样本集合，Ne,b(xi)表示集合属于xi不同类样本集合；通过p1和p2计算样本熵，按照熵从小到大排序，选出前n(默认为)个小的样本放入Ne(xi)集合中；并根据样本与xi是否是同类样本分别划分出两个子矩阵Ne,w(xi)和Ne,b(xi)；熵近邻权重矩阵Wij及类内权重矩阵Ww,ij和类间权重矩阵Wb,ij表达形式分别如下：Ww,ij和Wb,ij互为互补矩阵，它们合并成为一个Wij矩阵；例如：两个互补矩阵合并之后得到完全熵近邻权重矩阵：值得注意的是，熵近邻权重矩阵并不是一个对...

【专利技术属性】
技术研发人员：王喆，李冬冬，陈钊志，杜文莉，张静，
申请(专利权)人：华东理工大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人