一种基于自表达相关的数据分类方法和装置制造方法及图纸

技术编号:21200949 阅读:30 留言:0更新日期:2019-05-25 01:33
本发明专利技术公开了一种基于自表达相关的数据分类方法和装置。本方法为:1)在生成对抗网络框架下,通过生成器生成针对给定类别标签的假数据;主动学习算法在生成对抗网络每次迭代中从训练数据集选取有用的未标注的数据进行标注,添加到训练数据集A中;半监督学习在生成对抗网络每次迭代中从训练数据集未标注的样本数据中随机假标注一批样本数据,添加到训练数据集A中,直至生成对抗网络收敛;2)将生成对抗网络迭代结束时,将生成器最终生成的假数据添加到最终的训练数据集A中,然后利用分类器对最终的训练数据集A进行分类。本发明专利技术能解决标记数据不足以及训练集中类别数据不均衡的问题,以进一步提高分类准确性。

A Data Classification Method and Device Based on Self-expression Relevance

The invention discloses a data classification method and device based on self-expression correlation. This method is as follows: 1) Under the framework of generating confrontation network, false data for given class labels are generated by generators; active learning algorithm selects useful unlabeled data from training data set for labeling in each iteration of generating confrontation network, and adds them to training data set A; semi-supervised learning generates unlabeled samples from training data set in each iteration of generating confrontation network. A batch of sample data is randomly labeled in the data and added to the training data set A until the generation of antagonistic network convergence; 2) At the end of the generation of antagonistic network iteration, the final generated false data of the generator is added to the final training data set A, and then the final training data set A is classified by the classifier. The invention can solve the problems of insufficient label data and unbalanced class data in training set, so as to further improve the classification accuracy.

【技术实现步骤摘要】
一种基于自表达相关的数据分类方法和装置
本专利技术属于模式识别领域,涉及图像处理技术,具体涉及一种基于自表达相关的数据分类方法和装置。
技术介绍
生成模型,是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。判别模型,是一种对未观测数据与已观测数据之间关系进行建模的方法,直接对条件概率进行建模。生成对抗网络(GenerativeAdversarialNetworks,GANs)包含两个模型,生成模型和判别模型,生成模型通过不断学习训练集中真实数据的概率分布,目标是将输入的随机噪声转化为可以以假乱真的图像,也就是对于生成图像和训练集中的图像越相似越好,判别模型通过判断图像是否是真实图像,目标是将生成模型生成的假图与训练集中的图像区分开。GANs的实现方法是让判别器和生成器进行博弈,训练过程中通过相互竞争让生成器和判别器两个模型同时得到增强。由于判别模型的存在,使得生成模型在没有大量先验知识以及先验分布的前提下也能很好的去学习逼近真实数据,并最终让模型生成的数据达到以假乱真的效果,即判别器无法区分生成器生成的图片与真实图片,从而生成器和判别器达到某种纳什均衡。主动学习(activelearning)是在没有类别标签的数据相当丰富而有类别标签的数据相当稀少,并且人工对数据进行标记的成本又很高昂的情况下,可以让学习算法主动地提出要对哪些数据进行标注,之后将这些数据送到专家那里让他们进行标注,再将这些数据加入到训练样本集中对算法进行训练。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度。主动学习方法一般可以分为两部分:学习引擎和选择引擎。学习引擎维护一个基准分类器,并使用监督学习算法对系统提供的已标注样例进行学习从而使该分类器的性能提高,而选择引擎负责运行样例选择算法选择一个未标注的样例并将其交由人类专家进行标注,再将标注后的样例加入到已标注样例集中。学习引擎和选择引擎交替工作,经过多次循环,基准分类器的性能逐渐提高,当满足预设条件时,过程终止。半监督学习(semi-supervisedlearning)是在学习过程中,让学习过程不依赖外界的咨询交互,自动利用未标记样本所包含的分布信息,半监督学习的训练集同时包含有标记样本数据和未标记样本数据。由于未标记样例的获取相对容易,可以获取大量的未标记样本。研究表明,未标记样本与标记样本一起使用可以显著提高学习效果。例如,半监督学习作为一种介于无监督学习和监督学习之间的学习模型,充分利用了标记样本和未标记样本,模型性能得到了提升,主动学习能够交互的查询数据库中未标记样本,并选取有用的样本进行学习,实现了选择性采样,以最少的额外标记工作实现最高学习性能。因此,本专利技术提出将主动学习与半监督学习相结合,利用标记和未标记的实例来构建稳健的学习模型,并结合生成对抗网络,引入合成实例进行数据增强,迭代进行训练,增强模型性能。
技术实现思路
本专利技术的目的在于提供一种基于自表达相关的数据分类方法和装置,能解决标记数据不足以及训练集中类别数据不均衡的问题,以进一步提高分类准确性。本专利技术的训练集分为已标注数据集和未标注数据集,首先通过主动学习有针对性的选取未标注数据集并进行标注,并通过半监督学习从未标注数据集中假标注一批数据,并利用半监督生成对抗网络针对类别分布有针对性的生成一批假数据。本专利技术的主要流程为,由生成器G生成针对给定类别标签的假数据,判别器D将假数据与真实数据区分开,并由分类器S对输入的样本数据进行分类,输入的样本数据包括主动学习选取的数据,半监督学习假标注的数据和半监督生成对抗网络生成的假数据。本专利技术采用的技术方案如下:一种基于自表达相关的数据分类方法,其步骤包括:1)在生成对抗网络框架下,通过生成器生成针对给定类别标签的假数据;训练集分为有标注和没有标注的数据集合,主动学习算法在生成对抗网络每次迭代中从训练数据集选取有用的未标注的数据进行标注,添加到训练数据集A中;半监督学习在生成对抗网络每次迭代中从训练数据集未标注的样本数据中随机假标注一批样本数据,添加到训练数据集A中,直至生成对抗网络收敛;其中,所述假数据生成方法为:生成对抗网络每次迭代过程中,首先生成器生成假数据,然后判别器区分生成的假数据和真实数据,并针对判别器的预测结果对梯度变化的方向进行改变;然后生成器得到判别器传回的梯度并更新参数,生成新的假数据;然后利用分类器对当前生成的假数据和当前训练数据集A中的数据进行分类;然后生成器根据数据类别分布生成假数据;2)将生成对抗网络迭代结束时,生成器最终生成的假数据添加到最终的训练数据集A中,然后利用分类器对最终的训练数据集A进行分类。进一步的,生成器根据数据类别分布生成假数据的方法为:如果设置为要求类别均匀,则统计每个类别的数据量,根据类别之间的数量差异性,使用均匀分布模拟类别均匀的情况,生成对应类别的数据,使各个类别之间的数据量达到近似一致。进一步的,生成器根据数据类别分布生成假数据的方法为:如果设置为要求类别不均匀,则采用高斯分布来模拟数据不均衡的情况,根据高斯分布生成对应数量的数据,对部分类别的数据多生成,部分类别少生成一些数据。进一步的,所述数据为图像数据;所述假数据为假图像;所述样本数据为图像样本数据。进一步的,将噪声信号z和部分有标签数据输入到生成器,由生成器生成假数据。进一步的,当判别器判定生成器的输出是真实数据或判定其输出是噪声数据时,更新判别器的梯度方向;所述梯度的更新方向为生成对抗网络的目标函数的一阶导数负方向。一种基于自表达相关的数据分类装置,其特征在于,包括生成器单元,用于在生成对抗网络框架下,根据分类器单元得到的当前数据类别分布生成针对给定类别标签的假数据;判别器单元,用于对生成的假数据的真假性进行判断,并通过与生成器单元的动态博弈过程,使得生成器单元生成的假数据接近真实数据;分类器单元,用于对当前生成的假数据和当前训练数据集A中的数据进行分类,得到当前的数据类别分布;其中,主动学习算法在生成对抗网络每次迭代中从训练数据集选取有用的未标注的样本数据进行标注,添加到训练数据集A中;半监督学习在生成对抗网络每次迭代中从训练数据集未标注的样本数据中随机假标注一批样本数据,添加到训练数据集A中。进一步的,所述生成器单元根据数据类别分布生成假数据的方法为:如果设置为要求类别均匀,则统计每个类别的数据量,根据类别之间的数量差异性,使用均匀分布模拟类别均匀的情况,生成对应类别的数据,使各个类别之间的数据量达到近似一致;如果设置为要求类别不均匀,则采用高斯分布来模拟数据不均衡的情况,根据高斯分布生成对应数量的数据,对部分类别的数据多生成,部分类别少生成一些数据。利用本专利技术的方法可以充分探索标记样本和未标记的样本,通过半监督生成对抗网络,生成训练数据,以进一步提高分类准确性,与现有技术相比具有以下优点:1、本专利技术将主动学习和半监督学习应用到生成对抗网络中,能够解本文档来自技高网
...

【技术保护点】
1.一种基于自表达相关的数据分类方法,其步骤包括:1)在生成对抗网络框架下,通过生成器生成针对给定类别标签的假数据;主动学习算法在生成对抗网络每次迭代中从训练数据集选取未标注的数据进行标注,添加到训练数据集A中;半监督学习在生成对抗网络每次迭代中从训练数据集未标注的样本数据中随机假标注一批样本数据,添加到训练数据集A中,直至生成对抗网络收敛;其中,所述假数据生成方法为:生成对抗网络每次迭代过程中,首先生成器生成假数据,然后判别器区分生成的假数据和真实数据,并针对判别器的预测结果对梯度变化的方向进行改变;然后生成器得到判别器传回的梯度并更新参数,生成新的假数据;然后利用分类器对当前生成的假数据和当前训练数据集A中的数据进行分类;然后生成器根据数据类别分布生成假数据;2)将生成对抗网络迭代结束时,将生成器最终生成的假数据添加到最终的训练数据集A中,然后利用分类器对最终的训练数据集A进行分类。

【技术特征摘要】
1.一种基于自表达相关的数据分类方法,其步骤包括:1)在生成对抗网络框架下,通过生成器生成针对给定类别标签的假数据;主动学习算法在生成对抗网络每次迭代中从训练数据集选取未标注的数据进行标注,添加到训练数据集A中;半监督学习在生成对抗网络每次迭代中从训练数据集未标注的样本数据中随机假标注一批样本数据,添加到训练数据集A中,直至生成对抗网络收敛;其中,所述假数据生成方法为:生成对抗网络每次迭代过程中,首先生成器生成假数据,然后判别器区分生成的假数据和真实数据,并针对判别器的预测结果对梯度变化的方向进行改变;然后生成器得到判别器传回的梯度并更新参数,生成新的假数据;然后利用分类器对当前生成的假数据和当前训练数据集A中的数据进行分类;然后生成器根据数据类别分布生成假数据;2)将生成对抗网络迭代结束时,将生成器最终生成的假数据添加到最终的训练数据集A中,然后利用分类器对最终的训练数据集A进行分类。2.如权利要求1所述的方法,其特征在于,生成器根据数据类别分布生成假数据的方法为:如果设置为要求类别均匀,则统计每个类别的数据量,根据类别之间的数量差异性,使用均匀分布模拟类别均匀的情况,生成对应类别的数据,使各个类别之间的数据量达到近似一致。3.如权利要求1所述的方法,其特征在于,生成器根据数据类别分布生成假数据的方法为:如果设置为要求类别不均匀,则采用高斯分布来模拟数据不均衡的情况,根据高斯分布生成对应数量的数据,对部分类别的数据多生成,部分类别少生成一些数据。4.如权利要求1或2或3所述的方法,其特征在于,所述数据为图像数据;所述假数据为假图像;所述样本数据为图像样本数据。5.如权利要求1所述的方法,其特征在于,将噪声信号z和部分有标签数据输入到生成器,由生成器生成假数...

【专利技术属性】
技术研发人员:张晓宇石海超
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1