The invention discloses a data classification method and device based on self-expression correlation. This method is as follows: 1) Under the framework of generating confrontation network, false data for given class labels are generated by generators; active learning algorithm selects useful unlabeled data from training data set for labeling in each iteration of generating confrontation network, and adds them to training data set A; semi-supervised learning generates unlabeled samples from training data set in each iteration of generating confrontation network. A batch of sample data is randomly labeled in the data and added to the training data set A until the generation of antagonistic network convergence; 2) At the end of the generation of antagonistic network iteration, the final generated false data of the generator is added to the final training data set A, and then the final training data set A is classified by the classifier. The invention can solve the problems of insufficient label data and unbalanced class data in training set, so as to further improve the classification accuracy.
【技术实现步骤摘要】
一种基于自表达相关的数据分类方法和装置
本专利技术属于模式识别领域,涉及图像处理技术,具体涉及一种基于自表达相关的数据分类方法和装置。
技术介绍
生成模型,是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。判别模型,是一种对未观测数据与已观测数据之间关系进行建模的方法,直接对条件概率进行建模。生成对抗网络(GenerativeAdversarialNetworks,GANs)包含两个模型,生成模型和判别模型,生成模型通过不断学习训练集中真实数据的概率分布,目标是将输入的随机噪声转化为可以以假乱真的图像,也就是对于生成图像和训练集中的图像越相似越好,判别模型通过判断图像是否是真实图像,目标是将生成模型生成的假图与训练集中的图像区分开。GANs的实现方法是让判别器和生成器进行博弈,训练过程中通过相互竞争让生成器和判别器两个模型同时得到增强。由于判别模型的存在,使得生成模型在没有大量先验知识以及先验分布的前提下也能很好的去学习逼近真实数据,并最终让模型生成的数据达到以假乱真的效果,即判别器无法区分生成器生成的图片与真实图片,从而生成器和判别器达到某种纳什均衡。主动学习(activelearning)是在没有类别标签的数据相当丰富而有类别标签的数据相当稀少,并且人工对数据进行标记的成本又很高昂的情况下,可以让学习算法主动地提出要对哪 ...
【技术保护点】
1.一种基于自表达相关的数据分类方法,其步骤包括:1)在生成对抗网络框架下,通过生成器生成针对给定类别标签的假数据;主动学习算法在生成对抗网络每次迭代中从训练数据集选取未标注的数据进行标注,添加到训练数据集A中;半监督学习在生成对抗网络每次迭代中从训练数据集未标注的样本数据中随机假标注一批样本数据,添加到训练数据集A中,直至生成对抗网络收敛;其中,所述假数据生成方法为:生成对抗网络每次迭代过程中,首先生成器生成假数据,然后判别器区分生成的假数据和真实数据,并针对判别器的预测结果对梯度变化的方向进行改变;然后生成器得到判别器传回的梯度并更新参数,生成新的假数据;然后利用分类器对当前生成的假数据和当前训练数据集A中的数据进行分类;然后生成器根据数据类别分布生成假数据;2)将生成对抗网络迭代结束时,将生成器最终生成的假数据添加到最终的训练数据集A中,然后利用分类器对最终的训练数据集A进行分类。
【技术特征摘要】
1.一种基于自表达相关的数据分类方法,其步骤包括:1)在生成对抗网络框架下,通过生成器生成针对给定类别标签的假数据;主动学习算法在生成对抗网络每次迭代中从训练数据集选取未标注的数据进行标注,添加到训练数据集A中;半监督学习在生成对抗网络每次迭代中从训练数据集未标注的样本数据中随机假标注一批样本数据,添加到训练数据集A中,直至生成对抗网络收敛;其中,所述假数据生成方法为:生成对抗网络每次迭代过程中,首先生成器生成假数据,然后判别器区分生成的假数据和真实数据,并针对判别器的预测结果对梯度变化的方向进行改变;然后生成器得到判别器传回的梯度并更新参数,生成新的假数据;然后利用分类器对当前生成的假数据和当前训练数据集A中的数据进行分类;然后生成器根据数据类别分布生成假数据;2)将生成对抗网络迭代结束时,将生成器最终生成的假数据添加到最终的训练数据集A中,然后利用分类器对最终的训练数据集A进行分类。2.如权利要求1所述的方法,其特征在于,生成器根据数据类别分布生成假数据的方法为:如果设置为要求类别均匀,则统计每个类别的数据量,根据类别之间的数量差异性,使用均匀分布模拟类别均匀的情况,生成对应类别的数据,使各个类别之间的数据量达到近似一致。3.如权利要求1所述的方法,其特征在于,生成器根据数据类别分布生成假数据的方法为:如果设置为要求类别不均匀,则采用高斯分布来模拟数据不均衡的情况,根据高斯分布生成对应数量的数据,对部分类别的数据多生成,部分类别少生成一些数据。4.如权利要求1或2或3所述的方法,其特征在于,所述数据为图像数据;所述假数据为假图像;所述样本数据为图像样本数据。5.如权利要求1所述的方法,其特征在于,将噪声信号z和部分有标签数据输入到生成器,由生成器生成假数...
【专利技术属性】
技术研发人员:张晓宇,石海超,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。