一种基于判别矩阵变量受限玻尔兹曼机的图像识别方法技术

技术编号:21548773 阅读:24 留言:0更新日期:2019-07-06 21:57
本发明专利技术公开一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法,采用基于判别的矩阵变量受限玻尔兹曼机用于二维图像分类,记为DisMVRBM,此模型能够直接对图像进行建模,而不需要向量化,保留了原始样本的结构信息。与MVRBM相比,本模型增加了标签层,意味着在提取特征的过程中融入了标签信息,使得提取的特征具有判别性,会提升分类性能;并且由于增加了标签层本模型可以直接当作一个独立的分类器,不用再链接其他的分类器,省去了对其他分类器的微调训练阶段。

An Image Recognition Method Based on Discriminant Matrix Variable Constrained Boltzmann Machine

【技术实现步骤摘要】
一种基于判别矩阵变量受限玻尔兹曼机的图像识别方法
本专利技术属于模式识别
,尤其涉及一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法。
技术介绍
人工神经网络(ArtificialNeuralNetwork,ANN)是一种通过模仿生物神经网络的结构和功能而建立起来的计算模型,典型的ANN由大量的简单处理节点(人工神经元)构成,这些节点是具有层次结构的,并且以指定方式互相关联。一些节点对外部可见而另外一些对外部隐藏,两个节点间的关联即权重。训练一个ANN模型即是要根据训练数据计算权重系数。受限波尔兹曼机(RestrictedBoltzmannMachine,RBM)是基于统计力学的随机神经网络,能够拟合任意离散分布,常被用于深度信念网络(DeepBeliefNets,DBN)的多层结构的构建,以及不同的机器学习问题,如数据降维、人脸识别、协同过滤、重构、降噪等。RBM的输入层和隐层都是向量形式,当数据为高阶张量时,通常需要进行向量化处理,而高阶张量数据向量化会因破坏数据的空间结构而丢失有用的空间信息。为了不破坏数据的空间结构及其内在关联信息,Tu等人提出了张量变量受限玻尔兹曼机,但是这个模型的隐层依然是向量形式。齐光磊等人将RBM拓展为矩阵变量受限玻尔兹曼机(MVRBM),该模型采用输入层与隐含层均为矩阵的表达形式。虽然这种矩阵形式能够保持数据的空间结构信息,但与RBM类似,也是无监督训练的,在提取特征时没有利用标签信息,因而提取到的特征不具有强判别性。McCallum指出特征学习过程中利用标签信息是有益的。为了提取到有判别性的特征,很多人开始在训练过程中使用标签信息。Yang等人研究了对多模态数据和类别信息共同建模的方法并用于视频分类。Schmah提出了RBM的判别式训练方法,对每类数据训练一个RBM,这种方法和贝叶斯分类器相似。Hugo等人提出分类受限玻尔兹曼机学习算法。此外,受到具有判别性的监督子空间模型的启发,Guo等人将监督子空间约束增加到RBM隐层,上述模型都是面向向量变量的模型,即输入都是向量数据,对于图像/视频等高阶信号需要先将高维数据拉伸为向量,这种处理数据的方式必然会损失高维数据的空间结构信息。本专利技术针对MVRBM不能提取具有判别性特征的问题改进了MVRBM,即在训练时充分利用数据的标签信息,使提取到的特征具有判别性;并且所提模型可直接用于分类而不需要额外的其他分类器执行分类任务。
技术实现思路
专利技术提供一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法,采用基于判别的矩阵变量受限玻尔兹曼机用于二维图像分类提出了一种基于判别的矩阵变量受限玻尔兹曼机用于二维图像分类,记为DisMVRBM。此模型能够直接对图像进行建模,而不需要向量化,保留了原始样本的结构信息。与MVRBM相比,本模型增加了标签层,意味着在提取特征的过程中融入了标签信息,使得提取的特征具有判别性,会提升分类性能;并且由于增加了标签层本模型可以直接当作一个独立的分类器,不用再链接其他的分类器,省去了对其他分类器的微调训练阶段。附图说明图1.本专利技术提出的DisMVRBM模型示意图。具体实施方式本专利技术提供一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法,包括以下步骤:步骤1、判别式矩阵变量受限玻尔兹曼机模型矩阵变量受限玻尔兹曼机模型的能量函数定义为:这里,定义:X=[xij]∈iI*J为可视层矩阵变量,表示输入数据,即输入图像,每帧图像尺寸大小为I×J;H=[hkl]∈iK*L为隐含层矩阵变量,表示基于该模型提取的输入数据的具有判别性的特征,即表示输入图像的特征,大小为K*L;为X与H的连接权重,是四阶张量变量,表示输入图像与模型提取到的特征之间的非线性映射关系;B=[bij]∈iI*J为可见层的偏置矩阵变量,表示输入数据的偏移量;C=[ckl]∈iK*L为隐含层的偏置矩阵变量,表示输出特征的偏移量。进一步地,可基于该能量函数定义可见层和隐含层的联合概率分布,即模型所拟合的输入图像与特征的联合概率,如公式(2):并基于该联合概率分布定义对数似然函数:然后以最大化对数似然函数为目标,通过学习可见层和隐含层之间的模型参数,使在最优的一组模型参数下,所有样本发生的概率最大,从而得到输入数据的有效表示。不过,MVRBM仍是一个具有表达力的无监督生成模型,能够很好地提取输入数据的特征;当被用于分类任务时,通常是结合传统的神经网络(NN),基于MVRBM的模型参数初始化NN,并通过反向传播算法微调NN后进行分类。为避免微调操作以及NN可能陷入局部最优的问题,本专利技术采用基于判别的矩阵变量受限玻尔兹曼机用于二维图像分类,记为DisMVRBM,即在原MVRBM模型基础上增加类别约束,使改进的MVRBM具有分类能力,如图1所示。DisMVRBM旨在通过隐层特征H建模输入图像数Dtrain={X(1),...,X(n),...,X(N)}和相应类别标签Y=[Yzt]∈RZ*T,Z=1的联合分布,因此定义有类别约束的能量函数如下:这里,x,h,w,b和c的定义同上,增加的标签相关部分的定义如下:y=[yzt]∈iZ*T:为可见层标签矩阵变量,标识输入数据的类别,即输入图像对应的标签,这里z=Z=1为常数,所以可视为向量变量;P=[pztkl]∈iZ*T*K*L:为Y与H的连接权重,是四阶张量变量,表示输入图像的标签与输出特征之间的非线性映射关系;D=[dzt]=[dt]∈iZ*T:为标签层的偏置矩阵变量,表示标签的偏移量,同理,可视为向量变量;其中,标签层为一位有效编码向量,即如果输入数据的标签为第t类,则该数据对应的标签层向量的第t个分量为1,其他分量均置零。由于模型的权重是四阶张量,数据量大大增加,使模型训练阶段有很高的时间复杂度。为减少模型参数,降低计算复杂度,本专利技术假定隐含层单元和可见层、以及隐含层和标签层的连接权重具有某种特定结构,从而大大减少自由参数数量,这种特定结构即对权重张量做分解:wijkl=ukivlj和pztkl=qkzrlt通过定义矩阵形式:U=[uki]∈iK*I,V=[vlj]∈iL*J,Q=[qkz]∈iK*Z,R=[rlt]∈iL*T,从而得到变形后的DisMVRBM的能量函数为:E(X,Y,H;Θ)=-tr(UTHVXT)-tr(XTB)-tr(QTHRYT)-tr(YTD)-tr(HTC)(5)其中,Θ={U,V,Q,R,B,C,D}表示模型所有参数。基于以上公式,X,Y,H的联合概率,即输入图像、特征与对应标签的联合概率:上式中归一化常量Z(Θ)定义为:隐层某个单元被激活的概率,即某一个特征被激活的概率:其中σ(a)=1/(1+exp(-a)),以矩阵表示为:p(H=1|X,Y;Θ)=σ(C+UXVT+QYRT)(9)公式(8)表示逐一计算隐层H的每一个元素为1的概率,σ计算应用到相应的每一个矩阵元素。可视层某个单元的激活概率,即某个输入图像像素点的激活概率:矩阵形式表示为:p(X=1|H;Θ)=σ(B+UTHV)(11)同公式(8),公式(10)表示逐一计算可见层X的任意一个元素为1的概率,σ计算应用到相应的每一个矩阵元素。其中,yzt=1表示训练图像数据属于第t类。矩阵形式表示:这本文档来自技高网
...

【技术保护点】
1.一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法,其特征在于,包括以下步骤:步骤1、判别式矩阵变量受限玻尔兹曼机模型矩阵变量受限玻尔兹曼机模型的能量函数定义为:

【技术特征摘要】
2018.04.16 CN 20181033662151.一种基于判别式矩阵变量受限玻尔兹曼机模型的图像识别方法,其特征在于,包括以下步骤:步骤1、判别式矩阵变量受限玻尔兹曼机模型矩阵变量受限玻尔兹曼机模型的能量函数定义为:其中,为可视层矩阵变量,表示输入数据,即输入图像,每帧图像尺寸大小为I×J;为隐含层矩阵变量,表示基于该模型提取的输入数据的具有判别性的特征,即表示输入图像的特征,大小为K*L;为X与H的连接权重,是四阶张量变量,表示输入图像与模型提取到的特征之间的非线性映射关系;为可见层的偏置矩阵变量,表示输入数据的偏移量;为隐含层的偏置矩阵变量,表示输出特征的偏移量;可基于该能量函数定义可见层和隐含层的联合概率分布,即模型所拟合的输入图像与特征的联合概率,如公式(2):并基于该联合概率分布定义对数似然函数:进一步,采用基于判别的矩阵变量受限玻尔兹曼机用于二维图像分类,记为DisMVRBM,即在原MVRBM模型基础上增加类别约束,使改进的MVRBM具有分类能力,DisMVRBM旨在通过隐层特征H建模输入图像数Dtrain={X(1),...,X(n),...,X(N)}和相应类别标签Y=[Yzt]∈RZ*T,Z=1的联合分布,因此定义有类别约束的能量函数如下:其中,为可见层标签矩阵变量,标识输入数据的类别,即输入图像对应的标签,z=Z=1为常数,所以可视为向量变量;为Y与H的连接权重,是四阶张量变量,表示输入图像的标签与输出特征之间的非线性映射关系;为标签层的偏置矩阵变量,表示标签的偏移量,同理,可视为向量变量;其中,标签层为一位有效编码向量,即如果输入数据的标签为第t类,则该数据对应的标签层向量的第t个分量为1,其他分量均置零。假定隐含层单元和可见层、以及隐含层和标签层的连接权重具有特定结构,所述特定结构即对权重张量做分解:和pztkl=qkzrlt通过定义矩阵形式:从而得到变形后的DisMVRBM的能量函数为:E(X,Y,H;Θ)=-tr(UTHVXT)-tr(XTB)-tr(QTHRYT)-tr(YTD)-tr(HTC)(5)其中,Θ={U,V,Q,R,B,C,D}表示模型所有参数。基于以上公式,X,Y,H的联合概率,即输入图像、特征与对应标签的联合概率:上式中归一化常量Z(Θ)定义为:隐层某个单元被激活的概率,即某一个特征被激活的概率:其中σ(...

【专利技术属性】
技术研发人员:尹宝才田鹏宇李敬华孔德慧王立春
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1