当前位置: 首页 > 专利查询>天津大学专利>正文

基于隐空间编码的零样本学习分类方法技术

技术编号:17780387 阅读:14 留言:0更新日期:2018-04-22 09:14
本发明专利技术涉及一种计算机视觉领域的多模态学习方法,为提出一种性能稳定,计算效率高且适用于多模态学习的特征认知的编码方法,并将所提的方法应用于零样本学习中。为此,本发明专利技术采用的技术方案是,基于隐空间编码的零样本学习分类方法,对于任一模态,利用矩阵分解的方法将此模态的输入特征矩阵分解为一个隐层码矩阵和一个编码矩阵,并利用隐层码矩阵和一个解码矩阵重构原始的输入特征矩阵,其中编码矩阵和解码矩阵是互为转置的关系,利用矩阵分解的方法学习一个编码矩阵来表征不同模态特征之间共有的语义信息,得到不同模态之间的语义关联,进而实现不同模态样本的分类。本发明专利技术主要应用于特征认知编码场合。

【技术实现步骤摘要】
基于隐空间编码的零样本学习分类方法
本专利技术涉及一种计算机视觉领域的多模态学习方法。特别是涉及一种基于特征认知的编码方法,可以应用于跨模态信息检索,零样本学习等领域。具体讲,涉及基于隐空间编码的零样本学习分类方法。
技术介绍
尽管深度卷积神经网络的发展极大地提高了物体识别的性能,但是当前大部分分类模型都是基于监督学习的模型,需要人力去标注大量的训练样本。另外,当新的类别加入分类系统时,分类模型就需要重新训练。这些问题严重的影响了传统分类模型的可扩展性。为了解决传统分类模型中的缺陷,零样本学习能够识别出在训练阶段未见过类别的样本,受到了研究者们的关注。零样本学习主要是寻找一个类别语义嵌入空间将可见类别的信息转移到未见类别中。当前主要的语义嵌入空间有两种:一种是人为定义的类别属性空间,是有预先定义好的一系列的属性名称张成;另一种是文本向量空间,是利用无监督自然语言处理的技术从大规模的语料库中提取的。得到类别语义空间后,可见类别和未见类别的之间关系就可以利用不同类别在类别语义空间中的距离度量获得,如欧式距离,余弦距离等。因为每一个类别都与类别语义空间中唯一的向量相对应,因此,当前大多数算法主要是利用可见类别的样本学习一个视觉模态和类别语义模态之间的映射函数,然后利用学习到的映射函数得到测试样本和未见类别的类别语义特征之间的关系,从而实现未见类别样本的识别。大多数模型主要学习一个具体的映射函数联系不同模态之间的关系。然而,不同模态之间的关系是复杂的,甚至是不可描述的,学习具体的映射函数并不能很好地进行建模。
技术实现思路
为克服现有技术的不足,本专利技术旨在提出一种性能稳定,计算效率高且适用于多模态学习的特征认知的编码方法,并将所提的方法应用于零样本学习中。为此,本专利技术采用的技术方案是,基于隐空间编码的零样本学习分类方法,对于任一模态,利用矩阵分解的方法将此模态的输入特征矩阵分解为一个隐层码矩阵和一个编码矩阵,并利用隐层码矩阵和一个解码矩阵重构原始的输入特征矩阵,其中编码矩阵和解码矩阵是互为转置的关系,利用矩阵分解的方法学习一个编码矩阵来表征不同模态特征之间共有的语义信息,得到不同模态之间的语义关联,进而实现不同模态样本的分类。直接利用矩阵分解的方法将视觉特征矩阵分解为编码矩阵和线性解码矩阵即:X~DC,其中p为视觉空间的维度,d为编码矩阵的维度,n为训练样本的个数,具体过程为:其中||||F表示矩阵的弗罗贝尼乌斯范数,λ表示平衡参数,给定编码矩阵C,最优的解码矩阵D通过求解以下目标函数获得:CTCD+λDXTX=(1+λ)CTX(2)编码矩阵C是不相关的,即:CTC=I(3)其中I表示单位矩阵,将(3)代入(2)中,得到解码矩阵D的闭式表达式:D=(1+λ)CTX(I+λDXTX)-1(4)将(4)代入(1)中,目标函数(1)表达为:minTr[XTX+λCTC]-(1+λ)Tr[CTX(I+λXTX)-1XTC](5)其中Tr表示矩阵的迹;考虑到Tr[XTX+λCTC]是常数,因此目标函数(5)等价于:maxTr[CTX(I+λXTX)-1XTC]s.t.CTC=I(6)学习一种线性或者非线性的关系使得语义特征和编码特征之间的相关性最大,其目标函数为:其中W表示线性映射矩阵,考虑到CTC=I,因此目标函数转换为:maxATWCs.t.ATWWTA=I(8)固定编码矩阵C,线性映射矩阵W的最优值为:将(9)代入到(7)中,目标函数转换为:其中△=A(ATA)-1AT,因此步骤2)的目标函数等价为:maxTr(CT△C)s.t.CTC=I(11)结合步骤1)和步骤2)的目标函数,目标函数为:其中α表示平衡参数,△=A(ATA)-1AT。目标函数(12)的优化通过以下方法进行求解:对于编码矩阵C的每一列向量C·,i通过求解以下子问题获得:利用拉格朗日乘子法,最优C·,i需要满足下面的优化条件:(X(I+λXTX)-1XT+α△)C·,i=ωiC·,i(14)其中ωi表示拉格朗日乘子,因此,编码矩阵C的优化转换为特征值分解问题,(X(I+λXTX)-1XT+α△)的前d个最大特征值对应着编码矩阵C的最优解;获得编码矩阵C的最优解后,解码矩阵D可以通过公式(4)获得;同样的,映射矩阵W可以通过公式(9)获得。本专利技术的特点及有益效果是:本专利技术对于任一模态,利用矩阵分解的方法将此模态的输入特征分解为一个隐层码矩阵和一个编码矩阵,并利用隐层码矩阵和解码矩阵重构原始的输入特征。其中编码矩阵和解码矩阵是互为转置的关系,这样既可以减少训练参数也可以获得闭式的显示解。为了将建立不同模态之间的语义关系,描述同一概念的不同模态的特征应共享公共的隐层向量。附图说明:图1是本专利技术方法应用于零样本学习的流程图。具体实施方式本专利技术所要解决的技术问题是,提供一种性能稳定,计算效率高且适用于多模态学习的特征认知的编码方法,并将所提的方法应用于零样本学习中。本专利技术适用于多模态学习的范畴。不失一般性,假设给定两个模态的特征,并以视觉模态和语义模态为例,表示视觉样本的特征集合,xi是第i个样本的视觉特征,n表示样本的个数,p表示视觉空间的维度;表示与视觉样本对应的语义特征集合,如ai是第i个样本对应的类别语义特征,q表示语义空间的维度。本专利技术中提出了一种基于编码-解码框架下的含蓄模型。具体为:对于任一模态,利用矩阵分解的方法将此模态的输入特征分解为一个隐层码矩阵和一个编码矩阵,并利用隐层码矩阵和解码矩阵重构原始的输入特征。其中编码矩阵和解码矩阵是互为转置的关系,这样既可以减少训练参数也可以获得闭式的显示解。为了将建立不同模态之间的语义关系,描述同一概念的不同模态的特征应共享公共的隐层向量。本专利技术所采用的技术方案是:一种基于特征认知的编码方法,包括如下步骤:1)视觉特征的编码过程2)编码特征和语义特征的预测映射过程步骤1)中的编码过程直接利用矩阵分解的方法将视觉特征矩阵分解为隐特征矩阵和线性解码矩阵(d为编码矩阵的维度)即:X~DC。具体目标包括:(1)最大化编码矩阵的预测能力;(2)最大化编码矩阵的可复原性。为了实现以上目标,编码过程可以设定为:其中||||F表示矩阵的弗罗贝尼乌斯范数,λ表示平衡参数。给定编码矩阵C,最优的解码矩阵D可以通过求解以下目标函数获得:CTCD+λDXTX=(1+λ)CTX(2)为了提高编码特征的预测能力,减少特征之间的冗余度,设定编码矩阵C是不相关的,即:CTC=I(3)其中I表示单位矩阵。将(3)代入(2)中,可以得到解码矩阵D的闭式表达式:D=(1+λ)CTX(I+λDXTX)-1(4)将(4)代入(1)中,目标函数(1)可以表达为:minTr[XTX+λCTC]-(1+λ)Tr[CTX(I+λXTX)-1XTC](5)其中Tr表示矩阵的迹。考虑到Tr[XTX+λCTC]是常数,因此目标函数(5)等价于:步骤2)中预测映射过程学习一种线性或者非线性的关系使得语义特征和编码特征之间的相关性最大(以线性关系为例进行阐述),其目标函数为:其中W表示线性映射矩阵。考虑到CTC=I,因此目标函数可以转换为:maxATWCs.t.ATWWTA=I(8)固定编码矩阵C,线性映射矩阵W的最优值为:将(9)代入到(7)中,目标函数本文档来自技高网...
基于隐空间编码的零样本学习分类方法

【技术保护点】
一种基于隐空间编码的零样本学习分类方法,其特征是,对于任一模态,利用矩阵分解的方法将此模态的输入特征矩阵分解为一个隐层码矩阵和一个编码矩阵,并利用隐层码矩阵和一个解码矩阵重构原始的输入特征矩阵,其中编码矩阵和解码矩阵是互为转置的关系,利用矩阵分解的方法学习一个编码矩阵来表征不同模态特征之间共有的语义信息,得到不同模态之间的语义关联,进而实现不同模态样本的分类。

【技术特征摘要】
1.一种基于隐空间编码的零样本学习分类方法,其特征是,对于任一模态,利用矩阵分解的方法将此模态的输入特征矩阵分解为一个隐层码矩阵和一个编码矩阵,并利用隐层码矩阵和一个解码矩阵重构原始的输入特征矩阵,其中编码矩阵和解码矩阵是互为转置的关系,利用矩阵分解的方法学习一个编码矩阵来表征不同模态特征之间共有的语义信息,得到不同模态之间的语义关联,进而实现不同模态样本的分类。2.如权利要求1所述的基于隐空间编码的零样本学习分类方法,其特征是,直接利用矩阵分解的方法将视觉特征矩阵分解为编码矩阵和线性解码矩阵即:X~DC,其中p为视觉空间的维度,d为编码矩阵的维度,n为训练样本的个数,具体过程为:其中||||F表示矩阵的弗罗贝尼乌斯范数,λ表示平衡参数,给定编码矩阵C,最优的解码矩阵D通过求解以下目标函数获得:CTCD+λDXTX=(1+λ)CTX(2)编码矩阵C是不相关的,即:CTC=I(3)其中I表示单位矩阵,将(3)代入(2)中,得到解码矩阵D的闭式表达式:D=(1+λ)CTX(I+λDXTX)-1(4)将(4)代入(1)中,目标函数(1)表达为:minTr[XTX+λCTC]-(1+λ)Tr[CTX(I+λXTX)-1XTC](5)其中Tr表示矩阵的迹;考虑到Tr[XTX+λCTC]是常数,因此目标函数(5)等价于:maxTr[CTX(I+λXTX)-1XTC]s.t.CTC=I(6)学习一种线性或者非线性的关系使得语义特征和编码特征之间的相关性最大,其目标函数为:其中W表示线性映射矩阵,考虑到CTC=I,因此目标函数转换为:maxATWCs.t.ATWWTA=I(8)固定编码矩阵C,线性映射矩阵W的最优值为:将(9)代入到(7...

【专利技术属性】
技术研发人员:于云龙冀中
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1