一种基于球面嵌入、球面对齐和球面校准的零样本学习机制制造技术

技术编号:28146779 阅读:25 留言:0更新日期:2021-04-21 19:32
本申请公开了一种基于球面嵌入、球面对齐和球面校准的零样本学习机制,包括:系统整体框架构建、语义嵌入网络参数学习过程与未见类别样本识别。本发明专利技术中提出了联合目标函数,其中α和β为实验过程中调节的超参。本发明专利技术在一个优化公式中集中利用球面嵌入、球面对齐和球面校准,分别解决语义鸿沟问题、枢纽问题和预测偏差问题;本发明专利技术将图像的视觉特征和类别的语义描述之间的距离,映射到一个球体计算;传统的欧式距离忽略了角度信息,而余弦距离中完全没有体现出径向距离,因此本发明专利技术所采用的球面嵌入,更加综合考虑角度信息和径向距离;本发明专利技术且针对可见类别和未见类别,采用不同的径向距离,从而加重未见类别样本的作用。从而加重未见类别样本的作用。从而加重未见类别样本的作用。

【技术实现步骤摘要】
一种基于球面嵌入、球面对齐和球面校准的零样本学习机制


[0001]本申请涉及零样本学习
,尤其涉及一种基于球面嵌入、球面对齐和球面校准的零样本学习机制。

技术介绍

[0002]在现实场景中,许多任务需要对以前从未见过的实例类别进行识别,这样就使得原有训练方法不在适用。零样本学习应运而生。零样本学习,也叫Zero shot learning,该方法在学习时遇到的实例所涉及的类别与实际测试中要分类的类是不相交的,其主要目的是根据训练集中的可见类别数据,通过相关先验知识,实现对未见类别的数据,进行类别预测和识别。
[0003]现有的方法主要是从嵌入模型、生成模型和度量方法几个方面开展相关的研究工作。嵌入模型方法主要是通过将视觉空间的特征映射到语义表示的类别原型上,实现可见类别的知识向未知类别迁移。生成模型方法是通过生成对抗模型或者变分编码器通过未知类别的语义描述,产生该类别的样本,从而将零样本学习转为小样本或多样本学习。度量方法是在嵌入空间中选用合适的度量方法,建立视觉特征和类别原型之间的相似度。
[0004]现有的零样本学习方法会遇到几个问题:1、可见类别和未见类别之间的语义鸿沟问题。目前的方法是通过语义空间建立已知类别和未知类别的关联关系,对其关联关系描述简单;2、枢纽问题,就是在零样本学习中会遇到许多不同类别的样本可能只和几个类别原型较近,而和大部分类别距离远;3、预测偏差问题,从未知类别中来的测试图像,总是倾向于识别为和未知类别很接近的已知类别。
[0005]本专利技术中提出一种基于球面嵌入、球面对齐和球面校准的零样本学习机制,针对上述三个问题,即语义鸿沟问题、枢纽问题、预测偏差问题,提出一个综合解决方案,通过球面嵌入、球面对齐和球面校准融合到一个框架中解决上述的问题。

技术实现思路

[0006]本申请实施例提供一种基于球面嵌入、球面对齐和球面校准的零样本学习机制,包括:系统整体框架构建、语义嵌入网络参数学习过程与未见类别样本识别;
[0007]所述系统整体框架构建包括:
[0008]图像经过视觉特征嵌入网络φ,类别信息经过语义嵌入网络通过球面嵌入的KL距离,球面对齐的R函数和球面校准的最小熵约束,构造一个目标函数如下:
[0009][0010]所述语义嵌入网络参数学习过程包括:
[0011]输入:可见类别的类别原型A
s
集合和未知类别的类别原型A
u
集合,训练数据集合Ds
tr
,视觉特征嵌入网
[0012]输出:语义嵌入网络参数;
[0013]步骤1:初始化,设置batch大小B以及迭代次数1,初始化语义嵌入网络参数;
[0014]步骤2:迭代次数iter=[1∶l],做以下操作:
[0015]步骤2.1:随机采样B个样本;
[0016]步骤2.2:将可见类别的类别原型A
s
和未知类别的类别原型A
u
投影到球面嵌入空间,即对A
s
∪A
u
中的每一个类别原型a,根据语义嵌入网络生成
[0017]步骤2.3:按照以下公式计算R:
[0018][0019]其中
[0020][0021][0022]均匀对齐因子按下式计算:
[0023][0024]语义对齐因子按下式计算:
[0025][0026]步骤2.4:按照以下公式计算:
[0027][0028]概率分布q计算为:
[0029][0030]其中函数f
ρ
计算如下:
[0031][0032]其中ρ1和ρ2分别对应可见类别和未见类别的球面半径函数,一般指定ρ2>ρ1;
[0033]步骤2.5:最小化下面目标函数ρ2>ρ1;
[0034][0035][0036]而为xn的one

hot型标注向量,p函数计算如下:
[0037][0038]步骤2.6:用后向传播方法更新语义嵌入网络参数;
[0039]所述未见类别样本识别包括:
[0040]输入:测试图像x
m
,可见类别的类别原型A
s
和未知类别的类别原型A
u
,语义嵌入网络参数,视觉特征嵌入网络φ参数;
[0041]输出:测试图像的预测输出;
[0042]步骤1:对测试图像x
m
,计算测试图像的视觉表示;
[0043]步骤2:将可见类别的类别原型A
s
和未知类别的类别原型A
u
投影到球面嵌入空间,即对A
s
∪A
u
中的每一个类别原型a,根据语义嵌入网络生成
[0044]步骤3:按照如下公式计算对测试图像的类别预测值
[0045][0046]其中为了和训练数据保持一致,f
ρ
计算如下:
[0047][0048]本申请实施例采用下述技术方案:利用所述系统整体框架中构造的目标函数,学习得到语义嵌入网络参数,从而实现将球面嵌入、球面对齐和球面校准融合到一个框架中,解决语义鸿沟问题、枢纽问题、预测偏差问题。
[0049]本申请实施例采用下述技术方案:语义嵌入网络参数学习过程中,步骤2的步骤2.3的的计算公式中,λ∈[0,1]为试验过程中调节的超参。
[0050]本申请实施例采用下述技术方案:语义嵌入网络参数学习过程中,步骤2的步骤2.4的的计算公式中,H是训练集样本的概率分布q的熵。
[0051]本申请实施例采用下述技术方案:语义嵌入网络参数学习过程中,步骤2的步骤2.4的的计算公式中,S为可见类别的样本个数,U为未见类别的样本个数;φ(x
n
)为图像x
n
的视觉特征嵌入函数,为类别原型a的语义特征嵌入函数。
[0052]本申请实施例采用下述技术方案:语义嵌入网络参数学习过程中,步骤2的步骤2.5的公式中,α和β实验数据中调节的超参。
[0053]本申请实施例采用下述技术方案:公式中的第一项体现了球面嵌入。
[0054]本申请实施例采用下述技术方案:公式中的第二项αR(η
*
)体现了球面对齐。
[0055]本申请实施例采用下述技术方案:公式中的第三项体现了球面校准。
[0056]本申请实施例采用下述技术方案:作为优化公式集中利用了球面嵌入、球面对齐和球面校准分别解决语义鸿沟、枢纽问题和预测偏差问题。
[0057]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0058]本专利技术同目前其他零样本学习方法的主要区别体现如下:
[0059]1、本专利技术中提出的联合目标函数:其中α和β为实验过程中调节的超参。上式中第一项体现了球面嵌入,第二项体现了球面对齐,第三项体现了球面校准。本专利技术在一个优化公式中集中利用球面嵌入、球面对齐和球面校准,分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于球面嵌入、球面对齐和球面校准的零样本学习机制,其特征在于,包括:系统整体框架构建、语义嵌入网络参数学习过程与未见类别样本识别;所述系统整体框架构建包括:图像经过视觉特征嵌入网络φ,类别信息经过语义嵌入网络通过球面嵌入的KL距离,球面对齐的R函数和球面校准的最小熵约束,构造一个目标函数如下:所述语义嵌入网络参数学习过程包括:输入:可见类别的类别原型A
s
集合和未知类别的类别原型A
u
集合,训练数据集合D
str
,视觉特征嵌入网输出:语义嵌入网络参数;步骤1:初始化,设置batch大小B以及迭代次数l,初始化语义嵌入网络参数;步骤2:迭代次数iter=[1:l],做以下操作:步骤2.1:随机采样B个样本;步骤2.2:将可见类别的类别原型A
s
和未知类别的类别原型A
u
投影到球面嵌入空间,即对A
s
∪A
u
中的每一个类别原型a,根据语义嵌入网络生成步骤2.3:按照以下公式计算R:其中其中均匀对齐因子按下式计算:语义对齐因子按下式计算:步骤2.4:按照以下公式计算:概率分布q计算为:
其中函数f
ρ
计算如下:其中ρ1和ρ2分别对应可见类别和未见类别的球面半径函数,一般指定ρ2>ρ1;步骤2.5:最小化下面目标函数ρ2>ρ1;;而为x
n
的one

hot型标注向量,p函数计算如下:步骤2.6:用后向传播方法更新语义嵌入网络参数;所述未见类别样本识别包括:输入:测试图像x
m
,可见类别的类别原型A
s
和未知类别的类别原型A
u
,语义嵌入网络参数,视觉特征嵌入网络φ参数;输出:测试图像的预测输出;步骤1:对测试图像x
m
,计算测试图像的视觉表示;步骤2:将可见类别的类别原型A
s
和未知类别的类别原型A
u
投影到球面嵌入空间,即对A
s
...

【专利技术属性】
技术研发人员:张磊沈佳怡甄先通李欣
申请(专利权)人:广东石油化工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1