一种应用于表征学习的多模型线性融合ModelEnsemble方法技术

技术编号:36566445 阅读:14 留言:0更新日期:2023-02-04 17:22
本发明专利技术涉及一种应用于表征学习的多模型线性融合Model Ensemble方法,属于人工智能领域。本发明专利技术使用ArcFace技术将多个分类模型的表征输出投影到超球面,并满足较小的类内距离和较大的类间距离。并且基于融合表征需满足线性关系的假设,将线性层的参数进行固定,通过优化损失函数,将模型学习的表征引导在同一个线性空间下之后,再对输出进行线性加权平均融合,从而得到最后的表征。本方法通过对不同AI模型进行线性集成,能够对样本学习到更稳定、准确的表征,并对下游任务效果如分类、识别、查询等有显著的提高。询等有显著的提高。询等有显著的提高。

【技术实现步骤摘要】
一种应用于表征学习的多模型线性融合Model Ensemble方法


[0001]本专利技术涉及人工智能
,更具体地说,涉及一种应用于表征学习的多模型线性融合Model Ensemble方法。

技术介绍

[0002]表征学习是人工智能的重要研究领域之一。基于样本特征将其表示在高维空间中的一组向量。模型学习到不同的向量空间意味着对样本提取的不同的特征组合,以及给予特征不同的权重。单模型只能讲学习样本投射到一个空间,而不同的模型集成可以将样本从不同的空间来进行比较学习,从而进行更全面的特征提取。在基于线性融合的方法中,现有的方法知识对已有的表征进行不同方式的线性组合,而忽略了表征之间的关系。不同的模型被激活的神经元不同,导致其拟合函数不同,进而得到的表征存在非线性关系,导致强行对其进行线性融合导致混乱的表征,从而造成性能的损失。

技术实现思路

[0003]1.专利技术要解决的技术问题
[0004]本专利技术的目的在于提供一种应用于表征学习的多模型线性融合Model Ensemble方法,本方法可以融合不同模型。
[0005]2.技术方案
[0006]为达到上述目的,本专利技术提供的技术方案为:
[0007]本专利技术的一种应用于表征学习的多模型线性融合Model Ensemble方法,对于不同的训练模型,使用ArcFace技术将多个分类模型的表征输出投影到超球面,基于两个能够进行线性融合的模型需要满足线性关系的假设,采用将最佳训练模型的线性层替换的方法,用最佳训练模型线性层替换其他模型的线性层并增加一层线性投影的训练,使得所有模型的输出表征在同一个线性空间,以此满足假设,进而进行线性模型的融合。
[0008]具体地,使用Argface技术通过对样本的输出向量x
i
以及投影后的表征以及对应的one

hot标签,构造如下损失函数:
[0009][0010]其中N表示样本数,n表示分类数,s是超球面的半径,即归一化参数,其中N表示样本数,n表示分类数,s是超球面的半径,即归一化参数,其中
[0011]基于线性模型融合假设:如果两个模型和输
出要进行有效的线性融合,需要满足出要进行有效的线性融合,需要满足其中f是ArgFace的线性层,g是骨干网络。
[0012]采用如下线性层替换方法:对于每个模型i,首先通过训练数据训练出独立的f
i
和g
i
。并选择性能最佳的表征所对应的模型使用最佳模型的Argface线性层替换掉其他模型的Argface线性层,并在该线性层和模型之间增加一个新的转换线性层l
k
,并对该层l
k
进行训练,由此得到满足假设模型组特殊地,对于由同一种模型结构,不同参数构成的模型组,该情况是上述情况的特例,由于所有模型的结构相同,只需要在共同的Argface线性层上对各个模型进行针对特定数据集的微调,即可得到满足假设的模型组。
[0013]最后进行线性融合:由于模型组输出的不同表征已经满足线性关系,最后对模型组的各个模型表征结果进行加权平均,得到最终的输出表征。
[0014]3.有益效果
[0015]采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:
[0016]本专利技术的一种应用于表征学习的多模型线性融合Model Ensemble方法,基于线性模型集成假设,通过将不同AI模型的输出表征投影到同一个线性空间,再进行线性融合;能够得到样本更稳定、准确的表征;基于该表征,对下游任务效果如分类、识别、查询等有显著的性能提升。
附图说明
[0017]图1为实施例提供的应用场景示意图;
[0018]图2为实施例提供的线性化层的结构示意图。
具体实施方式
[0019]为进一步了解本专利技术的内容,结合附图对本专利技术作详细描述。
[0020]在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0021]下面结合实施例对本专利技术作进一步的描述。
[0022]实施例1
[0023]本实施例的一种应用于表征学习的多模型线性融合Model Ensemble方法,如图1所示,约定所有模型通过Argface损失函数对同一批图像训练集进行训练,得到模型f
k
(g
k
(x))和一个最优模型f
optimal
(g
optimal
(x))。其中f是ArgFace的线性层,g是骨干网络。Argface技术通过对图像样本的输出向量x
i
以及投影后的表征以及对应的one

hot标签,构造如下损失函数:
[0024][0025]其中N表示样本数,n表示分类数,s是超球面的半径,即归一化参数,其中N表示样本数,n表示分类数,s是超球面的半径,即归一化参数,其中W矩阵的每行W
j
表示一个分类中心的向量表征,通过对W
j
以及样本输出向量x
i
进行归一化,使得模型能够学习到更多的角度特性,从而使得样本表征能够分布在超球面上,cosθ
j
表示样本向量与one

hot向量对应的分类中心的夹角余弦值,m是惩罚项。通过该损失函数,可以使得所学习的样本表征紧密地聚集在分类中心的周围,且保持较大的类间距离。
[0026]传统的融合直接将不同模型的表征结果进行简单的加权平均,由于不同的模型捕捉的关键特征可能不同,而这些特征由模型里面的不同核心神经元捕获,因此这些模型之间并不满足线性关系,导致强行对其进行线性融合导致混乱的表征,从而造成性能的损失。
[0027]因此,基于线性模型融合假设:如果两个模型和输出要进行有效的线性融合,需要满足输出要进行有效的线性融合,需要满足其中f是ArgFace的线性层,g是骨干网络。
[0028]如图2所示,由于不同的模型具有非线性关系,为了将这种非线形关系转化为线形关系,需要把所有模型统一到同一个分类中心的向量空间上,也就是固定Argface的线性层参数W。而W的每一列就是一个分类中心的向量。因此,本实施例使用最优模型的Argface线性层f
optimal
作为公共线性层,替换其他模型的Argface线性层f
k
。同时,为了保证线性关系,在模型k上可经过添加一个线性层后表示为
[0029]令E
optimal
=g
optimal
(*),E
k本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于表征学习的多模型线性融合Model Ensemble方法,其特征在于:对于不同的训练模型,使用ArcFace技术将多个分类模型的表征输出投影到超球面,基于两个能够进行线性融合的模型需要满足线性关系的假设,采用将最佳训练模型的线性层替换的方法,用最佳训练模型线性层替换其他模型的线性层并增加一层线性投影的训练,使得所有模型的输出表征在同一个线性空间,以此满足假设,进而进行线性模型的融合。2.根据权利要求1所述的一种应用于表征学习的多模型线性融合Model Ensemble方法,其特征在于:Argface技术通过对样本的输出向量x
i
以及投影后的表征以及对应的one

hot标签,构造如下损失函数:其中N表示样本数,n表示分类数,s是超球面的半径,即归一化参数,其中N表示样本数,n表示分类数,s是超球面的半径,即归一化参数,其中3.根据权利要求1所述的一种应用于表征学习的多模型线性融合Model Ensemble方法,其特征在于...

【专利技术属性】
技术研发人员:连德富陈钢熊哲立杨启冲
申请(专利权)人:长三角信息智能创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1