一种信息识别方法、信息识别系统、电子设备及计算机可读存储介质技术方案

技术编号:34270157 阅读:13 留言:0更新日期:2022-07-24 15:50
本发明专利技术公开一种信息识别方法,学习阶段包括步骤:将包含多个样本类别、多个样本域的训练样本集S划分为模拟训练样本集DS和模拟测试样本集DT;将模拟训练样本集DS的各个类别c的样本数据x

An information recognition method, information recognition system, electronic equipment and computer readable storage medium

【技术实现步骤摘要】
一种信息识别方法、信息识别系统、电子设备及计算机可读存储介质


[0001]本申请涉及人工智能领域,具体涉及一种信息识别方法、信息识别系统、电子设备及计算机可读存储介质。

技术介绍

[0002]人工智能(AI,Artificial Intelligence)领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
[0003]人工智能的核心是机器学习。在机器学习中,通过标签已知的训练数据(也称为学习数据)进行学习,优化算法模型的参数,对标签未知的测试数据进行识别。
[0004]在机器学习中,当训练数据和测试数据存在较大差异时,机器学习中使用的训练数据与测试数据不同,导致对测试数据进行识别时,识别性能下降,存在很大的不确定性,影响系统性能。
[0005]因此,领域泛化技术(Domain Generalization)受到越来越多的关注,其要解决的问题是如何利用训练数据训练一个模型,使得该模型能够泛化到其他不同数据分布的目标领域,减小对测试数据进行识别时的不确定性,提高机器学习算法对新样本的适应能力,即,提高机器学习的泛化能力(generalization ability)。领域泛化技术中,训练数据集也称为源域,测试数据集也称为目标域。领域泛化的训练数据和测试数据来源于不同领域、且具有不同分布的数据,一般的领域泛化方法是尽量抽取不同领域数据中和领域无关的信息,或者学习得到隐含在不同领域数据背后的规律,使其在面对新领域数据时,可能得到合理的性能。
[0006]现有技术中,主要通过元学习、变分推理方法改善系统的泛化能力。
[0007]元学习(Meta

learning)是以很多个任务作为训练数据。元学习是解决小样本问题(Few

shot Learning)常用方法之一,可以被用于提高领域泛化能力。小样本学习中,由于样本少而造成模型学习不充分,而元学习中,将每一个信息识别任务作为一个训练样本,生成很多这样的样本进行学习,训练单位包括任务,以及每个任务对应的数据,通过在学习过程中不断适应各个具体任务,优化网络模型的参数的确定方式,使网络具备抽象的学习能力。元学习能够提高系统对多任务的泛化能力,能够依赖很少的样本,识别训练时未出现的样本。
[0008]领域泛化的元学习中,用若干个训练和测试数据均来源于不同领域,具有不同分布的任务学习得到一个泛化能力强的模型,并在学习中,旨在学到隐含在各任务数据背后的规律,使其在遇到新的任务时,能克服领域不同导致的偏移的影响,取得较好的识别效果。
[0009]变分推理是一种数据生成模型算法,用于生成指定要求的分布数据,对复杂的目标分布进行近似。具体来说,变分推理是一种确定式的近似推理方法,就是一种用来近似一个计算复杂的分布或者至少获得目标分布的一些统计量的方法。在深度学习中常用的变分
自编码器(VAE)就是基于变分推理。在变分推理中,一般是仅依据输入信息推理潜在变量分布,而在有监督学习系统中标签(输出)信息的指导作用至关重要。
[0010]条件变分是指在变分推理中将样本的已知的标签信息作为输入信息,生成该样本分布。因此条件变分推理是在变分推理的基础上,将样本已知的标签信息也加入输入端,起到对生成分布的指导作用。由于变分推理和条件变分推理都是在分布层面对数据或参数进行分析,而不是针对固定的数值分析,这在一定程度上可以增强泛化性能。
[0011]但是现有技术的方法减小未知目标域数据集的识别不确定性的能力不足,当未知目标域与源域具有不同分布时,泛化能力仍然有限。

技术实现思路

[0012]本专利技术提供一种信息识别方法、信息识别系统、电子设备,以及计算机可读存储介质,其能够提高泛化能力,降低信息识别的不确定性。
[0013]第一方面,本专利技术提供一种信息识别方法,其学习阶段包括以下步骤:
[0014]步骤S11,将包含多个样本类别、多个样本域的训练样本集S划分为模拟训练样本集DS和模拟测试样本集DT;
[0015]步骤S12,将模拟训练样本集DS的各个类别c的样本数据x
sc
、样本数据x
sc
的类别标签y
sc
输入编码器网络,编码器网络生成样本数据x
sc
的各个类别c在潜在空间的第一分布,
[0016]步骤S13,将模拟测试样本集DT的样本数据x
t
输入先验网络,先验网络生成基于样本数据x
t
在所述在潜在空间的第二分布,
[0017]步骤S14,计算各个类别c的第一分布之和与第二分布之间的KL距离,使该KL距离最小。
[0018]在以上专利技术中,在学习阶段,将标签已知的训练样本集S划分为模拟训练样本集DS和模拟测试样本集DT,模仿训练数据集和测试数据集的差异。本专利技术中以源域上的训练、目标域(与源域不一致)上的测试这样的任务作为训练样本,即采用了元学习框架。
[0019]本专利技术中对模拟训练样本集DS的各个类别c的样本数据x
sc
进行条件变分编码,获得样本数据x
sc
的各个类别c在潜在空间的分布(即,第一分布);对模拟测试样本集DT的样本数据x
t
输入先验网络,获得样本数据x
t
在潜在空间的分布(即,第二分布)。即,本专利技术中将元学习框架和条件变分推理结合,发挥了条件变分推理的建模能力,能更好地解决跨域建模的不确定性,在元学习框架下,模拟从源域到目标域的泛化,通过跨域的训练和测试过程获得泛化能力。在元学习框架下重新推导出条件变分推理的下界,将变分推理过程转换为网络参数优化过程。
[0020]本专利技术中,使各个类别c的第一分布之和与第二分布之间的KL距离最小(即,使第一分布之和与第二分布之间的似然度最大)。
[0021]通过使先验网络在隐含空间上的分布,与编码器对模拟训练样本集DS的数据生成的隐含空间上的分布尽量接近,能减少模拟训练样本集DS和模拟测试样本集DT的跨度,增强泛化性能。
[0022]因此,本专利技术在模拟训练样本集DS与模拟测试样本集DT存在差异的情况下优化先验网络参数,增强泛化性能。
[0023]这里,先验网络是用来进行测试的神经网络,其网络参数由学习过程中获得的先
验知识确定,在学习过程中,通过与条件变分编码的结果进行比较,优化先验网络的参数,达到与条件变分编码同样的效果。
[0024]作为一个实施例,所述信息识别方法,还包括:
[0025]步骤S15,将模拟测试样本集DT的样本数据x
t
以及第一分布的参数输入解码器网络,解码器网络基于模拟测试样本集DT的样本数据x
t
以及第一分布的参数,生成样本数据x
t
的预测类别标签使预测类别标签与样本数据x
t
的已知类别标签y
t
的交叉熵最小。
[0026]在以上实施例中,解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息识别方法,其特征在于,学习阶段包括以下步骤:步骤S11,将包含多个样本类别、多个样本域的训练样本集S划分为模拟训练样本集DS和模拟测试样本集DT;步骤S12,将所述模拟训练样本集DS的各个类别c的样本数据x
sc
、所述样本数据x
sc
的类别标签y
sc
输入编码器网络,所述编码器网络生成所述样本数据x
sc
的各个类别c在潜在空间的第一分布;步骤S13,将所述模拟测试样本集DT的样本数据x
t
输入先验网络,所述先验网络生成所述样本数据x
t
在所述潜在空间的第二分布;步骤S14,计算各个类别c的所述第一分布之和与所述第二分布之间的KL距离,使该KL距离最小。2.根据权利要求1所述的信息识别方法,其特征在于,还包括:步骤S15,将所述模拟测试样本集DT的样本数据x
t
以及所述第一分布的参数输入解码器网络,所述解码器网络基于所述模拟测试样本集DT的样本数据x
t
以及所述第一分布的参数,生成所述样本数据x
t
的预测类别标签使所述预测类别标签与所述样本数据x
t
的已知类别标签y
t
的交叉熵最小。3.根据权利要求2所述的信息识别方法,其特征在于,测试阶段包括以下步骤:步骤S31,将测试样本集T的测试样本数据x输入所述先验网络,所述先验网络生成所述测试样本数据x在潜在空间的第三分布;步骤S32,将所述测试样本数据x和所述第三分布的参数输入所述解码器网络,所述解码器网络根据所述第三分布的参数生成所述测试样本数据x的预测类别标签4.根据权利要求3所述的信息识别方法,其特征在于,步骤S12中,不同类别的所述样本数据x
cs
的所述第一分布之间的Wasserstein距离L
W
最大。5.根据权利要求1所述的信息识别方法,其特征在于,步骤S11中,在所述训练样本集S的多个样本域中,随机选择一个样本域作为所述模拟测试样本集DT,其余的样本域作为所述模拟训练样本集DS。6.根据权利要求2所述的信息识别方法,其特征在于,步骤S15中,对所述第一分布进行多次采样,将多个采样值z
l
以及所述样本数据x
t
输入所述解码器网络,得到多个预测类别标签,对该多个预测类别标签取平均,将得到的平均值作为所述样本数据x
t
的预测类别标签7.根据权利要求4所述的信息识别方法,其特征在于,计算整体损失函数如式(1):其中,为交叉熵,D
KL
为KL距离,为Wasserstein距离,根据式(2),利用梯度下降法更...

【专利技术属性】
技术研发人员:张磊刘心甄先通左利云王宝艳
申请(专利权)人:广东石油化工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1