信息处理方法和装置以及信息检测方法和装置制造方法及图纸

技术编号:20993309 阅读:55 留言:0更新日期:2019-04-29 23:04
公开了一种信息处理方法和装置以及信息检测方法和装置,其中信息处理方法包括:从训练集中抽取对应于相同的语义特征的三幅图像,所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像;通过变分自编码器获得三幅图像的与语义特征对应的隐变量的分布;以及对于所述三幅图像中的每幅图像,通过使损失函数最小化来更新变分自编码器的参数,其中损失函数与第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离正相关,与第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离负相关。根据本公开的实施例,可以提取具有区分度的面部语义特征。

Information processing methods and devices, information detection methods and devices

An information processing method and apparatus, as well as an information detection method and apparatus are disclosed, in which the information processing method includes: extracting three images corresponding to the same semantic features from a training set, the three images including the first and second images having the same semantic features in terms of semantic features, and the first and second images having different semantic features from the first and second images. Three images; obtaining the distribution of hidden variables corresponding to the semantic features of three images by variational self-encoding; and updating the parameters of variational self-encoding by minimizing the loss function for each image in the three images, where the loss function is positively correlated with the distribution of hidden variables of the first image and the distribution of hidden variables of the second image, and with the distribution of hidden variables of the third image. The distribution of the hidden variables in the first image is negatively correlated with the distribution of the hidden variables in the third image by the second distance. According to embodiments of the present disclosure, facial semantic features with distinctive degrees can be extracted.

【技术实现步骤摘要】
信息处理方法和装置以及信息检测方法和装置
本公开涉及信息处理领域,具体涉及能够提取具有区分度的面部语义特征的信息处理方法和装置以及信息检测方法和装置。
技术介绍
近年来在图像生成方面取得了显著进步。出现了诸如生成式对抗网络(GAN)和变分自编码器(VAE)的模型来生成图像。然而,GAN模型以随机噪声作为输入,并且不具有将图像编码到隐空间的能力。VAE可以将图像编码到隐空间,然而该隐空间缺乏语义含义。即,这些模型不能提取具有区分度的面部语义特征。
技术实现思路
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。鉴于以上问题,本公开的目的是提供能够提取具有区分度的面部语义特征的信息处理方法和装置以及信息检测方法和装置。根据本公开的一方面,提供了一种信息处理方法,包括:可以从训练集中抽取对应于相同的语义特征的三幅图像,所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像;可以通过变分自编码器获得三幅图像的与语义特征对应的隐变量的分布;以及可以对于所述三幅图像中的每幅图像,通过使损失函数最小化来更新变分自编码器的参数,其中损失函数与第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离正相关,与第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离负相关。根据本公开的另一方面,提供了一种信息处理装置,包括:抽取图像的单元,可以被配置成从训练集中抽取对应于相同的语义特征的三幅图像,其中,所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像;获得隐变量分布的单元,可以被配置成通过变分自编码器获得所述三幅图像的与语义特征对应的隐变量的分布;以及更新参数的单元,可以被配置成对于所述三幅图像中的每幅图像,通过使损失函数最小化来更新变分自编码器的参数,其中损失函数与第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离正相关,与第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离负相关。根据本公开的又一方面,提供了一种信息检测方法,包括:可以将多幅图像分别输入到经训练的变分自编码器,以获得每幅图像的与语义特征对应的隐变量的分布,并且获得每幅图像的重建图像,其中,对于所述多幅图像中的具有相同的语义特征的三幅图像,所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像,第一图像的隐变量的分布和第二图像的隐变量的分布之间的第一距离小于第一图像的隐变量的分布和第三图像的隐变量的分布之间的第二距离。根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。附图说明本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:图1是示出根据本公开的实施例的信息处理方法的流程示例的流程图;图2是示出根据本公开实施例的度量学习的示意图;图3示出了用于实现信息处理方法的网络的框图;图4是示出根据本公开实施例的编码网络和解码网络的结构的图;图5是示出根据本公开实施例的隐变量的结构的示意图;图6是示出根据本公开的实施例的信息处理装置的功能配置示例的框图;以及图7是示出作为本公开的实施例中可采用的信息处理装置的个人计算机的示例结构的框图。具体实施方式在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。VAE主要目的是重建输入图像,VAE的输入为原始图像,输出为重建图像。更具体地,在VAE中,对输入图像进行编码,得到隐变量的分布表示,这一分布表示是包括均值向量和标准差向量的高斯分布表示。这两个向量都是一维向量,利用均值向量和标准差向量采样得到新的向量,用新的向量进行重建,得到最终的重建图像。对VAE进行训练的目标函数(或者叫损失函数)由两部分组成,一部分为重建误差(输入图像与重建图像之间的误差),另一部分为中间隐变量与高斯分布的KL距离。虽然VAE可以将图像编码到隐空间,但是该隐空间缺乏语义含义。本申请提出一种能够提取具有区分度的面部语义特征(例如,身份,姿态、年龄、性别等等)的信息处理方法,该信息处理方法将VAE模型的生成图像的能力与度量学习相结合。下面结合附图详细说明根据本公开的实施例。首先,将参照图1描述根据本公开实施例的信息处理方法100的流程示例。图1是示出根据本公开的实施例的信息处理方法的流程示例的流程图。如图1所示,根据本公开的实施例的信息处理方法100包括抽取图像的步骤S102、获得隐变量分布的步骤S104以及更新参数的步骤S106。在抽取图像的步骤S102中,可以从训练集中抽取对应于相同的语义特征的三幅图像,其中,所述三幅图像包括在语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于第一图像和第二图像的第三图像。在传统的变分自编码算法中,从隐变量中的每一维特征来看,不具有特定的语义特征。在根据本公开实施例的信息处理方法100中,我们将隐变量分为若干个部分,每个部分对应一个特定的语义特征,如人脸的姿态、年龄、性别等。在抽取图像的步骤S102中,从训练集中抽取对应于相同的语义特征的三幅图像以及其中图像和具有相同的语义特征值,而图像的语义特征值不同于图像和以语义特征为身份为例,这三幅图像都具有语义特征“身份”,图像和具有相同的语义特征值表明这两幅图像属于同一个人,而图像的语义特征值不同于图像和表明图像属于另外一个人。在获得隐变量分布的步骤S104中,可以通过变分自编码器获得三幅图像的与语义特征对应的隐变量的分布。在该步骤中,可以通过变分自编码器获得三幅图像以及的与语义特征对应的隐变量的分布。在更新参数的步骤S106中,可以对于所述三幅图像中的每幅图像,通过使损本文档来自技高网...

【技术保护点】
1.一种信息处理方法,包括:从训练集中抽取对应于相同的语义特征的三幅图像,其中,所述三幅图像包括在所述语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于所述第一图像和所述第二图像的第三图像;通过变分自编码器获得所述三幅图像的与所述语义特征对应的隐变量的分布;以及对于所述三幅图像中的每幅图像,通过使损失函数最小化来更新所述变分自编码器的参数,其中所述损失函数与所述第一图像的隐变量的分布和所述第二图像的隐变量的分布之间的第一距离正相关,与所述第一图像的隐变量的分布和所述第三图像的隐变量的分布之间的第二距离负相关。

【技术特征摘要】
1.一种信息处理方法,包括:从训练集中抽取对应于相同的语义特征的三幅图像,其中,所述三幅图像包括在所述语义特征方面具有相同语义特征值的第一图像和第二图像以及其语义特征值不同于所述第一图像和所述第二图像的第三图像;通过变分自编码器获得所述三幅图像的与所述语义特征对应的隐变量的分布;以及对于所述三幅图像中的每幅图像,通过使损失函数最小化来更新所述变分自编码器的参数,其中所述损失函数与所述第一图像的隐变量的分布和所述第二图像的隐变量的分布之间的第一距离正相关,与所述第一图像的隐变量的分布和所述第三图像的隐变量的分布之间的第二距离负相关。2.根据权利要求1所述的信息处理方法,其中,所述损失函数还包括使所述第二距离与所述第一距离之间的差值大于预定阈值的约束。3.根据权利要求2所述的信息处理方法,其中,所述损失函数还包括有关监督误差的约束,所述监督误差是基于所述语义特征的标签和图像的所述隐变量的分布而计算的。4.根据权利要求3所述的信息处理方法,其中,计算所述监督误差包括:使用非线性函数将图像的所述隐变量的分布映射到类别空间从而得到映射输出;以及使用分类损失函数或回归损失函数,根据所述映射输出和所述语义特征的标签来计算所述监督误差。5.根据权利要求3所述的信息处理方法,其中,图像的所述隐变量的先验分布包括任意分布。6.根据权利要求5所述的信息处理方法,其中,图像的所述隐变量的先验分布是通过以下方式获得的:根据所述隐变量的分布得到符合高斯分布的中间变量;以及对所述中间变量进行非线性变换,得到所述隐变量的先验分布。7.根据权利要求6所述的信息处理方法,其中,所述损失函数还包括有关所...

【专利技术属性】
技术研发人员:沈伟刘汝杰
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1