一种基于矩阵变量变分自编码器的图像处理方法技术

技术编号:19647671 阅读:29 留言:0更新日期:2018-12-05 20:44
本发明专利技术公开一种基于矩阵变量变分自编码器进行图像处理的方法,能够解决图像向量化处理破坏空间结构的问题,进而利于图像重构、去噪和补全。与传统VAE不同的是,本方法用图像的固有表示形式‑2D矩阵来描述模型的输入、隐层特征、潜变量分布特征参数等,通过利用矩阵高斯分布的定义及相关性质推导新模型的目标函数的显式表达,然后利用随机梯度下降算法求解模型参数。在这个模型中,由于本发明专利技术涉及的建模过程都是面向矩阵变量的,因此能更好的建模图像数据的空间结构和统计信息,进而可以提升图像重构质量、更好去除噪声和图像补全。

An Image Processing Method Based on Variational Self-Encoder of Matrix Variable

The invention discloses a method for image processing based on matrix variable variational self-encoder, which can solve the problem of image vectorization processing destroying spatial structure, thereby facilitating image reconstruction, denoising and completion. Different from the traditional VAE, this method uses the intrinsic representation of image 2D matrix to describe the input, hidden layer characteristics and latent variable distribution characteristics of the model. The explicit expression of the objective function of the new model is deduced by using the definition and related properties of the matrix Gauss distribution, and then the model is solved by using the stochastic gradient descent algorithm. Type parameter. In this model, because the modeling process of the present invention is oriented to matrix variables, the spatial structure and statistical information of image data can be better modeled, and the quality of image reconstruction can be improved, noise removal and image completion can be better.

【技术实现步骤摘要】
一种基于矩阵变量变分自编码器的图像处理方法
本专利技术属于计算机视觉与机器学习领域,尤其涉及一种基于矩阵变量变分自编码器的图像处理方法。
技术介绍
图像重构、去噪和补全是图像处理的重要内容,变分自编码器(VariationalAutoencoder,VAE)因其能很好的建模图像数据的概率分布,所以广泛的应用于图像处理相关领域。VAE通常由一个推理模型(编码器)和一个生成模型(解码器)组成,模型的目标函数包含两项:一是图像的重构误差,一般使用均方误差或交叉熵来度量;另一个是Kullback-Leibler(KL)散度,用来衡量基于推理模型学到的特征潜变量的后验与对特征假设的先验分布之间的相似度,相当于一个正则化项。由于VAE能够建模特征潜变量的统计分布,因此当在该分布中进行随机采样并通过解码器解码时,能够生成与原始数据类似的样本,因此可去除噪声或对缺失图像补全。但是目前的VAE方法的一个缺陷:是建模向量变量的,当用于处理图像数据时,需要先将其数据进行向量化处理,一方面可能带来维度灾难,另一方面向量化的处理必然会破坏图像数据的空间结构,造成大量的局部空间信息的丢失。
技术实现思路
本专利技术要解决的技术问题是,提供一种基于矩阵变量变分自编码器(Matrix-variateVariationalAutoencoder,MVVAE)进行图像处理的方法,能够解决图像向量化处理破坏空间结构的问题,进而利于图像重构、去噪和补全。与传统VAE不同的是,本方法用图像的固有表示形式-2D矩阵来描述模型的输入、隐层特征、潜变脸分布特征参数等,通过利用矩阵高斯分布的定义及相关性质推导新模型的目标函数的显式表达,然后利用随机梯度下降算法求解模型参数。在这个模型中,由于本专利技术涉及的建模过程都是面向矩阵变量的,因此能更好的建模图像数据的空间结构和统计信息,进而可以提升图像重构质量、更好去除噪声和图像补全。附图说明图1矩阵变量变分自编码器模型;图2不同潜变量维度下MVVAE和VAE对MNIST数据集重构效果的比较;图3不同隐变量维度下MVVAE和VAE对MNIST数据集重构效果的比较;图4使用VAE模型和MVVAE模型对图像进行去噪效果的对比;图5对缺失图像进行补全效果对比。具体实施方式本专利技术提供一种基于矩阵变量变分自编码器(Matrix-variateVariationalAutoencoder,MVVAE)进行图像处理的方法,假设有N个独立同分布的图像集每个图像表示为即输入样本的大小为I×J的二维矩阵。本专利技术旨在建模图像集的统计分布logpθ(X),进而有效的进行图像的重构、去噪和补全。对图像的建模过程是基于本专利技术所提出的MVVAE网络,所以核心是建模该网络,训练得到网络模型的参数。为实现上述目的,本专利技术采用如下的技术方案:1.面向图像集分布建模的MVVAE模型的定义MVVAE模型定义,如图1所示,在该模型中是输入层矩阵变量,对应的是输入图像的矩阵表示,I和J分别代表输入图像数据的行列维度的大小。为隐藏层矩阵变量,对应的是基于模型提取的输入图像的特征,C和D分别代表隐藏层特征矩阵行列维度的大小。和分别为输入图像对应的潜变量的均值、行协方差和列协方,它们是对隐层特征H的进一步统计描述。为潜在矩阵变量,N和P分别代表潜在层矩阵行列维度的大小,Z从特征H的统计分布中采样得到。同样地,解码器的矩阵变量重构它们的行和列维度分别与编码器特征H和输入图像矩阵变量X相对应。矩阵变量变分自编码器模型中除潜变量层外,每一层都是基于多层感知机神经网络,编码器的参数为解码器的参数为这些参数是我们在模型训练过程中要求解的。MVVAE网络模型的目标函数定义如下:假设有N个图像该模型假设每个样本X由一个未观测变量生成,θ为网络中生成模型的参数,并且该模型引入变分思想,即使用一个后验概率来近似潜在变量的真正后验分布pθ(Z|X),而近似的后验概率使用网络的推理模型来实现,为网络中推理模型的参数。则每个样本的边缘似然可以表示为:通过上述变分推理,可以求出边缘似然logpθ(X)的紧致下界,它主要包含两项:第一项为重构误差;第二项为KL散度,衡量的是基于推理模型学到的特征潜变量的后验与对特征假设的先验分布之间的相似度,并且当近似的后验概率与真正的后验概率pθ(Z|X)越相近,则变分下界与边缘似然logpθ(X)之间的差距越小。因此该模型是通过不断求解下界的极大化逼近近似对数似然函数极大化的算法。2.MVVAE模型的参数求解算法从公式(1)可以看出,目标函数主要分为两项:第一项为重构误差。第二项为衡量的是基于推理模型学到的特征潜变量的后验与对特征假设的先验分布之间的相似度,相当于一个正则项。下面本专利技术从矩阵变量概率分布及性质定义出发,对这两项进行分别求解以给出显示的表示。对进行求解。假设MVVAE模型中的潜在变量Z的先验pθ(Z)服从均值为O,协方差为单位阵的标准矩阵高斯分布,即:则近似的后验概率必然服从矩阵高斯分布,即:其中为模型中潜变量的均值,和分别为潜变量的行协方差和列协方差,特别地,M,U,V参数通过神经网络的编码器学习得到,如图1所示。按照KL散度的定义,将展开,得:根据矩阵高斯分布的性质,可得:以及:因此,公式(2)可以表示为:其中,tr(·)表示矩阵的迹运算,|·|表示矩阵的行列式。在矩阵高斯分布中约束行协方差U和列协方差V都为正定矩阵,根据正定矩阵的性质,可以进一步得到:对进行求解。在矩阵变量变分自编码器中编码器和解码器都是基于神经网络的,在本专利技术中使用最广泛应用的多层感知器(multi-layeredperceptrons,MLPs)。该模型中重构误差的损失函数与AE类似,它有多种选择,主要依赖于输入数据的类型。1)当输入样本图像是二值的,即输入层的每个神经元只能取0或1,那么编码器的输出一般假设其服从伯努利分布,则损失函数通常由负交叉熵来定义:其中,xij为输入矩阵变量X的某一元素值,yij为相对应的输出矩阵变量Y的一个元素值。首先,输入样本X经过编码器得到潜在变量Z,然后潜在变量Z经过解码器输出生成样本Y,fσ(·)是一个sigmoid激活函数,是MLP的权重和偏置。2)而对于实值的神经网络,即输入是任意图像,则编码器的输出一般假设其服从矩阵高斯分布,高斯分布参数为通过解码器输出的重构图像矩阵Y的均值,和分别为重构图像Y的行协方差和列协方差,M*,U*,V*均是通过MLPs学习得到,则用对数矩阵高斯分布定义损失函数,即:这里,以及其中,是MLPs的权重和偏置。3.MVVAE模型的训练采用批处理方式来训练模型,具体的,将所有的训练图像集随机的分为若干子集,设置每个子集包含的样本个数为B,即每次输入图像集的大小为训练过程包括:首先定义网络每层节点维度的大小,并对网络权重进行随机初始化,然后使用随机梯度下降算法(SGD)对变分下界中的参数和θ进行联合的优化,直到模型收敛为止。下面介绍训练过程中所需的两种技巧。1)重参数化技巧在MVVAE中一般使用随机梯度下降算法(SGD)对变分下界中的参数和θ进行联合的优化。而通过公式(1)可以看出,该变分下界的第一项为近似的后验概率条件下logpθ(X|Z)的期望,与参数是有关的,因此参数的梯度是及其难求的。因此本文档来自技高网...

【技术保护点】
1.一种基于矩阵变量变分自编码器进行图像处理的方法,其特征在于,假设有N个独立同分布的图像集

【技术特征摘要】
1.一种基于矩阵变量变分自编码器进行图像处理的方法,其特征在于,假设有N个独立同分布的图像集每个图像表示为即输入样本的大小为I×J的二维矩阵,其包括以下步骤:步骤1:面向图像集分布建模的MVVAE模型定义在MVVAE模型中设是输入层矩阵变量,对应的是输入图像的矩阵表示,I和J分别代表输入图像数据的行列维度的大小;为隐藏层矩阵变量,对应的是基于模型提取的输入图像的特征,C和D分别代表隐藏层特征矩阵行列维度的大小;和分别为输入图像对应的潜变量的均值、行协方差和列协方,它们是对隐层特征H的进一步统计描述;为潜在矩阵变量,N和P分别代表潜在层矩阵行列维度的大小,Z从特征H的统计分布中采样得到;解码器的矩阵变量重构它们的行和列维度分别与编码器特征H和输入图像矩阵变量X相对应;MVVAE网络模型的目标函数定义如下:假设有N个图像该模型假设每个样本X由一个未观测变量生成,θ为网络中生成模型的参数,并且该模型引入变分思想,即使用一个后验概率来近似潜在变量的真正后验分布pθ(Z|X),而近似的后验概率使用网络的推理模型来实现,为网络中推理模型的参数;则每个样本的边缘似然可以表示为:步骤2、MVVAE模型的参数求解算法从公式(1)可以看出,目标函数主要分为两项:第一项为重构误差,第二项为衡量的是基于推理模型学到的特征潜变量的后验与对特征假设的先验分布之间的相似度,从矩阵变量概率分布及性质定义出发,对这两项进行分别求解以给出显式的表示。步骤3、MVVAE模型的训练将所有的训练图像集随机的分为若干子集,设置每个子集包含的样本个数为B,即每次输入图像集的大小为训练过程包括:首先定义网络每层节点维度的大小,并对网络权重进行随机初始化,然后使用随机梯度下降算法(SGD)对变分下界中的参...

【专利技术属性】
技术研发人员:李敬华闫会霞孔德慧王立春尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1