The invention discloses a method for image processing based on matrix variable variational self-encoder, which can solve the problem of image vectorization processing destroying spatial structure, thereby facilitating image reconstruction, denoising and completion. Different from the traditional VAE, this method uses the intrinsic representation of image 2D matrix to describe the input, hidden layer characteristics and latent variable distribution characteristics of the model. The explicit expression of the objective function of the new model is deduced by using the definition and related properties of the matrix Gauss distribution, and then the model is solved by using the stochastic gradient descent algorithm. Type parameter. In this model, because the modeling process of the present invention is oriented to matrix variables, the spatial structure and statistical information of image data can be better modeled, and the quality of image reconstruction can be improved, noise removal and image completion can be better.
【技术实现步骤摘要】
一种基于矩阵变量变分自编码器的图像处理方法
本专利技术属于计算机视觉与机器学习领域,尤其涉及一种基于矩阵变量变分自编码器的图像处理方法。
技术介绍
图像重构、去噪和补全是图像处理的重要内容,变分自编码器(VariationalAutoencoder,VAE)因其能很好的建模图像数据的概率分布,所以广泛的应用于图像处理相关领域。VAE通常由一个推理模型(编码器)和一个生成模型(解码器)组成,模型的目标函数包含两项:一是图像的重构误差,一般使用均方误差或交叉熵来度量;另一个是Kullback-Leibler(KL)散度,用来衡量基于推理模型学到的特征潜变量的后验与对特征假设的先验分布之间的相似度,相当于一个正则化项。由于VAE能够建模特征潜变量的统计分布,因此当在该分布中进行随机采样并通过解码器解码时,能够生成与原始数据类似的样本,因此可去除噪声或对缺失图像补全。但是目前的VAE方法的一个缺陷:是建模向量变量的,当用于处理图像数据时,需要先将其数据进行向量化处理,一方面可能带来维度灾难,另一方面向量化的处理必然会破坏图像数据的空间结构,造成大量的局部空间信息的丢失。
技术实现思路
本专利技术要解决的技术问题是,提供一种基于矩阵变量变分自编码器(Matrix-variateVariationalAutoencoder,MVVAE)进行图像处理的方法,能够解决图像向量化处理破坏空间结构的问题,进而利于图像重构、去噪和补全。与传统VAE不同的是,本方法用图像的固有表示形式-2D矩阵来描述模型的输入、隐层特征、潜变脸分布特征参数等,通过利用矩阵高斯分布的定义及相关性质推导 ...
【技术保护点】
1.一种基于矩阵变量变分自编码器进行图像处理的方法,其特征在于,假设有N个独立同分布的图像集
【技术特征摘要】
1.一种基于矩阵变量变分自编码器进行图像处理的方法,其特征在于,假设有N个独立同分布的图像集每个图像表示为即输入样本的大小为I×J的二维矩阵,其包括以下步骤:步骤1:面向图像集分布建模的MVVAE模型定义在MVVAE模型中设是输入层矩阵变量,对应的是输入图像的矩阵表示,I和J分别代表输入图像数据的行列维度的大小;为隐藏层矩阵变量,对应的是基于模型提取的输入图像的特征,C和D分别代表隐藏层特征矩阵行列维度的大小;和分别为输入图像对应的潜变量的均值、行协方差和列协方,它们是对隐层特征H的进一步统计描述;为潜在矩阵变量,N和P分别代表潜在层矩阵行列维度的大小,Z从特征H的统计分布中采样得到;解码器的矩阵变量重构它们的行和列维度分别与编码器特征H和输入图像矩阵变量X相对应;MVVAE网络模型的目标函数定义如下:假设有N个图像该模型假设每个样本X由一个未观测变量生成,θ为网络中生成模型的参数,并且该模型引入变分思想,即使用一个后验概率来近似潜在变量的真正后验分布pθ(Z|X),而近似的后验概率使用网络的推理模型来实现,为网络中推理模型的参数;则每个样本的边缘似然可以表示为:步骤2、MVVAE模型的参数求解算法从公式(1)可以看出,目标函数主要分为两项:第一项为重构误差,第二项为衡量的是基于推理模型学到的特征潜变量的后验与对特征假设的先验分布之间的相似度,从矩阵变量概率分布及性质定义出发,对这两项进行分别求解以给出显式的表示。步骤3、MVVAE模型的训练将所有的训练图像集随机的分为若干子集,设置每个子集包含的样本个数为B,即每次输入图像集的大小为训练过程包括:首先定义网络每层节点维度的大小,并对网络权重进行随机初始化,然后使用随机梯度下降算法(SGD)对变分下界中的参...
【专利技术属性】
技术研发人员:李敬华,闫会霞,孔德慧,王立春,尹宝才,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。