一种基于字典学习残差重建的压缩感知视频重建方法技术

技术编号:11833179 阅读:106 留言:0更新日期:2015-08-05 19:31
本发明专利技术涉及压缩感知和视频编解码领域,是一种基于字典学习残差重建的压缩感知视频重建方法。该方法先对视频划分图像组(Group of Picture,GOP),每组指定关键帧和非关键帧,关键帧和非关键帧采用不同采样率、不同方法逐帧逐块顺序编码。在解码端,取一个GOP,先采用多参考帧加权平均获得其初始重建;再采取迭代法获得GOP的最终重建。在迭代中先使用多参考帧对当前帧进行运动估计获得其运动补偿图像;接着采用多参考帧残差域字典学习,获得当前帧各个块的残差域自适应基,进行残差重建;最后,根据各帧的运动补偿图像和残差,得到该GOP的最终重建,进而得到重建视频,实现压缩感知视频的高质量重建。该方法可广泛应用于基于压缩感知的视频重建等多个领域。

【技术实现步骤摘要】
一种基于字典学习残差重建的压缩感知视频重建方法
本专利技术涉及压缩感知和视频重建领域,是一种基于字典学习残差重建的压缩感知视频重建方法。
技术介绍
压缩感知(CompressedSensing,CS)是近年来提出的一种新颖的信号采样模式,一经提出便受到国内外学者的广泛关注。传统的奈奎斯特采样定理要求至少以高于信号最高频率两倍的频率对信号进行采样,才能对信号进行完整重建。CS打破了这一理论,它表明只要信号在某个正交空间中是稀疏的,就可以使用较低频率采样信号,同时以高概率重构该信号。CS的主要思想是对稀疏信号进行同步压缩和采样,在确保获得重构原信号所需信息的前提下,用非自适应线性投影的方式对信号进行采样,即把原信号投影到一个低维的空间获得观测值,然后根据一定类型的线性或非线性解码机制对测量值进行解码就可高概率精确重建原始信号。具体地,设有长度为N的一维信号在正交空间上是稀疏的,即有:(1)其中,为在上的变换系数,若中至多有个非0项,则称为-稀疏的,即为上的-稀疏信号。那么,压缩感知可以分为以下三步进行:第一步,求出变换系数;第二步,设计一个()维的感知矩阵,对进行感知测量得到测量值(2)以获得信号的部分信息;第三步,信号重构,即利用l0-范数下的最优化问题求解的精确值或近似逼近:(3)Donoho和Elad已证明若在上是-稀疏的,且感知矩阵与稀疏基是非相干的,则欠定方程(3)有唯一确定解。然而,式(3)作为一个最小化l0-范数问题是NP难解的,之后Candès和Donoho等人又证明了若与满足有限约束等距性(RestrictedIsometryProperty,RIP),则式(3)可等价为最小化l1-范数问题:(4)式(4)是一个凸优化问题,可在多项式时间内求解。压缩感知的核心问题之一就是如何对原始信号进行精确重构,即对上述最后一步中式(3)或式(4)的求解,是近年来的研究热点。针对图像重建的现有的主要解决算法有:凸优化算法、贪婪算法、非凸最小化方法、组合优化算法、迭代阈值算法和布莱格曼迭代算法、利用图像的梯度属性作为先验的基于最小全变差(TotalVariation,TV)的方法等;针对视频文件时主要对视频文件的每一帧利用上述解决算法进行图像重建,最后得到整个视频文件的重建视频。尽管这些压缩感知重建算法都取得了一定的重建效果,为压缩感知理论的推广应用奠定了良好基础,但是这些稀疏性先验知识主要是在一些固定基下的稀疏性,适应性较差,用于解决内容多变的压缩感知图像的解码重建时,重建图像的质量极其不稳定,同时,它们并没有充分挖掘并利用图像块间的相关性等,因此得到的对图像的一次重建图像的质量较差。当针对视频文件时,由于没有充分利用帧间的时域相关性,更加使得重建视频精度低、质量差。
技术实现思路
本专利技术实施例是提供一种基于字典学习残差重建的压缩感知视频重建方法,可以更精确地对压缩感知视频进行重建,提高重建视频质量。本专利技术解决上述技术问题的技术方案如下:一种基于字典学习残差重建的压缩感知视频重建方法,其特征在于,该方法具体步骤如下:步骤一:在编码端,把视频序列的若干帧划分为一个图像组(GroupofPicture,GOP),每个GOP的首帧为关键帧,其它所有帧为非关键帧。关键帧和非关键帧采用不同采样率,不同方法逐帧逐块顺序编码。关键帧采用独立的基于块的压缩感知方法编码,非关键帧采用基于块的差值编码。具体地:1)将每一帧划分为多个不重叠的大小的块,并将每块行先拉伸为一个向量,其中i表示块的序号。对于关键帧,取一个行正交的规范化随机矩阵的前行构成感知矩阵,直接对每块进行压缩感知编码,即,其采样率为;2)对于非关键帧,采用一个行正交的规范化随机矩阵的前行构成感知矩阵,对每块进行差值感知编码。首先将非关键帧减去相邻关键帧,第2至第K/2帧减去当前GOP的关键帧,第K/2+1至K帧减去下一GOP的关键帧,即第K+1帧。然后差值基于块进行感知编码,形式化表示为:,其采样率为。同时,由于非关键帧采用关键帧进行编码,我们一般对关键帧采用较高的采样率以提高重建性能,而非关键帧采用较低的采样率以提高压缩率,即。步骤二:在解码端,采用一种字典学习的基于运动估计与运动补偿(motionestimation/motioncompensation,ME/MC)多帧参考的残差重建方法,采用学习的自适应残差域稀疏基来表示预测残差,逐帧进行视频恢复。自适应残差域稀疏表示基从当前GOP中已重建块的帧间差值中采用KL变换(Karhunen–Loevetransform,KLT)方法生成,残差重建采用迭代方式。具体步骤包括:1)在首次迭代中,首先对当前GOP和下一个GOP的关键帧采用固定稀疏基逐块进行独立重建。即求解,第i块估计值为,帧图像估计值为,这里是一个固定稀疏基。对于非关键帧,首次迭代中,采用基于固定基的残差重建方法进行恢复。以当前GOP的关键帧和下一个GOP的关键帧或与之邻近多个已重建帧加权平均值作为当前帧的预测,首先计算,,其中为已解码邻近的关键帧,第2至第K/2帧中为当前GOP的关键帧,第K/2+1至K帧为下一GOP的关键帧。求解,得到残差的估计,由此得到当前非关键帧的首次估计值;2)对于当前编码帧,把当前GOP中与之邻近多个已重建帧作为参考帧,构建KLT字典,得到自适应稀疏基,;3)对于当块编码帧第i块,把当前GOP中与之邻近多个已重建帧作为参考帧,将所有参考帧进行对称扩展个像素。以上次迭代中的估计值为当前帧,在所有扩展参考帧中以第i块为中心的矩形搜索窗口中进行运动估计,找到与当前块最匹配的块作为运动补偿块,所有运动补偿块构成运动补偿帧;4)计算当前帧与运动补偿帧的残差测量值,对于关键帧,由于采用了直接编码,因此其残差测量值为;对于非关键帧,由于采用差值编码其测量值,解码端得到的测量值为当前帧与关键帧的差值的测量值,因此其残差测量值为;5)逐帧逐块的求解压缩感知非线性优化问题,得到残差的估计,对于关键帧,求解,得到残差的估计,对于非关键帧,求解,得到残差的估计;6)得到本次迭代当前解码帧的估计,即,对于关键帧,对于非关键帧;7)重复2)-6),直到迭代条件满足。本专利技术的有益效果是:本专利技术所述的一种基于字典学习残差重建的压缩感知视频重建方法,该方法在编码端将视频序列划分为GOP,对每组GOP指定关键帧与非关键帧,对关键帧以较高采样率进行采样,提高关键帧的保真度;对非关键帧以较低采样率进行采样,增大压缩度,同时以当前GOP或下一个GOP的关键帧为参考进行差值编码,由于残差更加稀疏,所以进一步提高了压缩比。在解码端,采用迭代方式进行字典学习的基于运动估计与运动补偿多帧参考的残差重建。具体地,在首次迭代时,首先对关键帧的图像块以块为单位采用固定基进行独立解码,得到初始估计,接着,对非关键帧的残差测量值采用基于块固定基进行重建,将重建结果与其参考关键帧进行求和得各非关键帧的初始估计,提高了非关键帧初始估计的精确性;最后,利用得到的初始估计迭代地对小组内的所有帧采用基于块的多参考运动补偿及字典学习残差重建方法进行解码重建,得到最终的重建图像,由于使用了多参考帧进而充分挖掘了视频图像帧的时域相关性,同时,在进行基于运动补偿的残差重建方法时,由于所使本文档来自技高网
...
一种基于字典学习残差重建的压缩感知视频重建方法

【技术保护点】
一种基于字典学习残差重建的压缩感知视频重建方法,其特征在于:在编码端对关键帧和非关键帧采用不同采样率进行差值压缩感知编码,在解码端利用边信息进行迭代的基于残差域KL变换 (Karhunen–Loeve transform,KLT)字典学习的多参考帧的运动估计与运动补偿残差重建,具体步骤如下:步骤一:在编码端,把视频序列的若干帧划分为一个图像组 (Group of Picture,GOP),每个GOP的首帧为关键帧,其它所有帧为非关键帧;关键帧和非关键帧采用不同采样率,不同方法逐帧逐块顺序编码;关键帧采用独立的基于块的压缩感知方法编码,非关键帧采用基于块的差值编码;具体地:1)将每一帧划分为多个不重叠的大小的块,并将每块行先拉伸为一个向量,其中i表示块的序号;对于关键帧,取一个行正交的规范化随机矩阵的前行构成感知矩阵,直接对每块进行压缩感知编码,即,其采样率为;2) 对于非关键帧,采用一个行正交的规范化随机矩阵的前行构成感知矩阵,对每块进行差值感知编码;首先将非关键帧减去相邻关键帧,第2至第K/2帧减去当前GOP的关键帧,第K/2+1至K帧减去下一GOP的关键帧,即第K+1帧;然后差值基于块进行感知编码,形式化表示为:,其采样率为;同时,由于非关键帧采用关键帧进行编码,我们一般对关键帧采用较高的采样率以提高重建性能,而非关键帧采用较低的采样率以提高压缩率,即;步骤二:在解码端,采用一种字典学习的基于运动估计与运动补偿(ME/MC,motion estimation/motion compensation)多帧参考的残差重建方法,采用学习的自适应残差域稀疏基来表示预测残差,逐帧进行视频恢复;自适应残差域稀疏表示基从当前GOP中已重建块的帧间差值中采用KLT方法生成,残差重建采用迭代方式;具体步骤包括:1) 在首次迭代中,首先对当前GOP和下一个GOP的关键帧采用固定稀疏基逐块进行独立重建;即求解,第i块估计值为,帧图像估计值为,这里是一个固定稀疏基;对于非关键帧,首次迭代中,采用基于固定基的残差重建方法进行恢复;以当前GOP的关键帧和下一个GOP的关键帧或与之邻近多个已重建帧加权平均值作为当前帧的预测,首先计算,,其中为已解码邻近的关键帧,第2至第K/2帧中为当前GOP的关键帧,第K/2+1至K帧为下一GOP的关键帧;求解,得到残差的估计,由此得到当前非关键帧的首次估计值;2) 对于当前编码帧,把当前GOP中与之邻近多个已重建帧作为参考帧,构建KLT字典;首先,计算相邻两个参考帧的差值(残差),;然后,提取所有参考帧差值中的重叠大小的块作为残差原子,向量化后构成一个残差原子矩阵D,进行KL变换,即计算残差原子矩阵的相关矩阵后进行奇异值分解(singular value decomposition,SVD),得到特征向量向量矩阵,将作为自适应残差域基;具体地,先计算残差原子矩阵的协方差矩阵,表示残差原子矩阵的第j列,即第j个原子,然后进行奇异值分值,,;3) 对于当块编码帧第i块,把当前GOP中与之邻近多个已重建帧作为参考帧,将所有参考帧对称扩展个像素;以上次迭代中的估计值为当前帧,在所有扩展参考帧中以第i块为中心的矩形搜索窗口中进行运动估计,找到与当前块最匹配的块作为运动补偿块,所有块的运动补偿块构成运动补偿帧;4)计算当前帧与运动补偿帧的残差测量值,对于关键帧,由于采用了直接编码,因此其残差测量值为;对于非关键帧,由于采用差值编码其测量值,解码端得到的测量值为当前帧与关键帧的差值的测量值,因此其残差测量值为;5) 逐帧逐块的求解压缩感知非线性优化问题,得到残差的估计,对于关键帧,求解,得到残差的估计,对于非关键帧,求解,得到残差的估计;6)得到本次迭代当前帧解码帧的估计,即,对于关键帧,对于非关键帧;7)重复2)‑6),直到迭代条件满足。...

【技术特征摘要】
1.一种基于字典学习残差重建的压缩感知视频重建方法,其特征在于:在编码端对关键帧和非关键帧采用不同采样率进行差值压缩感知编码,在解码端利用边信息进行迭代的基于残差域KL变换(Karhunen-LoeveTransform,KLT)字典学习的多参考帧的运动估计与运动补偿残差重建,具体步骤如下:步骤一:在编码端,把视频序列的若干帧划分为一个图像组(GroupofPicture,GOP),每个GOP的首帧为关键帧,其它所有帧为非关键帧;关键帧和非关键帧采用不同采样率,不同方法逐帧逐块顺序编码;关键帧采用独立的基于块的压缩感知方法编码,非关键帧采用基于块的差值编码;具体地:1)将每一帧划分为多个不重叠的B×B大小的块,并将每块行先拉伸为一个向量其中i表示块的序号;对于关键帧,取一个行正交的规范化随机矩阵的前Mk行构成感知矩阵直接对每块进行压缩感知编码,即其采样率为Mk/N;2)对于非关键帧,采用一个行正交的规范化随机矩阵的前Mnk行构成感知矩阵对每块进行差值感知编码;首先将非关键帧减去相邻关键帧,第2至第K/2帧减去当前GOP的关键帧,第K/2+1至K帧减去下一GOP的关键帧,即第K+1帧;然后差值基于块进行感知编码,形式化表示为:其采样率为Mnk/N;同时,由于非关键帧采用关键帧进行编码,我们一般对关键帧采用较高的采样率以提高重建性能,而非关键帧采用较低的采样率以提高压缩率,即Mnk<Mk<<N;步骤二:在解码端,采用一种字典学习的基于运动估计与运动补偿(ME/MC,MotionEstimation/MotionCompensation)多帧参考的残差重建方法,采用学习的自适应残差域稀疏表示基来表示预测残差,逐帧进行视频恢复;自适应残差域稀疏表示基从当前GOP中已重建块的帧间差值中采用KLT方法生成,残差重建采用迭代方式;具体步骤包括:1)在首次迭代中,首先对当前GOP和下一个GOP的关键帧采用固定稀疏表示基逐块进行独立重建;即求解第i块估计值为帧图像估计值为这里Ψ是一个固定稀疏表示基;对于非关键帧,首次迭代中,采用基于固定稀疏表示基的残差重建方法进行恢复;以当前GOP的关键帧和下一个GOP的关键帧或与当前帧邻近的多个已重建帧加权平均值作为当前帧的预测xpred,首先计算,其中为已解码邻近的关键帧,第2至第K/2帧中为当前GOP的关键帧,第K/2+1至K帧为下一GOP的关键帧;求解min||ds||1s.t.dynk=Φnkdxnk=ΦnkΨds,得到残差的估计由此得到当前非关键帧的首次估计值2)对于当前编码帧,把当前GOP中与之邻近多个已重建帧作为参考帧,构建KLT字典;首先,计算相邻两个参考帧的差值,dxref=xref1-xref2;然后,提取所有参考帧差值中的重叠B×B大小的块作为残差原子,向量化后构成一个残差原子矩阵D,进行KL变换,即计算残差原子矩阵的相关矩阵后进行奇异值分解(SingularValueDecomposition,SVD),得到特征向量向量矩阵U,将U作为自适应残差域稀疏表示基ΨKLT;具体地,先计算残差原子矩阵的协方差矩阵dj表示残差原子矩阵的第j列,即第j个原子,然后进行奇异值分值,R=U∑UT,ΨKLT=U;3)对于当前编码帧第i块,把当前GOP中与之邻近多个已重建帧作为参考帧,将所有参考帧对称扩展W个像素;以上次迭代中的估计值为当前帧,在所有扩展...

【专利技术属性】
技术研发人员:宋云李雪玉曾叶章登勇龙际珍
申请(专利权)人:长沙理工大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1