当前位置: 首页 > 专利查询>南京大学专利>正文

基于深度神经网络的视频压缩方法技术

技术编号:16649276 阅读:33 留言:0更新日期:2017-11-27 16:52
本发明专利技术公开了一种基于深度神经网络的视频压缩方法,步骤如下:收集并整理视频图像数据集,构建神经网络训练集、测试集和交叉验证集;建立多层的深度神经网络;对于帧间预测,利用运动估计算法寻找最佳匹配块,并计算残差和帧间预测的均方差;预测完成后将残差作为新的训练数据训练残差编码网络,残差网络模型包括帧内残差和帧间残差;预测和残差神经网络的输出数据经过量化和无损熵编码一起作为固定长度码流的压缩数据;解码端通过与编码端对称的神经网络将压缩数据还原,并重建恢复出压缩后图像。本发明专利技术的视频压缩方法,与传统H.264视频编码方法在大量测试视频序列上的同等比较中,可以在相同质量上平均节省26%左右的码率。

Video compression method based on deep neural network

The invention discloses a compression method, the depth of the neural network based video comprises the following steps: collecting and collating the video image data set, constructing the neural network training set, test set and cross validation set; to establish the depth of neural network multilayer; for inter prediction, estimation algorithm to find the best matching block based motion, and calculate the residuals and inter prediction variance; forecast after the completion of the residual as new training data to train the residual encoding network, residual network model including intra and inter residual error; output data prediction and residual neural network after quantization and lossless entropy encoding together as the compressed data stream of fixed length; decoding the compressed data reduction the neural network is symmetric and encoding, and to recover the compressed image reconstruction. The video compression method of the present invention can save about 26% of the average bit rate on the same quality as the traditional H.264 video coding method in the same comparison of a large number of test video sequences.

【技术实现步骤摘要】
基于深度神经网络的视频压缩方法
本专利技术涉及视频编码领域,特别涉及一种基于深度神经网络的视频压缩方法。
技术介绍
近年来,人工神经网络发展到了深度学习(deeplearning)阶段。深度学习试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法,其强大表达能力使得其在各个机器学习的任务上取到了最好的效果,在视频和图像处理上的表现在目前也超过了其它方法。深度学习使用了分层抽象的思想,高层的概念通过低层的概念学习得到。这一分层结构通常使用贪婪逐层训练算法构建而成,并从中选取有助于机器学习的有效特征,很多深度学习算法都是以无监督学习的形式出现的,因此这些算法能被应用于其他算法无法企及的无标签数据,这一类数据比有标签的数据更为丰富,也更容易获得,这一点成为深度学习的重要优势。视频压缩在网络传输过程中的本地存储中是一个很重要的处理方法。对于那些每一帧为YUV420格式的原始视频数据,没有任何的有线网络能满足实时传输这样的视频内容。因此视频编码的标准化由20世纪80年代开始,到如今技术较为成熟的H.264和HEVC技术,都能在同等质量下减少更多的码率,提高传输的效率。而由于目前深度学习在图像和视频处理上的优秀表现,结合深度学习中Autoencoder的基本思路做图像和视频压缩,用深度学习的方法来提供一个新的视频编码和解码的方法,对于以后的视频数据压缩领域发展是一个很好的开始工作,也便于未来在视频压缩方向上,神经网络的新方案在整个系统的完善过程中有着比传统方法更好的表现和前景。
技术实现思路
为此,本专利技术的目的是结合深度学习中神经网络的方法,提出一种基于深度神经网络的视频压缩方法。本专利技术采用的技术方案为:基于深度神经网络的视频压缩方法,包括如下步骤:S1,收集和整理规范的高清视频图像数据集,构建神经网络训练集、测试集和交叉验证集;S2,建立多层的预测神经网络和残差神经网络:将所述神经网络训练集中的图像分为无交叠的M×N块,用于训练视频编码的预测模型,预测模型包括帧内预测模式和帧间预测模式;S3,对于帧间预测模式,利用运动估计算法,在视频的前一帧的对应区域内寻找最佳匹配块,并计算残差和帧间预测的均方差;S4,根据所述均方差以及设定的阈值来选择预测模型的模式为帧内预测模式或帧间预测模式;S5,预测模式选择完成后,将残差作为新数据训练残差编码网络,保存训练模型,训练模型包括帧内残差模式和帧间残差模式;S6,最终预测神经网络和残差神经网络的输出数据经过量化和无损熵编码一起作为固定长度码流的压缩数据;S7,解码端通过与编码端对称的神经网络将步骤S6中的压缩数据还原成M×N块,并重建恢复出压缩后的图像。所述步骤S3中,首先,设置一个滑动的M×N的窗口,在视频的前一帧对应的局部区域内挑选出均方误差最小的块区域作为最佳匹配块,同时兼顾结果和复杂度,设定(M+a)×(N+a)的搜索范围,进行运动估计算法,计算帧间预测的均方差,其中M和N为块尺寸,a为向外搜索的范围。所述步骤S4中,设定帧内预测模式和帧间预测模式选择的阈值,若均方差小于阈值,则保留原有的帧间预测模式;若均方差大于阈值,则选择帧内预测模式。所述步骤S7中,解码端的神经网络同编码端的神经网络对称,将固定长度码流的压缩数据通过解码端还原成M×N的固定块,并最后重新拼接成原图像,即为恢复的压缩之后的图像。本专利技术提出了一种新的视频压缩方法,与现有H.264视频编码方法在大量测试视频序列上的同等比较中,在保证同等计算复杂度的前提下,在相同视频输出质量上可以平均节省26%左右的码率。此外,由于神经网络模型具有可更新迭代的属性,本专利技术相比于传统的H.264视频编码方法具有更好的可扩展性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性的劳动前提下,还可以根据这些附图获得其他的附图。图1是基于深度神经网络的视频压缩方法的流程图。图2是基于深度神经网络的视频压缩方法的系统图。图3是传统视频编码方法的系统图。图4是量化后的(a)帧间系数的分布图和(b)帧内系数的分布图。图5是本专利技术基于深度神经网络的视频压缩方法同传统视频编码H.264方法在416x240分辨率序列上的性能对比图。图6是本专利技术基于深度神经网络的视频压缩方法同传统视频编码H.264方法在832x480分辨率序列上的性能对比图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方法做进一步地详细描述。本实施例的一种基于深度神经网络的视频压缩方法,步骤如下:(1)首先收集和整理所需高清图像(包括柯达无损图片库、ImageNet图片库等),整理规范的视频图像数据集,构建神经网络训练数据集、测试数据集和交叉验证集。(2)建立多层的预测神经网络和残差神经网络:将图像分割成无交叠的M×N的块,训练视频编码的预测模型主要为帧内预测模式和帧间预测模式。(3)对于帧间预测模式,利用运动估计算法,在视频的前一帧的对应区域内寻找最佳匹配块,并计算残差和帧间预测的均方差。(4)根据均方差以及设定的阈值来选择预测模型的模式为帧内预测或帧间预测。(5)预测模式选择完成后,将残差作为新数据训练残差编码网络,保存训练模型,训练模型包括帧内残差模式和帧间残差模式。(6)最终预测和残差神经网络的输出数据经过量化和无损熵编码一起作为固定长度码流的压缩数据。(7)解码端通过与编码端对称的神经网络将压缩数据还原成M×N块,并重建压缩后的图像。所述步骤(1)中,数据集的整理对整个神经网络的训练有着很大影响,数据量、数据特征等因素都影响着神经网络最终模型对于数据的拟合程度,在训练过程中生成实时的Loss与时间T的曲线,在曲线在收敛趋于平缓稳定后保存模型。所述步骤(2)中,设计多层的深度神经网络,编解码端采用对称结构,神经网络每层的滤波器尺寸和数量均经过充分调整以最大化性能。具体实现的细节中,以全连接为例,输入端数据经过归一化处理,中间层的激活函数针对本专利技术中需要量化输出的特性,选用适应于量化的激活函数(如sigmoid、tanh函数),其余层的激活函数仍保持提高收敛速度、防止过拟合(如Relu函数),梯度下降优化算法选用自适应优化器(如Adadelta),经过充分验证,以上各项设置能够最大化网络性能。通过在步骤(1)中建立的数据集上进行充分训练,在其代价函数Loss值达到收敛后,保存训练模型,分别作为帧内预测模型和帧间预测模型。神经网络为网络的每一层根据特征数量设置不同的featuremap数(以七层全连接网络为例,网络节点可为192-300-192-(中间节点)-192-300-192),输出节点对于帧内预测模式、帧内残差模式、帧间残差模式各分配不同的中间层节点数,分别生成3种不同的神经网络模型。神经网络为对称结构,前N层作为神经网络的编码端,后N层(包括中间层)作为神经网络解码端。所述步骤(3)中,运动估计算法的基本思想是将图像序列的每一帧分成许多互不重叠的宏块,并认为宏块内所有象素的位移量都相同,然后对每个宏块到参考帧某一给定特定搜索本文档来自技高网...
基于深度神经网络的视频压缩方法

【技术保护点】
基于深度神经网络的视频压缩方法,其特征在于,包括如下步骤:S1,收集和整理规范的高清视频图像数据集,构建神经网络训练集、测试集和交叉验证集;S2,建立多层的预测神经网络和残差神经网络:将所述神经网络训练集中的图像分为无交叠的M×N块,用于训练视频编码的预测模型,预测模型包括帧内预测模式和帧间预测模式;S3,对于帧间预测模式,利用运动估计算法,在视频的前一帧的对应区域内寻找最佳匹配块,并计算残差和帧间预测的均方差;S4,根据所述均方差以及设定的阈值来选择预测模型的模式为帧内预测模式或帧间预测模式;S5,预测模式选择完成后,将残差作为新数据训练残差编码网络,保存训练模型,训练模型包括帧内残差模式和帧间残差模式;S6,最终预测神经网络和残差神经网络的输出数据经过量化和无损熵编码一起作为固定长度码流的压缩数据;S7,解码端通过与编码端对称的神经网络将步骤S6中的压缩数据还原成M×N块,并重建恢复出压缩后的图像。

【技术特征摘要】
1.基于深度神经网络的视频压缩方法,其特征在于,包括如下步骤:S1,收集和整理规范的高清视频图像数据集,构建神经网络训练集、测试集和交叉验证集;S2,建立多层的预测神经网络和残差神经网络:将所述神经网络训练集中的图像分为无交叠的M×N块,用于训练视频编码的预测模型,预测模型包括帧内预测模式和帧间预测模式;S3,对于帧间预测模式,利用运动估计算法,在视频的前一帧的对应区域内寻找最佳匹配块,并计算残差和帧间预测的均方差;S4,根据所述均方差以及设定的阈值来选择预测模型的模式为帧内预测模式或帧间预测模式;S5,预测模式选择完成后,将残差作为新数据训练残差编码网络,保存训练模型,训练模型包括帧内残差模式和帧间残差模式;S6,最终预测神经网络和残差神经网络的输出数据经过量化和无损熵编码一起作为固定长度码流的压缩数据;S7,解码端通过与编码端对称的神经网络将步骤S6中的压缩数据还原成M×N块,...

【专利技术属性】
技术研发人员:马展陈彤刘浩杰
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1