基于深度神经网络的视频压缩方法技术

技术编号：16649276 阅读：33 留言：0更新日期：2017-11-27 16:52

本发明专利技术公开了一种基于深度神经网络的视频压缩方法，步骤如下：收集并整理视频图像数据集，构建神经网络训练集、测试集和交叉验证集；建立多层的深度神经网络；对于帧间预测，利用运动估计算法寻找最佳匹配块，并计算残差和帧间预测的均方差；预测完成后将残差作为新的训练数据训练残差编码网络，残差网络模型包括帧内残差和帧间残差；预测和残差神经网络的输出数据经过量化和无损熵编码一起作为固定长度码流的压缩数据；解码端通过与编码端对称的神经网络将压缩数据还原，并重建恢复出压缩后图像。本发明专利技术的视频压缩方法，与传统H.264视频编码方法在大量测试视频序列上的同等比较中，可以在相同质量上平均节省26％左右的码率。

Video compression method based on deep neural network

The invention discloses a compression method, the depth of the neural network based video comprises the following steps: collecting and collating the video image data set, constructing the neural network training set, test set and cross validation set; to establish the depth of neural network multilayer; for inter prediction, estimation algorithm to find the best matching block based motion, and calculate the residuals and inter prediction variance; forecast after the completion of the residual as new training data to train the residual encoding network, residual network model including intra and inter residual error; output data prediction and residual neural network after quantization and lossless entropy encoding together as the compressed data stream of fixed length; decoding the compressed data reduction the neural network is symmetric and encoding, and to recover the compressed image reconstruction. The video compression method of the present invention can save about 26% of the average bit rate on the same quality as the traditional H.264 video coding method in the same comparison of a large number of test video sequences.

全部详细技术资料下载

【技术实现步骤摘要】
基于深度神经网络的视频压缩方法
本专利技术涉及视频编码领域，特别涉及一种基于深度神经网络的视频压缩方法。
技术介绍
近年来，人工神经网络发展到了深度学习(deeplearning)阶段。深度学习试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法，其强大表达能力使得其在各个机器学习的任务上取到了最好的效果，在视频和图像处理上的表现在目前也超过了其它方法。深度学习使用了分层抽象的思想，高层的概念通过低层的概念学习得到。这一分层结构通常使用贪婪逐层训练算法构建而成，并从中选取有助于机器学习的有效特征，很多深度学习算法都是以无监督学习的形式出现的，因此这些算法能被应用于其他算法无法企及的无标签数据，这一类数据比有标签的数据更为丰富，也更容易获得，这一点成为深度学习的重要优势。视频压缩在网络传输过程中的本地存储中是一个很重要的处理方法。对于那些每一帧为YUV420格式的原始视频数据，没有任何的有线网络能满足实时传输这样的视频内容。因此视频编码的标准化由20世纪80年代开始，到如今技术较为成熟的H.264和HEVC技术，都能在同等质量下减少更多的码率，提高传输的效率。而由于目前深度学习在图像和视频处理上的优秀表现，结合深度学习中Autoencoder的基本思路做图像和视频压缩，用深度学习的方法来提供一个新的视频编码和解码的方法，对于以后的视频数据压缩领域发展是一个很好的开始工作，也便于未来在视频压缩方向上，神经网络的新方案在整个系统的完善过程中有着比传统方法更好的表现和前景。
技术实现思路
为此，本专利技术的目的是结合深度学习中神经网络的...
基于深度神经网络的视频压缩方法

【技术保护点】
基于深度神经网络的视频压缩方法，其特征在于，包括如下步骤：S1，收集和整理规范的高清视频图像数据集，构建神经网络训练集、测试集和交叉验证集；S2，建立多层的预测神经网络和残差神经网络：将所述神经网络训练集中的图像分为无交叠的M×N块，用于训练视频编码的预测模型，预测模型包括帧内预测模式和帧间预测模式；S3，对于帧间预测模式，利用运动估计算法，在视频的前一帧的对应区域内寻找最佳匹配块，并计算残差和帧间预测的均方差；S4，根据所述均方差以及设定的阈值来选择预测模型的模式为帧内预测模式或帧间预测模式；S5，预测模式选择完成后，将残差作为新数据训练残差编码网络，保存训练模型，训练模型包括帧内残差模式和帧间残差模式；S6，最终预测神经网络和残差神经网络的输出数据经过量化和无损熵编码一起作为固定长度码流的压缩数据；S7，解码端通过与编码端对称的神经网络将步骤S6中的压缩数据还原成M×N块，并重建恢复出压缩后的图像。

【技术特征摘要】
1.基于深度神经网络的视频压缩方法，其特征在于，包括如下步骤：S1，收集和整理规范的高清视频图像数据集，构建神经网络训练集、测试集和交叉验证集；S2，建立多层的预测神经网络和残差神经网络：将所述神经网络训练集中的图像分为无交叠的M×N块，用于训练视频编码的预测模型，预测模型包括帧内预测模式和帧间预测模式；S3，对于帧间预测模式，利用运动估计算法，在视频的前一帧的对应区域内寻找最佳匹配块，并计算残差和帧间预测的均方差；S4，根据所述均方差以及设定的阈值来选择预测模型的模式为帧内预测模式或帧间预测模式；S5，预测模式选择完成后，将残差作为新数据训练残差编码网络，保存训练模型，训练模型包括帧内残差模式和帧间残差模式；S6，最终预测神经网络和残差神经网络的输出数据经过量化和无损熵编码一起作为固定长度码流的压缩数据；S7，解码端通过与编码端对称的神经网络将步骤S6中的压缩数据还原成M×N块，...

【专利技术属性】
技术研发人员：马展，陈彤，刘浩杰，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人