一种基于手机平台的深度视频压缩框架的实现方法技术

技术编号：24467221 阅读：33 留言：0更新日期：2020-06-10 19:03

本发明专利技术提供一种基于手机平台的深度视频压缩框架的实现方法，属于图像分类、目标检测、人脸识别等领域，该方法的实现步骤如下：S1、搭建整个视频压缩网络，使用多个不同场景的视频进行模型的训练，获得一个训练好的大网络，然后把网络的图模型和参数信息进行保存；S2、然后把训练好的模型进行剪枝和量化处理；S3、剪枝和量化都是对每一层分别进行，使用霍夫曼编码对整个网络中的权重进行霍夫曼编码，然后进行存储。本发明专利技术在精度损失不大的情况下，利用剪枝、量化和霍夫曼编码对深度视频压缩模型进行压缩，使得模型是原来的1/100倍左右，从而可以将基于深度学习的视频压缩框架很方便的部署到手机设备中。

An implementation method of deep video compression framework based on mobile platform

全部详细技术资料下载

【技术实现步骤摘要】
一种基于手机平台的深度视频压缩框架的实现方法
本专利技术涉及图像分类、目标检测、人脸识别等领域，具体地说是一种基于手机平台的深度视频压缩框架的实现方法。
技术介绍
如今，视频成为大众进行信息传播的主要媒介。尤其是自媒体的发展，视频数据呈爆发式的增长。基于深度学习的视频压缩方法目前已经成为最近研究的主流方向。基于深度学习的视频压缩方法已经成为目前的主流方法的H.264和H.265的有力竞争者。但是基于深度学习的视频压缩方法往往参数量非常大，由于手机设备往往存储量和计算力受限，所以根本无法部署到手机设备中，因此如何对部署到手机中的深度学习视频压缩算法进行压缩，成为了关键问题。
技术实现思路
本专利技术的技术任务是解决现有深度学习视频压缩框架，非常大，很难部署到手机等嵌入式设备中的不足，提供一种基于手机平台的深度视频压缩框架的实现方法。本专利技术在精度损失不大的情况下，利用剪枝、量化和霍夫曼编码对深度视频压缩模型进行压缩，从而使得基于深度学习的视频压缩框架部署到手机中。本专利技术解决其技术问题所采用的技术方案是：本专利主要提出利用剪枝、量化、霍夫曼编码把表现优异的基于深度学习的视频压缩框架部署到手机平台上。1、一种基于手机平台的深度视频压缩框架的实现方法，该方法的实现步骤如下：S1、搭建整个视频压缩网络，使用多个不同场景的视频进行模型的训练，然后使用5000多个不同场景的视频进行模型的训练，一共迭代100万次，获得一个训练好的大网络，然后把网络的图模型和参数信息进...

【技术保护点】
1.一种基于手机平台的深度视频压缩框架的实现方法，其特征在于，该方法的实现步骤如下：/nS1、搭建整个视频压缩网络，使用多个不同场景的视频进行模型的训练，获得一个训练好的大网络，然后把网络的图模型和参数信息进行保存；/nS2、然后把训练好的模型进行剪枝和量化处理；/nS3、剪枝和量化都是对每一层分别进行，使用霍夫曼编码对整个网络中的权重进行霍夫曼编码，然后进行存储。/n

【技术特征摘要】
1.一种基于手机平台的深度视频压缩框架的实现方法，其特征在于，该方法的实现步骤如下：
S1、搭建整个视频压缩网络，使用多个不同场景的视频进行模型的训练，获得一个训练好的大网络，然后把网络的图模型和参数信息进行保存；
S2、然后把训练好的模型进行剪枝和量化处理；
S3、剪枝和量化都是对每一层分别进行，使用霍夫曼编码对整个网络中的权重进行霍夫曼编码，然后进行存储。

2.根据权利要求1所述的一种基于手机平台的深度视频压缩框架的实现方法，其特征在于，步骤S1中利用tensorflow框架搭建的视频压缩网络，包括opticalFlownet、MVEncodernet、MVDecodernet、MotionCompensationNet、Residualencodernet、Residualdecodernet这6个网络。

3.根据权利要求2所述的一种基于手机平台的深度视频压缩框架的实现方法，其特征在于，步骤S1工作过程如下：
S101、将视频拆分成每一帧图片，输入当前帧和上一重构帧到光流网络OpticalFlowNet，获得当前帧的运动向量；
S102、然后把运动向量通过运动向量编码网络MVEncoderNet进行编码，获得编码后的结果，
S103、再对编码后的结果进行量化Q得到量化后的结果，作为当前帧所需要存储的内容之一；
S104、把通过运动向量解码网络MVDecoderNet后的结果即当前帧的重构运动向量，和上一重构帧的图片输入到运动补偿网络MotioncompensationNet获得当前帧的预测帧；
S105、使用真实帧和和预测帧进行相减，获得预测帧没能包括的残差信息rt；
S106、对残差信息进行编码Residualencodernet、量化Q、熵编码存储，然后解码Residualdecodernet获得残差的的重构结果，然后和预测帧相加获得最终的重构帧；
S107、压缩完的视频需要保存步骤S103量化后的运动向量的编码和步骤S106量化后的残差...

【专利技术属性】
技术研发人员：冯落落，李锐，乔廷慧，
申请(专利权)人：济南浪潮高新科技投资发展有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人