一种基于手机平台的深度视频压缩框架的实现方法技术

技术编号:24467221 阅读:33 留言:0更新日期:2020-06-10 19:03
本发明专利技术提供一种基于手机平台的深度视频压缩框架的实现方法,属于图像分类、目标检测、人脸识别等领域,该方法的实现步骤如下:S1、搭建整个视频压缩网络,使用多个不同场景的视频进行模型的训练,获得一个训练好的大网络,然后把网络的图模型和参数信息进行保存;S2、然后把训练好的模型进行剪枝和量化处理;S3、剪枝和量化都是对每一层分别进行,使用霍夫曼编码对整个网络中的权重进行霍夫曼编码,然后进行存储。本发明专利技术在精度损失不大的情况下,利用剪枝、量化和霍夫曼编码对深度视频压缩模型进行压缩,使得模型是原来的1/100倍左右,从而可以将基于深度学习的视频压缩框架很方便的部署到手机设备中。

An implementation method of deep video compression framework based on mobile platform

【技术实现步骤摘要】
一种基于手机平台的深度视频压缩框架的实现方法
本专利技术涉及图像分类、目标检测、人脸识别等领域,具体地说是一种基于手机平台的深度视频压缩框架的实现方法。
技术介绍
如今,视频成为大众进行信息传播的主要媒介。尤其是自媒体的发展,视频数据呈爆发式的增长。基于深度学习的视频压缩方法目前已经成为最近研究的主流方向。基于深度学习的视频压缩方法已经成为目前的主流方法的H.264和H.265的有力竞争者。但是基于深度学习的视频压缩方法往往参数量非常大,由于手机设备往往存储量和计算力受限,所以根本无法部署到手机设备中,因此如何对部署到手机中的深度学习视频压缩算法进行压缩,成为了关键问题。
技术实现思路
本专利技术的技术任务是解决现有深度学习视频压缩框架,非常大,很难部署到手机等嵌入式设备中的不足,提供一种基于手机平台的深度视频压缩框架的实现方法。本专利技术在精度损失不大的情况下,利用剪枝、量化和霍夫曼编码对深度视频压缩模型进行压缩,从而使得基于深度学习的视频压缩框架部署到手机中。本专利技术解决其技术问题所采用的技术方案是:本专利主要提出利用剪枝、量化、霍夫曼编码把表现优异的基于深度学习的视频压缩框架部署到手机平台上。1、一种基于手机平台的深度视频压缩框架的实现方法,该方法的实现步骤如下:S1、搭建整个视频压缩网络,使用多个不同场景的视频进行模型的训练,然后使用5000多个不同场景的视频进行模型的训练,一共迭代100万次,获得一个训练好的大网络,然后把网络的图模型和参数信息进行保存;S2、然后把训练好的模型进行剪枝和量化处理;S3、剪枝和量化都是对每一层分别进行,为了进一步减少存储,使用霍夫曼编码对整个网络中的权重进行霍夫曼编码,然后进行存储。方案优选地,步骤1中利用tensorflow框架搭建的视频压缩网络,包括opticalFlownet、MVEncodernet、MVDecodernet、MotionCompensationNet、Residualencodernet、Residualdecodernet这6个网络,工作过程如下:S101、将视频拆分成每一帧图片,输入当前帧和上一重构帧到光流网络OpticalFlowNet,获得当前帧的运动向量;S102、然后把运动向量通过运动向量编码网络MVEncoderNet进行编码,获得编码后的结果,S103、再对编码后的结果进行量化Q得到量化后的结果,作为当前帧所需要存储的内容之一;S104、把通过运动向量解码网络MVDecoderNet后的结果即当前帧的重构运动向量,和上一重构帧的图片输入到运动补偿网络MotioncompensationNet获得当前帧的预测帧;S105、使用真实帧和和预测帧进行相减,获得预测帧没能包括的残差信息rt;S106、对残差信息进行编码Residualencodernet、量化Q、熵编码存储,然后解码Residualdecodernet获得残差的的重构结果,然后和预测帧相加获得最终的重构帧;S107、压缩完的视频需要保存步骤S103量化后的运动向量的编码和步骤S106量化后的残差编码。方案优选地,步骤2中步骤包括如下:S201、首先是剪枝,通过对每层训练好的权重进行可视化,把绝对值小于0.5的数据全部剪掉,从而得到一个稀疏矩阵,对所得的稀疏矩阵进行存储,把索引这个绝对位置存储的值,改为使用相对值diff,diff表示的是当前值距离上一个值的偏移量,设置最大的偏移量为8,这样就会使用3个bit存储每个偏移量,另外在12那个位置补充一个数0,使得idx为15的时候,偏移量为3;S202、剪枝完之后,对剪枝完后的数据进行量化。方案优选地,步骤S201中,使用CSR进行矩阵的存储。方案优选地,步骤S202中,使用传统的K-mean算法进行矩阵的量化。方案优选地,步骤S202中,K-mean算法具体如下:首先进行K-means中初始值的选择,然后进行采样,使用的K为11,就是选择11个点;然后使用K-mean算法进行训练,获得最终的11个中心点,然后把数据聚类到相应的簇中,假设使用的是K=4,然后使用K-mean聚类,分别得到每个数据的簇,分别得到4个簇中心,然后只需要存储这4个数,每个数据索引我们也要存储一下;当量化完之后,需要对模型进行一下调优,分别对每个参数反向求导,然后把每个簇的导数相加,然后利用这个加和梯度,对量化后的参数进行梯度下降——param-lr*gradient。方案优选地,K-means中初始值的选择,使用基于数据密度的方法,就是根据数据出现的频率作为选择的概率,然后进行采样。本专利技术的一种基于手机平台的深度视频压缩框架的实现方法与现有技术相比所产生的有益效果是:本专利技术在精度损失不大的情况下,利用剪枝、量化和霍夫曼编码对深度视频压缩模型进行压缩,使得模型是原来的1/100倍左右,从而可以将基于深度学习的视频压缩框架很方便的部署到手机设备中。附图说明为了更清楚地描述本专利技术自动喷雾结合捕尘网的工作原理,下面将附上简图作进一步说明。附图1是本专利技术所使用的的深度学习视频压缩框架的示意图;附图2是本专利技术索引数字存储的示意图;附图3是本专利技术使用K-mean算法进行矩阵量化的示意图;附图4是本专利技术CSR稀疏矩阵的存储图。图中各标号表示:具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-3,本专利技术的一种基于手机平台的深度视频压缩框架的实现方法,该方法的实现步骤如下:S1、利用tensorflow框架,搭建整个视频压缩网络,包括如图1所示的opticalFlownet、MVEncodernet、MVDecodernet、MotionCompensationNet、Residualencodernet、Residualdecodernet这6个网络,然后我们使用5000多个不同场景的视频进行模型的训练,一共迭代100万次,获得一个训练好的大网络。然后把网络的图模型和参数信息进行保存。图1中视频压缩网络的工作过程如下:S101、将视频拆分成每一帧图片,输入当前帧和上一重构帧到光流网络OpticalFlowNet,获得当前帧的运动向量;S102、然后把运动向量通过运动向量编码网络MVEncoderNet进行编码,获得编码后的结果,S103、再对编码后的结果进行量化Q得到量化后的结果,作为当前帧所需要存储的内容之一;S104、把通过运动向量解码网络MVDecoderNet后的结果即当前帧的重构运动向量,和上一重本文档来自技高网...

【技术保护点】
1.一种基于手机平台的深度视频压缩框架的实现方法,其特征在于,该方法的实现步骤如下:/nS1、搭建整个视频压缩网络,使用多个不同场景的视频进行模型的训练,获得一个训练好的大网络,然后把网络的图模型和参数信息进行保存;/nS2、然后把训练好的模型进行剪枝和量化处理;/nS3、剪枝和量化都是对每一层分别进行,使用霍夫曼编码对整个网络中的权重进行霍夫曼编码,然后进行存储。/n

【技术特征摘要】
1.一种基于手机平台的深度视频压缩框架的实现方法,其特征在于,该方法的实现步骤如下:
S1、搭建整个视频压缩网络,使用多个不同场景的视频进行模型的训练,获得一个训练好的大网络,然后把网络的图模型和参数信息进行保存;
S2、然后把训练好的模型进行剪枝和量化处理;
S3、剪枝和量化都是对每一层分别进行,使用霍夫曼编码对整个网络中的权重进行霍夫曼编码,然后进行存储。


2.根据权利要求1所述的一种基于手机平台的深度视频压缩框架的实现方法,其特征在于,步骤S1中利用tensorflow框架搭建的视频压缩网络,包括opticalFlownet、MVEncodernet、MVDecodernet、MotionCompensationNet、Residualencodernet、Residualdecodernet这6个网络。


3.根据权利要求2所述的一种基于手机平台的深度视频压缩框架的实现方法,其特征在于,步骤S1工作过程如下:
S101、将视频拆分成每一帧图片,输入当前帧和上一重构帧到光流网络OpticalFlowNet,获得当前帧的运动向量;
S102、然后把运动向量通过运动向量编码网络MVEncoderNet进行编码,获得编码后的结果,
S103、再对编码后的结果进行量化Q得到量化后的结果,作为当前帧所需要存储的内容之一;
S104、把通过运动向量解码网络MVDecoderNet后的结果即当前帧的重构运动向量,和上一重构帧的图片输入到运动补偿网络MotioncompensationNet获得当前帧的预测帧;
S105、使用真实帧和和预测帧进行相减,获得预测帧没能包括的残差信息rt;
S106、对残差信息进行编码Residualencodernet、量化Q、熵编码存储,然后解码Residualdecodernet获得残差的的重构结果,然后和预测帧相加获得最终的重构帧;
S107、压缩完的视频需要保存步骤S103量化后的运动向量的编码和步骤S106量化后的残差...

【专利技术属性】
技术研发人员:冯落落李锐乔廷慧
申请(专利权)人:济南浪潮高新科技投资发展有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1