一种基于图像组编码的视频超分辨率方法技术

技术编号:37959675 阅读:12 留言:0更新日期:2023-06-30 09:34
本发明专利技术提供了一种基于图像组(GOP)编码的视频超分辨率方法,包括以下步骤:S1.截取图像组编码:从视频文件中,读取视频流中的图像组编码数据,并对图像组编码数据进行处理,得到算法模型需要的输入数据;S2.设计视频超分辨率算法模型:基于卷积神经网络、自注意力神经网络,构建实施超分辨率算法模型;以及S3.视频超分辨率算法模型训练与推理:基于通用深度神经网络训练方法训练算法,并提供视频超分辨率推理服务。本发明专利技术方法解决了现有方法中因视频帧解码数据量大、全连接网络计算量大等因素造成的超分算法无法输入长时间跨度图像帧的问题。题。题。

【技术实现步骤摘要】
一种基于图像组编码的视频超分辨率方法


[0001]本专利技术涉及计算机视觉领域,特别地,涉及一种基于图像组(GOP)编码的视频超分辨率方法。

技术介绍

[0002]随着手机、电脑、智能电视等终端设备的普及,以及硬件性能的不断提高,2K/4K显示屏逐渐称为主流电子屏幕,消费者对超高清视频的需求在不断的增加。但是,很多经典电影、电视剧,都没有高清片源。同时,早期个人录制的私人视频,对个体来说,具有很高的纪念价值,但早期的摄像机分辨率较低,画面模糊。与此同时,基于深度神经网络的人工智能技术得到广泛应用,其中就包括基于深度神经网络的视频超分辨率算法,其利用对抗网络和光流算法,生成超分辨率后的超高清图像。现有方法中,将视频解码后输入到神经网络,经计算后预测输出结果,现有方法中存在的问题是:解码后产生大量冗余数据,这些数据只是为了人眼感观效果而添加的,不是数据元信息。分辨率1920*1080的视频,100帧画面的时间跨度较长,解码后所需内存高达100*1920*1080*3*64≈4.6GB,而现有的深度神经网络算法模型,难以将如此大规模的数据作为算法模型的输入数据,最终导致算法难以输入长时间跨度的图像帧。而相同情况下,100帧对应的GOP编码,其数据流大小仅为6MB左右,远低于解码后的4.6GB数据量。
[0003]解决上述问题的难度为:当前主流算法,均为将视频帧解码之后,对解码后的一帧或者多帧视频,输入深度卷积神经网络,进行超分辨率计算。如果要输入更多视频帧,则需要设计新的算法模型,以便将数据输入到神经网络中。其难度在于,需要解决图像组码流的输入和特征提取,需要将自注意力神经网络和CNN卷积网络有效结合。
[0004]解决上述问题的意义为:本可大幅度缩减了计算量,相邻帧不再需要解码,数据量和计算量,都得到大幅减少。

技术实现思路

[0005]本专利技术提供了一种基于图像组(GOP)编码的视频超分辨率方法,将未经解码的GOP编码二进制数据流,输入到Transformer(一种自注意力变换模型)自注意力神经网络中,提取帧与帧之间的关系,并结合CNN卷积神经网络提取图像特征。以此解决在现有方法中,因视频帧解码数据量大、全连接网络计算量大等因素造成的超分算法无法输入长时间跨度图像帧的问题。
[0006]本专利技术的技术方案如下:
[0007]本专利技术的基于图像组编码的视频超分辨率方法,包括以下步骤:S1.截取图像组编码:从视频文件中,读取视频流中的图像组编码数据,并对图像组编码数据进行处理,得到算法模型需要的输入数据;S2.设计视频超分辨率算法模型:基于卷积神经网络、自注意力神经网络,构建实施超分辨率算法模型;以及S3.视频超分辨率算法模型训练与推理:基于通用深度神经网络训练方法训练算法,并提供视频超分辨率推理服务。
[0008]可选地,在上述基于图像组编码的视频超分辨率方法中,在步骤S1中,从视频文件中,读取视频流中的图像组编码的二进制数据流,并根据算法模型的数据结构要求,对数据流的数据结构进行预处理。
[0009]可选地,在上述基于图像组编码的视频超分辨率方法中,在步骤S2中,构建一个支持输入3个以上图像组的视频超分辨率算法模型,视频超分辨率算法模型由三大部分组成:基于深度卷积神经网络部分,用于提取得到图像特征;基于自注意力神经网络部分,用于提取帧与帧之间的相关性信息;基于卷积神经网络部分,图像特征与相关性信息相结合,作为另一个卷积神经网络的输入数据,最终预测输出超分后的图像。
[0010]可选地,在上述基于图像组编码的视频超分辨率方法中,在步骤S3中,利用超高清视频数据集,并基于通用深度神经网络训练方法,训练视频超分辨率算法模型;训练完成后部署上线,提供视频超分辨率推理服务。
[0011]根据本专利技术的技术方案,产生的有益效果是:
[0012]本专利技术实现了一种基于GOP编码的视频超分辨率的方法,针对视频帧解码后数据量大、全连接网络计算量大导致算法无法输入大量视频帧的问题,构建了基于自注意力机制和卷积神经网络的算法模型,有效解决了旧有方法无法输入超长时间跨度图像帧的问题。在现有技术中,一般将视频帧进行解码,得到每一帧图像的数组矩阵,以此作为输入数据输入神经网络,这样导致产生大量冗余数据,消耗大量内存和算力。本专利技术方法,根据视频GOP编码数据的压缩性,利用自注意力网络提取数据的相关性,并结合卷积神经网络的图像特征提取能力,使得上百帧图像数据可以输入到神经网络中,从而避免了旧有方法无法输入大量视频帧的问题,最终,实现超分算法输入长时间跨度图像帧的功能
[0013]为了更好地理解和说明本专利技术的构思、工作原理和专利技术效果,下面结合附图,通过具体实施例,对本专利技术进行详细说明如下:
附图说明
[0014]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
[0015]图1是本专利技术的基于GOP编码的视频超分辨率方法的流程图;
[0016]图2是本专利技术的基于GOP编码的视频超分辨率方法截取GOP编码的示意图;
[0017]图3是本专利技术基于GOP编码的视频超分辨率方法的超分辨率算法模型的示意图。
具体实施方式
[0018]为使本专利技术的目的、技术方法及优点更加清晰,下面结合附图及具体实例,对本专利技术做进一步的详细说明。这些实例仅仅是说明性的,而并非对本专利技术的限制。
[0019]本专利技术的基于图像组(GOP)编码的视频超分辨率方法,提供了一种解决超分辨率算法无法输入长时间跨度图像帧的问题的方法,构建全新的超分辨率算法模型,支持长时间跨度的图像帧输入。特别的,基于视频GOP编码数据的压缩性,设计了基于Transformer自注意力神经网络算法模型,以此支持3个以上图像组GOP的数据输入,并结合CNN卷积神经网络的图像特征提取能力,最终实现超分算法输入长时间跨度图像帧的功能。从而解决旧有方法,因视频帧解码数据量大、全连接网络计算量大等因素造成的超分算法无法输入长时
间跨度图像帧的问题。
[0020]本专利技术的工作原理为:利用GOP编码的压缩特性,将GOP编码作为算法的输入数据,以此消除解码带来的数据冗余问题,进而实现大量视频帧输入算法模型的功能。利用自注意力机制的自相关性,编码数据越相近,相关性越强,反之相关性越弱,消除了全连接网络计算量大的问题,进而实现帧与帧之间相关性信息的提取。利用卷积神经网络图像特征的提取特性,实现图像特征提取。
[0021]如图1所示,本专利技术实施例的基于GOP编码的视频超分辨率方法,具体步骤如下:
[0022]S1.截取GOP编码:从视频文件中,读取视频流中的GOP编码数据,并对GOP编码数据进行处理,得到算法模型需要的输入数据。
[0023]在该步骤中,从视频文件中,读取视频流中的GOP编码的二进制数据流,并根据算法模型的数据结构要求,对数据流的数据结构进行预处理,该算法模型和S2中的Transformer自注意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像组编码的视频超分辨率方法,其特征在于,包括以下步骤:S1.截取图像组编码:从视频文件中,读取视频流中的图像组编码数据,并对图像组编码数据进行处理,得到算法模型需要的输入数据;S2.设计视频超分辨率算法模型:基于卷积神经网络、自注意力神经网络,构建实施超分辨率算法模型;以及S3.视频超分辨率算法模型训练与推理:基于通用深度神经网络训练方法训练算法,并提供视频超分辨率推理服务。2.根据权利要求1所述的基于图像组编码的视频超分辨率方法,其特征在于,在步骤S1中,从视频文件中,读取视频流中的图像组编码的二进制数据流,并根据算法模型的数据结构要求,对数据流的数据结构进行预处理。3.根据权利要求1...

【专利技术属性】
技术研发人员:汪邦虎魏文应赵海英李志永张伟民蔺吉驰
申请(专利权)人:中关村视听产业技术创新联盟
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1