基于感兴趣区域的深度视频编解码方法、系统及存储介质技术方案

技术编号：39961533 阅读：4 留言：0更新日期：2024-01-09 00:05

一种基于感兴趣区域的深度视频编解码方法、系统及存储介质，该方法包括：实时获取视频帧并进行预处理；将预处理后的实时视频帧输入预训练的深度目标检测网络进行识别并生成ROI掩码；分别将实时视频帧、对应的ROI掩码及编码参考帧输入深度视频编码网络，结合ROI掩码及编码参考帧对实时视频帧进行非均匀编码，得到编码后的若干初始视频码流；将若干初始视频码流打包形成视频数据包，并发送至接收端；将视频数据包中的数据按照预设重组逻辑进行重组形成完整视频码流。该系统用于实施上述方法，该介质通过处理器执行上述方法。该基于感兴趣区域的深度视频编解码方法、系统及存储介质，能够满足低延迟、高分辨率、高帧率的高品质视频的要求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频编解码，特别是涉及一种基于感兴趣区域的深度视频编解码方法。

技术介绍

1、随着移动互联网和通信技术的快速发展，视频业务已经被广泛应用在广告、医疗、网络直播、网络电视、安防监控等诸多领域中，并且占用了网络传输中的绝大部分带宽。海量视频数据的出现也为视频存储和传输带来了极为严峻的挑战，因此如何更加高效地压缩视频数据成为了最为关键的问题。

2、当下视频压缩的需求主要来源于两个方面，一方面是视频本身的数据量激增，另一方面视频的应用领域在不断扩大。随着网络带宽的增加和用户体验追求的不断提升，超高清视频、高动态范围视频、和沉浸式应用视频等视频数据在整个网络数据中的占比正在飞速增长，以一帧未压缩的4k视频图像为例，其数据量约为23.7mb，若以60hz的帧率进行实时传输，则要求的速率至少为1.4gb/s，这对于一般的百兆、千兆网络而言是难以支持的，同时由于远程驾驶、虚拟现实、视频点播等全新应用不断涌现，对于低延迟、高分辨率、高帧率的高品质视频的要求日益提高，传统的视频压缩方法不再能满足这些新兴场景的需求。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种基于感兴趣区域的深度视频编解码方法，可以在提升视频质量的基础上，减少对整个视频进行编解码的时间和计算量，降低计算复杂度和内存消耗，提高了计算效率，降低了延迟。

2、本专利技术提供一种基于感兴趣区域的深度视频编解码方法，包括如下步骤：

3、s1，实时获取视频帧，并对获取的实时视频帧进行预处理；

4、s2，将预处理后的实时视频帧输入预训练的深度目标检测网络进行识别并生成roi掩码；

5、s3，分别将所述实时视频帧、对应的roi掩码及编码参考帧输入深度视频编码网络，结合roi掩码及编码参考帧对实时视频帧进行非均匀编码，得到编码后的若干初始视频码流；

6、s4，将若干所述初始视频码流打包形成视频数据包，并发送至视频数据接收模块；

7、s5，将视频数据包中的数据按照预设重组逻辑进行重组形成完整视频码流；

8、s6：将所述完整视频码流和解码参考帧输入到深度视频解码网络，得到解码后的解码视频帧。

9、在一实施例中，所述步骤s1，实时获取视频帧，并对获取的实时视频帧进行预处理，进一步包括：

10、s101，实时获取视频帧；

11、s102，对获取的实时视频帧进行去噪、矫正及降采样预处理。

12、在一实施例中，所述步骤s2，将预处理后的实时视频帧输入预训练的深度目标检测网络进行识别并生成roi掩码，进一步包括：

13、s201，将预处理后的实时视频帧输入预训练的深度目标检测网络；

14、s202，识别出实时视频帧中的感兴趣区域，并将所述感兴趣区域生成所述roi掩码。

15、在一实施例中，所述步骤s4，将若干所述初始视频码流打包形成视频数据包，并发送至接收端，进一步包括：

16、s401，对初始视频码流中编码后的实时视频帧标记序列号和时间戳；

17、s402，将标记后的初始视频码流按照视频传输协议进行打包形成视频数据包，并发送至接收端。

18、在一实施例中，所述步骤s5，将视频数据包中的数据按照预设重组逻辑进行重组形成完整的视频码流，进一步包括：

19、s501，根据标记的序列号及时间戳对初始视频码流中编码后的实时视频帧进行排序；

20、s502，根据排列顺序对编码后的实时视频帧进行重组形成完整的视频码流。

21、在一实施例中，所述编码参考帧选自于先前采集的实时视频帧，且所述编码参考帧的数量为一个或者多个。

22、在一实施例中，所述深度视频编码网络是由经过预训练的端到端视频压缩模型dvc生成的。

23、在一实施例中，所述基于感兴趣区域的深度视频编解码方法还包括如下步骤：

24、s7，对解码后的实时视频帧进行后处理与渲染操作，并将处理后的实时视频帧输出。

25、本专利技术还提供一种基于感兴趣区域的深度视频编解码系统，采用上述任意一项所述的基于感兴趣区域的深度视频编解码方法，其特征在于，包括：

26、图像采集及预处理模块，用于实时获取视频帧，并对获取的实时视频帧进行预处理；

27、深度目标检测网络模块，用于识别输入的预处理后的实时视频帧并生成roi掩码；

28、深度视频编码模块，用于获取实时视频帧、对应的roi掩码及编码参考帧，结合roi掩码及编码参考帧对实时视频帧进行非均匀编码，得到编码后的若干初始视频码流；

29、视频数据发送模块，用于将若干所述初始视频码流打包形成视频数据包，并发送至视频数据接收模块；

30、视频数据接收模块，用于将接收的视频数据包中的数据按照预设重组逻辑进行重组形成完整的视频码流；

31、视频数据接收模块，用于将接收的视频数据包中的数据按照预设重组逻辑进行重组形成完整视频码流；

32、深度视频解码模块，用于将输入的完整视频码流和解码参考帧进行解码，得到解码后的解码视频帧。

33、本专利技术提供的基于感兴趣区域的深度视频编解码方法，通过深度学习模型对视频中的感兴趣区域进行分析和提取，再利用基于深度学习的视频编解码技术进行压缩，可以在提升视频质量的基础上，减少对整个视频进行编解码的时间和计算量，降低计算复杂度和内存消耗，提高了计算效率，降低了延迟。

本文档来自技高网...

【技术保护点】

1.一种基于感兴趣区域的深度视频编解码方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于感兴趣区域的深度视频编解码方法，其特征在于，所述步骤S1，实时获取视频帧，并对获取的实时视频帧进行预处理，进一步包括：

3.如权利要求1所述的基于感兴趣区域的深度视频编解码方法，其特征在于，所述步骤S2，将预处理后的实时视频帧输入预训练的深度目标检测网络进行识别并生成ROI掩码，进一步包括：

4.如权利要求1所述的基于感兴趣区域的深度视频编解码方法，其特征在于，所述步骤S4，将若干所述初始视频码流打包形成视频数据包，并发送至视频数据接收模块，进一步包括：

5.如权利要求4所述的基于感兴趣区域的深度视频编解码方法，其特征在于，所述步骤S5，将视频数据包中的数据按照预设重组逻辑进行重组形成完整视频码流，进一步包括：

6.如权利要求1所述的基于感兴趣区域的深度视频编解码方法，其特征在于，所述编码参考帧选自于先前采集的实时视频帧，且所述编码参考帧的数量为一个或者多个。

7.如权利要求1所述的基于感兴趣区域的深度视频编解码

8.如权利要求1所述的基于感兴趣区域的深度视频编解码方法，其特征在于，所述基于感兴趣区域的深度视频编解码方法还包括如下步骤：

9.一种基于感兴趣区域的深度视频编解码系统，用于实施权利要求1至8中给任意一项所述的基于感兴趣区域的深度视频编解码方法，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至8任一项所述的基于感兴趣区域的深度视频编解码方法。

...

【技术特征摘要】

1.一种基于感兴趣区域的深度视频编解码方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于感兴趣区域的深度视频编解码方法，其特征在于，所述步骤s1，实时获取视频帧，并对获取的实时视频帧进行预处理，进一步包括：

3.如权利要求1所述的基于感兴趣区域的深度视频编解码方法，其特征在于，所述步骤s2，将预处理后的实时视频帧输入预训练的深度目标检测网络进行识别并生成roi掩码，进一步包括：

4.如权利要求1所述的基于感兴趣区域的深度视频编解码方法，其特征在于，所述步骤s4，将若干所述初始视频码流打包形成视频数据包，并发送至视频数据接收模块，进一步包括：

5.如权利要求4所述的基于感兴趣区域的深度视频编解码方法，其特征在于，所述步骤s5，将视频数据包中的数据按照预设重组逻辑进行重组形成完整视频码流，进一步包括：

...

【专利技术属性】
技术研发人员：傅良伟，王平，王新红，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人