基于动作捕捉和三维重建的视频会议方法、终端及系统技术方案

技术编号:30694219 阅读:17 留言:0更新日期:2021-11-06 09:28
本发明专利技术提出基于动作捕捉和三维重建的视频会议方法、终端及系统,本发明专利技术利用动作捕捉的数据量要远远低于完整视频画面数据量的特点,对原始视频流进行基于人工智能的图像数据分析处理,从原始视频流当中提取出会议场地背景图像、参会人物的局部肢体图像和肢体网格点云,由于会议过程中,会议场地背景图像和参会人物通常是不变的,所以会议场地背景图像、参会人物的局部肢体图像可以只传输一次,之后只要持续传输肢体网格点云,即可在接收端顺利实现逐帧重建视频会议场景图像。相较于直接传输原始视频流,本发明专利技术能够大大降低需要传输的数据量,进而可以在极低带宽下实现高品质的视频会议效果。会议效果。会议效果。

【技术实现步骤摘要】
基于动作捕捉和三维重建的视频会议方法、终端及系统


[0001]本专利技术涉及互联网视频会议
,具体涉及一种基于动作捕捉和三维重建的视频会议方法、终端及系统。

技术介绍

[0002]视频会议的核心技术是实时音视频数据流的数字压缩与解压缩,又称音视频编解码。现有的视频会议过程中,首先需要通过摄像头采集的原始视频信号,由于这个原始视频信号的数据量非常大(以常见的高清分辨率1080P@30fps为例,每秒钟的视频数据量约为744Mbit),因此需要利用视频压缩技术压缩数据后,再通过网络传输。
[0003]然而,随着4K、8K等更高分辨率的视频信号普及,如今广泛使用的视频压缩技术(如H.261、H.263、H.264、H.265)已经不能够满足越来越高清的分辨率要求。

技术实现思路

[0004]专利技术目的:为克服现有技术的缺陷,本专利技术从另一个角度出发,利用动作捕捉的数据量要远远低于完整视频画面数据量的特点,设计了一种基于动作捕捉和三维重建的视频远程会议方法及系统,可以在极低带宽下实现高品质的视频会议效果。
[0005]技术方案:为实现上述目的,本专利技术一方面提出一种基于动作捕捉和三维重建的视频会议终端,所述终端包括:编码模块、解码模块、动作捕捉模块、三维重建模块、网络传输模块;其中,
[0006]动作捕捉模块用于从本端获取的本地会议视频图像中分割出会议场地背景图像和人物图像,再从人物图像中提取骨骼关键节点,形成肢体网格点云,最后根据肢体网格点云将人物图像分割为局部肢体图像;
[0007]编码模块用于对本端待传输的会议场地背景图像、局部肢体图像和肢体网格点云进行压缩编码;
[0008]解码模块用于对接收到来自其他终端的压缩数据进行解码;
[0009]三维重建模块用于根据解码后的会议场地背景图像、局部肢体图像和肢体网格点云进行视频会议场景图像重建;
[0010]网络传输模块用于实现本终端与其他终端之间的数据传输。
[0011]针对所述视频会议终端,以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
[0012]可选的,所述终端还包括摄像头,所述摄像头用于采集本地会议视频图像。
[0013]可选的,所述终端还包括显示模块,所述显示模块用于显示重建后的视频会议场景图像。
[0014]可选的,所述编码模块还用于对摄像头采集的原始视频流进行压缩编码。
[0015]另一方面,本专利技术提出一种基于动作捕捉和三维重建的视频会议系统,所述系统
包括至少两个所述的视频会议终端,即在所述系统中,包括作为发送端的视频会议终端和作为接收端的视频会议终端。
[0016]再一方面,本专利技术提出一种基于动作捕捉和三维重建的视频会议方法,所述方法基于所述的视频会议系统实现,包括以下步骤:
[0017](1)发送端获取本地会议视频图像;
[0018](2)发送端从本地会议视频图像中逐帧分割出会议场地背景图像和人物图像;
[0019](3)发送端对人物图像进行骨骼关节点检测,得到人物的肢体网格点云;
[0020](4)发送端根据肢体网格点云将人物图像分割为局部肢体图像;
[0021](5)发送端将会议场地背景图像、肢体网格点云和局部肢体图像进行压缩编码后发送给接收端;
[0022](6)接收端接收发送端发送来的压缩数据并进行解码;
[0023](7)接收端在解码后的会议场地背景图像中,按照肢体网格点云中各关节点的位置关系将局部肢体图像进行贴图,逐帧重建视频会议场景图像。
[0024]针对所述视频会议方法,以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
[0025]可选的,所述会议场地背景图像和所述局部肢体图像仅传输一次。
[0026]可选的,所述步骤(2)中,发送端通过预先训练好的基于神经网络的人物检测模型对每一帧本地会议视频图像进行会议场地背景图像和人物图像分割。
[0027]可选的,所述步骤(3)中,发送端采用CPN网络模型从人物图像中提取骨骼关节点。
[0028]可选的,所述视频会议方法还包括以下步骤:
[0029]在视频会议开始时,发送端先将获取的本地会议视频图像直接进行压缩编码后传输给接收端,同时执行所述步骤(2)至(5),待步骤(5)完成后,发送端停止对本地会议视频图像直接进行压缩编码后传输的步骤,返回步骤(1);
[0030]接收端初始时,对接收到的压缩后的本地会议视频图像进行解码并播放,当第一次接收到会议场地背景图像、肢体网格点云和局部肢体图像后,开始执行步骤(6)至(7)。
[0031]有益效果:与现有的视频会议中直接对采集到的原始视频流进行压缩后传输的方案相比,本专利技术具有以下优势:
[0032]本专利技术对原始视频流进行基于人工智能的图像数据分析处理,从原始视频流当中提取出会议场地背景图像、参会人物的局部肢体图像和肢体网格点云,由于会议过程中,会议场地背景图像和参会人物通常是不变的,所以会议场地背景图像、参会人物的局部肢体图像可以只传输一次,之后只要持续传输肢体网格点云,即可在接收端顺利实现逐帧重建视频会议场景图像。相较于直接传输原始视频流,本专利技术能够大大降低需要传输的数据量,进而可以在极低带宽下实现高品质的视频会议效果。
附图说明
[0033]图1为实施例涉及的视频会议终端的结构图;
[0034]图2为实施例涉及的关键点检测结果示意图;
[0035]图3为实施例涉及的CPN网络结构示意图;
[0036]图4为实施例涉及的视频会议方法的流程图。
具体实施方式
[0037]下面将结合附图和具体实施例对本专利技术作更进一步的说明。但应当理解的是,本专利技术可以以各种形式实施,以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例,并不意图将本专利技术限制于所说明的具体实施例。
[0038]应当理解的是,在技术上可行的情况下,以下针对不同实施例所列举的技术特征可以相互组合,从而形成本专利技术范围内的另外的实施例。此外,本专利技术所述的特定示例和实施例是非限制性的,并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本专利技术的保护范围。
[0039]实施例1:
[0040]本实施例提供了一种基于动作捕捉和三维重建的视频会议终端,用于远程视频会议。所述终端的结构如图1所示,所述终端包括摄像头、编码模块、解码模块、动作捕捉模块、三维重建模块、网络传输模块和显示屏;其中,摄像头、动作捕捉模块、编码模块和网络传输模块构成所述终端的发送通路,而网络传输模块、解码模块、三维重建模块和显示屏构成所述终端本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于动作捕捉和三维重建的视频会议终端,其特征在于,包括:编码模块、解码模块、动作捕捉模块、三维重建模块、网络传输模块;其中,动作捕捉模块用于从本端获取的本地会议视频图像中分割出会议场地背景图像和人物图像,再从人物图像中提取骨骼关键节点,形成肢体网格点云,最后根据肢体网格点云将人物图像分割为局部肢体图像;编码模块用于对本端待传输的会议场地背景图像、局部肢体图像和肢体网格点云进行压缩编码;解码模块用于对接收到来自其他终端的压缩数据进行解码;三维重建模块用于根据解码后的会议场地背景图像、局部肢体图像和肢体网格点云进行视频会议场景图像重建;网络传输模块用于实现本终端与其他终端之间的数据传输。2.根据权利要求1所述的基于动作捕捉和三维重建的视频会议终端,其特征在于,所述终端还包括摄像头,所述摄像头用于采集本地会议视频图像。3.根据权利要求1所述的基于动作捕捉和三维重建的视频会议终端,其特征在于,所述终端还包括显示模块,所述显示模块用于显示重建后的视频会议场景图像。4.根据权利要求1所述的基于动作捕捉和三维重建的视频会议终端,其特征在于,所述编码模块还用于对摄像头采集的原始视频流进行压缩编码。5.一种基于动作捕捉和三维重建的视频会议系统,其特征在于,所述系统包括至少两个如权利要求1至4任意一项所述的视频会议终端。6.一种基于动作捕捉和三维重建的视频会议方法,其特征在于,所述方法基于权利要求5所述的视频会议系统实现,包括以下步骤:(1)发送端获取本地会议视频图像;(2)发送端从本地会议视频图像中提取出会议...

【专利技术属性】
技术研发人员:鲁彬彬
申请(专利权)人:江苏三步科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1