一种云视频会议中优化音视频效果的方法技术

技术编号:28124483 阅读:15 留言:0更新日期:2021-04-19 11:36
本发明专利技术提供了一种云视频会议中优化音视频效果的方法,包括:对存储在云端的视频数据进行解码并从中截取待处理的视频帧,视频数据为采集本地端对参会人员进行拍摄上传至云端获得;在采集本地端网络波动状况下,通过获取参会人员各自所属的行为轨迹预测以及根据行为轨迹预测提前准备的静态图像和虚拟场景,以静态图像和虚拟场景的结合替换视频帧,进行视频会议中网络波动的视频自动补帧;在采集本地端网络波动状况下,将由采集本地端采集的音频数据翻译成字幕以及生成智能音频上传至云端,通过字幕和智能音频替换音频数据,进行视频会议中网络波动的音频效果的修复;实现网络波动中音视频数据的自动优化。中音视频数据的自动优化。中音视频数据的自动优化。

【技术实现步骤摘要】
一种云视频会议中优化音视频效果的方法


[0001]本专利技术涉及网络多媒体
,具体而言,涉及一种云视频会议中优化音视频效果的方法。

技术介绍

[0002]随着计算机硬件和网络技术的高速发展,传统的通讯方式如电话、传真等已无法满足人们深层次的交流需求,近年来以声音和视频作为主要传输对象的多媒体通信成为当今通信领域研究的热点。视频会议系统作为一种现代化的办公系统,它可以将不同会场的实时场景和语音互连起来,使各与会者有“面对面”交谈的感觉。伴随着通信技术的进一步提升,高质量的多媒体视频会议也成为一种发展趋势,被越来越多的人们所需求。
[0003]然而,音视频通讯中依然存在很多技术问题影响与会者们的实际沟通效果,例如,视频会议在遇到网络波动时,往往会遇到以下难题:画面卡顿、局部马赛克;动态掉帧、聚焦不清晰;声音模糊、唇音不同步;人物移动卡图、且延迟过高等。因此,有待继续研发在网络波动的情况下,优化音视频效果。
[0004]申请内容
[0005]本专利技术旨在克服现有技术的不足,针对视频会议中遇到网络波动时发生画面卡顿、局部马赛克;动态掉帧、聚焦不清晰;声音模糊、唇音不同步;人物移动卡图、且延迟过高等难题;本方法在视频会议中,根据网络波动状况的优良选择合适的音视频数据发送策略,解决了视频会议在网络波动情况下音视频效果的自动优化问题。
[0006]本专利技术的实施例通过以下技术方案实现:
[0007]一种云视频会议中优化音视频效果的方法,包括如下步骤:
[0008]步骤一,对存储在云端的视频数据进行解码并从中截取待处理的视频帧,所述视频数据为采集本地端对参会人员进行拍摄上传至云端获得;
[0009]步骤二,在采集本地端网络波动状况下,通过获取参会人员各自所属的行为轨迹预测以及根据所述行为轨迹预测提前准备的静态图像和虚拟场景,以静态图像和虚拟场景的结合替换所述视频帧,进行视频会议中网络波动的视频自动补帧;
[0010]步骤三,在采集本地端网络波动状况下,将由采集本地端采集的音频数据翻译成字幕以及生成智能音频上传至云端,通过字幕和智能音频替换所述音频数据,进行视频会议中网络波动的音频效果的修复。
[0011]根据一种优选实施方式,获取参会人员各自所属的行为轨迹预测包括如下步骤:
[0012]将所述待处理的视频帧输入人脸朝向识别模型,所述人脸朝向识别模型用于对所述待处理的视频帧进行人脸特征提取,得到参会人员中关键人员的面部朝向信息,
[0013]将面部朝向信息输入行为轨迹预判模型,所述行为轨迹预判模型基于云计算和所述面部朝向信息做出行为轨迹的预判,获取关键人员的行为轨迹预判结果,所述行为轨迹预判模型是以携带动作编号的动态轨迹图像为训练样本对第一基础模型进行训练得到的。
[0014]根据一种优选实施方式,音频数据翻译成字幕以及生成智能音频包括如下步骤:
[0015]将所述音频数据输入数字音频模型,所述数字音频模型用于对所述音频数据进行声纹和音量大小提取,得到音频数据中的声纹编号和音量大小数据编号;
[0016]所述数字音频模型是以携带声纹编号和音量大小数据编号的音频样本为训练样本,对第三基础模型进行训练得到的;
[0017]所述字幕是通过声纹编号获得,所述智能音频是通过机械发声模块根据所述字幕、所述声纹和音量大小生成。
[0018]根据一种优选实施方式,所述步骤二包括:
[0019]在采集本地端网络波动状况下,将行为轨迹预判结果输入场景模拟模型,所述场景模拟模型用于根据所述行为轨迹预判结果,提前准备静态画面和提前处理环境模拟;
[0020]通过所述场景模拟模型对视频帧进行静态画面替换以及虚拟场景的导入,进行视频会议中网络波动的视频自动补帧;所述场景模拟模型是以携带场景编号的多个场景图像样本为训练样本,对第二基础模型进行训练得到的。
[0021]根据一种优选实施方式,所述步骤二进一步包括:
[0022]在采集本地端网络状况较佳情况下,采集本地端上传高于当前清晰度的视频数据至云端。
[0023]根据一种优选实施方式,所述步骤三包括:
[0024]在采集本地端网络波动状况下,数字音频模型识别由拾音麦克风采集到的音频数据,生成字幕,以及获取音频数据中的声纹编号和音量大小数据编号,生成智能音频;
[0025]采集本地端将字幕以及智能音频上传至云端,通过字幕和智能音频替换所述音频数据,进行视频会议中网络波动的音频效果的修复。
[0026]根据一种优选实施方式,所述步骤三进一步包括:
[0027]在采集本地端网络状况较佳情况下,采集本地端上传高于当前清晰度的音频数据至云端。
[0028]根据一种优选实施方式,所述场景模拟模型通过以下步骤得到:
[0029]通过摄像头捕捉面对会议终端的多个关键点,在网络状况良好时将由关键点组成的场景和图像上传至云端;
[0030]所述关键点包括但不限于会议桌左侧位第一关键点、会议桌正对位第二关键点、会议桌右侧位第三关键点、会议桌左后方第四关键点、会议桌右后方第五关键点以及会议桌正对位背景第六关键点;
[0031]通过云计算对多个所述关键点进行场景编号,获取场景图像样本;以携带场景编号的多个场景图像样本为训练样本,对所述第二基础模型进行训练,得到场景模拟模型。
[0032]根据一种优选实施方式,所述行为轨迹预判模型通过以下步骤得到:
[0033]通过摄像头捕捉参会人员在多个所述关键点移动的动态轨迹图像以及移动前参会人员的面部朝向信息,在网络状况良好时将动态轨迹图像以及面部朝向信息上传至云端;
[0034]所述动态轨迹图像包括但不限于参会人员A行动到第一关键点、第二关键点、第三关键点、第四关键点、第五关键点以及第六关键点,然后返回第一关键点的一个行为轨迹过程;
[0035]采用相同方法捕捉参会人员B、参会人员C、参会人员D、参会人员E以及参会人员F
对应的动态轨迹图像和移动前对应的面部朝向信息;
[0036]通过云计算对所述面部朝向信息进行动作编号,以携带动作编号的动态轨迹图像样本为训练样本,对所述第一基础模型进行训练,得到行为轨迹预判模型。
[0037]根据一种优选实施方式,所述数字音频模型通过以下步骤得到:
[0038]通过拾音麦克风捕捉参会人员在多个所述关键点的音频数据,在网络状况良好时将音频数据上传至云端;通过云计算处理参会人员在不同所述关键点上传的音频数据,进行声纹编号和音量大小数据编号,
[0039]以携带声纹编号和音量大小数据编号的音频样本为训练样本,对所述第三基础模型进行训练,得到数字音频模型。
[0040]本专利技术实施例的技术方案至少具有如下优点和有益效果:本专利技术在视频会议网络波动下,通过场景模拟模型和行为轨迹预判模型预判参会人员的行为轨迹,提前准备场景,对有卡图和马赛克等现象的地方进行静态画面补帧以及虚拟场景的导入,使得远端用户在肉本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种云视频会议中优化音视频效果的方法,其特征在于,包括如下步骤:步骤一,对存储在云端的视频数据进行解码并从中截取待处理的视频帧,所述视频数据为采集本地端对参会人员进行拍摄上传至云端获得;步骤二,在采集本地端网络波动状况下,通过获取参会人员各自所属的行为轨迹预测以及根据所述行为轨迹预测提前准备的静态图像和虚拟场景,以静态图像和虚拟场景的结合替换所述视频帧,进行视频会议中网络波动的视频自动补帧;步骤三,在采集本地端网络波动状况下,将由采集本地端采集的音频数据翻译成字幕以及生成智能音频上传至云端,通过字幕和智能音频替换所述音频数据,进行视频会议中网络波动的音频效果的修复。2.如权利要求1所述的云视频会议中优化音视频效果的方法,其特征在于,获取参会人员各自所属的行为轨迹预测包括如下步骤:将所述待处理的视频帧输入人脸朝向识别模型,所述人脸朝向识别模型用于对所述待处理的视频帧进行人脸特征提取,得到参会人员中关键人员的面部朝向信息,将面部朝向信息输入行为轨迹预判模型,所述行为轨迹预判模型基于云计算和所述面部朝向信息做出行为轨迹的预判,获取关键人员的行为轨迹预判结果,所述行为轨迹预判模型是以携带动作编号的动态轨迹图像为训练样本对第一基础模型进行训练得到的。3.如权利要求2所述的云视频会议中优化音视频效果的方法,其特征在于,音频数据翻译成字幕以及生成智能音频包括如下步骤:将所述音频数据输入数字音频模型,所述数字音频模型用于对所述音频数据进行声纹和音量大小提取,得到音频数据中的声纹编号和音量大小数据编号;所述数字音频模型是以携带声纹编号和音量大小数据编号的音频样本为训练样本,对第三基础模型进行训练得到的;所述字幕是通过声纹编号获得,所述智能音频是通过机械发声模块根据所述字幕、所述声纹和音量大小生成。4.如权利要求3所述的云视频会议中优化音视频效果的方法,其特征在于,所述步骤二包括:在采集本地端网络波动状况下,将行为轨迹预判结果输入场景模拟模型,所述场景模拟模型用于根据所述行为轨迹预判结果,提前准备静态画面和提前处理环境模拟;通过所述场景模拟模型对视频帧进行静态画面替换以及虚拟场景的导入,进行视频会议中网络波动的视频自动补帧;所述场景模拟模型是以携带场景编号的多个场景图像样本为训练样本,对第二基础模型进行训练得到的。5.如权利要求4所述的云视频会议中优化音视频效果的方法,其特征在于,所述步骤二进一步包括:在采集本地端网络状况较佳情况下,采集本地端上传高于当前清晰度的视频数据至云端。6...

【专利技术属性】
技术研发人员:胡鹏刘清冯文澜
申请(专利权)人:随锐科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1