【技术实现步骤摘要】
视频会议中发言人音视频输出方法及装置
本专利技术涉及视频图像处理
,尤其涉及一种视频会议中发言人音视频输出方法、装置及可读存储介质。
技术介绍
目前,远程视频会议中通常采用抓拍摄像机进行图像拍摄并将拍摄的图像上传至远端会场。传统视频会议用抓拍摄像机功能较为单一,采集的视频为摄像机所能拍摄的范围的全部画面,无法实现对当前发言人进行单独视频画面显示,降低了用户的体验。有鉴于此,有必要提出对目前视频显示技术进行进一步的改进。
技术实现思路
为解决上述至少一技术问题,本专利技术的主要目的是提供一种视频会议中发言人音视频输出方法、装置及可读存储介质。为实现上述目的,本专利技术采用的第一个技术方案为:提供一种视频会议中发言人音视频输出方法,包括:在获取到视频会议中本地会场的原始视频信息时,对原始视频信息中的参会人员进行人脸检测,得到多个人脸角度及对应的人脸位置信息;对本地会场中的当前发言人进行实时声学定位,得到当前发言人的人脸声学角度及音频数据;将当前发言人的人脸声学角度 ...
【技术保护点】
1.一种视频会议中发言人音视频输出方法,其特征在于,所述视频会议中发言人音视频输出方法包括:/n在获取到视频会议中本地会场的原始视频信息时,对原始视频信息中的参会人员进行人脸检测,得到多个人脸角度及对应的人脸位置信息;/n对本地会场中的当前发言人进行实时声学定位,得到当前发言人的人脸声学角度及音频数据;/n将当前发言人的人脸声学角度与本地会场中多个人脸角度进行匹配,得到当前发言人的人脸位置信息;/n根据当前发言人的人脸位置信息从原始视频信息裁剪出当前发言人的实时人脸图片,并根据实时人脸图像及音频数据生成当前发言人的单独音视频;/n输出当前发言人的单独音视频。/n
【技术特征摘要】
1.一种视频会议中发言人音视频输出方法,其特征在于,所述视频会议中发言人音视频输出方法包括:
在获取到视频会议中本地会场的原始视频信息时,对原始视频信息中的参会人员进行人脸检测,得到多个人脸角度及对应的人脸位置信息;
对本地会场中的当前发言人进行实时声学定位,得到当前发言人的人脸声学角度及音频数据;
将当前发言人的人脸声学角度与本地会场中多个人脸角度进行匹配,得到当前发言人的人脸位置信息;
根据当前发言人的人脸位置信息从原始视频信息裁剪出当前发言人的实时人脸图片,并根据实时人脸图像及音频数据生成当前发言人的单独音视频;
输出当前发言人的单独音视频。
2.如权利要求1所述的视频会议中发言人音视频输出方法,其特征在于,所述对原始视频信息中的参会人员进行人脸检测,得到多个人脸角度及对应的人脸位置,具体包括:
对原始视频信息中所有参会人员进行人脸检测,得到多个人脸信息;
对多个人脸信息进行编号,并获取对应的人脸角度及人脸位置信息,其中,所述人脸位置信息为人脸所处视频画面中的位置。
3.如权利要求2所述的视频会议中发言人音视频输出方法,其特征在于,所述将当前发言人的人脸声学角度与本地会场中多个人脸角度进行匹配,得到当前发言人的人脸位置信息,具体包括:
将当前发言人的人脸声学角度分别与本地会场中多个人脸角度进行匹配;
如果当前发言人的人脸声学角度与本地会场中的人脸角度匹配成功,则获取目标人脸角度对应的目标人脸位置信息;
将目标人脸位置信息确定为当前发言人的人脸位置。
4.如权利要求3所述的视频会议中发言人音视频输出方法,其特征在于,所述根据当前发言人的人脸位置信息从原始视频信息裁剪出当前发言人的实时人脸图片,并根据实时人脸图像及音频数据生成当前发言人的单独视频,具体包括:
根据当前发言人的人脸位置从原始视频信息裁剪出当前发言人的多帧实时人脸图片;
根据多帧实时人脸图片形成发言人的单独视频画面;以及
根据获取的当前发言的音频数据及单独视频画面生成实时发言人的单独音视频。
5.如权利要求4所述的视频会议中发言人音视频输出方法,其特征在于,所述根据当前发言人的人...
【专利技术属性】
技术研发人员:晏冬,
申请(专利权)人:深圳英飞拓智能技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。