【技术实现步骤摘要】
本专利技术的实施例一般涉及音频内容处理,更特别地,涉及用于调节特别是在视频会议系统中的空间一致性的方法和系统。
技术介绍
当实施视频会议时,视觉信号与听觉信号一起被生成且从一方传输至另一方,使得当一个或多个与会者正在发言时,在另一方产生的声音应当被同步化且同时播放。主要存在音频和视频之间的两种类型的差异:时间上的差异和空间一致性上的差异。音频和视频流之间的时间上的差异导致同步问题,诸如从发言的与会者传出的语音不与其嘴型同步。空间一致性是用于描述正在被播放的声场如何与正在显示的视觉场景相匹配的术语,或者,其可以被定义为听觉场景和视觉场景之间校准的程度。本专利技术的目的在于调节视频会议系统中的空间一致性,使得听觉场景与视觉场景彼此匹配,从而为多方的与会者提供身临其境的视频会议体验。如果音频信号是在大多数现存的视频会议系统中广泛采用的单声道格式,则用户不需要关注空间一致性问题。空间一致性仅当音频信号以至少两个声道(及立体声)存在时才会发生。现今,声音可以被多于两个麦克风所采集,这将以诸如5.1或7.1环绕格式之类的多声道格式进行传输,并被终端用户的多个换能器表现及播放。在通常的会议环境中,多个与会者围绕用于采集其语音的设备,并且每个与会者可以被视为单个音频对象,其在发言时产生一系列音频信号。如在本文中使用的,术语“音频对象”指的是在声场中存在限定时间期间的个体音频元素。音频对象可以是动态
【技术保护点】
一种用于调节视频会议中的空间一致性的方法,所述方法包括:将由视频端点设备采集的视觉场景展开为至少一个直线场景,所述视频端点设备被配置成以全向方式采集所述视觉场景;检测所述至少一个直线场景与由音频端点设备采集的听觉场景之间的空间一致性,所述音频端点设备相对于所述视频端点设备被定位,所述空间一致性为所述听觉场景与所述至少一个直线场景之间校准的程度;以及响应于所检测的空间一致性低于预定义的阈值而调节所述空间一致性。
【技术特征摘要】
1.一种用于调节视频会议中的空间一致性的方法,所述方法包
括:
将由视频端点设备采集的视觉场景展开为至少一个直线场景,所
述视频端点设备被配置成以全向方式采集所述视觉场景;
检测所述至少一个直线场景与由音频端点设备采集的听觉场景
之间的空间一致性,所述音频端点设备相对于所述视频端点设备被定
位,所述空间一致性为所述听觉场景与所述至少一个直线场景之间校
准的程度;以及
响应于所检测的空间一致性低于预定义的阈值而调节所述空间
一致性。
2.根据权利要求1所述的方法,其中展开所述视觉场景包括:
指派所采集的视觉场景的标称原方向;以及
将所采集的视频场景展开为从所述标称原方向处分割的一个直
线场景。
3.根据权利要求1所述的方法,其中展开所述视觉场景包括:
指派所采集的视觉场景的标称原方向;以及
将所采集的视觉场景展开为从所述标称原方向处以及从关于所
述标称原方向相对的方向处分割的两个直线场景。
4.根据权利要求1所述的方法,其中检测所述直线场景与所采
集的听觉场景之间的所述空间一致性包括:
基于所采集的听觉场景来执行听觉场景分析以便识别音频对象
的听觉分布,所述听觉分布为所述音频对象相对于所述音频端点设备
的分布;
基于所述直线场景来执行视觉场景分析以便识别所述音频对象
的视觉分布,所述视觉分布为所述音频对象相对于所述视频端点设备
的分布;以及
根据所述听觉场景分析和所述视觉场景分析来检测所述空间一
\t致性。
5.根据权利要求4所述的方法,其中执行所述听觉场景分析包
括以下各项中的至少一项:
分析所述音频对象的到达方向;
分析所述音频对象的深度;
分析关键音频对象;以及
分析所述音频对象之间的会话互动。
6.根据权利要求4所述的方法,其中执行所述视觉场景分析包
括以下各项中的至少一项:
执行针对所述音频对象的脸部检测或识别;
分析针对所采集的视觉场景或针对所述直线场景的感兴趣区域;
以及
执行针对所述音频对象的唇部检测。
7.根据权利要求1至6中任一项所述的方法,其中调节所述空
间一致性包括以下各项中的至少一项:
旋转所采集的听觉场景;
关于所述音频端点设备平移所采集的听觉场景;
关于由所述视频端点设备限定的轴线镜像所采集的听觉场景;
缩放所采集的听觉场景;以及
旋转所采集的视觉场景。
8.根据权利要求1至6中任一项所述的方法,其中所述空间一
致性在现场被检测或在服务器处被检测。
9.根据权利要求1至6中任一项所述的方法,其中所述空间一
致性在服务器处被调节或在所述视频会议的接收端处被调节。
10.一种用于调节视频会议中的空间一致性的系统,所述系统包
括:
视频端点设备,被配置成以全向方式采集视觉场景;
音频端点设备,被配置成采集听觉场景,所述音频端点设备相对
于所述视频端点设备被定位;
展开单元,被配置成将所采集的视频场景展开为至少一个直线场
景;
空间一致性检测单元,被配置成检测所述至少一个直线场景与所
采集的听觉场景之间的空间一致性,所述空间一致性为所...
【专利技术属性】
技术研发人员:孙学京,M·埃克特,
申请(专利权)人:杜比实验室特许公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。