调节视频会议系统中的空间一致性技术方案

技术编号:14932677 阅读:74 留言:0更新日期:2017-03-31 14:38
本发明专利技术的实施例涉及空间一致性调节。公开了一种用于调节视频会议中的空间一致性的方法。该方法包括将由视频端点设备采集的视觉场景展开为至少一个直线场景,该视频端点设备被配置成以全向方式采集视觉场景;检测至少一个直线场景与听觉场景之间的空间一致性,该听觉场景由相对于视频端点设备定位的音频端点设备所采集,该空间一致性为听觉场景与至少一个直线场景之间校准的程度;并且响应于所检测的空间一致性低于预定的阈值而调节空间一致性。还公开了相应的系统和计算机程序产品。

【技术实现步骤摘要】

本专利技术的实施例一般涉及音频内容处理,更特别地,涉及用于调节特别是在视频会议系统中的空间一致性的方法和系统。
技术介绍
当实施视频会议时,视觉信号与听觉信号一起被生成且从一方传输至另一方,使得当一个或多个与会者正在发言时,在另一方产生的声音应当被同步化且同时播放。主要存在音频和视频之间的两种类型的差异:时间上的差异和空间一致性上的差异。音频和视频流之间的时间上的差异导致同步问题,诸如从发言的与会者传出的语音不与其嘴型同步。空间一致性是用于描述正在被播放的声场如何与正在显示的视觉场景相匹配的术语,或者,其可以被定义为听觉场景和视觉场景之间校准的程度。本专利技术的目的在于调节视频会议系统中的空间一致性,使得听觉场景与视觉场景彼此匹配,从而为多方的与会者提供身临其境的视频会议体验。如果音频信号是在大多数现存的视频会议系统中广泛采用的单声道格式,则用户不需要关注空间一致性问题。空间一致性仅当音频信号以至少两个声道(及立体声)存在时才会发生。现今,声音可以被多于两个麦克风所采集,这将以诸如5.1或7.1环绕格式之类的多声道格式进行传输,并被终端用户的多个换能器表现及播放。在通常的会议环境中,多个与会者围绕用于采集其语音的设备,并且每个与会者可以被视为单个音频对象,其在发言时产生一系列音频信号。如在本文中使用的,术语“音频对象”指的是在声场中存在限定时间期间的个体音频元素。音频对象可以是动态或静态的。例如,与会者可以围绕音频采集设备行走,且相应的音频对象的位置也相应地改变。对于视频会议和各种其它涉及空间一致性问题的应用而言,不一致的听觉-视觉表现导致不自然的感受,这可能导致会议体验降低。一般而言,小于5°的差异可以被视为可接受的,因为这样的角度差异对于大多数人而言并不明显。如果角度差异多于20°,大多数人都会显著地觉得不舒服。有鉴于此,本领域有需要引入调节听觉场景以与视觉场景校准的方案,或者是调节视觉场景以与听觉场景校准的方案。
技术实现思路
为了解决前述和其它潜在的问题,本专利技术提出了用于调节视频会议系统中的空间一致性的方法和系统。在一个方面,本专利技术的实施例提供了用于调节视频会议中的空间一致性的方法。该方法包括:将由视频端点设备采集的视觉场景展开为至少一个直线场景,该视频端点设备被配置成以全向方式采集视觉场景;检测至少一个直线场景与听觉场景之间的空间一致性,该听觉场景由相对于视频端点设备定位的音频端点设备所采集,该空间一致性为听觉场景与至少一个直线场景之间校准的程度;并且响应于所检测的空间一致性低于预定的阈值而调节空间一致性。关于该方面的实施例进一步包括相应的计算机程序产品。在另一个方面,本专利技术的实施例提供了用于调节视频会议中的空间一致性的系统。该系统包括:被配置成以全向方式采集视觉场景的视频端点设备;被配置成采集听觉场景的音频端点设备,该音频端点设备相对于视频端点设备被定位;被配置成将所采集的视觉场景展开为至少一个直线场景的展开单元;被配置成检测至少一个直线场景与所采集的听觉场景之间的空间一致性的空间一致性检测单元,空间一致性为听觉场景与视觉场景之间校准的程度;以及被配置成响应于所检测的空间一致性低于该阈值而调节空间一致性的空间一致性调节单元。通过以下的描述,将要理解的是,根据本专利技术的各个实施例,空间一致性可以响应于听觉场景与从全向视觉场景获得的直线场景之间的任何差异而被调节。相对于视觉场景所调节的听觉场景或者相对于听觉场景所调节的视觉场景被多个换能器(包括扬声器、耳机等)以及至少一个显示器自然地呈现。本专利技术实现了以三维音频呈现的视频会议。本专利技术的各个实施例所实现的其它优点将通过以下描述而变得显而易见。附图说明通过参照附图的以下详细描述,本专利技术的上述和其它目的、特征和优点将变得更容易理解。在附图中,本专利技术的数个实施例讲义示例以及非限制性的方式进行说明,其中:图1图示了根据本专利技术的示例实施例的音频端点设备的示意图;图2图示了用于图1中所示的音频端点设备的示例坐标系;图3图示了根据本专利技术的示例实施例的由视频端点设备所采集的全向视觉场景;图4图示了根据本专利技术的示例实施例的用于调节视频会议中的空间一致性的方法的流程图;图5图示了根据本专利技术的示例实施例的从所采集的全向视觉场景展开的单个直线场景;图6图示了根据本专利技术的示例实施例的从所采集的全向视觉场景展开的两个直线场景;图7图示了根据本专利技术的示例实施例的用于检测空间一致性的方法的流程图;图8图示了根据本专利技术的示例实施例的用于调节视频会议中的空间一致性的系统的框图;以及图9图示了适于实施本专利技术的实施例的示例计算机系统的框图。在全部附图中,相同或相应的附图标记指代相同或相应的部分。具体实施方式现在将参照附图中所示的各种示例实施例对本专利技术的原理进行说明。应当理解,这些实施例的描述仅仅是使本领域技术人员能够更好地理解并进一步实施本专利技术,而不意在以任何方式限制本专利技术的范围。本专利技术设计涉及包含在视频会议系统中的技术。为了使得视频会议中的音频信号以三维呈现,必须有两方加入会议,确立有效的会话。双方可以被命名为呼叫方和被呼叫方。在一个实施例中,呼叫方包括至少一个音频端点设备和至少一个视频端点设备。音频端点设备被适配为采集听觉场景,而视频端点设备被适配为采集视觉场景。所采集的听觉场景和所采集的视觉场景可以被传输至被呼叫方,使得所采集的听觉场景在被呼叫方被多个换能器播放并且所采集的听觉场景被至少一个屏幕显示。这样的换能器可以具有许多形式。例如,它们可以被构建作为置于主屏幕下方的声音条、具有许多分布在被叫方空间中的扬声器的多声道扬声器系统、在被呼叫方的与会者的对应的个人电脑(诸如笔记本电脑)上的立体声扬声器、或者佩戴在与会者头上的耳机或头戴式耳机。显示屏可以是悬挂在墙上的大型显示器或者多个在与会者的个人设备上的小型显示器。在被呼叫方,可以包括用于采集听觉场景的音频端点设备以及用于采集视觉场景的视频端点设备,所采集的听觉场景和视觉场景各自将在呼叫方被播放及观看。然而,在该特定实施例中,应当注意的是在被呼叫方的端点设备是可选的,并且一旦在呼叫方提供至少一个音频端点设备与至少一个视频端点设备,视频会议或会话就可以被建立。在其它实施例中,例如,在呼叫方并不提供任何端点设备,但是在被...

【技术保护点】
一种用于调节视频会议中的空间一致性的方法,所述方法包括:将由视频端点设备采集的视觉场景展开为至少一个直线场景,所述视频端点设备被配置成以全向方式采集所述视觉场景;检测所述至少一个直线场景与由音频端点设备采集的听觉场景之间的空间一致性,所述音频端点设备相对于所述视频端点设备被定位,所述空间一致性为所述听觉场景与所述至少一个直线场景之间校准的程度;以及响应于所检测的空间一致性低于预定义的阈值而调节所述空间一致性。

【技术特征摘要】
1.一种用于调节视频会议中的空间一致性的方法,所述方法包
括:
将由视频端点设备采集的视觉场景展开为至少一个直线场景,所
述视频端点设备被配置成以全向方式采集所述视觉场景;
检测所述至少一个直线场景与由音频端点设备采集的听觉场景
之间的空间一致性,所述音频端点设备相对于所述视频端点设备被定
位,所述空间一致性为所述听觉场景与所述至少一个直线场景之间校
准的程度;以及
响应于所检测的空间一致性低于预定义的阈值而调节所述空间
一致性。
2.根据权利要求1所述的方法,其中展开所述视觉场景包括:
指派所采集的视觉场景的标称原方向;以及
将所采集的视频场景展开为从所述标称原方向处分割的一个直
线场景。
3.根据权利要求1所述的方法,其中展开所述视觉场景包括:
指派所采集的视觉场景的标称原方向;以及
将所采集的视觉场景展开为从所述标称原方向处以及从关于所
述标称原方向相对的方向处分割的两个直线场景。
4.根据权利要求1所述的方法,其中检测所述直线场景与所采
集的听觉场景之间的所述空间一致性包括:
基于所采集的听觉场景来执行听觉场景分析以便识别音频对象
的听觉分布,所述听觉分布为所述音频对象相对于所述音频端点设备
的分布;
基于所述直线场景来执行视觉场景分析以便识别所述音频对象
的视觉分布,所述视觉分布为所述音频对象相对于所述视频端点设备
的分布;以及
根据所述听觉场景分析和所述视觉场景分析来检测所述空间一

\t致性。
5.根据权利要求4所述的方法,其中执行所述听觉场景分析包
括以下各项中的至少一项:
分析所述音频对象的到达方向;
分析所述音频对象的深度;
分析关键音频对象;以及
分析所述音频对象之间的会话互动。
6.根据权利要求4所述的方法,其中执行所述视觉场景分析包
括以下各项中的至少一项:
执行针对所述音频对象的脸部检测或识别;
分析针对所采集的视觉场景或针对所述直线场景的感兴趣区域;
以及
执行针对所述音频对象的唇部检测。
7.根据权利要求1至6中任一项所述的方法,其中调节所述空
间一致性包括以下各项中的至少一项:
旋转所采集的听觉场景;
关于所述音频端点设备平移所采集的听觉场景;
关于由所述视频端点设备限定的轴线镜像所采集的听觉场景;
缩放所采集的听觉场景;以及
旋转所采集的视觉场景。
8.根据权利要求1至6中任一项所述的方法,其中所述空间一
致性在现场被检测或在服务器处被检测。
9.根据权利要求1至6中任一项所述的方法,其中所述空间一
致性在服务器处被调节或在所述视频会议的接收端处被调节。
10.一种用于调节视频会议中的空间一致性的系统,所述系统包
括:
视频端点设备,被配置成以全向方式采集视觉场景;
音频端点设备,被配置成采集听觉场景,所述音频端点设备相对
于所述视频端点设备被定位;
展开单元,被配置成将所采集的视频场景展开为至少一个直线场
景;
空间一致性检测单元,被配置成检测所述至少一个直线场景与所
采集的听觉场景之间的空间一致性,所述空间一致性为所...

【专利技术属性】
技术研发人员:孙学京M·埃克特
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1