当前位置: 首页 > 专利查询>宝利通公司专利>正文

视频会议中的最佳视图选择方法技术

技术编号:20119935 阅读:63 留言:0更新日期:2019-01-16 12:26
一种系统,用于确保在第一端点处在由多个摄像机以多个角度捕获到人的脸部时,在视频流中包括人的脸部的最优可用视图。该系统使用一个或多个麦克风阵列来捕获与视图相对应的直接混响比信息,并且确定哪个视图最接近地匹配直接看向该摄像机的人的视图,由此改善第二端点处的观看者的体验。

Optimal View Selection Method in Video Conference

A system for ensuring that the best available view of a person's face is included in the video stream when the first endpoint is captured from multiple cameras at multiple angles. The system uses one or more microphone arrays to capture the direct reverberation ratio information corresponding to the view, and determines which view matches the view of the person directly looking at the camera, thereby improving the viewer's experience at the second endpoint.

【技术实现步骤摘要】
视频会议中的最佳视图选择方法相关申请的交叉引用本申请涉及2017年6月30日提交的并且题为“视频会议中的无干扰音频拾取”的美国申请No.15/640,385,该申请的内容全部并入本文。
本公开一般地涉及视频会议,并且更具体地涉及用于从多个视图中选择感兴趣区域的最佳视图的方法和装备。
技术介绍
用于视频会议系统的摄像机通常具有机械摇摄(pan)、倾斜和变焦控制。理想情况下,应该不断调整这些控制,以基于房间内的人坐在哪里以及谁在讲话来实现对房间内的人的最佳视频取景(framing)。不幸的是,由于执行这些调整困难,所以摄像机可能经常被设置成整个房间的固定的广角视图,并且可能不会被调整。如果是这种情况,则远端参与者可能会失去来自摄像机所捕获的视频的大部分价值,因为在远端处显示的近端参与者的尺寸可能过小。在一些情况下,远端参与者不能看到近端参与者的脸部表情,并且可能难以识别出发言者。这些问题给视频会议别扭的感觉,并使参与者难以召开富有成效的会晤。为了应对糟糕的取景,参与者可能不得不介入并执行一系列手动操作来对摄像机进行摇摄、倾斜和变焦以捕获更好的视图。正如预料的那样,即使在使用遥控器时,手动指引摄像机也可能很麻烦。有时,参与者懒得调整摄像机的视图,并且简单地使用默认宽视图。当然,当参与者手动进行对摄像机的视图取景时,这个过程在参与者在视频会议期间改变方位或在后续视频会议中使用不同的座位安排的情况下不得不重复。手动介入的一个备选是使用话音跟踪技术。具有麦克风阵列的话音跟踪摄像机可以帮助在视频会议期间使摄像机指向正在发言的参与者。尽管话音跟踪摄像机通常非常准确,但是它仍然可能会遇到一些问题。例如,当发言者转过脸不面对麦克风时,话音跟踪摄像机可能失去发言者的线索。此外,非常混响的环境可能会导致话音跟踪摄像机对准反射点处,而不是指向正在发言的人的实际声源处。例如,当发言者转过脸不面对摄像机或当发言者坐在桌子的一端时,可能会产生典型的反射。如果反射足够麻烦,则可以将话音跟踪摄像机引导为指向墙壁、桌子或其他表面而非实际的发言者。对这些问题的极好的较早的解决方案在JinweiFeng等人的美国专利No.8,842,161中阐述。那个专利公开了视频会议装置和方法,其将用静止摄像机获得的静止视图协调到用可调摄像机获得的可调视图。静止摄像机可以是web摄像机,而可调摄像机可以是摇摄-倾斜-变焦摄像机。当静止摄像机获得视频时,检测参与者的脸部,并且在视图中确定界限以包含检测到的脸部。与检测到的脸部相关联的运动的缺失和存在被用于验证脸部是否可靠。在Jinwei中,为了捕获和输出视频会议参与者的视频,可调摄像机的视图基于所确定的界限调整为被取景的视图。美国专利No.8,842,161将声源定位(SSL)的技术、参与者检测和运动检测相组合,以定位会晤参加者,并基于定位信息决定最佳视图将是什么,且然后控制辅助的摇摄-倾斜-变焦(PTZ)摄像机摇摄、倾斜和变焦以获得想要的视图。由于诸如美国专利No.8,842,161中公开的那些视频会议装置之类的视频会议装置的普及,通过连接两个这样的设备、让一个设备控制另一个设备,来扩展这样的装置的范围已经变得普及。这意味着通常将捕获会晤演示者(presenter)的两个视图,每个可调摄像机捕获一个视图。然后,问题变为如何确保选择更好的视图以便传输到远程端点。
技术实现思路
本公开的实施例涉及一个或多个摄像机,该一个或多个摄像机被自动调整以使用自动取景连续地且即时地提供出席视频会议的所有人的最佳视图。本公开的实施例涉及连续地自动调整一个或多个摄像机以提供正在发言的人的最佳视图。本公开的实施例涉及控制摄像机从不同角度产生同一人的视图馈送,以及控制在一个拾取馈送与另一个拾取馈送之间的切换操作,其中一个目的是利用具有正在发言的人的最优正面脸部视图的馈送。附图说明为了说明的目的,在附图中示出了本公开中描述的某些实施例。在附图中,相同的数字始终指示相同的元件。应当理解,本文公开的本专利技术的全部范围不限于所示的精确布置、维度和仪器。在附图中:图1A图示了根据本公开的某些教导的视频会议端点。图1B图示了图1A的视频会议端点的组件。图1C-1D示出了视频会议端点的平面图。图2A示出了根据本公开的用于端点的视频会议设备。图2B-2D示出了用于视频会议设备的备选配置。图3图示了图2A-2D的视频会议设备的组件。图4图示了使用音频和视频处理二者的所公开端点的控制方案。图5A-5B图示了根据本公开的端点配置。图6A-6B图示了根据本公开的另一种端点配置。图7A-7B图示了根据本公开的另一种端点配置。图8A是根据本公开的实施例的声源定位算法的框图。图8B图示了根据本公开实施例的、使用图8A的声源定位算法的比较结果来确定最佳视图。图9A-9B图示了根据本公开的实施例的示例性波束形成图。图10图示了根据本公开的实施例的用于从多个视图中确定最佳脸部视图的一个方法。图11图示了用于确定哪个脸部视图是最佳的又一示例方法。具体实施方式现在将详细参考该技术的实施方式。每个示例仅通过对该技术的解释来提供,而不作为对该技术的限制。对于本领域技术人员来说显然的是,可以在本技术中做出各种修改和变型。比如,作为该技术的一个实施方式的一部分描述的特征可以用在另一个实施方式上,以产生更进一步的实施方式。因此,意在使本公开涵盖这样的修改和变型。在本公开中使用的术语的描述被提供如下。“耦合”是指能够直接或间接地彼此交互的组件或设备。所有连接的元件都被耦合,但并非所有耦合的元件都被连接。耦合的元件包括那些相互通信的元件。“接近度”是指项目或元件或组件等彼此临近的程度。元件在它们相互靠近时是“接近”的,如技术人员基于上下文所理解的那样。本公开涉及具有一个或多个静止摄像机和多个可调摄像机的视频会议端点。在至少一个实施例中,端点可以包括多个视频会议设备,视频会议设备中的每一个包括静止摄像机和可调摄像机。可能希望将两个或更多个这样的设备耦合在一起,以便为视听拾取提供比用仅一个这样的设备所可能的更大的范围或距离。当这样的设备被耦合时,它们被称为“链成菊花链的(daisy-chained)”。为了在本文中解释清楚,讨论了其中两个这样的设备被链成菊花链的场景,尽管在不脱离本公开的情况下多于两个的这样的设备(和配置)是可能的。因此,在所讨论的示例的一些中,存在一个主设备和一个从设备,后者由该主设备控制。然而,多个从设备是可能的。对于由具有多个可调(和/或跟踪)摄像机而引起的增加的功率,也出现了一些新问题。例如,考虑其中演示者正在发言并且他正在被两个摄像机跟踪的情况;这些摄像机中的每一个将捕获发言者的图像。两个摄像机中的一个摄像机将提供比另一个摄像机优良的图像。虽然存在可以使一个视图比另一个视图更好的各种因素,例如尺寸、图像质量、话音到视频同步的准确性,本公开主要关心的属性是哪个视图更接近地近似于其中发言者被感知为看向正被讨论的摄像机或看着该摄像机的视图。通过选择优良视图以便包含在向远端点的音频视频传输中,在接收端点处的那些人的视觉体验——以及因此学习体验将得到改善。因此,本公开的实施例针对的是:确定链成菊花链的单元中的哪个设备(或摄像机)提供了讲话者51的最优放大的正面视图本文档来自技高网
...

【技术保护点】
1.一种用于从多个视图中确定最佳摄像机视图的方法,所述方法包括:由第一电子设备使用第一声源定位模块定位第一端点处的活跃讲话者;从第一声源定位模块导出二阶信息;由第二电子设备使用第二声源模块定位所述第一端点处的活跃讲话者;从所述声源定位模块导出二阶信息;使用所述第一设备的摄像机捕获活跃讲话者的第一脸部视图;使用所述第二设备的摄像机捕获活跃讲话者的第二脸部视图;基于所述二阶信息从第一脸部视图和第二脸部视图中确定最佳视图;以及在视频流中包括所述最佳视图以传输到第二端点。

【技术特征摘要】
2017.06.30 US 15/6403581.一种用于从多个视图中确定最佳摄像机视图的方法,所述方法包括:由第一电子设备使用第一声源定位模块定位第一端点处的活跃讲话者;从第一声源定位模块导出二阶信息;由第二电子设备使用第二声源模块定位所述第一端点处的活跃讲话者;从所述声源定位模块导出二阶信息;使用所述第一设备的摄像机捕获活跃讲话者的第一脸部视图;使用所述第二设备的摄像机捕获活跃讲话者的第二脸部视图;基于所述二阶信息从第一脸部视图和第二脸部视图中确定最佳视图;以及在视频流中包括所述最佳视图以传输到第二端点。2.根据权利要求1所述的方法,其中每个设备的所述二阶信息包括摇摄比(PR)、在预定时段内的计数数量(NC)以及高频带能量信号与低频带能量信号的比率(HBLD)。3.根据权利要求2所述的方法,其中所述预定时段是2毫秒。4.根据权利要求1所述的方法,其中基于所述二阶信息从所述第一脸部视图和所述第二脸部视图中确定所述最佳视图包括:确定所述第一设备的二阶信息分数(SOIC)和第二设备的SOIC,并选择与较大SOIC相对应的脸部视图。5.根据权利要求1所述的方法,还包括:检测与所述第一脸部视图相对应的低频信号能量(LFE)并检测与所述第二脸部视图相对应的LFE;确定对应于第一视图的LFE与对应于第二视图的LFE之间的差异是否超过预定阈值;以及在所述差异超过所述阈值的情况下,在二阶信息内包括每个设备的LFE。6.根据权利要求5所述的方法,其中确定是否预定阈值是:较大LFE是较小LFE的两倍大。7.一种用于从多个视图中确定最佳摄像机视图的视频会议系统,所述视频会议系统被配置为:由第一电子设备使用第一声源定位模块定位第一端点处的活跃讲话者;从第一声源定位模块导出二阶信息;由第二电子设备使用第二声源模块定位所述第一端点处的活跃讲话者;从所述声源定位模块导出二阶信息;使用所述第一设备的摄像机捕获活跃讲话者的第一脸部视图;使用所述第二设备的摄像机捕获活跃讲话者的第二脸部视图;基于所述二阶信息从第一脸部视图和第二脸部视图中确定最佳视图;以及在视频流中包括所述最佳视图以传输到第二端点。8.根据权利要求7所述的视频会议系统,其中每个设备的所述二阶信息包括摇摄比(PR)、在预定时段内的计数数量(NC)以及高频带能量信号与低频带能量信号的比率(HBLD)。9.根据权利要求8所述的视频会议系统,其中所述预定时段...

【专利技术属性】
技术研发人员:J冯P禇
申请(专利权)人:宝利通公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1