A system for ensuring that the best available view of a person's face is included in the video stream when the first endpoint is captured from multiple cameras at multiple angles. The system uses one or more microphone arrays to capture the direct reverberation ratio information corresponding to the view, and determines which view matches the view of the person directly looking at the camera, thereby improving the viewer's experience at the second endpoint.
【技术实现步骤摘要】
视频会议中的最佳视图选择方法相关申请的交叉引用本申请涉及2017年6月30日提交的并且题为“视频会议中的无干扰音频拾取”的美国申请No.15/640,385,该申请的内容全部并入本文。
本公开一般地涉及视频会议,并且更具体地涉及用于从多个视图中选择感兴趣区域的最佳视图的方法和装备。
技术介绍
用于视频会议系统的摄像机通常具有机械摇摄(pan)、倾斜和变焦控制。理想情况下,应该不断调整这些控制,以基于房间内的人坐在哪里以及谁在讲话来实现对房间内的人的最佳视频取景(framing)。不幸的是,由于执行这些调整困难,所以摄像机可能经常被设置成整个房间的固定的广角视图,并且可能不会被调整。如果是这种情况,则远端参与者可能会失去来自摄像机所捕获的视频的大部分价值,因为在远端处显示的近端参与者的尺寸可能过小。在一些情况下,远端参与者不能看到近端参与者的脸部表情,并且可能难以识别出发言者。这些问题给视频会议别扭的感觉,并使参与者难以召开富有成效的会晤。为了应对糟糕的取景,参与者可能不得不介入并执行一系列手动操作来对摄像机进行摇摄、倾斜和变焦以捕获更好的视图。正如预料的那样,即使在使用遥控器时,手动指引摄像机也可能很麻烦。有时,参与者懒得调整摄像机的视图,并且简单地使用默认宽视图。当然,当参与者手动进行对摄像机的视图取景时,这个过程在参与者在视频会议期间改变方位或在后续视频会议中使用不同的座位安排的情况下不得不重复。手动介入的一个备选是使用话音跟踪技术。具有麦克风阵列的话音跟踪摄像机可以帮助在视频会议期间使摄像机指向正在发言的参与者。尽管话音跟踪摄像机通常非常准确,但是它 ...
【技术保护点】
1.一种用于从多个视图中确定最佳摄像机视图的方法,所述方法包括:由第一电子设备使用第一声源定位模块定位第一端点处的活跃讲话者;从第一声源定位模块导出二阶信息;由第二电子设备使用第二声源模块定位所述第一端点处的活跃讲话者;从所述声源定位模块导出二阶信息;使用所述第一设备的摄像机捕获活跃讲话者的第一脸部视图;使用所述第二设备的摄像机捕获活跃讲话者的第二脸部视图;基于所述二阶信息从第一脸部视图和第二脸部视图中确定最佳视图;以及在视频流中包括所述最佳视图以传输到第二端点。
【技术特征摘要】
2017.06.30 US 15/6403581.一种用于从多个视图中确定最佳摄像机视图的方法,所述方法包括:由第一电子设备使用第一声源定位模块定位第一端点处的活跃讲话者;从第一声源定位模块导出二阶信息;由第二电子设备使用第二声源模块定位所述第一端点处的活跃讲话者;从所述声源定位模块导出二阶信息;使用所述第一设备的摄像机捕获活跃讲话者的第一脸部视图;使用所述第二设备的摄像机捕获活跃讲话者的第二脸部视图;基于所述二阶信息从第一脸部视图和第二脸部视图中确定最佳视图;以及在视频流中包括所述最佳视图以传输到第二端点。2.根据权利要求1所述的方法,其中每个设备的所述二阶信息包括摇摄比(PR)、在预定时段内的计数数量(NC)以及高频带能量信号与低频带能量信号的比率(HBLD)。3.根据权利要求2所述的方法,其中所述预定时段是2毫秒。4.根据权利要求1所述的方法,其中基于所述二阶信息从所述第一脸部视图和所述第二脸部视图中确定所述最佳视图包括:确定所述第一设备的二阶信息分数(SOIC)和第二设备的SOIC,并选择与较大SOIC相对应的脸部视图。5.根据权利要求1所述的方法,还包括:检测与所述第一脸部视图相对应的低频信号能量(LFE)并检测与所述第二脸部视图相对应的LFE;确定对应于第一视图的LFE与对应于第二视图的LFE之间的差异是否超过预定阈值;以及在所述差异超过所述阈值的情况下,在二阶信息内包括每个设备的LFE。6.根据权利要求5所述的方法,其中确定是否预定阈值是:较大LFE是较小LFE的两倍大。7.一种用于从多个视图中确定最佳摄像机视图的视频会议系统,所述视频会议系统被配置为:由第一电子设备使用第一声源定位模块定位第一端点处的活跃讲话者;从第一声源定位模块导出二阶信息;由第二电子设备使用第二声源模块定位所述第一端点处的活跃讲话者;从所述声源定位模块导出二阶信息;使用所述第一设备的摄像机捕获活跃讲话者的第一脸部视图;使用所述第二设备的摄像机捕获活跃讲话者的第二脸部视图;基于所述二阶信息从第一脸部视图和第二脸部视图中确定最佳视图;以及在视频流中包括所述最佳视图以传输到第二端点。8.根据权利要求7所述的视频会议系统,其中每个设备的所述二阶信息包括摇摄比(PR)、在预定时段内的计数数量(NC)以及高频带能量信号与低频带能量信号的比率(HBLD)。9.根据权利要求8所述的视频会议系统,其中所述预定时段...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。