多相机场景会议室中发言者重新识别的系统和方法技术方案

技术编号:38205631 阅读:9 留言:0更新日期:2023-07-21 16:52
本申请公开了多相机场景会议室中发言者重新识别的系统和方法。在多相机视频会议配置中,每个相机的位置是已知的。通过参考对每个相机可见的已知对象,开发3D坐标系,其中每个相机的方位和角度与该3D坐标系相关联。针对每个相机确定会议参与者在3D坐标系中的位置。来自一个相机(通常是中央相机)的声音源定位(SSL)用于确定发言者。然后确定发言者的姿势。根据姿势和相机的已知位置,确定具有发言者的最佳正面视图的相机。然后使用发言者的3D坐标来引导所确定的相机框选发言者。如果发言者的面部不够可见,则确定下一个最佳相机视图,并且从该相机视图框选发言者。且从该相机视图框选发言者。且从该相机视图框选发言者。

【技术实现步骤摘要】
多相机场景会议室中发言者重新识别的系统和方法


[0001]本公开总体涉及一种视频会议中的相机选择。

技术介绍

[0002]用于视频会议的会议室的最常见的配置具有与位于室的一端的监视器或电视相邻的单个相机。这种配置的一个缺点是,如果发言者在讲话时正在看会议室中的其他人,则发言者不面向相机。这意味着远端只能看到发言者的侧视图,因此发言者似乎没有在对远端发言。
[0003]已经努力通过在会议室中提供多个相机来解决这个问题。这个想法是让相机指向不同的方向,并且然后选择提供发言者的最佳视图的相机,优选地缩放和框选发言者。这些努力改善了发言者的视图,但仅限于单个个人场景,这通常不是问题,因为发言者通常将看向监视器,并且因此看向单个相机。如果多个人存在于会议室中并且在各个相机视图中可见,那么这些努力没有提供好的结果。
附图说明
[0004]为了图示,在附图中示出了本公开中描述的某些示例。在附图中,相同的数字自始至终指示相同的元件。本文公开的本专利技术的全部范围不限于所示的精确布置、尺寸和器械。在附图中:
[0005]图1是包含三个相机、监视器和桌子和椅子的会议室的图示。
[0006]图2、图3是图1的会议室的图示,具有不同的个人,其中一个人发言。
[0007]图4是根据本公开的示例的编码解码器和相机之间的操作划分的图示。
[0008]图5A是根据本公开的示例的相关坐标系的图示。
[0009]图5B是相机到图5A的坐标系的投影的图示。
[0010]图6是根据本公开的示例的视频会议系统的安装的流程图。
[0011]图7是根据本公开示例的图4的最佳相机选择步骤的操作的流程图。
[0012]图8是根据本公开的示例的图6的正面视图相机选择和框选确定步骤的操作的流程图。
[0013]图9是根据本公开的示例的在姿势确定和姿势匹配步骤中使用的关键点的图示。
[0014]图10是根据本公开的示例的编码解码器的框图。
[0015]图11是根据本公开的示例的相机的框图。
[0016]图12是图9和图10的处理器单元的框图。
[0017]图13是根据本公开的示例的相机的前视图的图示。
具体实施方式
[0018]在多相机视频会议配置中,每个相机的位置是已知的。通过参考对每个相机可见的已知对象,开发3D坐标系,其中每个相机的方位和角度与该3D坐标系相关联。针对每个相
机确定会议参与者在3D坐标系中的位置。来自一个相机(通常是中央相机)的声音源定位(SSL)用于确定发言者。然后确定发言者的姿势。根据姿势和相机的已知位置,确定具有发言者的最佳正面视图的相机。然后使用发言者的3D坐标来引导所确定的相机框选发言者。如果发言者的面部不够可见,则确定下一个最佳相机视图,并且从该相机视图框选发言者。
[0019]在本文的附图和附图的描述中,某些术语仅是为了方便而使用的,不应被视为限制本公开的示例。在附图和下面的描述中,相同的数字自始至终指示相同的元件。
[0020]在整个本公开中,以与本领域技术人员使用的方式一致的方式使用术语,例如:
[0021]计算机视觉是跨学科的科学领域,其涉及如何可以使计算机从数字图像或视频中获得高水平的理解。计算机视觉旨在使模仿人类视觉系统的任务自动化。计算机视觉任务包括用于获取、处理、分析和理解数字图像的方法,以及从现实世界中提取高维数据以产生数字或符号信息。计算机视觉涉及从图像中提取信息的人工系统。计算机视觉包括接收视频帧作为输入并产生详细描述系统已被训练以检测的视觉特征的数据的算法。
[0022]卷积神经网络是可以应用于分析视觉图像的一类深度神经网络。深度神经网络是在输入层和输出层之间具有多层的人工神经网络。
[0023]人工神经网络是受构成动物大脑的生物神经网络启发的计算系统。人工神经网络作为在一个或多个处理器上执行的代码而存在。人工神经网络基于称为人工神经元的连接单元或节点的集合,它们模仿生物大脑中的神经元。每个连接(就像生物大脑中的突触一样)可以将“信号”传输到其他神经元。接收信号的人工神经元然后对其进行处理并且可以向与其连接的神经元发出信号。连接处的信号是实数,并且每个神经元的输出由其输入之和的某个非线性函数计算出。这些连接称为边缘。神经元和边缘具有权重,其值随着“学习”的进行和/或状态系统接收到新数据而调整。权重增加或减少连接处的信号的强度。神经元可以具有阈值,使得只有在聚合信号跨过该阈值的情况下才发送信号。
[0024]现在参考图1,图示了被配置用于视频会议的会议室C。会议室C包括会议桌子10和一系列椅子12。在会议室C中提供一系列三个相机1016A、1016B和1016C以观察坐在各个椅子12上的个人。提供监视器或电视1020以显示一个或多个远端会地点,并且通常提供扬声器输出。每个相机1016A、1016B、1016C具有视场(FoV)和轴线或中心线(CL)。在图1的布局中,相机1016A、1016B、1016C被定为成使得相机1016B的CL以会议桌子10的长度为中心,并且相机1016A和1016C与会议桌子10成角度,使得相机1016B是中央相机。这允许相机1016A和1016C在个人看向会议室C中的其他个人时有更好的机会看到坐在会议桌子10的侧面上的个人的面部,而相机1016B在个人看向监视器1020时有更好的机会看到面部。至少中央相机1016B包括用于进行声音源定位(SSL)的麦克风阵列1114。
[0025]在图2中,个人2是发言者,并且个人1、3和4面向个人2。相机1016B将具有个人2的面部的最佳视图,因为相机1016A的视图被个人3阻挡。在图3中,个人4正在发言,但所有个人1、2、3、4都面向监视器1020。如果个人4正在与来自远端的发言者进行对话,则所有个人1、2、3、4可以面向监视器1020,但个人4正在发言。相机1016C将具有个人4的面部的最佳视图,因此向远端提供个人4的面部的框选版本,而不是在没有个人发言时的整个室的视图。
[0026]在图2和图3中注意到,相机1016A、1016B、1016C中的每一个都可以看到所有四个人。这意味着相机1016A、1016B、1016C中的每一个都具有看到发言的个人的面部的可能性。为了确定正在发言的特定个人,中央相机1016B上存在的麦克风阵列1114与声音源定位算
法一起使用以确定正在发言的特定个人。该个人的3D坐标被确定并且该个人在中央相机1016B的视场中的角度被确定。使用该角度,相机1016C被确定为具有最佳正面视图,并且3D坐标用于在相机1016C的视图中框选个人4。这允许定位以及框选正确的发言者,如果可用且令人满意,则提供个人的面部的缩放版本。
[0027]在优选示例中,音频和视频的处理以及期望相机的选择在中央相机1016B和编码解码器1000之间分开。参考图4,中央相机1016B在步骤402中基于在麦克风阵列1114处接收到的声音执行声音源定位(SSL)并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于选择多个相机中的一个相机以提供用于提供给远端的视频流的方法,所述多个相机各自具有环境中的一组参与者的不同视图并提供视频流,所述多个相机中的一个相机具有麦克风阵列,所述方法包括:针对所述多个相机中的每个相机确定每个参与者的世界坐标;使用所述一个相机上的所述麦克风阵列利用声音源定位来确定发言者方向信息;使用所述发言者方向信息和来自所述一个相机的所述视频流的图像来识别所述一组参与者中的发言者;基于所述识别来确定所述发言者的世界坐标;确定来自所述一个相机的所述视频流的图像中的所述发言者的面部姿势;基于所述多个相机中的除所述一个相机之外的位置和所述发言者的所述面部姿势,从所述多个相机中选择一个相机以提供用于提供给所述远端的视频流;以及利用所确定的发言者世界坐标在所选择的相机的所述视频流中框选所述发言者。2.根据权利要求1所述的方法,还包括:确定所述多个相机中的每个相机的坐标系到所述世界坐标系的旋转和平移。3.根据权利要求1所述的方法,还包括:当不存在发言者并且存在参与者时,选择所述多个相机中的提供参与者的最正面视图的相机;以及当不存在参与者时,选择默认相机。4.根据权利要求1所述的方法,其中,确定每个参与者的所述世界坐标包括:将每个参与者的所确定的世界坐标存储在从所述相机的视角的相机和个人的表中,并且其中,利用所确定的发言者世界坐标来框选所述发言者包括:使用所确定的发言者世界坐标从所述表中针对所选择的相机寻找适当的个人。5.根据权利要求1所述的方法,还包括:确定从所选择的相机提供的所述发言者的所述正面视图是否令人满意;以及当从所选择的相机提供的所述发言者的所述正面视图令人满意时,从所选择的相机提供所述发言者的框选的视图。6.根据权利要求5所述的方法,还包括:当从所选择的相机提供的所述发言者的所述正面视图不令人满意时,利用所确定的发言者世界坐标来评估来自所述多个相机中的除所选择的相机之外的每个相机的所述发言者的所述面部视图;以及当从所选择的相机提供的所述发言者的所述正面视图不令人满意时,从所述多个相机中的具有所述发言者的最佳正面视图的相机提供所述发言者的框选的视图。7.根据权利要求1所述的方法,其中,所述一个相机是所述多个相机中的中央相机。8.一种用于选择多个相机中的一个相机以提供用于提供给远端的视频流的系...

【专利技术属性】
技术研发人员:晏勇张葵D
申请(专利权)人:缤特力股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1