视频会议终端制造技术

技术编号：40217458 阅读：5 留言：0更新日期：2024-02-02 22:24

一种操作视频会议终端的计算机实现的方法。所述视频会议终端包括摄像机，其捕获显示视野的图像。所述方法包括：接收由所述视野内的空间边界定义的数据，所述空间边界至少部分地由距所述摄像机的距离定义；捕获所述视野的图像；识别所述摄像机的所述视野内的一个或多个人；估计所述摄像机的所述视野内的该人或每个人的位置；以及生成一个或多个视频信号，所述视频信号包括与被确定为在所述空间边界内的一个或多个人对应的一个或多个裁剪区域，以传输至接收器。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术涉及计算机实现的方法和视频会议终端。

技术介绍

1、近年来，视频会议和视频通话大受欢迎，使不同地点的用户无需前往同一地点，就可以进行面对面的讨论。商务会议、与学生的远程课程以及朋友和家人之间的非正式视频通话是视频会议技术的常见用途。视频会议可以使用智能手机或平板电脑、台式电脑或专用视频会议设备(有时称为终端)进行。

2、视频会议系统可通过数字网络在位于不同地点的两名或多名与会者之间传输视频和音频。位于每个不同地点的摄像机或网络摄像机可提供视频输入，并且位于不同地点的麦克风可提供音频输入。位于每个不同位置的屏幕、显示器、监视器、电视或投影仪可提供视频输出，并且位于每个不同地点的扬声器可提供音频输出。基于硬件或软件的编码器-解码器技术将模拟视频和音频数据压缩成数字数据包，以在数字网络上传输，并将数据解压缩以在不同地点输出。

3、一些视频会议系统包含自动框选算法，可查找并框选会议室中的人员，例如将他们从现有视频流中分离出来，然后裁剪出一个包含所有人员的区域，或将他们作为单独的视频流呈现出来。在某些情况下，例如具有玻璃墙或门的房间，或者开放空间，可能会检测到通话之外(即未参与通话)的不需要的人，并被视为用于框选。因此，希望能提高视频通话时人员检测和框选的可靠性。

技术实现思路

1、因此，在第一方面中，本专利技术的实施例提供操作视频会议终端的计算机实现的方法，所述视频会议终端包括摄像机，所述摄像机捕获显示视野的图像，其中所述方法包括：

2、接收由

3、捕获所述视野的图像；

4、识别所述摄像机的所述视野内的一个或多个人；

5、估计所述摄像机的所述视野内的该人或每个人的位置；以及

6、生成一个或多个视频信号，所述视频信号包括与被确定为在所述空间边界内的一个或多个人对应的一个或多个裁剪区域，以传输至接收器。

7、通过定义空间边界，并且仅框选那些被确定在边界内的人，增强了人们在视频通话时被框定的可靠性。

8、下面将列出本专利技术的可选特征。它们可单独应用或与本专利技术的任何方面任意组合应用。

9、生成一个或多个视频信号可以包括：根据一个或多个估计位置确定所述一个或多个人中的至少一个在所述空间边界内；以及将被确定为在所述空间边界内的所述一个或多个人框选以产生相应的裁剪区域。生成所述一个或多个视频信号可以包括：对摄像机视野内的一个或多个人员进行框选，以生成一个或多个裁剪区域；根据一个或多个估计位置确定一个或多个人中哪些人在空间边界内；以及仅基于与空间边界内的一个或多个人相对应的裁剪区域生成一个或多个视频信号。

10、该方法可进一步地包括将一个或多个视频信号传输到接收器。接收器可以是经由计算机网络连接到第一视频会议终端的第二视频会议终端。

11、在适当的情况下，该方法的步骤可以以任何顺序进行。例如，接收定义空间边界的数据可以在捕获视野图像后进行。

12、通过框选，它可能意味着提取捕获图像的区域，该捕获图像包含被确定为在空间边界内的人，例如裁剪区域。这个框或裁剪区域比最初的捕获图像要小，被框选的人可能位于提取区域的中心位置。在某些例子中，裁剪区域中的一个或多个可只包含一个人。在某些例子中，裁剪区域中的一个或多个可包括多个人，每个人都被确定为在空间边界内。在一个例子中，提取的单个裁剪区域包含空间边界内确定的所有人。

13、该方法可进一步包括验证模式：在所述摄像机的所述视野内的所述图像中，根据每个人是在所述空间边界之内还是之外，标记每个人；以及向用户呈现标记过的图像以用于验证。然后，该用户可以更改定义空间边界的数据，以确保所有要被框选的人都在该空间边界内。

14、估计该人或每个人的所述位置可以是通过测量相应的人的一对或多对面部特征之间的距离来执行的。例如，可以通过获得人们的一对或多对面部特征点之间的平均距离，在捕获图像上检测这些特征点，在图像上计算它们之间的距离，基于摄像机图像形成的几何形状和摄像机参数估计人相对于摄像机的位置，以及从根据每对面部特征点的特征计算的多个距离中估计距离来执行这种估计。

15、估计距离可包括估计所述人的面部相对于所述摄像机的方位，以及基于估计的所述方位选择用于估计所述位置的多对所述面部特征点。

16、估计该人或每个人的所述位置可包括使用所述视频会议终端内的一个或多个加速度计来估计所述摄像机的方位。

17、估计该人或每个人的所述位置可包括使用所述视频会议终端内的一个或多个距离传感器。

18、空间边界至少部分地被定义为距摄像机的定位的距离。距离可以是径向距离，这实际上在地板上创建了圆形边界。在另一个例子中，空间边界特指距离摄像机侧面的距离和前方的距离，以在地板上创建矩形边界。空间边界还可以至少部分地由捕获图像的角度范围来定义。

19、该方法可包括用户输入步骤，在该步骤中，用户提供定义所述空间边界的数据。用户可通过用户界面提供数据，例如，通过用户界面定义距离摄像机侧面或前方的距离。用户可以通过使所述视频会议终端进入数据输入模式来提供所述数据，其中所述视频会议终端跟踪所述用户的定位，并且所述用户提示所述视频会议终端使用所述用户的一个或多个定位来定义所述空间边界。

20、该方法可以在视频流上执行，从而跟踪摄像机视野内的此人或每个人的位置，并且针对视野的多个图像重复生成一个或多个视频信号的步骤。

21、在第二方面中，本专利技术的实施例提供一种视频会议端点，包括被配置为捕获显示视野的图像的摄像机和处理器，其中所述处理器被配置为：

22、接收由所述视野内的空间边界定义的数据，所述空间边界至少部分地由距所述摄像机的距离定义；

23、从所述摄像机获取所述视野的图像；

24、识别所述摄像机的所述视野内的一个或多个人；

25、估计所述摄像机的所述视野内的该人或每个人的位置；以及

26、生成一个或多个视频信号，所述视频信号包括与被确定为在所述空间边界内的一个或多个人对应的一个或多个裁剪区域，以传输至接收器。

27、第二方面的视频会议终端可被配置为执行第一方面所列的方法的特征中的任意一个或任意组合，只要它们是兼容的。

28、在第三方面中，本专利技术的实施例提供计算机实现的估计从人到摄像机的距离的方法，所述方法包括：

29、(a)通过所述摄像机获得该人的图像；

30、(b)识别存在于所述图像中的该人的面部区域；

31、(c)测量该人的多对面部特征点中的每一对之间的距离；

32、(d)使用所测量的距离中的每一个来估计该人距所述摄像机的距离；

33、(e)识别步骤(d)中最大的和/或最小的估计距离；以及

34、(f)基于所识别的最大的和/或最小的所述距离来估计该人相对本文档来自技高网...

【技术保护点】

1.一种操作视频会议终端的计算机实现的方法，所述视频会议终端包括摄像机，所述摄像机捕获显示视野的图像，其特征在于，所述方法包括：

2.如权利要求1所述的计算机实现的方法，其特征在于，生成所述一个或多个视频信号包括：

3.如任一前述权利要求所述的计算机实现的方法，其特征在于，包括将所述视频信号或每个视频信号传输至所述接收器的步骤。

4.如任一前述权利要求所述的计算机实现的方法，其特征在于，还包括以下验证模式：

5.如任一前述权利要求所述的计算机实现的方法，其特征在于，估计该人或每个人的位置是通过测量相应的人的一对或多对面部特征点之间的距离来执行的。

6.如权利要求5所述的计算机实现的方法，其特征在于，测量多对所述面部特征点之间的多个距离，每个距离用于估计该人距所述摄像机的距离，并且使用估计距离中的最大的和/或最小的估计距离来估计该人或每个人的所述位置。

7.如权利要求5或6所述的计算机实现的方法，其特征在于，估计距离包括估计所述人的面部相对于所述摄像机的方位，以及基于估计的所述方位选择用于估计所述位置的多对所述面部特征点。

8.如任一前述权利要求所述的计算机实现的方法，其特征在于，估计此人或每个人的所述位置包括使用所述视频会议终端内的一个或多个加速度计来估计所述摄像机的方位。

9.如任一前述权利要求所述的计算机实现的方法，其特征在于，估计该人或每个人的所述位置包括使用所述视频会议终端内的一个或多个距离传感器。

10.如任一前述权利要求所述的计算机实现的方法，其特征在于，所述空间边界至少部分地由所捕获图像的角度范围进一步限定。

11.如任一前述权利要求所述的计算机实现的方法，其特征在于，所述方法包括用户输入步骤，在该步骤中，用户提供定义所述空间边界的所述数据。

12.如权利要求11所述的计算机实现的方法，其特征在于，所述用户经由用户界面提供所述数据。

13.如权利要求11所述的计算机实现的方法，其特征在于，所述用户通过使所述视频会议终端进入数据输入模式来提供所述数据，其中所述视频会议终端跟踪所述用户的定位，并且所述用户提示所述视频会议终端使用所述用户的一个或多个定位以定义所述空间边界。

14.一种视频会议终端，其包括被配置为捕获显示视野的图像的摄像机和处理器，其特征在于，所述处理器被配置为：

15.如权利要求15所述的视频会议终端，其特征在于，生成所述一个或多个视频信号包括：

16.如权利要求15或16所述的视频会议终端，其特征在于，所述视频会议终端经由网络连接到接收器，并且所述处理器被配置为向所述接收器发送所述一个或多个视频信号。

17.如权利要求15-17中任意一项所述的视频会议终端，其特征在于，所述处理器被配置为执行以下验证模式：

18.如权利要求15-18中任意一项所述的计算机实现的方法，其特征在于，所述处理器被配置为通过测量相应的人的一对或多对面部特征点之间的距离来估计该人或每个人的位置。

19.如权利要求19所述的视频会议终端，其特征在于，所述处理器被配置为测量多对面部特征点的特征之间的多个距离，使用所测量的每个距离估计该人距所述摄像机的距离，并且使用估计距离中的最大的和/或最小的估计距离来估计该人或每个人的位置。

20.一种估计从人到摄像机的距离的计算机实现的方法，所述方法包括：

...

【技术特征摘要】
【国外来华专利技术】

1.一种操作视频会议终端的计算机实现的方法，所述视频会议终端包括摄像机，所述摄像机捕获显示视野的图像，其特征在于，所述方法包括：

2.如权利要求1所述的计算机实现的方法，其特征在于，生成所述一个或多个视频信号包括：

3.如任一前述权利要求所述的计算机实现的方法，其特征在于，包括将所述视频信号或每个视频信号传输至所述接收器的步骤。

4.如任一前述权利要求所述的计算机实现的方法，其特征在于，还包括以下验证模式：

9.如任一前述权利要求所述的计算机实现的方法，其特征在于，估计该人或每个人的所述位置包括使用所述视频会议终端内的一个或多个距离传感器。

10.如任一前述权利要求所述的计算机实现的方法，其特征在于，所述空间边界至少部分地由所捕获图像的角度范围进一步限定。

11.如任一前述权...

【专利技术属性】
技术研发人员：D·达奥，H·斯克兰斯塔德，
申请(专利权)人：简洁框架有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人