一种基于声源定位的发言人画面生成方法技术

技术编号：40632229 阅读：4 留言：0更新日期：2024-03-13 21:17

本发明专利技术公开了一种基于声源定位的发言人画面生成方法，所述方法包括：获取用于显示各个会议人员的最佳视角画面，以及获取各个会议人员的头部区域尺寸信息以及头部区域定位信息，接着通过获取声源定位信息，确定发言人的目标头部区域尺寸信息以及目标头部区域定位信息，继而在所述最佳视角画面的基础上建立区域视角画框，使得发言人的头部区域处于所述区域视角画框中的第一预设区域，最后再根据所述区域视角画框，生成用于显示发言人发言画面的区域视角画面。通过实施本发明专利技术，能够生成一个能够合理显示发言人发言画面的区域视角画面，提高了发言人画面生成的准确性和合理性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频会议和远程通信领域，尤其涉及一种基于声源定位的发言人画面生成方法。

技术介绍

1、鉴于当前视频会议运用的广泛性，本领域技术人员为了提高会议的效率和参与度，将声源定位技术引入视频会议中，该技术可以通过自动识别说话者位置并自动调整摄像头画面，以便尽可能准确地显示说话者的画面。然而，现有的发言人画面裁剪和生成技术仅通过，仍存在如画面裁剪不当和说话者位置错误等问题，给参会人员带来不好体验。

技术实现思路

1、本专利技术提供了一种基于声源定位的发言人画面生成方法，能够提高发言人画面生成的准确性和合理性。

2、本专利技术提供了一种基于声源定位的发言人画面生成方法，包括：获取用于居中显示各个会议人员的最佳视角画面，以及获取各个会议人员的头部区域尺寸信息以及头部区域定位信息；

3、获取声源定位信息，根据所述声源定位信息以及各所述会议人员的头部区域定位信息，确定发言人的目标头部区域尺寸信息以及目标头部区域定位信息；

4、根据所述目标头部区域尺寸信息、目标头部区域定位信息以及各会议人员的头部区域定位信息，在所述最佳视角画面的基础上建立区域视角画框，以使所述发言人的头部区域处于所述区域视角画框中的第一预设区域；

5、根据所述区域视角画框，生成用于显示发言人发言画面的区域视角画面。

6、进一步地，所述获取用于居中显示各个会议人员的最佳视角画面，以及获取各个会议人员的头部区域尺寸信息以及头部区域定位信息，包括：

7、获

8、基于所述初始视角画面，获取各所述会议人员的人脸识别信息；

9、根据所述人脸识别信息，确定各所述会议人员的头部区域尺寸信息以及头部区域定位信息；

10、根据各所述会议人员的头部区域尺寸信息以及头部区域定位信息，对所述初始视角画面进行调整，生成用于居中显示各个会议人员的最佳视角画面。

11、进一步地，在生成用于显示发言人发言画面的区域视角画面后，还包括：

12、判断是否在第一预设时间内获取声源定位信息；

13、若在所述第一预设时间内未获取声源定位信息，则在第二预设时间内将所述区域视角画面调节至所述最佳视角画面；

14、若在所述第一预设时间内获取声源定位信息，则判断所述声源定位信息是否发生改变，当所述声源定位信息未发生改变时，维持所述区域视角画面；当所述声源定位信息发生改变时，在所述最佳视角画面的基础上调节所述区域视角画框，以生成用于显示另一个角度上发言人发言画面的区域视角画面。

15、进一步地，所述根据所述声源定位信息以及各所述会议人员的头部区域定位信息，确定发言人的目标头部区域尺寸信息以及目标头部区域定位信息，包括：

16、根据所述声源定位信息，确定发言人的角度方位区间；

17、将所述发言人的角度方位区间与各所述会议人员的头部区域定位信息进行比对，确定发言人的面部坐标信息。

18、进一步地，在获取声源定位信息之后，还包括：

19、根据所述声源定位信息，确定发言人数量；

20、当所述发言人数量大于等于3，或者发言人数量为0时，不执行后续步骤。

21、进一步地，所述根据所述目标头部区域尺寸信息、目标头部区域定位信息以及各会议人员的头部区域定位信息，在所述最佳视角画面的基础上建立区域视角画框，包括：

22、根据所述目标头部区域尺寸信息，确定区域视角画框的尺寸信息；

23、根据所述目标头部区域定位信息，确定区域视角画框的位置信息；

24、根据所述区域视角画框的尺寸信息以及位置信息，在所述最佳视角画面的基础上初始区域视角画框；

25、根据各所述会议人员的头部区域定位信息，确定所述初始区域视角画框中各会议人员的头部区域定位信息是否完整，若完整则直接生成区域视角画框；若不完整则调节所述初始区域视角画框的尺寸信息和/或位置信息，以使所述初始区域视角画框中的各会议人员的头部区域定位信息完整，并生成区域视角画框。

26、进一步地，在生成用于显示发言人发言画面的区域视角画面后，还包括：

27、采用pip的方式展示所述区域视角画面与所述最佳视角画面。

28、进一步地，所述区域视角画面与所述最佳视角画面的分辨率包括：3840*2160、2560*1440、1920*1080、1280*720和640*360。

29、本专利技术的实施例，具有如下有益效果：

30、本专利技术提供了一种基于声源定位的发言人画面生成方法；所述方法，在获取用于居中显示各个会议人员的最佳视角画面，以及获取各个会议人员的头部区域尺寸信息以及头部区域定位信息后，就能够通过获取声源定位信息，确定发言人的目标头部区域尺寸信息以及目标头部区域定位信息，继而就能够确定发言人在所述最佳视角画面中所处的区域，并建立一个能够合理容纳发言人头部区域的区域视角画框，并且在建立区域视角画框时还能够根据各会议人员的头部区域定位信息，确保在所述区域视角画框的边缘不会“半张脸”的情况，最后再根据区域视角画框，就能够生成一个能够合理显示发言人发言画面的区域视角画面，提高了发言人画面生成的准确性和合理性。

本文档来自技高网...

【技术保护点】

1.一种基于声源定位的发言人画面生成方法，其特征在于，包括：

2.如权利要求1所述的基于声源定位的发言人画面生成方法，其特征在于，所述获取用于居中显示各个会议人员的最佳视角画面，以及获取各个会议人员的头部区域尺寸信息以及头部区域定位信息，包括：

3.如权利要求1所述的基于声源定位的发言人画面生成方法，其特征在于，在生成用于显示发言人发言画面的区域视角画面后，还包括：

4.如权利要求1所述的基于声源定位的发言人画面生成方法，其特征在于，所述根据所述声源定位信息以及各所述会议人员的头部区域定位信息，确定发言人的目标头部区域尺寸信息以及目标头部区域定位信息，包括：

5.如权利要求1所述的基于声源定位的发言人画面生成方法，其特征在于，在获取声源定位信息之后，还包括：

6.如权利要求1所述的基于声源定位的发言人画面生成方法，其特征在于，所述根据所述目标头部区域尺寸信息、目标头部区域定位信息以及各会议人员的头部区域定位信息，在所述最佳视角画面的基础上建立区域视角画框，包括：

7.如权利要求1所述的基于声源定位的发言人画面

8.如权利要求1所述的基于声源定位的发言人画面生成方法，其特征在于，所述区域视角画面与所述最佳视角画面的分辨率包括：3840*2160、2560*1440、1920*1080、1280*720和640*360。

...

【技术特征摘要】

1.一种基于声源定位的发言人画面生成方法，其特征在于，包括：

3.如权利要求1所述的基于声源定位的发言人画面生成方法，其特征在于，在生成用于显示发言人发言画面的区域视角画面后，还包括：

5.如权利要求1所述的基于声源定位...

【专利技术属性】
技术研发人员：任威，徐金伟，胡欢欢，
申请(专利权)人：长沙朗源电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人