发言人识别方法、装置、电子设备、存储介质及系统制造方法及图纸

技术编号：26731277 阅读：28 留言：0更新日期：2020-12-15 14:33

本发明专利技术涉及视频会议技术领域，具体涉及发言人识别方法、装置、电子设备、存储介质及系统，所述方法包括获取会场内的声源定位信息以及定焦镜头采集的全景图像；基于全景图像中人脸的位置信息，确定会场内的各个人脸相对于定焦镜头的位置信息，得到第一位置信息；利用声源定位模块以及定焦镜头与变焦镜头的位置关系，将声源定位信息以及第一位置信息转换为声源以及所述会场内的各个人脸相对于变焦镜头的位置信息，分别得到第二位置信息以及第三位置信息；根据第二位置信息以及第三位置信息，确定发言人以及变焦镜头的转动信息，以使得变焦镜头采集发言人的图像。该方法能够实现利用定焦镜头与变焦镜头的配合能够既准确性又实时性地识别出发言人。

全部详细技术资料下载

【技术实现步骤摘要】
发言人识别方法、装置、电子设备、存储介质及系统
本专利技术涉及视频会议
，具体涉及发言人识别方法、装置、电子设备、存储介质及系统。
技术介绍
在视频会议中为了保证会议效果，通常需要标记出会场中的发言人，那么就需要在与会者中识别出发言人。现有技术中一般是利用定焦镜头采集会场内的所有与会者的全景图像，确定与会者在会场内的位置；利用声源定位模块确定会场内的声源；利用声源与与会者在会场内的位置进行匹配，确定发言人；最后在全景图像中标识出发言人的图像。然而，上述的发言人识别中，最后是在全景图像中标识出发言人的图像的，而对于与会者数量较多的会场中，即使在全景图像中标识出发言人的图像，与会者也不能准确地定位到发言人。基于此，专利技术人试图通过在会场内设置两个或两个以上的镜头，即定焦镜头与变焦镜头的组合，实现发言人的识别。但是，如何利用者两个镜头实现在高准确率和实时性的基础上识别出会场内的是亟待解决的问题。
技术实现思路
有鉴于此，本专利技术实施例提供了一种发言人识别方法、装置、电子设备、存储介质及系统，以...

【技术保护点】
1.一种发言人识别方法，其特征在于，包括：/n获取会场内的声源定位信息以及定焦镜头采集的全景图像；其中，所述声源定位信息为声源相对于声源定位模块的位置信息；/n基于所述全景图像中人脸的位置信息，确定所述会场内的各个人脸相对于所述定焦镜头的位置信息，得到第一位置信息；/n利用所述声源定位模块以及所述定焦镜头与变焦镜头的位置关系，将所述声源定位信息以及所述第一位置信息转换为所述声源以及所述会场内的各个人脸相对于所述变焦镜头的位置信息，分别得到第二位置信息以及第三位置信息；/n根据所述第二位置信息以及所述第三位置信息，确定发言人以及所述变焦镜头的转动信息，以使得所述变焦镜头采集所述发言人的图像。/n

【技术特征摘要】
1.一种发言人识别方法，其特征在于，包括：
获取会场内的声源定位信息以及定焦镜头采集的全景图像；其中，所述声源定位信息为声源相对于声源定位模块的位置信息；
基于所述全景图像中人脸的位置信息，确定所述会场内的各个人脸相对于所述定焦镜头的位置信息，得到第一位置信息；
利用所述声源定位模块以及所述定焦镜头与变焦镜头的位置关系，将所述声源定位信息以及所述第一位置信息转换为所述声源以及所述会场内的各个人脸相对于所述变焦镜头的位置信息，分别得到第二位置信息以及第三位置信息；
根据所述第二位置信息以及所述第三位置信息，确定发言人以及所述变焦镜头的转动信息，以使得所述变焦镜头采集所述发言人的图像。

2.根据权利要求1所述的方法，其特征在于，所述基于所述全景图像中人脸图像的位置信息，确定所述会场内的各个人脸相对于所述定焦镜头的位置信息，得到第一位置信息，包括：
利用所述全景图像中人脸的位置信息，确定所述全景图像中的各个人脸中心点与所述全景图像中心点的位置关系；
获取所述定焦镜头的视场角以及所述全景图像的参数；
基于所述定焦镜头的视场角、所述全景图像的参数以及各个人脸中心点与所述全景图像中心点的位置关系，确定所述第一位置信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述定焦镜头的视场角、所述全景图像的参数以及各个人脸中心点与所述全景图像中心点的位置关系，确定所述第一位置信息，包括：
利用所述定焦镜头的视场角、所述全景图像的参数以及各个人脸中心点与所述全景图像中心点的位置关系，确定所述会场内的各个人脸相对于所述定焦镜头的角度信息；
利用所述全景图像的参数以及所述定焦镜头的视场角，计算所述定焦镜头的焦距；
获取预设人脸高度；
利用所述预设人脸高度、所述定焦镜头的焦距以及所述全景图像的参数，计算所述会场内的各个人脸到所述定焦镜头的距离；
基于所述会场内的各个人脸到所述定焦镜头的距离以及会场内的各个人脸相对于所述定焦镜头的角度信息，确定所述会场内的各个人脸相对于所述定焦镜头的坐标信息。

4.根据权利要求1所述的方法，其特征在于，所述将所述声源定位信息以及所述第一位置信息转换为所述声源以及所述会场内的各个人脸相对于所述变焦镜头的位置信息，分别得到第二位置信息以及第三位置信息，包括：
利用所述声源定位模块与所述变焦镜头的位置关系，将所述声源定位信息转换为所述声源相对于所述变焦镜头的角度信息，得到所述第二位置信息；
利用所述定焦镜头与所述变焦镜头的位置关系，将所述第一位置信息转换为所述会场内的人脸相对于所述变焦镜头的坐标信息；
基于所述会场内的人脸相对于所述变焦镜头的坐标信息，确定所述会场内的各个人脸相对所述变焦镜头的角度信息，得到所述第三位置信息。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述声源以及所述会场内的各个人脸相对于所述变焦镜头的位置信息包括所述声源以及所述会场内的各个人脸相对于所述变焦镜头的角度信息；其中，所述根据所述第二位置信息以及所述第三位置信息，确定发言...

【专利技术属性】
技术研发人员：张国锋，邓魁元，韦国华，胡小鹏，
申请(专利权)人：苏州科达科技股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人